WO2022185474A1 - 学習装置、学習方法、検査装置、検査方法、及び、記録媒体 - Google Patents

学習装置、学習方法、検査装置、検査方法、及び、記録媒体 Download PDF

Info

Publication number
WO2022185474A1
WO2022185474A1 PCT/JP2021/008389 JP2021008389W WO2022185474A1 WO 2022185474 A1 WO2022185474 A1 WO 2022185474A1 JP 2021008389 W JP2021008389 W JP 2021008389W WO 2022185474 A1 WO2022185474 A1 WO 2022185474A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
group
image
group identification
recognition
Prior art date
Application number
PCT/JP2021/008389
Other languages
English (en)
French (fr)
Inventor
重哲 並木
拓也 小川
恵子 井上
尚司 谷内田
利憲 細井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2021/008389 priority Critical patent/WO2022185474A1/ja
Priority to JP2023503280A priority patent/JPWO2022185474A5/ja
Priority to US18/279,504 priority patent/US20240153065A1/en
Publication of WO2022185474A1 publication Critical patent/WO2022185474A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/0008Industrial image inspection checking presence/absence
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to an object inspection method using images.
  • Patent Document 1 discloses a visual inspection apparatus that captures images of a tablet, which is an object to be inspected, from three directions, and performs shape inspection, color inspection, and chipping inspection on the images in the three directions to determine the quality of the tablet. is disclosed.
  • One object of the present invention is to provide an inspection apparatus capable of performing abnormality determination by an image recognition method suitable for each surface or part of an inspection object.
  • the learning device comprises: Acquisition means for acquiring time-series photographed images obtained by photographing an object; A learning means for simultaneously learning a group identification model for identifying a plurality of groups from the captured image based on the feature amount in the image and the plurality of recognition models for recognizing the captured image belonging to each group.
  • a learning method comprises: Acquire time-series captured images of an object, A group identification model for identifying a plurality of groups from the captured image based on the feature amount in the image and a plurality of recognition models for recognizing the captured image belonging to each group are simultaneously learned.
  • the recording medium comprises Acquire time-series captured images of an object, A program for causing a computer to simultaneously learn a group identification model for identifying a plurality of groups from the captured image based on the feature amount in the image and the plurality of recognition models for recognizing the captured image belonging to each group. record.
  • an inspection device includes: Acquisition means for acquiring time-series photographed images obtained by photographing an object; Group identification means for identifying a plurality of groups from the captured image based on the feature amount in the image using a group identification model; recognition means for determining an abnormality of the target object by recognizing the photographed images belonging to each group using the plurality of recognition models; Integrating means for integrating determination results obtained by the plurality of recognition models and outputting a final determination result; with The group discrimination model and the plurality of recognition models are learned simultaneously.
  • the inspection method comprises: Obtaining a group discrimination model and a plurality of recognition models trained simultaneously, Acquire time-series captured images of an object, Identifying a plurality of groups from the captured image based on the feature amount in the image using the group identification model; Using the plurality of recognition models, recognizing a photographed image belonging to each group to determine an abnormality of the object; A final determination result is output by integrating determination results obtained by the plurality of recognition models.
  • the recording medium comprises Obtaining a group discrimination model and a plurality of recognition models trained simultaneously, Acquire time-series captured images of an object, Identifying a plurality of groups from the captured image based on the feature amount in the image using the group identification model; Using the plurality of recognition models, recognizing a photographed image belonging to each group to determine an abnormality of the object; A program is recorded that causes a computer to execute a process of integrating determination results obtained by the plurality of recognition models and outputting a final determination result.
  • FIG. 2 shows a hardware configuration of an inspection apparatus according to the first embodiment; 2 shows a functional configuration of an inspection apparatus according to the first embodiment; 1 shows a configuration for acquiring a target object image sequence; It is a figure explaining the learning method of a group identification part and a recognizer.
  • Figure 2 shows the configuration for training the group classifier and the recognizer; 4 is a flow chart of learning processing of a group identifying unit and a recognizer; The configuration at the time of inspection (at the time of inference) by the inspection device is shown.
  • 4 is a flowchart of inspection processing by the inspection device; 2 shows the functional configuration of an inspection apparatus according to a second embodiment; The structure of a neural network is shown typically.
  • FIG. 4 shows the configuration of the neural network during learning; 4 is a flowchart of learning processing of a neural network; 4 shows a configuration at the time of inspection by an inspection device; 4 is a flowchart of inspection processing by the inspection device; FIG. 11 shows a functional configuration of a learning device according to a third embodiment; FIG. 10 is a flowchart of processing by the learning device of the third embodiment; FIG. 11 shows a functional configuration of an inspection apparatus according to a fourth embodiment; FIG. It is a flow chart of processing by the inspection device of a 4th embodiment.
  • FIG. 1A shows an inspection using an inspection apparatus 100.
  • the object to be inspected is the tablet 5 .
  • the tablet 5 is moved in the direction of the arrow within the rail 2 by, for example, sending air in the direction of the arrow.
  • the side wall 2x of the rail 2 is indicated by a dashed line in FIG. 1(A).
  • a lighting 3 and a high-speed camera 4 are arranged above the rail 2.
  • multiple lights of various intensities and illumination ranges are installed.
  • a plurality of illuminations may be used to photograph the object under various illumination conditions.
  • the high-speed camera 4 shoots the tablet 5 under illumination at high speed and outputs the shot image to the inspection device 100 .
  • minute abnormal points existing on the tablet 5 can be photographed without missing.
  • the abnormalities occurring in the tablet 5 include adhesion of hairs, fine chipping, and the like.
  • the tablet 5 is reversed by the reversing mechanism provided on the rail 2.
  • FIG. 1A for the sake of convenience, illustration of the reversing mechanism is omitted, and only the behavior of the tablet on the rail 2 is shown.
  • the surface of the tablet 5 provided with the dividing line is referred to as the "A surface”
  • the surface without the dividing line is referred to as the "B surface”
  • the surface of the tablet 5 viewed from the side is the “side”. call.
  • the “splitting line” refers to a notch or depression provided on one side of the tablet for splitting the tablet in half.
  • FIG. 1(B) schematically shows a reversing mechanism provided on the rail 2.
  • a narrowed portion 7 is provided inside the side wall 2x of the rail 2 as a reversing mechanism by narrowing the width of the rail 2.
  • the narrowed portion 7 is formed by projecting the side wall 2x of the rail 2 inward.
  • the tablet 5 basically moves in a state of falling down in areas other than the narrowed portion 7 , but rises when passing through the narrowed portion 7 and falls to the opposite side after passing through the narrowed portion 7 . The tablet 5 is thus turned over on the rail 2 .
  • FIG. 1(C) shows an example of an image captured by the high-speed camera 4 (hereinafter simply referred to as "camera 4").
  • FIG. 1(C) is an image obtained by extracting only the region of the tablet 5, which is the target object, from the image captured by the camera 4, and corresponds to the target object image series described later.
  • the tablet 5 is set so that the A side faces upward and moves on the rail 2 from the left side of FIG. After that, the tablet 5 rises at the constriction 7 and the camera 4 photographs the side of the tablet 5 at that time. After passing through the constricted portion 7, the tablet 5 falls to the opposite side, and the camera 4 then photographs side B of the tablet. In this way, as shown in FIG.
  • a time series image (hereinafter also referred to as "image series") including side A, side, and side B of the tablet is obtained. Since the tablet 5 is fed by air, it stands up at the constricted portion 7 and moves on the rail 2 while rotating in the circumferential direction. Therefore, the camera 4 can photograph the entire side surface of the tablet 5 . All sides of the tablet 5 can thus be photographed.
  • FIG. 2 is a block diagram showing the hardware configuration of the inspection apparatus 100 according to the first embodiment.
  • the inspection apparatus 100 includes an interface (I/F) 11, a processor 12, a memory 13, a recording medium 14, a database (DB) 15, an input section 16, and a display section 17.
  • I/F interface
  • processor 12 processor 12
  • memory 13 a recording medium 14
  • DB database
  • input section 16 input section 16
  • display section 17 display section 17.
  • the interface 11 performs data input/output with an external device. Specifically, an image series (time-series images) of the tablet photographed by the camera 4 is input through the interface 11 . Further, the abnormality determination result generated by the inspection device 100 is output to an external device through the interface 11 .
  • the processor 12 is a computer such as a CPU (Central Processing Unit), and controls the entire inspection apparatus 100 by executing a program prepared in advance.
  • the processor 12 may be a GPU (Graphics Processing Unit) or an FPGA (Field-Programmable Gate Array).
  • the processor 12 executes inspection processing, which will be described later.
  • the memory 13 is composed of ROM (Read Only Memory), RAM (Random Access Memory), and the like. Memory 13 is also used as a working memory during execution of various processes by processor 12 .
  • the recording medium 14 is a non-volatile, non-temporary recording medium such as a disk-shaped recording medium or a semiconductor memory, and is configured to be detachable from the inspection apparatus 100 .
  • the recording medium 14 records various programs executed by the processor 12 .
  • programs recorded on the recording medium 14 are loaded into the memory 13 and executed by the processor 12 .
  • the DB 15 stores the image sequence input from the camera as needed.
  • the input unit 16 includes a keyboard, a mouse, and the like for the user to give instructions and input.
  • the display unit 17 is configured by, for example, a liquid crystal display, and displays the recognition result of the target object.
  • FIG. 3 is a block diagram showing the functional configuration of the inspection apparatus 100 according to the first embodiment.
  • the inspection apparatus 100 determines abnormality of the tablet 5 based on the image sequence input from the camera 4 (hereinafter referred to as "input image sequence"), and outputs the determination result.
  • the inspection apparatus 100 includes a target object region extraction unit 21, a group identification unit 22, a plurality of recognizers 23, and an integration unit 24.
  • the target object area extraction unit 21 extracts the area of the tablet 5, which is the object to be inspected, from the input image series, and outputs an image series showing the area of the target object (hereinafter referred to as "object image series"). do.
  • the target object image sequence is a set of images obtained by extracting only the target object portion from the images captured by the camera 4, as illustrated in FIG. 1(C).
  • the group identification unit 22 uses a group identification model to group a plurality of frame images that constitute the target object image series into a plurality of groups.
  • the group identification unit 22 outputs the image sequence of each group obtained by grouping to the corresponding recognizer 23 .
  • Each recognizer 23 uses the recognition model to perform image recognition on the image series of each group, and determines the presence or absence of an abnormality.
  • Each recognizer 23 outputs the determination result to the integration unit 24 .
  • the learning of the group identification model used by the group identification unit 22 and the learning of the recognition model used by the recognizer 23 will be described later.
  • the integration unit 24 generates a final determination result of the tablet 5 based on the determination results output by the multiple recognizers 23. For example, when each recognizer 23 makes a binary determination (0: normal, 1: abnormal) of the normality/abnormality of the tablet 5, the integration unit 24 uses the max function so that the determination results of the plurality of recognizers 23 are combined into one. However, if an abnormality is included, the final judgment result is regarded as an abnormality. Further, when the recognizer 23 outputs the degree of abnormality of the tablet 5 as a value between "0" and "1", the integration unit 24 uses the max function to determine the degree of abnormality of the image with the highest degree of abnormality as the final determination result. output as
  • the target object area extraction unit 21 is an example of acquisition means
  • the group identification unit 22 is an example of group identification means
  • the recognizer 23 is an example of recognition means
  • the integration unit 24 is an example of integration means. An example.
  • FIG. 4 shows a configuration for acquiring a target object image sequence.
  • An input image sequence 31 is obtained by reversing the target object, the tablet 5 , within the angle of view of the camera 4 by the reversing mechanism 7 and photographing the situation with the camera 4 .
  • the target object region extracting unit 21 outputs a target object image sequence 32 representing the portion of the target object from the input image sequence 31 .
  • a target object image sequence as illustrated in FIG. 1(C) is obtained.
  • FIG. 5 is a diagram for explaining the learning method of the group identification unit 22 and the recognizer 23.
  • the group identification unit 22 and the recognizer 23 are trained simultaneously, that is, in parallel in terms of time.
  • the learning of the recognition model of the recognizer 23 and the learning of the group identification model of the group identification unit 22 are alternately repeated to generate the required number of recognition models.
  • the process of first learning the recognizer 23 and then learning the group identification unit 22 is set as one loop process, and this loop process is repeated until a predetermined termination condition is satisfied.
  • the number of iterations of the above loop processing is indicated by "k”.
  • the number of recognizers 23 (recognition models) is indicated by "N"
  • the number of recognition models N 1 at the start of the learning process.
  • sample S individual frame images included in the target object image series 32 input from the target object region extraction unit 21 are called “samples S". Each sample S was obtained by photographing one tablet 5 . At the time of learning, for each sample S, an input label (correct label) indicating whether or not the sample includes an abnormality of the target object is prepared in advance.
  • one recognition model M1 is learned using all samples S of the target object image series.
  • the recognition model M1 is learned by comparing the inference results with input labels prepared in advance.
  • all the samples S are input to the learned recognition model M1 to perform inference, and it is determined whether or not the learned recognition model M1 has correctly determined an abnormality.
  • all the samples S are divided into a group of samples k1 that the recognition model M1 answered correctly (hereinafter also referred to as a "correct sample group”) and a sample group k1 that the recognition model M1 made a mistake (hereinafter also referred to as an "incorrect sample group”). .) k1′.
  • the correct sample group k1 for which the recognition model M1 is correct is a sample group for which the recognition model M1 correctly determines an abnormality.
  • the incorrect sample group k1' in which the recognition model M1 made a mistake is considered to be a sample that is difficult to correctly determine an abnormality depending on the recognition model M1.
  • only one recognition model M1 is insufficient to correctly determine the abnormality of all the samples S, and at least one other recognition model is prepared for the sample group k1′ in which the recognition model M1 made a mistake.
  • the required number of recognition models N 2.
  • a group recognition model G that divides all the samples S into two groups is learned.
  • the group identification model G is learned using the correct sample group k1 and the incorrect sample group k1'.
  • all the samples S are input to the obtained group discrimination model G to obtain an incorrect sample group k1''.
  • the incorrect sample group k1′ described above is the result of the recognition model M1, and does not necessarily match the identification result of the group identification model G. Therefore, the incorrect sample group k1'' obtained by the group identification model G is ” is distinguished.
  • the group identification model G that divides all the samples S into two groups is obtained, so the second recognition model is generated next.
  • the incorrect sample group k1'' is used to learn a recognition model M2 different from the recognition model M1.
  • an incorrect sample group k1'' is input to the obtained recognition model M2, and inference is performed to obtain a correct sample group k2 and an incorrect sample group k2' from the recognition model M2.
  • the incorrect answer sample group k2' is a sample group in which it is difficult to correctly determine abnormality depending on the added recognition model M2.
  • the above loop processing is repeated until the following end conditions are satisfied, and the group identification model is updated and the recognition model is added.
  • the recognition model achieves a certain accuracy and the number of incorrect samples is sufficiently reduced;
  • the degree of improvement in the accuracy of the recognition model becomes equal to or less than the threshold (that is, the accuracy does not improve any more). In this way, it is possible to perform abnormality determination using an appropriate number of recognizers 23 according to the target object image sequence generated by photography.
  • the method of updating the group identification model G as the number of recognition models increases differs depending on the type of group identification model G. For example, when k-means or SVM (Support Vector Machine) is used as the group identification model G, the model is added and updated. Also, when Kdtree is used as the group identification model G, the number of groups is increased and re-learning is performed.
  • k-means or SVM Small Vector Machine
  • FIG. 6 shows the configuration for learning of the group identification unit 22 and the recognizer 23.
  • the recognizer learning unit 41 learns the first recognizer 23 using the target object image sequence 32 and the input label sequence 33 to generate recognizer parameters P1 corresponding to the first recognizer 23 .
  • the target object image series 32 is input to the first recognizer 23 obtained by learning, inference is performed, and a correct image/incorrect image 34 is obtained.
  • the correct image corresponds to the correct sample group k1 described above
  • the incorrect image corresponds to the incorrect sample group k1' described above.
  • the group identification part parameter P2 obtained in the first step is set in the group identification part 22.
  • the group identification unit 22 performs inference to divide the target object image sequence 32 into two groups.
  • an incorrect answer estimated image 35 (corresponding to the above-described incorrect answer sample group k1'') is obtained.
  • the recognizer learning unit 41 learns the second recognizer 23 using the estimated incorrect image 35 and the input label sequence 33 and generates recognizer parameters P1 corresponding to the second recognizer 23 .
  • the target object image series 32 is input to the second recognizer 23 obtained by learning, inference is performed, and a correct/incorrect answer image 34 is obtained.
  • the correct image corresponds to the correct sample group k2 described above
  • the incorrect image corresponds to the incorrect sample group k2' described above.
  • the target object region extraction unit 21 is an example of acquisition means
  • the recognizer learning unit 41 and group learning unit 42 are examples of learning means.
  • FIG. 7 is a flowchart of the learning process of the group identification unit and the recognizer. This processing is realized by executing a program prepared in advance by the processor 12 shown in FIG. First, a target object passing through the reversing mechanism is photographed by the camera 4 to generate an input image series 31 (step S11). Next, the target object region extraction unit 21 extracts the image region of the target object from the input image sequence 31 using background subtraction or the like, and outputs the target object image sequence 32 by tracking (step S12).
  • the recognizer learning unit 41 learns the k-th recognizer 23 based on the inference result of the k-th recognizer 23 and the input label, and obtains the recognizer parameter P1.
  • the recognizer learning unit 41 performs inference of the target object image sequence 32 by the learned recognizer 23, and outputs the correct image/incorrect image 34 (step S14).
  • the group identification unit 22 extracts the feature amount from the target object image series 32, performs group identification, and outputs k grouped images (step S16).
  • the k-th recognizer 23 makes an inference with respect to the k-th group image (that is, the image estimated to be the incorrect image of the (k-1)th recognizer 23) (step S17).
  • the recognizer learning unit 41 learns the k-th recognizer 23 based on the inference result of the k-th recognizer 23 and the input label, and obtains the recognizer parameter P1.
  • the recognizer learning unit 41 performs inference of the target object image series 32 by the k-th recognizer 23 after learning, and outputs the correct image/incorrect image 34 (step S18).
  • step S20 it is determined whether or not the aforementioned end condition is satisfied (step S20), and if not satisfied (step S20: No), the process returns to step S16. On the other hand, if the end condition is satisfied (step S20: Yes), the learning process ends.
  • FIG. 8 shows the configuration during inspection (during inference) by the inspection apparatus 100 .
  • an object image series 36 obtained by photographing an actual inspection object is input.
  • the group identification parameter P2 obtained by the learning process described above is set in the group identification part 22, and the target object image sequence 36 is grouped into the numbers determined by the learning process.
  • the recognizer parameter P1 obtained by the above-described learning is set in the number of recognizers 23 determined by the above-described learning process.
  • the group identifying unit 22 divides the target object image series 36 into N groups, and the N recognizers 23 perform abnormality determination.
  • the target object region extraction unit 21 generates a target object image sequence 36 from the input image sequence and outputs it to the group identification unit 22.
  • the group identification unit 22 divides the target object image series 36 into N groups and outputs the groups to the N recognizers 23 .
  • the N recognizers 23 each determine whether or not there is an abnormality in the input image, and output the determination result to the integrating section 24 .
  • the integration unit 24 integrates the input determination results and outputs a final determination result.
  • FIG. 9 is a flowchart of inspection processing by the inspection apparatus 100.
  • FIG. This processing is realized by executing a program prepared in advance by the processor 12 shown in FIG.
  • a target object passing through the reversing mechanism is photographed by the camera 4 to generate an input image sequence (step S31).
  • This input image series is an image of an actual inspected object.
  • the target object region extracting unit 21 extracts the image region of the target object from the input image sequence using background subtraction or the like, and outputs the target object image sequence 36 by tracking (step S32).
  • the group identification unit 22 extracts feature amounts from the target object image series 36, identifies N groups, and outputs an image series for each group (step S33).
  • the N recognizers perform abnormality determination based on the image sequences of the corresponding groups (step S34).
  • the integrating unit 24 integrates the determination results of the recognizers 23 for each group and makes a final determination (step S35). Then the process ends.
  • the group identification unit 22 groups the target object image series into a plurality of groups. If there is a group to which even one photographed image does not belong among the plurality of groups, the inspection apparatus 100 determines that the inspection is insufficient. It may be determined and output as a final determination result.
  • the learning of the recognition model of the recognizer 23 and the learning of the group identification model of the group identification unit 22 are alternately repeated, and the required number of recognition models and the image sequence are obtained. Generate a group identification model that groups into numbers. Therefore, an appropriate number of recognizers can be used to improve the accuracy of abnormality determination.
  • the group identifying unit and the recognizer are configured by a neural network (NN), and end-to-end learning is performed.
  • NN neural network
  • end-to-end learning is performed.
  • the group classifier and the recognizer form a series, and learning is performed consistently.
  • the hardware configuration of the inspection apparatus 200 of the second embodiment is the same as that of the first embodiment, so description thereof will be omitted.
  • FIG. 10 shows the functional configuration of an inspection apparatus 200 according to the second embodiment.
  • the inspection apparatus 200 includes a target object region extractor 21, a neural network (NN) 50, and an integrator .
  • the target object area extraction unit 21 and the integration unit 24 are the same as those of the inspection apparatus 100 of the first embodiment.
  • FIG. 11 schematically shows the configuration of NN50.
  • the NN 50 includes a front-stage NN and a rear-stage NN.
  • a target object image sequence is input to the former stage NN.
  • the front-stage NN corresponds to the group identification section and has a relatively lightweight structure.
  • the front-stage NN outputs corresponding weights for each image based on the input target object image series. This weight is calculated based on the feature amount of each image included in the target object image series, and similar weights are assigned to images having similar image features. Therefore, this weight can be regarded as the result of identifying each image by the image feature.
  • the front-stage NN may output the weight in units of pixels.
  • the weight is a value between "0" and "1".
  • the weight output from the front-stage NN is input to the rear-stage NN.
  • the target object image series is also input to the subsequent NN.
  • the post-stage NN corresponds to a recognizer that performs abnormality determination, and has a relatively heavy structure.
  • the subsequent NN extracts image feature amounts from the input target object image series, performs abnormality determination, and outputs the degree of abnormality.
  • the anomaly degrees output by the post-NN are integrated by the integration unit 24 and output as the final determination result.
  • the post-stage NN for example, a CNN (Convolutional Neural Network) or RNN (Recurrent Neural Network) can be used.
  • the post-NN is a CNN
  • learning is performed by multiplying the weight output by the pre-NN by the loss calculated for each image.
  • the post-NN is an RNN
  • learning is performed by multiplying the time-series feature by the weight output from the pre-NN.
  • the front-stage NN outputs weights in units of pixels
  • the rear-stage NN has a structure in which weights are also applied to the feature map of the intermediate layer. In this case, it is necessary to resize the weights output by the preceding NN according to the size of the feature map.
  • the NN is composed of the front-stage NN and the rear-stage NN, and by learning consistently at the same time, the weighting of the front-stage NN is learned so that the recognition accuracy of the rear-stage NN increases. At that time, it is expected that the weight for images that are difficult to recognize will be increased, and the ability to recognize images that are difficult to recognize will improve.
  • the post-NN corresponding to the recognizer is one NN, but by using weighting like attention, different parameter sets in the post-NN can be functionally divided into a plurality of sets. I use it like a recognition model.
  • FIG. 12 shows the configuration of the NN 50 during learning.
  • the NN 50 includes a weighting section 51 , a recognizer 52 and a learning section 53 .
  • the weighting unit 51 is composed of the front-stage NN, and the recognizer 52 is composed of the rear-stage NN.
  • the weighting unit 51 generates a weight for each image of the target object image series 32 and outputs the weight to the recognizer 52 .
  • the weighting unit may output weights on a pixel-by-pixel basis, as described above.
  • a dashed line 54 in FIG. 12 indicates that the weight is input to the recognizer 52 when the recognizer 52 is an RNN.
  • the recognizer 52 extracts the feature amount of the target object image sequence 32 based on the weight output by the weighting unit 51, performs abnormality determination, and outputs the degree of abnormality.
  • the learning unit 53 learns the weighting unit 51 and the recognizing unit 52 based on the input label sequence 33 and the degree of anomaly output by the recognizing unit 52, and generates a weighting unit parameter P3 and a recognizer parameter P4.
  • FIG. 13 is a flowchart of the learning process of the NN50. This processing is realized by executing a program prepared in advance by the processor 12 shown in FIG. First, a target object passing through the reversing mechanism is photographed by the camera 4 to generate an input image series 31 (step S41). Next, the target object region extracting unit 21 extracts the image region of the target object from the input image sequence 31 using background subtraction or the like, and outputs the target object image sequence 32 by tracking (step S42).
  • the weighting unit 51 outputs the weight for each image (or each pixel) for the target object image series 32 by the preceding NN (step S43).
  • the recognizer 52 makes an inference by the post-NN described above (step S44). Note that if the NN 50 is an RNN, the recognizer 52 weights the time-series features using the weights output in step S43.
  • the learning unit 53 learns the weighting unit 51 and the recognizing unit 52 using the inference result of the recognizing unit 52 and the input label, and obtains the weighting unit parameter P3 and the recognizing unit parameter P4 (step S45).
  • the learning unit 53 weights the loss using the weight output in step S43. Then, the learning process ends.
  • FIG. 14 shows the configuration of the inspection apparatus 200 during inspection.
  • the inspection apparatus 200 includes a weighting unit 51 , a recognizer 52 and an integration unit 24 .
  • the weighting unit 51 and the recognizer 52 are configured by the NN50.
  • a weighting unit parameter P3 obtained by learning processing is set in the weighting unit 51, and a recognizer parameter obtained by learning processing is set in the recognizer 52.
  • FIG. 14 shows the configuration of the inspection apparatus 200 during inspection.
  • the inspection apparatus 200 includes a weighting unit 51 , a recognizer 52 and an integration unit 24 .
  • the weighting unit 51 and the recognizer 52 are configured by the NN50.
  • a weighting unit parameter P3 obtained by learning processing is set in the weighting unit 51
  • a recognizer parameter obtained by learning processing is set in the recognizer 52.
  • the weighting unit 51 receives the target object image sequence 36 obtained from the image of the actual inspection target.
  • the weighting unit 51 generates a weight for each image (or for each pixel) based on the target object image series, and outputs the weight to the recognizer 52 .
  • the recognizer 52 performs abnormality determination using the target object image sequence 32 and the weight, and outputs the abnormality degree to the integrating section 24 as a determination result.
  • the integration unit 24 integrates the input degrees of abnormality and outputs a final determination result.
  • FIG. 15 is a flow chart of inspection processing by the inspection apparatus 200 .
  • This processing is realized by executing a program prepared in advance by the processor 12 shown in FIG.
  • a target object passing through the reversing mechanism is photographed by the camera 4 to generate an input image sequence (step S51).
  • This input image series is an image of an actual inspected object.
  • the target object region extracting unit 21 extracts the image region of the target object from the input image sequence using background subtraction or the like, and outputs the target object image sequence 36 by tracking (step S52).
  • the weighting unit 51 outputs weights for each image (or each pixel) of the target object image series 36 (step S53).
  • the recognizer 52 performs abnormality determination of the target object image series 36 (step S54). If the NN50 is an RNN, the recognizer 52 weights the time-series features with the weights output in step S53.
  • the integration unit 24 integrates the degrees of abnormality output from the recognizer 52 and makes a final determination (step S55). Then the process ends.
  • the group identification unit and the recognizer are configured by NN, and they are learned consistently at the same time.
  • the front-stage NN constitutes a group discriminator
  • the rear-stage NN constitutes a recognizer. Therefore, group identification can be performed by the front-stage NN, and abnormality determination can be performed by functionally using different parameter sets in the rear-stage NN like a plurality of recognition models.
  • FIG. 16 is a block diagram showing the functional configuration of the learning device according to the third embodiment.
  • the learning device 60 includes acquisition means 61 and learning means 62 .
  • FIG. 17 is a flowchart of processing by the learning device 60.
  • the acquisition unit 61 acquires time-series captured images of an object (step S61).
  • the learning means 62 simultaneously learns a group identification model that identifies a plurality of groups from the captured image based on the feature amount in the image, and a plurality of recognition models that recognizes the captured image belonging to each group (step S62).
  • FIG. 18 is a block diagram showing the functional configuration of an inspection device according to the fourth embodiment.
  • the inspection device 70 includes acquisition means 71 , group identification means 72 , recognition means 73 and integration means 74 .
  • FIG. 19 is a flowchart of processing by the inspection device 70.
  • the acquisition unit 71 acquires time-series captured images of an object (step S71).
  • the group identification means 72 identifies a plurality of groups from the captured image based on the feature amount in the image using the group identification model (step S72).
  • the recognition means 73 recognizes the photographed images belonging to each group and determines abnormality of the object (step S73). Note that the group identification model and the plurality of recognition models are learned at the same time.
  • the integrating means 74 integrates the judgment results by the plurality of recognition models and outputs the final judgment result (step S74).
  • (Appendix 1) Acquisition means for acquiring time-series photographed images obtained by photographing an object; learning means for simultaneously learning a group identification model for identifying a plurality of groups from the captured image based on the feature amount in the image and the plurality of recognition models for recognizing the captured image belonging to each group; A learning device with
  • Appendix 2 1. The learning device according to appendix 1, wherein the learning means alternately repeats learning of the group identification model and learning of the recognition model.
  • the learning means determines whether the number of repetitions of learning of the group identification model and learning of the recognition model reaches a predetermined number, whether the accuracy of the recognition model reaches a predetermined accuracy, or whether the accuracy of the recognition model has improved a predetermined amount. 3.
  • the learning means learns one NN including a front-stage NN and a rear-stage NN,
  • (Appendix 10) Acquisition means for acquiring time-series photographed images obtained by photographing an object; Group identification means for identifying a plurality of groups from the captured image based on the feature amount in the image using a group identification model; recognition means for determining an abnormality of the target object by recognizing the photographed images belonging to each group using the plurality of recognition models; Integrating means for integrating determination results obtained by the plurality of recognition models and outputting a final determination result; with The inspection device, wherein the group identification model and the plurality of recognition models are learned simultaneously.
  • Appendix 12 Obtaining a group discrimination model and a plurality of recognition models trained simultaneously, Acquire time-series captured images of an object, Identifying a plurality of groups from the captured image based on the feature amount in the image using the group identification model; Using the plurality of recognition models, recognizing a photographed image belonging to each group to determine an abnormality of the object; A recording medium recording a program for causing a computer to execute a process of integrating determination results from the plurality of recognition models and outputting a final determination result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

学習装置において、取得手段は、対象物を撮影した時系列の撮影画像を取得する。次に、学習手段は、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する。

Description

学習装置、学習方法、検査装置、検査方法、及び、記録媒体
 本発明は、画像を利用した対象物の検査手法に関する。
 製品の撮影画像を用いて異常検査を行う手法が提案されている。例えば、特許文献1は、検査対象物である錠剤の画像を3方向から撮影し、3方向の画像に対して形状検査、色彩検査、割り欠け検査を行って錠剤の良否を判定する外観検査装置を開示している。
特開2005-172608号公報
 特許文献1の外観検査装置では、検査対象物の3方向の画像に対して同じ検査を行っている。しかし、現実には検査対象物の面や部分毎に異常の傾向が異なることが多い。
 本発明の1つの目的は、検査対象物の面や部分毎に適した画像認識方法で異常判定を行うことが可能な検査装置を提供することにある。
 本発明の一つの観点では、学習装置は、
 対象物を撮影した時系列の撮影画像を取得する取得手段と、
 画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習手段と、を備える。
 本発明の他の観点では、学習方法は、
 対象物を撮影した時系列の撮影画像を取得し、
 画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する。
 本発明のさらに他の観点では、記録媒体は、
 対象物を撮影した時系列の撮影画像を取得し、
 画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する処理をコンピュータに実行させるプログラムを記録する。
 本発明のさらに他の観点では、検査装置は、
 対象物を撮影した時系列の撮影画像を取得する取得手段と、
 グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別手段と、
 前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定する認識手段と、
 前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する統合手段と、
 を備え、
 前記グループ識別モデルと前記複数の認識モデルは同時に学習されたものである。
 本発明のさらに他の観点では、検査方法は、
 同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
 対象物を撮影した時系列の撮影画像を取得し、
 前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
 前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
 前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する。
 本発明のさらに他の観点では、記録媒体は、
 同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
 対象物を撮影した時系列の撮影画像を取得し、
 前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
 前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
 前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する処理をコンピュータに実行させるプログラムを記録する。
 本発明によれば、検査対象物の面や部分毎に適した画像認識方法で異常判定を行うことが可能となる。
検査装置を用いた検査の様子を示す。 第1実施形態に係る検査装置のハードウェア構成を示す。 第1実施形態に係る検査装置の機能構成を示す。 対象物体画像系列を取得するための構成を示す。 グループ識別部及び認識器の学習方法を説明する図である。 グループ識別部及び認識器の学習のための構成を示す。 グループ識別部、認識器の学習処理のフローチャートである。 検査装置による検査時(推論時)の構成を示す。 検査装置による検査処理のフローチャートである。 第2実施形態に係る検査装置の機能構成を示す。 ニューラルネットワークの構成を模式的に示す。 ニューラルネットワークの学習時の構成を示す。 ニューラルネットワークの学習処理のフローチャートである。 検査装置による検査時の構成を示す。 検査装置による検査処理のフローチャートである。 第3実施形態に係る学習装置の機能構成を示す。 第3実施形態の学習装置による処理のフローチャートである。 第4実施形態に係る検査装置の機能構成を示す。 第4実施形態の検査装置による処理のフローチャートである。
 以下、図面を参照して、本発明の好適な実施形態について説明する。
 <第1実施形態>
 [検査の概要]
 まず、本発明に係る検査装置100による検査の概要について説明する。図1(A)は、検査装置100を用いた検査の様子を示す。本実施形態では、検査の対象物を錠剤5とする。錠剤5は、例えば矢印方向にエアーを送ることによりレール2内を矢印の方向に移動する。なお、図示の便宜上、図1(A)ではレール2の側壁2xを破線で示している。
 レール2の上方には照明3と高速カメラ4が配置される。対象物の形状や検出すべき異常の種類に応じて、様々な強度及び照明範囲の照明が複数設置される。特に錠剤5などの小さい対象物の場合、微小な異常の種類、度合い、位置などは様々であるため、複数の照明を用いて照明条件を様々に変えて撮影を行ってもよい。
 高速カメラ4は、照明下の錠剤5を高速撮影し、撮影画像を検査装置100へ出力する。錠剤5を移動させつつ高速カメラ4で撮影すると、錠剤5に存在する微小な異常個所を逃さず撮影することができる。具体的に、錠剤5に生じる異常としては、髪の毛の付着、微細な欠けなどがある。
 錠剤5は、レール2に設けた反転機構により反転する。図1(A)では、便宜上、反転機構の図示を省略し、レール2上での錠剤の挙動のみを示している。以下、説明の便宜上、錠剤5の割線の設けられた面を「A面」と呼び、割線の無い方の面を「B面」と呼び、錠剤5を側方から見た面を「側面」と呼ぶ。なお、「割線」とは、錠剤を半分に割るために、錠剤の片面に設けられた切り込みやくぼみを言う。
 図1(B)は、レール2に設けられた反転機構を模式的に示す。図示のように、レール2の側壁2xの内側には、反転機構として、レール2の幅を狭くした狭窄部7が設けられている。狭窄部7は、レール2の側壁2xを内側に張り出すように形成したものである。錠剤5は、狭窄部7以外の領域では基本的に倒れた状態で移動するが、狭窄部7を通過する際に立ち上がり、狭窄部7を通過した後に反対側に倒れる。こうして、錠剤5はレール2上で反転する。
 図1(C)は、高速カメラ4(以下、単に「カメラ4」と呼ぶ。)による撮影画像の例を示す。なお、図1(C)は、カメラ4による撮影画像のうち、対象物体である錠剤5の領域のみを抽出した画像であり、後述する対象物体画像系列に相当する。錠剤5は、A面が上側になるようにセットされて図1(B)の左側からレール2上を矢印方向に移動し、その間にカメラ4は錠剤の5のA面を撮影する。その後、錠剤5は狭窄部7で立ち上がり、そのときにカメラ4は錠剤5の側面を撮影する。狭窄部7を通過すると、錠剤5は反対側に倒れるので、その後カメラ4は錠剤のB面を撮影する。こうして、図1(C)に示すように、錠剤のA面、側面、B面を含む時系列画像(以下、「画像系列」とも呼ぶ。)が得られる。なお、錠剤5はエアーにより送られているため、狭窄部7では立ち上がり、周方向に回転しつつレール2上を移動する。よって、カメラ4は、錠剤5の側面の全周を撮影することができる。こうして、錠剤5のあらゆる面を撮影することができる。
 [ハードウェア構成]
 図2は、第1実施形態に係る検査装置100のハードウェア構成を示すブロック図である。図示のように、検査装置100は、インタフェース(I/F)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、入力部16と、表示部17と、を備える。
 インタフェース11は、外部装置との間でデータの入出力を行う。具体的に、カメラ4により撮影された錠剤の画像系列(時系列画像)は、インタフェース11を通じて入力される。また、検査装置100により生成された異常の判定結果は、インタフェース11を通じて外部の装置へ出力される。
 プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、検査装置100の全体を制御する。なお、プロセッサ12は、GPU(Graphics Processing Unit)またはFPGA(Field-Programmable Gate Array)であってもよい。プロセッサ12は、後述する検査処理を実行する。
 メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
 記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、検査装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。検査装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
 DB15は、必要に応じて、カメラから入力された画像系列を記憶する。入力部16は、ユーザが指示や入力を行うためのキーボード、マウスなどにより構成される。表示部17は、例えば液晶ディスプレイなどにより構成され、対象物の認識結果などを表示する。
 [機能構成]
 図3は、第1実施形態に係る検査装置100の機能構成を示すブロック図である。検査装置100は、カメラ4から入力された画像系列(以下、「入力画像系列」と呼ぶ。)に基づいて錠剤5の異常を判定し、判定結果を出力する。図示のように、検査装置100は、対象物体領域抽出部21と、グループ識別部22と、複数の認識器23と、統合部24とを備える。
 対象物体領域抽出部21は、入力画像系列から、検査の対象物体である錠剤5の領域を抽出し、対象物体の領域を示す画像系列(以下、「対象物体画像系列」と呼ぶ。)を出力する。対象物体画像系列は、図1(C)に例示するように、カメラ4で撮影した画像のうち、対象物体の部分のみを抽出した画像の集合である。
 グループ識別部22は、グループ識別モデルを用いて、対象物体画像系列を構成する複数のフレーム画像を複数のグループにグループ分けする。グループ識別部22は、グループ分けにより得られた各グループの画像系列を、対応する認識器23へ出力する。各認識器23は、認識モデルを用いて、各グループの画像系列に対して画像認識を行い、異常の有無を判定する。各認識器23は、それぞれ判定結果を統合部24へ出力する。なお、グループ識別部22が使用するグループ識別モデル、及び、認識器23が使用する認識モデルの学習については後述する。
 統合部24は、複数の認識器23が出力した判定結果に基づいて、錠剤5の最終的な判定結果を生成する。例えば、各認識器23が錠剤5の正常/異常を2値判定(0:正常、1:異常)する場合、統合部24はmax関数を用いて、複数の認識器23の判定結果が1つでも異常を含めば、最終判定結果を異常とする。また、認識器23が錠剤5の異常度を「0」~「1」の値で出力する場合、統合部24はmax関数を用いて、最も異常度の高かった画像の異常度を最終判定結果として出力する。
 上記の構成において、対象物体領域抽出部21は取得手段の一例であり、グループ識別部22はグループ識別手段の一例であり、認識器23は認識手段の一例であり、統合部24は統合手段の一例である。
 [各部の処理]
 (対象物体画像系列の取得)
 図4は、対象物体画像系列を取得するための構成を示す。カメラ4の画角内で反転機構7により対象物体である錠剤5を反転させ、その様子をカメラ4で撮影することにより入力画像系列31が得られる。対象物体領域抽出部21は、入力画像系列31から、対象物体の部分を示す対象物体画像系列32を出力する。これにより、図1(C)に例示するような対象物体画像系列が得られる。
 (グループ識別部、認識器の学習)
 図5は、グループ識別部22及び認識器23の学習方法を説明する図である。本実施形態では、グループ識別部22と認識器23を同時に、即ち時間的に並行して学習する。具体的には、認識器23の認識モデルの学習とグループ識別部22のグループ識別モデルの学習とを交互に繰り返し、必要な数の認識モデルを生成する。より具体的には、まず認識器23を学習し、次にグループ識別部22を学習する処理を1回のループ処理とし、このループ処理を所定の終了条件が具備されるまで繰り返す。以下、上記のループ処理の繰り返し回数を「k」で示す。また、認識器23(認識モデル)の数を「N」で示し、学習処理の開始時には認識モデルの数N=1であるものとする。
 図5において、対象物体領域抽出部21から入力された対象物体画像系列32に含まれる個々のフレーム画像を「サンプルS」と呼ぶ。各サンプルSは、1つの錠剤5の撮影により得られたものである。学習時には、各サンプルSに対して、そのサンプルが対象物体の異常を含むか否かを示す入力ラベル(正解ラベル)が予め用意されている。
 図5に示すように、まず、1回目(k=1)のループ処理では、対象物体画像系列の全サンプルSを用いて、1つの認識モデルM1を学習する。学習の際には、推論結果を予め用意した入力ラベルと比較することにより認識モデルM1が学習される。学習が終了すると、学習済みの認識モデルM1に全サンプルSを入力して推論を行い、学習済みの認識モデルM1が正しく異常を判定できたか否かを判定する。これにより、全サンプルSは、認識モデルM1が正解したサンプル群(以下、「正解サンプル群」とも呼ぶ。)k1と、認識モデルM1が間違えたサンプル群(以下、「不正解サンプル群」とも呼ぶ。)k1’とに分けられる。ここで、認識モデルM1が正解した正解サンプル群k1は、認識モデルM1により正しく異常判定ができたサンプル群である。これに対し、認識モデルM1が間違えた不正解サンプル群k1’は、認識モデルM1によっては正しく異常を判定することが難しいサンプルであると考えられる。言い換えると、全サンプルSの異常判定を正しく行うためには、1つの認識モデルM1のみでは不十分であり、認識モデルM1が間違えたサンプル群k1’については別の少なくとも1つの認識モデルを用意する必要がある。即ち、必要な認識モデルの数N=2となる。
 こうして、認識モデルを2つにする必要が生じたので、全サンプルSを2つのグループに分けるグループ識別モデルGを学習する。具体的には、正解サンプル群k1と不正解サンプル群k1’とを用いて、グループ識別モデルGを学習する。グループ識別モデルGの学習が終わると、得られたグループ識別モデルGに全サンプルSを入力し、不正解サンプル群k1’’を得る。なお、前述の不正解サンプル群k1’は認識モデルM1による結果であり、グループ識別モデルGによる識別結果とは必ずしも一致しないので、グループ識別モデルGにより得られた不正解サンプル群を「k1’’」として区別している。
 こうして、全サンプルSを2つのグループに分けるグループ識別モデルGが得られたので、次に、2つ目の認識モデルを生成する。具体的には、不正解サンプル群k1’’を用いて、認識モデルM1とは別の認識モデルM2を学習する。そして、得られた認識モデルM2に対して不正解サンプル群k1’’を入力して推論を行い、認識モデルM2による正解サンプル群k2と、不正解サンプル群k2’とを得る。
 ここで、不正解サンプル群k2’は、追加した認識モデルM2によっては正しく異常を判定することが難しいサンプル群である。即ち、全サンプルSを正しく異常判定するためには、認識モデルM1とM2では不十分であり、さらに追加の認識モデルが必要ということになる。よって、次に必要な認識モデルの数をさらに1つ増加してN=3とし、全サンプルSを3つのグループに分けるようにグループ識別モデルGを学習する。
 こうして、以下の終了条件が具備されるまで、上記のループ処理を繰り返し、グループ識別モデルの更新と、認識モデルの追加を行う。
(a)上記のループ処理が所定回数に達する(k=kmax)。
(b)認識モデルが一定の精度を達成し、不正解サンプル群の数が十分に減少する。
(c)認識モデルの精度の改善幅が閾値以下になる(即ち、それ以上精度が改善しない状態となる)。
 こうして、撮影により生成された対象物体画像系列に応じて適切な数の認識器23を用いて、異常判定を行うことが可能となる。
 なお、認識モデル数の増加に伴ってグループ識別モデルGを更新する手法は、グループ識別モデルGの種類によって異なる。例えば、グループ識別モデルGとしてk-means又はSVM:Support Vector Machine)を用いる場合、モデルを追加して更新を行う。また、グループ識別モデルGとしてKdtreeを用いる場合、グループ数を増やして再学習を行う。
 実際の学習においては、上記のループ処理を繰り返していくと、不正解サンプル群に属するサンプル数は減少していく。よって、グループ識別モデルや追加する認識モデルの学習のためには、データ拡張などにより学習に用いるデータ数を確保する必要がある。また、ループ処理の繰り返しにより、正解サンプル群と不正解サンプル群のデータ数のインバランスが生じるので、必要に応じてオーバーサンプリングやアンダーサンプリングによりインバランスを解消することが好ましい。
 図6は、グループ識別部22及び認識器23の学習のための構成を示す。まず、ループ処理の1ステップ目(k=1)において、対象物体領域抽出部21が生成した対象物体画像系列32がk(=1)番目の認識器23へ入力される。認識器学習部41は、対象物体画像系列32と入力ラベル系列33を用いて1番目の認識器23を学習し、1番目の認識器23に対応する認識器パラメータP1を生成する。また、学習により得られた1番目の認識器23に対象物体画像系列32が入力されて推論が行われ、正解画像/不正解画像34が得られる。正解画像は前述の正解サンプル群k1に相当し、不正解画像は前述の不正解サンプル群k1’に相当する。
 不正解画像が得られると、グループ学習部42は、ループ処理の繰り返し数kを1つ増加し(k=k+1)、k(=2)個のグループにグループ分けを行うようにグループ識別モデルを学習し、グループ識別部パラメータP2を生成する。
 ループ処理の2ステップ目(k=2)では、1ステップ目で得られたグループ識別部パラメータP2がグループ識別部22に設定される。グループ識別部22は、対象物体画像系列32を2個のグループに分ける推論を行う。これにより、不正解推定画像35(前述の不正解サンプル群k1’’に対応)が得られる。認識器学習部41は、不正解推定画像35と入力ラベル系列33とを用いて2番目の認識器23を学習し、2番目の認識器23に対応する認識器パラメータP1を生成する。また、学習により得られた2番目の認識器23に対象物体画像系列32が入力されて推論が行われ、正解/不正解画像34が得られる。正解画像は前述の正解サンプル群k2に相当し、不正解画像は前述の不正解サンプル群k2’に相当する。
 不正解画像が得られると、グループ学習部42は、ループ処理の繰り返し数kをさらに1つ増加し、k(=3)個のグループにグループ分けを行うようにグループ識別モデルを学習し、グループ識別部パラメータP2を生成する。そして、2ステップ目と同様に、3ステップ目(k=3)の処理が実行される。こうして、前述の終了条件が具備されるまでループ処理が繰り返し実行され、処理が終了した時点における認識器パラメータP1とグループ識別部パラメータP2により、認識モデルとグループ認識モデルが得られる。
 上記の構成において、対象物体領域抽出部21は取得手段の一例であり、認識器学習部41及びグループ学習部42は、学習手段の一例である。
 図7は、グループ識別部、認識器の学習処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ4で撮影し、入力画像系列31が生成される(ステップS11)。次に、対象物体領域抽出部21は、入力画像系列31から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列32を出力する(ステップS12)。
 次に、k(=1)番目の認識器23により対象物体画像系列32の推論を行う(ステップS13)。認識器学習部41は、k番目の認識器23の推論結果と入力ラベルとによりk番目の認識器23を学習し、認識器パラメータP1を得る。また、認識器学習部41は、学習後の認識器23で対象物体画像系列32の推論を行い、正解画像/不正解画像34を出力する(ステップS14)。
 次に、グループ学習部42は、繰り返し数kを1増加し(k=k+1)、正解/不正解画像34を用いてk個のグループを識別するようにグループ識別モデルを学習し、グループ識別部パラメータP2を得る(ステップS15)。
 次に、グループ識別部22は、対象物体画像系列32から特徴量を抽出し、グループ識別を行い、k個にグループ分けした画像を出力する(ステップS16)。次に、k番目の認識器23は、k番目のグループ画像(即ち、(k-1)番目の認識器23の不正解画像と推定される画像)に対して推論を行う(ステップS17)。次に、認識器学習部41は、k番目の認識器23の推論結果と入力ラベルとによりk番目の認識器23を学習し、認識器パラメータP1を得る。また、認識器学習部41は、学習後のk番目の認識器23で対象物体画像系列32の推論を行い、正解画像/不正解画像34を出力する(ステップS18)。
 次に、グループ学習部42は、kを1増加し(k=k+1)、正解/不正解画像34を用いて、k個のグループへ識別するようにグループ識別モデルを学習し、グループ識別部パラメータP2を得る(ステップS19)。
 次に、前述の終了条件が具備されたか否かが判定され(ステップS20)、具備されていない場合(ステップS20:No)、処理はステップS16へ戻る。一方、終了条件が具備された場合(ステップS20:Yes)、学習処理は終了する。
 (検査時(推論時))
 図8は、検査装置100による検査時(推論時)の構成を示す。検査時においては、実際の検査対象物を撮影した対象物体画像系列36が入力される。また、グループ識別部22には、前述の学習処理により得られたグループ識別部パラメータP2が設定され、対象物体画像系列36を、学習処理により決定された数にグループ分けする。さらに、前述の学習処理により決定された数の認識器23に、前述の学習により得られた認識器パラメータP1が設定される。以下の説明では、グループ識別部22は対象物体画像系列36をN個のグループに分け、N個の認識器23により異常の判定が行われるものとする。
 対象物体領域抽出部21は、入力画像系列から対象物体画像系列36を生成し、グループ識別部22へ出力する。グループ識別部22は、対象物体画像系列36をN個のグループに分け、N個の認識器23へ出力する。N個の認識器23は、それぞれ入力された画像における異常の有無を判定し、判定結果を統合部24へ出力する。統合部24は、入力された判定結果を統合し、最終判定結果を出力する。
 図9は、検査装置100による検査処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ4で撮影し、入力画像系列が生成される(ステップS31)。この入力画像系列は、実際の検査対象物を撮影した画像である。次に、対象物体領域抽出部21は、入力画像系列から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列36を出力する(ステップS32)。
 次に、グループ識別部22は、対象物体画像系列36から特徴量を抽出してN個のグループ識別を行い、グループ毎に画像系列を出力する(ステップS33)。次に、N個の認識器は、それぞれ対応するグループの画像系列に基づき異常判定を行う(ステップS34)。次に、統合部24は、グループ毎の認識器23の判定結果を統合して最終判定を行う(ステップS35)。そして、処理は終了する。
 なお、グループ識別部22は、対象物体画像系列を複数のグループにグループ分けするが、複数のグループのうちに、1つの撮影画像も属しないグループがある場合、検査装置100は検査が不十分と判定し、最終判定結果として出力してもよい。
 以上のように、第1実施形態によれば、認識器23の認識モデルの学習とグループ識別部22のグループ識別モデルの学習とを交互に繰り返し、必要な数の認識モデルと、画像系列をその数にグループ分けするグループ識別モデルとを生成する。よって、適切な数の認識器を用いて異常判定の精度を向上させることができる。
 <第2実施形態>
 次に、第2実施形態について説明する。第2実施形態では、グループ識別部と認識器をニューラルネットワーク(NN:Neural Network)で構成し、エンドツーエンド(End to End)の学習を行う。これにより、グループ識別部と認識器が一連となり、一貫して学習が行われる。
 [ハードウェア構成]
 第2実施形態の検査装置200のハードウェア構成は、第1実施形態と同様であるので説明を省略する。
 [機能構成]
 図10は、第2実施形態の検査装置200の機能構成を示す。図示のように、第2実施形態では、検査装置200は、対象物体領域抽出部21と、ニューラルネットワーク(NN)50と、統合部24とを備える。対象物体領域抽出部21と、統合部24は第1実施形態の検査装置100と同様である。
 図11は、NN50の構成を模式的に示す。NN50は、前段NNと後段NNを備える。前段NNには、対象物体画像系列が入力される。前段NNは、グループ識別部に相当し、比較的軽量な構造を有する。前段NNは、入力された対象物体画像系列に基づき、画像単位で対応する重みを出力する。この重みは、対象物体画像系列に含まれる各画像の特徴量に基づいて算出され、同じような画像特徴を有する画像に対しては同じような重みが割り当てられる。よって、この重みは、各画像を画像特徴により識別した結果と捉えることができる。なお、前段NNは、画素単位で重みを出力するようにしてもよい。重みは、「0」~「1」の値である。前段NNが出力した重みは、後段NNに入力される。
 対象物体画像系列は後段NNにも入力される。後段NNは、異常判定を行う認識器に相当し、比較的重量な構造を有する。後段NNは、入力された対象物体画像系列から画像の特徴量を抽出して異常判定を行い、異常度を出力する。後段NNが出力した異常度は統合部24により統合され、最終判定結果として出力される。
 後段NNとしては、例えばCNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)などを用いることができる。後段NNがCNNである場合、前段NNが出力した重みを、画像単位で算出された損失に掛けて学習を行う。後段NNがRNNである場合、前段NNが出力した重みを、時系列特徴に掛けて学習を行う。なお、前段NNが画素単位で重みを出力する場合、後段NNは、中間層の特徴マップ(feature map)にも重みを掛ける構造とする。この場合には、特徴マップのサイズに応じて、前段NNが出力する重みをリサイズすることが必要となる。
 上記のようにNNを前段NNと後段NNにより構成し、同時に一貫して学習することにより、後段NNによる認識精度が上がるように前段NNの重みづけが学習される。その際に、認識の難しい画像に対する重みが増加し、認識の難しい画像の認識能力が向上することが期待される。
 なお、第2実施形態では、認識器に相当する後段NNは1つのNNであるが、重みづけをアテンション(Attention)のように使うことで、後段NN内の異なるパラメータ集合を機能的に複数の認識モデルのように使用している。
 [学習時]
 (学習時の構成)
 図12は、NN50の学習時の構成を示す。NN50は、重みづけ部51と、認識器52と、学習部53とを備える。重みづけ部51は前段NNにより構成され、認識器52は後段NNにより構成される。重みづけ部51は、対象物体画像系列32の画像単位で重み生成し、認識器52へ出力する。重みづけ部は前述のように、画素単位で重みを出力してもよい。なお、図12の破線54は、認識器52がRNNの場合に、重みが認識器52に入力されることを示している。
 認識器52は、重みづけ部51が出力する重みに基づいて対象物体画像系列32の特徴量を抽出して異常判定を行い、異常度を出力する。学習部53は、入力ラベル系列33と、認識器52が出力する異常度とに基づいて重みづけ部51及び認識器52の学習を行い、重みづけ部パラメータP3及び認識器パラメータP4を生成する。
 (学習処理)
 図13は、NN50の学習処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ4で撮影し、入力画像系列31が生成される(ステップS41)。次に、対象物体領域抽出部21は、入力画像系列31から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列32を出力する(ステップS42)。
 次に、重みづけ部51は、前述の前段NNにより、対象物体画像系列32について画像単位(又は画素単位)で重みを出力する(ステップS43)。次に、認識器52は、前述の後段NNにより推論を行う(ステップS44)。なお、NN50がRNNである場合、認識器52はステップS43で出力された重みを用いて時系列特徴に重みづけする。
 次に、学習部53は、認識器52の推論結果と入力ラベルとを用いて重みづけ部51及び認識器52の学習を行い、重みづけ部パラメータP3及び認識器パラメータP4を得る(ステップS45)。なお、NN50がCNNである場合、学習部53は、ステップS43で出力された重みを用いて損失に重みづけする。そして、学習処理は終了する。
 [検査時(推論時)]
 (検査時の構成)
 図14は、検査装置200の検査時の構成を示す。検査時において、検査装置200は、重みづけ部51と、認識器52と、統合部24とを備える。重みづけ部51と認識器52は、NN50により構成される。なお、重みづけ部51には学習処理で得られた重みづけ部パラメータP3が設定され、認識器52には学習処理で得られた認識器パラメータが設定される。
 重みづけ部51には、実際の検査対象物を撮影した画像から得られた対象物体画像系列36が入力される。重みづけ部51は、対象物体画像系列に基づいて画像単位(又は画素単位)で重みを生成し、認識器52へ出力する。認識器52は、対象物体画像系列32と重みとを用いて異常判定を行い、判定結果として異常度を統合部24へ出力する。統合部24は、入力された異常度を統合し、最終判定結果を出力する。
 (検査処理)
 図15は、検査装置200による検査処理のフローチャートである。この処理は、図2に示すプロセッサ12が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ4で撮影し、入力画像系列が生成される(ステップS51)。この入力画像系列は、実際の検査対象物を撮影した画像である。次に、対象物体領域抽出部21は、入力画像系列から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列36を出力する(ステップS52)。
 次に、重みづけ部51は、対象物体画像系列36の画像単位(又は画素単位)で重みを出力する(ステップS53)。次に、認識器52は、対象物体画像系列36の異常判定を行う(ステップS54)。なお、NN50がRNNの場合、認識器52はステップS53で出力された重みで時系列特徴の重みづけを行う。次に、統合部24は、認識器52から出力された異常度を統合して最終判定を行う(ステップS55)。そして、処理は終了する。
 以上のように、第2実施形態では、グループ識別部と認識器をNNで構成し、同時に一貫して学習する。具体的に、前段NNでグループ識別器を構成し、後段NNで認識器を構成する。よって、前段NNによりグループ識別を行うとともに、後段NN内の異なるパラメータ集合を機能的に複数の認識モデルのように使用して異常判定を行うことができる。
 <第3実施形態>
 図16は、第3実施形態に係る学習装置の機能構成を示すブロック図である。学習装置60は、取得手段61と、学習手段62とを備える。
 図17は、学習装置60による処理のフローチャートである。まず、取得手段61は、対象物を撮影した時系列の撮影画像を取得する(ステップS61)。次に、学習手段62は、画像中の特徴量に基づいて撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する複数の認識モデルと、を同時に学習する(ステップS62)。
 <第4実施形態>
 図18は、第4実施形態に係る検査装置の機能構成を示すブロック図である。検査装置70は、取得手段71と、グループ識別手段72と、認識手段73と、統合手段74とを備える。
 図19は、検査装置70による処理のフローチャートである。まず、取得手段71は、対象物を撮影した時系列の撮影画像を取得する(ステップS71)。次に、グループ識別手段72は、グループ識別モデルを用いて、画像中の特徴量に基づいて撮影画像から複数のグループを識別する(ステップS72)。次に、認識手段73は、複数の認識モデルを用いて、各グループに属する撮影画像を認識して対象物の異常を判定する(ステップS73)。なお、グループ識別モデルと複数の認識モデルは同時に学習されたものである。そして、統合手段74は、複数の認識モデルによる判定結果を統合して最終判定結果を出力する(ステップS74)。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 対象物を撮影した時系列の撮影画像を取得する取得手段と、
 画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習手段と、
 を備える学習装置。
 (付記2)
 前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習を交互に繰り返し行う付記1に記載の学習装置。
 (付記3)
 前記学習手段は、前記認識モデルによる推論結果が不正解を含む場合に、前記複数を増加させる付記2に記載の学習装置。
 (付記4)
 前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習の繰り返し回数が所定回数に達するか、前記認識モデルの精度が所定の精度に達するか、前記認識モデルの精度の改善幅が所定の閾値以下になったかのいずれかの場合に、学習を終了する付記2又は3に記載の学習装置。
 (付記5)
 前記認識モデルは、前記撮影画像に含まれる前記対象物の異常を判定する付記1乃至4のいずれか一項に記載の学習装置。
 (付記6)
 前記学習手段は、前段NNと後段NNを含む1つのNNを学習し、
 前記グループ識別モデルは前段NNにより構成され、前記複数の認識モデルは後段NNにより構成されている付記1に記載の学習装置。
 (付記7)
 前記前段NNは、前記グループの識別の結果を示す重みを前記後段NNに出力し、
 前記後段NNは、前記撮影画像と前記重みとに基づいて、前記撮影画像に含まれる前記対象物の異常度を出力する付記6に記載の学習装置。
 (付記8)
 対象物を撮影した時系列の撮影画像を取得し、
 画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習する学習方法。
 (付記9)
 対象物を撮影した時系列の撮影画像を取得し、
 画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 (付記10)
 対象物を撮影した時系列の撮影画像を取得する取得手段と、
 グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別手段と、
 前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定する認識手段と、
 前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する統合手段と、
 を備え、
 前記グループ識別モデルと前記複数の認識モデルは同時に学習されたものである検査装置。
 (付記11)
 同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
 対象物を撮影した時系列の撮影画像を取得し、
 前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
 前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
 前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する検査方法。
 (付記12)
 同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
 対象物を撮影した時系列の撮影画像を取得し、
 前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
 前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
 前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
 以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 4 高速カメラ
 5 錠剤
 7 反転機構
 12 プロセッサ
 21 対象物体領域抽出部
 22 グループ識別部
 23 認識器
 24 統合部
 41 認識器学習部
 42 グループ学習部
 50 ニューラルネットワーク(NN)
 51 重みづけ部
 52 認識器
 53 学習部
 100、200 検査装置

Claims (12)

  1.  対象物を撮影した時系列の撮影画像を取得する取得手段と、
     画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習手段と、
     を備える学習装置。
  2.  前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習を交互に繰り返し行う請求項1に記載の学習装置。
  3.  前記学習手段は、前記認識モデルによる推論結果が不正解を含む場合に、前記複数を増加させる請求項2に記載の学習装置。
  4.  前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習の繰り返し回数が所定回数に達するか、前記認識モデルの精度が所定の精度に達するか、前記認識モデルの精度の改善幅が所定の閾値以下になったかのいずれかの場合に、学習を終了する請求項2又は3に記載の学習装置。
  5.  前記認識モデルは、前記撮影画像に含まれる前記対象物の異常を判定する請求項1乃至4のいずれか一項に記載の学習装置。
  6.  前記学習手段は、前段NNと後段NNを含む1つのNNを学習し、
     前記グループ識別モデルは前段NNにより構成され、前記複数の認識モデルは後段NNにより構成されている請求項1に記載の学習装置。
  7.  前記前段NNは、前記グループの識別の結果を示す重みを前記後段NNに出力し、
     前記後段NNは、前記撮影画像と前記重みとに基づいて、前記撮影画像に含まれる前記対象物の異常度を出力する請求項6に記載の学習装置。
  8.  対象物を撮影した時系列の撮影画像を取得し、
     画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習する学習方法。
  9.  対象物を撮影した時系列の撮影画像を取得し、
     画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
  10.  対象物を撮影した時系列の撮影画像を取得する取得手段と、
     グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別手段と、
     前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定する認識手段と、
     前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する統合手段と、
     を備え、
     前記グループ識別モデルと前記複数の認識モデルは同時に学習されたものである検査装置。
  11.  同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
     対象物を撮影した時系列の撮影画像を取得し、
     前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
     前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
     前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する検査方法。
  12.  同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
     対象物を撮影した時系列の撮影画像を取得し、
     前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
     前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
     前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
PCT/JP2021/008389 2021-03-04 2021-03-04 学習装置、学習方法、検査装置、検査方法、及び、記録媒体 WO2022185474A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2021/008389 WO2022185474A1 (ja) 2021-03-04 2021-03-04 学習装置、学習方法、検査装置、検査方法、及び、記録媒体
JP2023503280A JPWO2022185474A5 (ja) 2021-03-04 学習装置、学習方法、検査装置、検査方法、及び、プログラム
US18/279,504 US20240153065A1 (en) 2021-03-04 2021-03-04 Learning device, learning method, inspection device, inspection method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/008389 WO2022185474A1 (ja) 2021-03-04 2021-03-04 学習装置、学習方法、検査装置、検査方法、及び、記録媒体

Publications (1)

Publication Number Publication Date
WO2022185474A1 true WO2022185474A1 (ja) 2022-09-09

Family

ID=83155237

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/008389 WO2022185474A1 (ja) 2021-03-04 2021-03-04 学習装置、学習方法、検査装置、検査方法、及び、記録媒体

Country Status (2)

Country Link
US (1) US20240153065A1 (ja)
WO (1) WO2022185474A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04142412A (ja) * 1990-10-04 1992-05-15 Toshiba Corp 欠陥検査装置
JP2004294360A (ja) * 2003-03-28 2004-10-21 Hitachi High-Technologies Corp 欠陥分類方法及び装置
JP2015038441A (ja) * 2013-08-19 2015-02-26 株式会社Screenホールディングス 分類器取得方法、欠陥分類方法、欠陥分類装置およびプログラム
CN109187579A (zh) * 2018-09-05 2019-01-11 深圳灵图慧视科技有限公司 织物疵点检测方法及装置、计算机设备及计算机可读介质
JP2019106090A (ja) * 2017-12-14 2019-06-27 オムロン株式会社 識別装置、識別方法及びプログラム
US20190318469A1 (en) * 2018-04-17 2019-10-17 Coherent AI LLC Defect detection using coherent light illumination and artificial neural network analysis of speckle patterns
JP2020107104A (ja) * 2018-12-27 2020-07-09 オムロン株式会社 画像判定装置、画像判定方法及び画像判定プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04142412A (ja) * 1990-10-04 1992-05-15 Toshiba Corp 欠陥検査装置
JP2004294360A (ja) * 2003-03-28 2004-10-21 Hitachi High-Technologies Corp 欠陥分類方法及び装置
JP2015038441A (ja) * 2013-08-19 2015-02-26 株式会社Screenホールディングス 分類器取得方法、欠陥分類方法、欠陥分類装置およびプログラム
JP2019106090A (ja) * 2017-12-14 2019-06-27 オムロン株式会社 識別装置、識別方法及びプログラム
US20190318469A1 (en) * 2018-04-17 2019-10-17 Coherent AI LLC Defect detection using coherent light illumination and artificial neural network analysis of speckle patterns
CN109187579A (zh) * 2018-09-05 2019-01-11 深圳灵图慧视科技有限公司 织物疵点检测方法及装置、计算机设备及计算机可读介质
JP2020107104A (ja) * 2018-12-27 2020-07-09 オムロン株式会社 画像判定装置、画像判定方法及び画像判定プログラム

Also Published As

Publication number Publication date
JPWO2022185474A1 (ja) 2022-09-09
US20240153065A1 (en) 2024-05-09

Similar Documents

Publication Publication Date Title
CN111179251B (zh) 基于孪生神经网络利用模板比对的缺陷检测系统及方法
WO2018092747A1 (ja) 学習済モデル生成方法、学習済モデル生成装置、信号データ判別方法、信号データ判別装置及び信号データ判別プログラム
Bong et al. Vision-based inspection system for leather surface defect detection and classification
CN111275660B (zh) 一种平板显示器缺陷检测方法及装置
US11915430B2 (en) Image analysis apparatus, image analysis method, and storage medium to display information representing flow quantity
US20240119584A1 (en) Detection method, electronic device and non-transitory computer-readable storage medium
Mazumdar et al. Universal image manipulation detection using deep siamese convolutional neural network
CN113362277A (zh) 一种基于深度学习的工件表面缺陷检测和分割方法
CN114581456A (zh) 一种多图像分割模型的构建方法、图像检测方法及装置
JP2021143884A (ja) 検査装置、検査方法、プログラム、学習装置、学習方法、および学習済みデータセット
D'Angelo et al. Deep learning-based object detection for digital inspection in the mining industry
KR20210086303A (ko) 딥러닝 기반 패턴 검사 장치 및 그 장치를 이용한 검사 방법
CN111310837A (zh) 车辆改装识别方法、装置、系统、介质和设备
JP7338779B2 (ja) 画像認識装置、画像認識方法、及び、プログラム
WO2022185474A1 (ja) 学習装置、学習方法、検査装置、検査方法、及び、記録媒体
CN111598844B (zh) 一种图像分割方法、装置、电子设备和可读存储介质
KR102178238B1 (ko) 회전 커널을 이용한 머신러닝 기반 결함 분류 장치 및 방법
JP7123306B2 (ja) 画像処理装置及び画像処理方法
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
US20220157050A1 (en) Image recognition device, image recognition system, image recognition method, and non-transitry computer-readable recording medium
CN113591761B (zh) 一种视频镜头语言识别方法
WO2022185481A1 (ja) 検査装置、検査方法、及び、記録媒体
Weimer et al. Context-aware deep convolutional neural networks for industrial inspection
US20240071058A1 (en) Microscopy System and Method for Testing a Quality of a Machine-Learned Image Processing Model
Rivera et al. Realtime Recoloring Objects using Artificial Neural Networks through a Cellphone.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21929048

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18279504

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2023503280

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21929048

Country of ref document: EP

Kind code of ref document: A1