WO2021033372A1 - 処理方法およびそれを利用した処理装置 - Google Patents

処理方法およびそれを利用した処理装置 Download PDF

Info

Publication number
WO2021033372A1
WO2021033372A1 PCT/JP2020/018807 JP2020018807W WO2021033372A1 WO 2021033372 A1 WO2021033372 A1 WO 2021033372A1 JP 2020018807 W JP2020018807 W JP 2020018807W WO 2021033372 A1 WO2021033372 A1 WO 2021033372A1
Authority
WO
WIPO (PCT)
Prior art keywords
processing
inspection
unit
image
layer
Prior art date
Application number
PCT/JP2020/018807
Other languages
English (en)
French (fr)
Inventor
正貴 小野
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2021033372A1 publication Critical patent/WO2021033372A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the present disclosure relates to a processing technique, particularly a processing method for executing processing on an image, and a processing device using the processing method.
  • the signal from the sensor attached to the product is subjected to frequency analysis on the time axis by wavelet transform, and neural network processing is executed for the correlation diagram including the frequency analysis result.
  • frequency analysis on the time axis by wavelet transform
  • neural network processing is executed for the correlation diagram including the frequency analysis result.
  • the present disclosure has been made in view of such a situation, and an object thereof is to provide a technique for suppressing a decrease in processing accuracy while suppressing an increase in the amount of learning work.
  • the processing apparatus of a certain aspect of the present disclosure is an input unit for inputting inspection information obtained from an object to be inspected and showing a waveform, and input to the input unit.
  • a neural network for a conversion unit that converts inspection information into an inspection image that shows the time change of frequency components, a reference image that shows the time change of frequency components in a normal object, and an inspection image that is converted by the conversion unit. It is provided with a processing unit that executes the processing of the above, and an output unit that outputs the inspection result of the object to be inspected as the processing result of the processing unit.
  • Another aspect of the present disclosure is also a processing device.
  • This device has an input unit that inputs inspection information that is inspection information acquired from the object to be inspected and that shows the waveform, reference information that shows the waveform of a normal object, and inspection information that is input to the input unit.
  • a processing unit that executes the processing of the neural network and an output unit that outputs the inspection result of the object to be inspected as the processing result of the processing unit are provided.
  • Yet another aspect of the present disclosure is a processing method.
  • This method is a step of inputting inspection information that is inspection information acquired from an object to be inspected and showing a waveform, and a step of converting the input inspection information into an inspection image showing a time change of a frequency component. And the step of executing the neural network processing on the reference image showing the time change of the frequency component in the normal object and the converted inspection image, and the inspection result of the object to be inspected as the processing result of the neural network. It is provided with a step to output.
  • Yet another aspect of the present disclosure is also a processing method.
  • This method is for the step of inputting the inspection information obtained from the object to be inspected and showing the waveform, the reference information showing the waveform in the normal object, and the input inspection information. It includes a step of executing the processing of the neural network and a step of outputting the inspection result of the object to be inspected as the processing result of the neural network.
  • any combination of the above components and the conversion of the expression of the present disclosure between a method, a device, a system, a computer program, a recording medium on which a computer program is recorded, or the like is also effective as an aspect of the present disclosure. is there.
  • FIG. 2 (a)-(b) is a diagram showing an outline of processing of the conversion unit of FIG. 1.
  • 3 (a)-(c) are diagrams showing an outline of the processing of the conversion unit of FIG. 1.
  • 4 (a)-(c) are diagrams showing images used in the processing unit of FIG. 5
  • (a)-(c) are views showing the configuration of the processing unit of FIG. 1.
  • 9 (a)-(c) are views showing the configuration of the processing unit according to the fourth modification. It is a figure which shows the structure of the processing apparatus which concerns on Example 2.
  • FIG. 1 shows the outline of the processing in the processing part of FIG.
  • 3 (a)-(c) are diagrams showing an outline of the processing of the conversion unit of FIG. 1.
  • the first embodiment relates to a processing device for determining whether or not a product such as a rotating device such as a motor contains an abnormality. So far, 100% of the abnormal noise of the motor has been manually inspected in order to determine whether or not the product contains an abnormality.
  • a processing device for determining whether or not a product such as a rotating device such as a motor contains an abnormality. So far, 100% of the abnormal noise of the motor has been manually inspected in order to determine whether or not the product contains an abnormality.
  • it is a sensory test there are variations in the judgment criteria depending on the person, variations in the judgment time depending on the person, variations depending on the condition of the person (physical condition, etc.), and difficulty in reflecting customer requests. And there was difficulty in inspection records. That is, there is no objective and measurable quality criterion. Therefore, it is required to rationalize labor saving and stabilize quality by automating abnormal noise identification.
  • the psychoacoustic feature amount is calculated from the voice, and the identification is performed by using the threshold value set for each feature amount.
  • Patent Document 1 it is necessary to relearn each part number of the motor. Due to such re-learning, the amount of learning work increases. However, inadequate learning reduces the accuracy of the process.
  • the processing apparatus converts the waveform shown in the inspection information into the time change of the frequency component based on the information indicating the sound generated in the object to be inspected (hereinafter referred to as “inspection information”).
  • An image hereinafter referred to as “inspection image”
  • the processing device prepares an image (hereinafter, referred to as “reference image”) that shows the time change of the frequency component in a normal object and can be compared with the inspection image.
  • the processing device determines whether the inspection image is normal or defective by executing the processing of the neural network on the combination of the inspection image and the reference image.
  • the processing apparatus learning is performed in advance using information on whether the inspection image is normal or defective with respect to the combination of the inspection image and the reference image as teacher data. That is, it is learned whether the comparison result between the inspection image and the reference image is normal or defective. As a result, even if the reference image changes due to the product renewal, the new reference image and the inspection image need only be input to the processing device, and even an unlearned sound pattern can be determined.
  • FIG. 1 shows the configuration of the processing device 100.
  • the processing device 100 is connected to the acceleration pickup 10, the amplifier 12, and the A / D converter 14, and includes an input unit 110, a conversion unit 112, a processing unit 114, a storage unit 116, and an output unit 118.
  • the processing unit 114 is learned in the learning process, and the processing unit 114 is used in the determination process.
  • the determination process is a process of determining whether the inspection image is normal or defective by using a neural network for the inspection image and the reference image.
  • the learning process may be performed by a device other than the processing device 100, and the learning result may be applied to the processing unit 114.
  • the acceleration pickup 10 is an inertial sensor for the purpose of measuring acceleration.
  • the acceleration pickup 10 is attached to an object to be inspected, for example, a bearing of a motor, and detects vibration due to the abnormal noise when the object makes an abnormal noise due to a failure or the like.
  • the acceleration pickup 10 does not detect vibration due to abnormal noise when the object is normal.
  • the detection result in the acceleration pickup 10 is indicated by a voltage waveform with respect to the passage of time. Vibration is indicated when the absolute value of the voltage is greater than the threshold, and no vibration is indicated when the absolute value of the voltage is less than or equal to the threshold. Therefore, the detection result of the acceleration pickup 10 indicates whether or not vibration is generated, that is, whether or not abnormal noise is generated.
  • Such a detection result can be said to be voice information from the object to be inspected.
  • the acceleration pickup 10 outputs the detection result to the amplifier 12.
  • the amplifier 12 amplifies the detection result from the acceleration pickup 10 and outputs the amplified detection result to the A / D converter 14.
  • the A / D converter 14 converts the detection result of the analog signal into the detection result of the digital signal by performing the A / D conversion on the detection result from the amplifier 12.
  • the A / D converter 14 outputs the detection result of the digital signal to the processing device 100.
  • the input unit 110 of the processing device 100 receives the detection result of the digital signal from the A / D converter 14.
  • learning information the detection result used in the learning process
  • inspection information the detection result used in the determination process
  • the learning information and the inspection information are both voice information showing waveforms.
  • the input unit 110 outputs learning information or inspection information to the conversion unit 112.
  • the conversion unit 112 converts the learning information received from the input unit 110 into a learning image showing the time change of the frequency component in the case of the learning process, and in the case of the determination process, the inspection received from the input unit 110.
  • the information is converted into an inspection image showing the time variation of the frequency component.
  • 2 (a)-(b) show an outline of the processing of the conversion unit 112.
  • FIG. 2A shows learning information or inspection information.
  • the horizontal axis represents time and the vertical axis represents intensity, for example voltage.
  • the learning information or the inspection information shows a waveform.
  • Certain short periods such as the first period 300, the second period 302, and the third period 304 are defined. These are, for example, 6 milliseconds. Further, adjacent periods such as the first period 300 and the second period 302, and the second period 302 and the third period 304 are arranged so as to partially overlap.
  • the conversion unit 112 Fourier transforms the waveform in the first period 300. As shown in FIG. 2B, the result of the Fourier transform is shown as the first frequency data 400. Further, the conversion unit 112 Fourier transforms the waveforms in the second period 302 and the third period 304. The results of the Fourier transform are shown as second frequency data 402 and third frequency data 404, respectively, as shown in FIG. 2 (b).
  • the first frequency data 400, the second frequency data 402, and the third frequency data 404 are collectively referred to as frequency data, the horizontal axis of the frequency data indicates time, and the vertical axis of the frequency data indicates intensity.
  • FIG. 3 (a)-(c) show an outline of the processing of the conversion unit 112.
  • FIG. 3A shows the first frequency data 400 of FIG. 2B
  • FIG. 3B shows the second frequency data 402 of FIG. 2B
  • FIG. 3C shows a spectrogram generated based on frequency data such as the first frequency data 400.
  • the horizontal axis represents time and the vertical axis represents frequency. This is generated by arranging each frequency data vertically while shifting them horizontally.
  • the intensity of the frequency data is indicated by the difference in color, the difference in density, and the like.
  • the spectrogram in the case of the learning process corresponds to the image for learning
  • the spectrogram in the case of the determination process corresponds to the inspection image.
  • the conversion unit 112 outputs the learning image or the inspection image to the processing unit 114.
  • the processing unit 114 receives the learning image or the inspection image from the conversion unit 112.
  • 4 (a)-(c) show the image used in the processing unit 114.
  • 4 (a)-(b) show a learning image or an inspection image in a situation different from that of FIG. 3 (c).
  • FIG. 4A shows a learning image or an inspection image when the object is normal
  • FIG. 4B shows a learning image or an inspection image when the object makes an abnormal noise due to a failure or the like.
  • FIG. 4C shows a reference spectrogram for the object to be inspected. It can be said that this is a spectrogram acquired in advance for a normal object.
  • this spectrogram that is, an image showing the time change of the frequency component is referred to as a "reference image”.
  • the reference image is stored in the storage unit 116.
  • the processing unit 114 executes the neural network processing on the reference image and the learning image in the case of the learning process, and executes the neural network process on the reference image and the inspection image in the case of the determination process.
  • FIG. 5A shows an example of the configuration of the processing unit 114.
  • the processing unit 114 includes a first convolutional layer 142a, a second convolutional layer 142b, a third convolutional layer 142c, a fourth convolutional layer 142d, and a first pooling layer 144a, collectively referred to as a pooling layer 144. 2 pooling layer 144b, 3rd pooling layer 144c, 4th pooling layer 144d, convolutional layer 146, and fully bonded layer 148 are included.
  • the combination layer 146 is connected to the conversion unit 112 and the storage unit 116 of FIG. 1, the inspection image is input from the conversion unit 112, and the reference image is input from the storage unit 116.
  • the combination layer 146 combines the inspection image and the reference image.
  • the inspection image and the reference image which are two inputs, are merged into one as separate channels. In this case, a combination of the inspection image and the reference image is generated.
  • the difference between the corresponding pixels of the inspection image and the reference image, which are two inputs, is calculated, and an image in which the differences are arranged for each pixel (hereinafter, referred to as “difference image”) is generated. ..
  • the inspection image, the reference image, and the difference image are merged into one as separate channels. In this case, a combination of the inspection image, the reference image, and the difference image is generated.
  • the reference image and the difference image are merged into one as separate channels. In this case, a combination of the reference image and the difference image is generated.
  • the inspection image and the difference image are merged into one as separate channels. In this case, a combination of the inspection image and the difference image is generated.
  • the combination layer 146 outputs the result of the combination (hereinafter, referred to as “union image”). Inspection images, reference images, and difference images are collectively referred to as "images”.
  • the convolutional layer 142 executes spatial filtering for each channel of the union image while shifting a spatial filter having a size smaller than the size of the image. Since spatial filtering is a known technique, description thereof will be omitted here, but this spatial filtering corresponds to a convolutional process, and the feature amount of the image is extracted by the convolutional process. Padding and the like may be performed on the convolutional layer 142. Further, the convolutional layer 142 may perform a plurality of spatial filters in parallel by using a plurality of spatial filters in parallel for the images of each channel. The parallel use of such a plurality of spatial filters increases the number of images. This corresponds to an increase in the number of channels in the union image.
  • the pooling layer 144 reduces the size of the image by combining a plurality of pixels included in an arbitrary region in the image of each channel in the combined image into one pixel.
  • average pooling or maximum pooling is performed in order to combine the plurality of pixels into one pixel.
  • average pooling the average value of multiple pixel values in the area is used for one pixel
  • maximum pooling the maximum value of multiple pixel values in the area is used for one pixel. ..
  • the pooling process is performed in order to enhance the robustness against the translational movement of the representative value or the average value in the region of interest.
  • the first convolutional layer 142a, the first convolutional layer 144a, the second convolutional layer 142b, the second convolutional layer 144b, the third convolutional layer 142c, the third convolutional layer 144c, the fourth convolutional layer 142d, and the fourth convolutional layer 144d The processing is executed in the order of. That is, the convolution process and the pooling process are repeatedly executed for the union image. Further, by repeating the convolution process and the pooling process, the size of the image of each channel is reduced in order. As a result, a combined image having a spatial dimension of 1 ⁇ 1 and having one or more channels is output to the fully connected layer 148.
  • the fully connected layer 148 receives the image from which the feature amount has been extracted.
  • Fully connected layer 148 identifies images by performing classification into a plurality of classes based on features. Since a known technique may be used for the treatment in the fully bonded layer 148, the description thereof is omitted here, but in the classification result in the fully bonded layer 148, for each of the two classes "OK” and "NG". The probability is shown.
  • "OK” corresponds to the case where the inspection image does not contain an abnormal noise component with respect to the reference image
  • "NG" corresponds to the case where the inspection image contains an abnormal noise component with respect to the reference image. Corresponds to. Return to FIG.
  • the learning image is used in the processing unit 114. It is known that the learning image contains the abnormal sound component or does not contain the abnormal sound component, unlike the inspection image in which it is unknown whether or not the abnormal sound component is contained. Is.
  • the processing unit 114 receives teacher data indicating whether or not the learning image contains an abnormal sound component with respect to the reference image. The teacher data indicates "OK" or "NG”.
  • the processing unit 114 trains the coefficients of the spatial filter of each convolutional layer 142 so that the relationship between the learning image and the reference image becomes teacher data. Since a known technique may be used for learning the coefficients of the spatial filter itself, the description thereof will be omitted here. As described above, the neural network in the processing unit 114 is learned so that the inspection result output from the output unit 118 indicates a non-defective product or a defect.
  • the processing unit 114 uses the inspection image.
  • the coefficient of the spatial filter derived by the learning process in another device is set in the processing unit 114.
  • the processing unit 114 executes neural network processing on the inspection image and the reference image.
  • the output unit 118 outputs information indicating whether or not the inspection image contains an abnormal noise component with respect to the reference image, that is, the inspection result of the object to be inspected.
  • FIG. 5B shows another example of the configuration of the processing unit 114.
  • the processing unit 114 includes a 1-1 convolutional layer 142aa, a 1-2 convolutional layer 142ab, a 1-3 convolutional layer 142ac, a 2-1 convolutional layer 142ba, and a 2-2 convolutional layer, which are collectively referred to as a convolutional layer 142.
  • the 1-1 convolutional layer 142aa, the 1-1 convolutional layer 144aa, the 1-2 convolutional layer 142ab, the 1-2 convolutional layer 144ab, the 1-3 convolutional layer 142ac, and the 1-3 convolutional layer 144ac are arranged in this order. Be done. These perform the above-mentioned processing on the reference image.
  • the 2-1 convolutional layer 142ba, the 2-1 convolutional layer 144ba, the 2-2 convolutional layer 142bb, the 2-2 convolutional layer 144bb, the 2-3 convolutional layer 142bc, and the 2-3 convolutional layer 144bc are arranged in this order. Be done. These perform the above-mentioned processing on the inspection image.
  • the processing result from the 1-3 pooling layer 144ac and the processing result from the 2-3 pooling layer 144bc are input.
  • the processing result from the 1-3 pooling layer 144ac is the processing result for the reference image (hereinafter referred to as "first processing result")
  • the processing result from the 2-3 pooling layer 144bc is the processing result for the inspection image (hereinafter referred to as "first processing result”).
  • first processing result and the second processing result may be composed of a plurality of channels.
  • the combination layer 146 combines the first processing result and the second processing result.
  • the combination may be made as in any of the above-mentioned first to fifth examples.
  • the difference image is generated between the channels corresponding to each other of the first processing result and the second processing result.
  • the combination layer 146 outputs the result of the combination (hereinafter, also referred to as “union image”).
  • the 4th convolutional layer 142d and the 4th pooling layer 144d sequentially execute the convolutional processing and the pooling processing on the union image.
  • the fully connected layer 148 is configured in the same manner as in FIG. 5 (a). Since the learning process and the determination process of the processing device 100 for the configuration of the processing unit 114 are the same as those up to now, the description thereof will be omitted here.
  • the weighting coefficient when executing the processing of the convolutional layer 142 on the inspection image and the weighting coefficient when executing the processing of the convolutional layer 142 on the reference image may be shared. Specifically, the weighting coefficient is common between the 1-1 convolutional layer 142aa and the 2-1 convolutional layer 142ba.
  • the weighting coefficient is common between the 1-2 convolutional layer 142ab and the 2nd-2nd convolutional layer 142bb, and the weighting coefficient is shared between the 1-3 convolutional layer 142ac and the 2-3 convolutional layer 142bc. Be common.
  • FIG. 5C shows yet another example of the configuration of the processing unit 114.
  • the processing unit 114 includes a 1-1 convolutional layer 142aa, a 1-2 convolutional layer 142ab, a 1-3 convolutional layer 142ac, a 1-4 convolutional layer 142ad, and a 2-1 convolutional layer, which are collectively referred to as a convolutional layer 142.
  • the processing result from the 1-4 pooling layer 144ad and the processing result from the 2-4 pooling layer 144bd are input.
  • the processing result from the 1-4 pooling layer 144ad is the processing result for the reference image (hereinafter, also referred to as “the first processing result”)
  • the processing result from the 2-4 pooling layer 144bd is the processing for the inspection image.
  • the result (hereinafter, also referred to as "second processing result”).
  • the combination layer 146 combines the first processing result and the second processing result.
  • the combination may be made as in any of the above-mentioned first to fifth examples.
  • the combination layer 146 outputs the result of the combination (hereinafter, also referred to as “union image”).
  • the fully connected layer 148 is configured in the same manner as in FIG. 5 (a). Since the learning process and the determination process of the processing device 100 for the configuration of the processing unit 114 are the same as those up to now, the description thereof will be omitted here.
  • the weighting coefficient when executing the processing of the convolutional layer 142 on the inspection image and the weighting coefficient when executing the processing of the convolutional layer 142 on the reference image may be shared. Specifically, the weighting coefficient is common between the 1-1 convolutional layer 142aa and the 2-1 convolutional layer 142ba, and between the 1-2 convolutional layer 142ab and the 2-2 convolutional layer 142bb. The weighting factor is common.
  • the weighting coefficient is shared between the 1-3 convolutional layer 142ac and the 2-3 convolutional layer 142bc, and the weighting coefficient is shared between the 1-4 convolutional layer 142ad and the 2-4 convolutional layer 142bd. Be common.
  • the fully bonded layer 148 may be excluded from the configuration of the processing unit 114. Such a configuration will be described with reference to FIG. FIG. 6 shows an outline of processing in the processing unit 114. Here, for the sake of clarity, it is shown as one input, and the combination layer 146 is omitted. However, as in FIGS. 5 (a)-(c), it is sufficient that the number of inputs is two and the combination layer 146 is included.
  • the processing unit 114 includes a first convolutional layer 142a, a second convolutional layer 142b, a third convolutional layer 142c, a fourth convolutional layer 142d, a fifth convolutional layer 142e, a sixth convolutional layer 142f, and a pooling layer 144, which are collectively referred to as the convolutional layer 142.
  • the first pooling layer 144a, the second pooling layer 144b, the third pooling layer 144c, the fourth pooling layer 144d, and the fifth pooling layer 144e are included.
  • Such a convolutional layer 142 and a pooling layer 144 show an image of a block that executes each process.
  • the input image 140 does not include the fully connected layer 148 in the neural network in the processing unit 114 that collectively refers to the images such as the inspection image, the learning image, the reference image, and the combination image described above, as in the completely convolutional neural network. Therefore, there is no limit on the size of the input image 140.
  • the input image 140 is input to the first convolutional layer 142a.
  • the layer 144d, the fifth convolutional layer 142e, the fifth pooling layer 144e, and the sixth convolutional layer 142f are arranged in this order. That is, the convolution process and the pooling process are repeatedly executed as before.
  • the processing unit 114 in such a configuration also learns the coefficient of the spatial filter of each convolutional layer 142 so that the relationship between the learning image and the reference image becomes the teacher data.
  • the size of the teacher data has a spatial dimension of 1 ⁇ 1. Therefore, the teacher data only indicates one of a limited number of classes for the relationship between the training image and the reference image. That is, it is only necessary to indicate whether or not the teacher data for one channel corresponds to one class. Therefore, the amount of work for generating one teacher data is reduced as compared with the case of generating an image in which the object is segmented by coloring. As a result, it is possible to increase the number of teacher data while suppressing the increase in the amount of work.
  • the learning image and the reference image are original images in which the teacher data is output when the determination process is executed accurately, and the size is such that the teacher data has a spatial dimension of 1 ⁇ 1. It is decided.
  • the image used for the learning process and the image used for the determination process may have different sizes. Since a known technique may be used for learning the coefficients of the spatial filter itself, the description thereof will be omitted here.
  • a plurality of acceleration pickups 10, amplifiers 12, and A / D converters 14 of FIG. 1 may be provided.
  • the plurality of acceleration pickups 10 are mounted at different positions on the object to be inspected, for example, the bearing of the motor, and detect vibration due to abnormal noise at different positions.
  • the plurality of amplifiers 12 and the plurality of A / D converters 14 are the same as before, and the input unit 110 of the processing device 100 inputs a plurality of inspection information.
  • the plurality of inspection information is information detected by the plurality of acceleration pickups 10.
  • the conversion unit 112 converts a plurality of inspection information into a plurality of inspection images.
  • the processing in the conversion unit 112 is as described above.
  • the conversion unit 112 outputs a plurality of inspection images to the processing unit 114.
  • the processing unit 114 executes neural network processing on the reference image and the plurality of inspection images converted by the conversion unit 112.
  • FIG. 7 shows the configuration of the processing unit 114.
  • the processing unit 114 includes a 1-1 convolution layer 142aa, a 1-2 convolution layer 142ab, a 1-3 convolution layer 142ac, a 2-1 convolution layer 142ba, and a 2-2 convolution layer, which are collectively referred to as a convolution layer 142.
  • the processing unit 114 receives the N-1 inspection image from the first inspection image, that is, the inspection image of N-1 type from the conversion unit 112.
  • the 1-1 convolutional layer 142aa receives the reference image
  • the 2-1 convolutional layer 142ba receives the first inspection image
  • the 3-1 convolutional layer 142ca receives the second inspection image
  • the convolutional layer 142na receives the N-1 inspection image.
  • the 1-1 convolutional layer 142aa, the 1-1 convolutional layer 144aa, the 1-2 convolutional layer 142ab, the 1-3 convolutional layer 142ac, and the 1-2 convolutional layer 144ab are neural networks for the reference image as before. Execute the processing of.
  • the 2-1 convolutional layer 142ba, the 2-1 convolutional layer 144ba, the 2nd-2nd convolutional layer 142bb, the 2-3 convolutional layer 142bb, and the 2nd-2nd convolutional layer 144bb are neural network processing for the first inspection image. To execute. The same applies to other inspection images.
  • the combination layer 146 receives the processing results from each of the 1-2 pooling layer 144ab to the N-2 pooling layer 144nb. The combination layer 146 combines these processing results as described above. At the time of combination, different inspection images may be combined with different colors, which enables processing by color determination. The combination layer 146 outputs the result of the combination (hereinafter, also referred to as “union image”).
  • the first dense block 150a is composed of a combination of a convolution layer 142, a combination layer 146, and the like. Since a known technique may be used for the Dens block 150, description thereof will be omitted here.
  • the third pooling layer 144c, the second dense block 150b, and the fourth pooling layer 144d following the first dense block 150a perform the same processing as before, and thus the description thereof will be omitted here.
  • the convolution layer 142 and the dense block 150 of FIG. 7 are learned according to FIG.
  • the configuration of the processing unit 114 shown in FIG. 7 is similar to that of FIG. 5 (b). However, the configuration of the processing unit 114 may be similar to that of FIG. 5 (a) or that of FIG. 5 (c).
  • the inspection image and the reference image may be images having N-dimensional M channels (N, M integers).
  • N dimension includes one dimension, two dimensions, three dimensions, four dimensions, ...
  • the processing unit 114 may perform the same processing as before.
  • the processing unit 114 so far includes the convolutional layer 142 and the pooling layer 144, but the convolutional layer 142 and the pooling layer 144 may not be included.
  • FIG. 8 shows the configuration of the processing unit 114.
  • the processing unit 114 includes a combination layer 146, a 1-1 total bond layer 148 aa, a 1-2 total bond layer 148 ab, a 1-3 total bond layer 148 ac, and a 2-1 total bond layer 148. Includes layer 148ba, 2-2 fully bonded layer 148 bb, 2-3 fully bonded layer 148 bc, and 4th fully bonded layer 148d. That is, except for the combination layer 146, only the fully connected layer 148 is included.
  • the 1-1 fully connected layer 148aa receives the reference image
  • the 2-1 fully connected layer 148ba receives the inspection image.
  • the 1-1 fully bonded layers 148aa to the 1-3 fully bonded layers 148ac perform the processing of the fully bonded layers on the reference image
  • the combination layer 146 receives the treatment result from the 1-3 fully bonded layer 148ac and the 2-3 fully bonded layer 148 bc.
  • the combination layer 146 combines these processing results as described above.
  • the combination layer 146 outputs the result of the combination (hereinafter, also referred to as “union image”).
  • the fourth fully connected layer 148d executes the processing of the fully connected layer on the union image.
  • the configuration of the processing unit 114 shown in FIG. 8 is similar to that of FIG. 5 (b). However, the configuration of the processing unit 114 may be similar to that of FIG. 5 (a) or that of FIG. 5 (c).
  • the combination layer 146 so far a plurality of channels are merged into one as in the first example and the third to fifth examples of the combination.
  • the merger is not limited to this.
  • 9 (a)-(c) show the structure of the processing unit 114.
  • the first input image 200a and the second input image 200b are two images input to the combination layer 146, and include a learning image, an inspection image, a reference image, and a processing result.
  • FIG. 9A shows the merger of the combination layer 146 so far, and the first input image 200a and the second input image 200b of the two channels are merged into one channel.
  • the number of input images 200 that collectively refer to the first input image 200a and the second input image 200b is not limited to "2".
  • the image made into one channel corresponds to the above-mentioned union image.
  • the first input image 200a and the second input image 200b of the two channels are arranged into one channel by arranging them in the x-axis direction.
  • the first input image 200a and the second input image 200b of the two channels are arranged into one channel by arranging them in the y-axis direction.
  • the subject of the device, system, or method in the present disclosure comprises a computer. By executing the program by this computer, the function of the subject of the device, system, or method in the present disclosure is realized.
  • a computer has a processor that operates according to a program as a main hardware configuration. The type of processor does not matter as long as the function can be realized by executing the program.
  • the processor is composed of one or a plurality of electronic circuits including a semiconductor integrated circuit (IC) or an LSI (Large Scale Integration).
  • the plurality of electronic circuits may be integrated on one chip or may be provided on a plurality of chips.
  • the plurality of chips may be integrated in one device, or may be provided in a plurality of devices.
  • the program is recorded on a non-temporary recording medium such as a computer-readable ROM, optical disc, or hard disk drive.
  • the program may be stored in the recording medium in advance, or may be supplied to the recording medium via a wide area communication network including the Internet or the like.
  • the neural network by executing neural network processing on the inspection image and the reference image, information indicating whether or not the inspection image contains an abnormal noise component as a comparison result of the two images. Can be output. Further, since the result of comparing the two images is output, the amount of learning by the new reference image can be reduced even if the reference image changes. Further, even if the reference image is changed, the amount of learning by the new reference image is reduced, so that an increase in the amount of learning work can be suppressed. In addition, since the neural network is trained using the defective items included in the inspection image as teacher data, it is possible to suppress a decrease in processing accuracy. Further, since the inspection information showing the waveform is converted into the inspection image showing the time change of the frequency component and then the processing of the neural network is executed, the accuracy of the processing can be improved.
  • the neural network processing is executed for the reference image and the plurality of inspection images, it is determined whether or not the inspection image contains an abnormal noise component based on the detection results from the plurality of acceleration pickups 10. Since the judgment is made, the judgment accuracy can be improved. Further, since the inspection information is voice information acquired from the object to be inspected, abnormal noise generated from the object can be detected. Further, since the neural network is learned so that the inspection result output from the output unit 118 indicates a non-defective product or a defect, the inspection of the object can be executed.
  • the processing of the convolutional layer 142 and the processing of the pooling layer 144 are executed for each of the inspection image and the reference image, the processing of the convolutional layer 142 and the processing of the pooling layer 144 are executed for these combinations. , The processing accuracy can be improved. Further, since the processing of the convolutional layer 142 and the processing of the pooling layer 144 are executed for each of the inspection image and the reference image and then combined, the accuracy of the processing can be improved.
  • the processing accuracy is improved. it can. Further, as a combination, the two inputs are merged into one, so that the processing can be simplified. Further, since the difference between the two inputs is derived as a combination, the processing accuracy can be improved. Further, as a combination, at least one of the two inputs is merged with the difference, so that the processing accuracy can be improved. Since a convolutional neural network in which the spatial filter of the convolutional layer 142 is trained is used for the teacher data having a spatial dimension of 1 ⁇ 1, the amount of work for creating the teacher data can be reduced.
  • the amount of work for creating teacher data is reduced, it is possible to suppress an increase in the amount of learning work. Moreover, since the amount of work for creating teacher data is reduced, the number of teacher data can be increased. Moreover, since the number of teacher data is large, the accuracy of learning can be improved.
  • the inspection image and the reference image are images having N-dimensional M channels (N and M are integers), the applicable range of this embodiment can be expanded. Further, since the processing of the fully connected layer 148 is executed for the combination after the inspection image and the reference image are combined, the degree of freedom of the configuration can be improved. Further, the processing of the fully connected layer 148 is executed on the inspection image, the processing of the fully connected layer 148 is executed on the reference image, and the combination of the processing result on the inspection image and the processing result on the reference image is obtained. Since the processing of the fully connected layer 148 is executed, the degree of freedom of configuration can be improved. Further, the processing of the fully connected layer 148 is executed on the inspection image, the processing of the fully connected layer 148 is executed on the reference image, and the processing result on the inspection image and the processing result on the reference image are combined. The degree of freedom can be improved.
  • the outline of one aspect of the present disclosure is as follows.
  • the processing apparatus (100) of a certain aspect of the present disclosure inputs to an input unit (110) and an input unit (110) for inputting inspection information which is inspection information acquired from an object to be inspected and whose waveform is shown.
  • the conversion unit (112) that converts the inspected information into an inspection image that shows the time change of the frequency component, the reference image that shows the time change of the frequency component in a normal object, and the inspection that is converted by the conversion unit (112). It includes a processing unit (114) that executes neural network processing on an image, and an output unit (118) that outputs an inspection result of an object to be inspected as a processing result of the processing unit (114).
  • the input unit (110) inputs a plurality of inspection information
  • the conversion unit (112) converts the plurality of inspection information input to the input unit (110) into a plurality of inspection images
  • the processing unit (114) converts the plurality of inspection information into a plurality of inspection images.
  • Neural network processing may be executed on the reference image and the plurality of inspection images converted by the conversion unit (112).
  • the inspection information input to the input unit (110) may be voice information acquired from the object to be inspected.
  • the neural network in the processing unit (114) may be learned so that the inspection result output from the output unit (118) indicates a non-defective product or a defect.
  • the output unit (118) may also output the feature amount during the processing of the neural network in the processing unit (114).
  • Yet another aspect of the present disclosure is a processing method.
  • This method is a step of inputting inspection information that is inspection information acquired from an object to be inspected and showing a waveform, and a step of converting the input inspection information into an inspection image showing a time change of a frequency component. And the step of executing the neural network processing on the reference image showing the time change of the frequency component in the normal object and the converted inspection image, and the inspection result of the object to be inspected as the processing result of the neural network. It is provided with a step to output.
  • Example 2 relates to a processing device for determining whether or not a product such as a rotating device such as a motor contains an abnormality, as in the first embodiment.
  • neural network processing has been executed for images such as learning images, inspection images, and reference images.
  • the processing apparatus according to the second embodiment executes a neural network on information such as learning information and inspection information.
  • the processing apparatus uses reference information instead of the reference image.
  • the reference information is information that shows the waveform of a normal object and can be compared with the inspection information. Reference information is also shown as a waveform of voltage over time.
  • the reference information is information that shows the waveform of a normal object and can be compared with the inspection information.
  • Reference information is also shown as a waveform of voltage over time.
  • FIG. 10 shows the configuration of the processing device 100.
  • the processing device 100 is connected to the acceleration pickup 10, the amplifier 12, and the A / D converter 14, and includes an input unit 110, a processing unit 114, a storage unit 116, and an output unit 118.
  • the processing unit 114 receives learning information or inspection information from the input unit 110. In the case of learning processing, the processing unit 114 executes the neural network processing on the reference information and the learning information, and in the case of the judgment processing, executes the neural network processing on the reference information and the inspection information. To do. Since the processing in the processing unit 114 may be the same as before, the description thereof will be omitted here.
  • the neural network processing is executed for the inspection information showing the waveform and the reference information showing the waveform in the normal object, it is possible to eliminate the need for conversion from the inspection information to the inspection image. .. Moreover, since it is not necessary to convert the inspection information into the inspection image, the processing amount can be reduced.
  • Another aspect of the present disclosure is also the processing apparatus (100).
  • This device has an input unit (110) for inputting inspection information which is inspection information acquired from an object to be inspected and showing a waveform, reference information showing a waveform in a normal object, and an input unit (110).
  • a processing unit (114) that executes neural network processing with respect to the inspection information input to), and an output unit (118) that outputs the inspection result of the object to be inspected as the processing result of the processing unit (114). , Equipped with.
  • the input unit (110) inputs a plurality of inspection information
  • the processing unit (114) executes neural network processing on the reference information and the plurality of inspection information input to the input unit (110). May be good.
  • Yet another aspect of the present disclosure is also a processing method.
  • This method is for the step of inputting the inspection information obtained from the object to be inspected and showing the waveform, the reference information showing the waveform in the normal object, and the input inspection information. It includes a step of executing the processing of the neural network and a step of outputting the inspection result of the object to be inspected as the processing result of the neural network.
  • a plurality of convolution layers 142 and a plurality of pooling layers 144 are alternately arranged.
  • the present invention is not limited to this, and for example, the processing unit 114 may have a configuration such as a GoogleLeNet system or a DenseNet system. According to this modification, the degree of freedom of configuration can be improved.
  • a plurality of convolution layers 142 and a plurality of pooling layers 144 are alternately arranged.
  • the present invention is not limited to this, and for example, the processing unit 114 may include only the convolutional layer 142 and execute only the convolutional processing, or may include only the pooling layer 144 and execute only the pooling processing. According to this modification, the degree of freedom of configuration can be improved.
  • the output unit 118 in the first to fourth modified examples and the second embodiment outputs the processing result of the neural network in the processing unit 114.
  • the present invention is not limited to this, and for example, the output unit 118 may output the feature amount during the processing of the neural network in the processing unit 114. According to this modification, the degree of freedom of configuration can be improved.
  • Example 1, 1st modified example to 4th modified example, and Example 2 is also effective. According to this modification, the effect of any combination of Examples 1, 1st to 4th, and 2 can be obtained.
  • the input unit 110 inputs a plurality of inspection information.
  • the processing unit 114 executes neural network processing on the reference information and the plurality of inspection information input to the input unit 110. At that time, the conversion unit 112 is omitted. According to this modification, the processing accuracy can be improved while suppressing the increase in the processing amount.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

入力部110は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する。変換部112は、入力部110に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する。処理部114は、正常な物体における周波数成分の時間変化が示される参照画像と、変換部112において変換した検査画像とに対してニューラルネットワークの処理を実行する。出力部118は、処理部114の処理結果として、検査対象の物体の検査結果を出力する。

Description

処理方法およびそれを利用した処理装置
 本開示は、処理技術、特に画像に対する処理を実行する処理方法およびそれを利用した処理装置に関する。
 製品の異常を検出するために、製品に取り付けたセンサからの信号に対してウェーブレット変換による時間軸上の周波数解析がなされ、周波数解析結果等が含まれる相関図に対するニューラルネットワークの処理が実行される(例えば、特許文献1参照)。
特開2018-91640号公報
 ニューラルネットワークを使用する場合、製品が変わると、その製品に対する再学習が必要になる。一方、学習が不十分であると、処理の正確性が低下する。
 本開示はこうした状況に鑑みなされたものであり、その目的は、学習の作業量の増加を抑制しながら、処理の正確性の低下を抑制する技術を提供することにある。
 上記課題を解決するために、本開示のある態様の処理装置は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する入力部と、入力部に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する変換部と、正常な物体における周波数成分の時間変化が示される参照画像と、変換部において変換した検査画像とに対してニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
 本開示の別の態様もまた、処理装置である。この装置は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する入力部と、正常な物体における波形が示される参照情報と、入力部に入力した検査情報とに対してニューラルネットワークの処理を実行する処理部と、処理部の処理結果として、検査対象の物体の検査結果を出力する出力部と、を備える。
 本開示のさらに別の態様は、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、正常な物体における周波数成分の時間変化が示される参照画像と、変換した検査画像とに対してニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
 本開示のさらに別の態様もまた、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力するステップと、正常な物体における波形が示される参照情報と、入力した検査情報とに対してニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
 なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。
 本開示によれば、学習の作業量の増加を抑制しながら、処理の正確性の低下を抑制できる。
実施例1に係る処理装置の構成を示す図である。 図2(a)-(b)は、図1の変換部の処理の概要を示す図である。 図3(a)-(c)は、図1の変換部の処理の概要を示す図である。 図4(a)-(c)は、図1の処理部において使用される画像を示す図である。 図5(a)-(c)は、図1の処理部の構成を示す図である。 図1の処理部における処理の概要を示す図である。 第1変形例に係る処理部の構成を示す図である。 第3変形例に係る処理部の構成を示す図である。 図9(a)-(c)は、第4変形例に係る処理部の構成を示す図である。 実施例2に係る処理装置の構成を示す図である。
(実施例1)
 本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例1は、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。これまで、製品に異常が含まれているか否かを判定するために、モータの異音が人手により全数検査されている。しかしながら、官能検査であるため、人による判定基準のばらつきが生じたり、人による判定時間のばらつきが生じたり、人の状態(体調など)によるばらつきが生じたり、顧客要望の反映の難しさが存在したり、検査記録の難しさがあったりした。つまり、客観的かつ測定可能な良否判定基準がない。そのため、異音識別を自動化することによって、省人合理化、品質安定化が求められる。それを実現するために、例えば、音声から心理音響特徴量が算出されるとともに、特徴量毎に設定されたしきい値を使用して、識別がなされる。このような処理では、時間的変化を捉えられず、かつモータの品番毎のしきい値設定が必要になる。また、特許文献1でもモータの品番毎の再学習が必要になる。このような再学習のために、学習の作業量が増加する。しかしながら、学習が不十分であると処理の正確性が低下する。
 本実施例に係る処理装置は、検査対象となる物体で発生する音を示す情報(以下、「検査情報」という)をもとに、検査情報における示される波形を周波数成分の時間変化に変換した画像(以下、「検査画像」という)を生成する。また、処理装置は、正常な物体における周波数成分の時間変化が示され、かつ検査画像と比較可能な画像(以下、「参照画像」という)を用意する。処理装置は、検査画像と参照画像との組合せに対して、ニューラルネットワークの処理を実行することによって、検査画像が正常であるか不良であるかを判定する。その際、処理装置では、検査画像と参照画像との組合せに対して検査画像が正常であるか不良であるかの情報を教師データとして学習が予めなされている。つまり、検査画像と参照画像との比較結果が正常であるか不良であるかが学習されている。その結果、商品リニューアルによって参照画像が変わる場合であっても、新たな参照画像と検査画像を処理装置に入力すればよくなり、未学習の音のパターンでも判定が可能になる。
 図1は、処理装置100の構成を示す。処理装置100は、加速度ピックアップ10、増幅器12、A/Dコンバータ14に接続されるとともに、入力部110、変換部112、処理部114、記憶部116、出力部118を含む。ここで、学習処理において処理部114が学習され、判定処理において処理部114が使用される。判定処理は、検査画像と参照画像とにニューラルネットワークを使用することによって、検査画像が正常であるか不良であるかを判定する処理である。学習処理は、処理装置100以外の装置でなされ、学習結果が処理部114に適用されてもよい。
 加速度ピックアップ10は、加速度の測定を目的とした慣性センサである。加速度ピックアップ10は、検査対象の物体、例えばモータのベアリングに取り付けられ、物体が故障等によって異音を発している場合に、異音による振動を検出する。一方、加速度ピックアップ10は、物体が正常である場合に、異音による振動を検出しない。加速度ピックアップ10における検出結果は、時間の経過に対する電圧の波形で示される。電圧の絶対値がしきい値よりも大きい場合に振動の発生が示され、電圧の絶対値がしきい値以下である場合に、振動が発生していないことが示される。そのため、加速度ピックアップ10における検出結果では、振動が発生しているか否か、つまり異音が発生しているか否かが示される。このような検出結果は、検査対象の物体からの音声情報といえる。加速度ピックアップ10は、検出結果を増幅器12に出力する。増幅器12は、加速度ピックアップ10からの検出結果を増幅して、増幅した検出結果をA/Dコンバータ14に出力する。A/Dコンバータ14は、増幅器12からの検出結果に対してA/D変換を実行することによって、アナログ信号の検出結果をデジタル信号の検出結果に変換する。A/Dコンバータ14は、デジタル信号の検出結果を処理装置100に出力する。
 処理装置100の入力部110は、デジタル信号の検出結果をA/Dコンバータ14から受けつける。ここでは、学習処理において使用される検出結果を「学習用情報」と呼び、判定処理に使用される検出結果を「検査情報」と呼ぶ。学習用情報と検査情報は、いずれも波形を示した音声情報であるといえる。入力部110は、学習用情報あるいは検査情報を変換部112に出力する。
 変換部112は、学習処理の場合に、入力部110から受けつけた学習用情報を、周波数成分の時間変化が示される学習用画像に変換し、判定処理の場合に、入力部110から受けつけた検査情報を、周波数成分の時間変化が示される検査画像に変換する。ここでは、図2(a)-(b)、図3(a)-(c)を使用しながら変換部112での処理を説明する。図2(a)-(b)は、変換部112の処理の概要を示す。図2(a)は、学習用情報あるいは検査情報を示す。横軸が時間を示し、縦軸が強度、例えば電圧を示す。前述のごとく、学習用情報あるいは検査情報は波形を示す。第1期間300、第2期間302、第3期間304のような一定の短期間が規定される。これらは、例えば、6ミリ秒である。また、第1期間300と第2期間302、第2期間302と第3期間304のような隣接した期間は一部が重複するように配置される。
 変換部112は、第1期間300における波形をフーリエ変換する。図2(b)のように、フーリエ変換の結果は第1周波数データ400と示される。また、変換部112は、第2期間302、第3期間304における波形をフーリエ変換する。フーリエ変換の結果は、図2(b)のように第2周波数データ402、第3周波数データ404とそれぞれ示される。第1周波数データ400、第2周波数データ402、第3周波数データ404は周波数データと総称され、周波数データの横軸は時間を示し、周波数データの縦軸は強度を示す。
 図3(a)-(c)は、変換部112の処理の概要を示す。図3(a)は、図2(b)の第1周波数データ400を示し、図3(b)は、図2(b)の第2周波数データ402を示す。図3(c)は、第1周波数データ400等の周波数データをもとに生成されるスペクトログラムを示す。スペクトログラムにおいて、横軸が時間を示し、縦軸が周波数を示す。これは、各周波数データを、横方向にずらしながら縦方向に並べることによって生成される。また、スペクトログラムにおいて、周波数データの強度は、色の違い、濃度の違い等によって示される。ここでは、学習処理の場合におけるスペクトログラムが学習用画像に相当し、判定処理の場合におけるスペクトログラムが検査画像に相当する。図1に戻る。変換部112は、学習用画像あるいは検査画像を処理部114に出力する。
 処理部114は、学習用画像あるいは検査画像を変換部112から受けつける。図4(a)-(c)は、処理部114において使用される画像を示す。図4(a)-(b)は、図3(c)とは別の状況における学習用画像あるいは検査画像を示す。図4(a)は、物体が正常である場合の学習用画像あるいは検査画像を示し、図4(b)は、物体が故障等によって異音を発している場合の学習用画像あるいは検査画像を示す。図4(c)は、検査対象の物体に対して基準となるスペクトログラムを示す。これは、正常な物体に対して予め取得されたスペクトログラムであるといえる。ここでは、このスペクトログラム、つまり周波数成分の時間変化が示される画像を「参照画像」と呼ぶ。図1に戻る。参照画像は記憶部116に記憶される。
 処理部114は、学習処理の場合に、参照画像と学習用画像とに対してニューラルネットワークの処理を実行し、判定処理の場合に、参照画像と検査画像とに対してニューラルネットワークの処理を実行する。図5(a)-(c)は、処理部114の構成を示す。図5(a)は、処理部114の構成の一例を示す。処理部114は、畳み込み層142と総称される第1畳み込み層142a、第2畳み込み層142b、第3畳み込み層142c、第4畳み込み層142d、プーリング層144と総称される第1プーリング層144a、第2プーリング層144b、第3プーリング層144c、第4プーリング層144d、組合せ層146、全結合層148を含む。
 組合せ層146は、図1の変換部112と記憶部116に接続され、変換部112から検査画像を入力し、記憶部116から参照画像を入力する。ここでは、説明を明瞭にするために検査画像として説明するが、学習用画像であっても同様である。組合せ層146は、検査画像と参照画像とを組み合わせる。組合せの第1例では、2つの入力である検査画像と参照画像とが別のチャンネルとして1つに合併される。この場合、検査画像と参照画像の組合せが生成される。組合せの第2例では、2つの入力である検査画像と参照画像との対応する画素同士の差分が計算され、画素毎に差分を並べた画像(以下、「差分画像」という)が生成される。組合せの第3例では、検査画像と参照画像と差分画像とが別のチャンネルとして1つに合併される。この場合、検査画像と参照画像と差分画像の組合せが生成される。組合せの第4例では、参照画像と差分画像とが別のチャンネルとして1つに合併される。この場合、参照画像と差分画像の組合せが生成される。組合せの第5例では、検査画像と差分画像とが別のチャンネルとして1つに合併される。この場合、検査画像と差分画像の組合せが生成される。組合せ層146は、組合せの結果(以下、「組合画像」という)を出力する。検査画像、参照画像、差分画像は「画像」と総称される。
 畳み込み層142は、組合画像の各チャンネルに対して、画像のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層142においてパディング等が実行されてもよい。さらに、畳み込み層142は、各チャンネルの画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。これは、組合画像におけるチャンネル数が増加することに相当する。
 プーリング層144は、組合画像における各チャンネルの画像内の任意の領域に含まれた複数の画素を1つの画素にまとめることによって、画像のサイズを小さくする。ここで、複数の画素を1つの画素にまとめるために、平均プーリングあるいは最大プーリングが実行される。平均プーリングでは、領域内の複数の画素値の平均値が1つの画素に対して使用され、最大プーリングでは、領域内の複数の画素値のうちの最大値が1つの画素に対して使用される。プーリング処理は、着目領域における代表値あるいは平均値の並進移動に対してロバスト性を強化するためになされる。
 ここでは、第1畳み込み層142a、第1プーリング層144a、第2畳み込み層142b、第2プーリング層144b、第3畳み込み層142c、第3プーリング層144c、第4畳み込み層142d、第4プーリング層144dの順に処理が実行される。つまり、組合画像に対して、畳み込み処理とプーリング処理とが繰り返し実行される。また、畳み込み処理とプーリング処理とが繰り返されることによって、各チャンネルの画像のサイズが順に小さくされる。その結果、1×1の空間次元となり、かつ1以上のチャンネル数を有する組合画像が全結合層148に出力される。
 全結合層148は、特徴量が抽出されている画像を受けつける。全結合層148は、特徴量に基づいて、複数のクラスへの分類を実行することによって、画像を識別する。全結合層148における処理には公知の技術が使用されればよいので、ここでは説明を省略するが、全結合層148における分類結果では、「OK」、「NG」の2つのクラスのそれぞれに対する確率が示される。ここで、「OK」は、参照画像に対して検査画像に異音の成分が含まれない場合に相当し、「NG」は、参照画像に対して検査画像に異音の成分が含まれる場合に相当する。図1に戻る。
 学習処理において、処理部114では学習用画像が使用される。学習用画像では、異音の成分が含まれているか否かが未知である検査画像とは異なり、異音の成分が含まれていること、あるいは異音の成分が含まれていないことが既知である。また、処理部114は、参照画像に対して学習用画像に異音の成分が含まれているか否かを示す教師データを受けつける。教師データは、「OK」あるいは「NG」を示す。処理部114は、学習用画像と参照画像との関係が、教師データとなるように、各畳み込み層142の空間フィルタの係数を学習させる。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。このように、処理部114におけるニューラルネットワークは、出力部118から出力される検査結果が良品あるいは欠陥を示すように学習されている。
 学習処理の後の判定処理において、処理部114では検査画像が使用される。ここで、学習処理が処理装置100以外でなされる場合、別の装置での学習処理で導出された空間フィルタの係数が、処理部114に設定される。処理部114は、検査画像と参照画像とに対してニューラルネットワークの処理を実行する。出力部118は、処理部114の処理結果として、参照画像に対して検査画像に異音の成分が含まれるか否かを示す情報、つまり検査対象の物体の検査結果を出力する。
 以下では、処理部114の構成の別の例を示す。図5(b)は、処理部114の構成の別の一例を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第4畳み込み層142d、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第1-3プーリング層144ac、第2-1プーリング層144ba、第2-2プーリング層144bb、第2-3プーリング層144bc、第4プーリング層144d、組合せ層146、全結合層148を含む。
 第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-2プーリング層144ab、第1-3畳み込み層142ac、第1-3プーリング層144acは順に並べられる。これらは、参照画像に対して前述の処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-2プーリング層144bb、第2-3畳み込み層142bc、第2-3プーリング層144bcは順に並べられる。これらは、検査画像に対して前述の処理を実行する。
 組合せ層146は、第1-3プーリング層144acからの処理結果と、第2-3プーリング層144bcからの処理結果とを入力する。第1-3プーリング層144acからの処理結果は参照画像に対する処理結果(以下、「第1処理結果」という)であり、第2-3プーリング層144bcからの処理結果は検査画像に対する処理結果(以下、「第2処理結果」という)である。ここで、第1処理結果と第2処理結果は複数のチャンネルによって構成されていてもよい。組合せ層146は、第1処理結果と第2処理結果とを組み合わせる。組合せは、前述の第1例から第5例のいずれかのようになされればよい。差分画像の生成は、第1処理結果と第2処理結果との互いに対応したチャンネル同士の間でなされる。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。
 第4畳み込み層142d、第4プーリング層144dは、組合画像に対して畳み込み処理とプーリング処理とを順次実行する。全結合層148は、図5(a)と同様に構成される。このような処理部114の構成に対する処理装置100の学習処理と判定処理は、これまでと同様であるので、ここでは説明を省略する。学習の結果、検査画像に対して畳み込み層142の処理を実行する際の重み係数と、参照画像に対して畳み込み層142の処理を実行する際の重み係数とが共通にされてもよい。具体的には、第1-1畳み込み層142aaと第2-1畳み込み層142baとの間で重み係数が共通にされる。また、第1-2畳み込み層142abと第2-2畳み込み層142bbとの間で重み係数が共通にされ、第1-3畳み込み層142acと第2-3畳み込み層142bcとの間で重み係数が共通にされる。
 図5(c)は、処理部114の構成のさらに別の一例を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第1-4畳み込み層142ad、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第2-4畳み込み層142bd、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第1-3プーリング層144ac、第1-4プーリング層144ad、第2-1プーリング層144ba、第2-2プーリング層144bb、第2-3プーリング層144bc、第2-4プーリング層144bd、組合せ層146、全結合層148を含む。
 第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-2プーリング層144ab、第1-3畳み込み層142ac、第1-3プーリング層144ac、第1-4畳み込み層142ad、第1-4プーリング層144adは順に並べられる。これらは、参照画像に対して前述の処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-2プーリング層144bb、第2-3畳み込み層142bc、第2-3プーリング層144bc、第2-4畳み込み層142bd、第2-4プーリング層144bdは順に並べられる。これらは、検査画像に対して前述の処理を実行する。
 組合せ層146は、第1-4プーリング層144adからの処理結果と、第2-4プーリング層144bdからの処理結果とを入力する。第1-4プーリング層144adからの処理結果は参照画像に対する処理結果(以下、これもまた「第1処理結果」という)であり、第2-4プーリング層144bdからの処理結果は検査画像に対する処理結果(以下、これもまた「第2処理結果」という)である。組合せ層146は、第1処理結果と第2処理結果とを組み合わせる。組合せは、前述の第1例から第5例のいずれかのようになされればよい。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。
 全結合層148は、図5(a)と同様に構成される。このような処理部114の構成に対する処理装置100の学習処理と判定処理は、これまでと同様であるので、ここでは説明を省略する。学習の結果、検査画像に対して畳み込み層142の処理を実行する際の重み係数と、参照画像に対して畳み込み層142の処理を実行する際の重み係数とが共通にされてもよい。具体的には、第1-1畳み込み層142aaと第2-1畳み込み層142baとの間で重み係数が共通にされ、第1-2畳み込み層142abと第2-2畳み込み層142bbとの間で重み係数が共通にされる。また、第1-3畳み込み層142acと第2-3畳み込み層142bcとの間で重み係数が共通にされ、第1-4畳み込み層142adと第2-4畳み込み層142bdとの間で重み係数が共通にされる。
 処理部114の構成から全結合層148が除外されてもよい。このような構成を図6をもとに説明する。図6は、処理部114における処理の概要を示す。ここでは、説明を明瞭にするために、1入力として示し、組合せ層146を省略している。しかしながら、図5(a)-(c)と同様に、2入力であり、組合せ層146が含まれればよい。処理部114は、畳み込み層142と総称する第1畳み込み層142a、第2畳み込み層142b、第3畳み込み層142c、第4畳み込み層142d、第5畳み込み層142e、第6畳み込み層142f、プーリング層144と総称する第1プーリング層144a、第2プーリング層144b、第3プーリング層144c、第4プーリング層144d、第5プーリング層144eを含む。このような畳み込み層142、プーリング層144は、各処理を実行するブロックのイメージを示す。
 入力画像140は、前述の検査画像、学習用画像、参照画像、組合せ画像等の画像を総称する処理部114におけるニューラルネットワークには、完全畳み込みニューラルネットワークと同様に、全結合層148が含まれないので、入力画像140のサイズに対する制限が設けられない。入力画像140は、第1畳み込み層142aに入力される。処理部114では、第1畳み込み層142a、第1プーリング層144a、第2畳み込み層142b、第2プーリング層144b、第3畳み込み層142c、第3プーリング層144c、第4畳み込み層142d、第4プーリング層144d、第5畳み込み層142e、第5プーリング層144e、第6畳み込み層142fが順に配置される。つまり、これまでと同様に、畳み込み処理とプーリング処理とが繰り返し実行される。
 このような構成における処理部114でも、学習用画像と参照画像との関係が教師データとなるように、各畳み込み層142の空間フィルタの係数を学習させる。本実施例において、教師データのサイズは1×1の空間次元を有する。そのため、教師データは、学習用画像と参照画像との関係に対して、限定された数のクラスのいずれかを示すだけである。つまり、1つのチャンネルに対する教師データは、1つのクラスに該当するか否かだけを示せばよい。そのため、物体に対して色塗りによるセグメンテーションがなされた画像を生成する場合と比較して、1つの教師データを生成するための作業量が低減する。その結果、作業量の増加を抑制しながら、教師データの数を多くすることが可能である。
 一方、学習用画像と参照画像は、判定処理が正確に実行された場合に教師データが出力されるような元の画像であり、そのサイズは教師データが1×1の空間次元となるように定められる。ここで、入力画像140のサイズに対する制限が設けられないので、学習処理に使用される画像と、判定処理に使用される画像とが異なったサイズでもよい。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。
 以下では、処理装置100の変形例を説明する。
(第1変形例)
 図1の加速度ピックアップ10、増幅器12、A/Dコンバータ14がそれぞれ複数設けられてもよい。複数の加速度ピックアップ10は、検査対象の物体、例えばモータのベアリングにおける互いに異なった位置に取り付けられ、異なった位置における異音による振動を検出する。複数の増幅器12と複数のA/Dコンバータ14はこれまでと同様であり、処理装置100の入力部110は、複数の検査情報を入力する。複数の検査情報は、複数の加速度ピックアップ10によって検出された情報である。変換部112は、複数の検査情報を複数の検査画像に変換する。変換部112における処理は、前述の通りである。変換部112は、複数の検査画像を処理部114に出力する。
 処理部114は、参照画像と、変換部112において変換した複数の検査画像とに対してニューラルネットワークの処理を実行する。図7は、処理部114の構成を示す。処理部114は、畳み込み層142と総称される第1-1畳み込み層142aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第2-1畳み込み層142ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第3-1畳み込み層142ca、第3-2畳み込み層142cb、第3-3畳み込み層142cc、第N-1畳み込み層142na、第N-2畳み込み層142nb、第N-3畳み込み層142nc、プーリング層144と総称される第1-1プーリング層144aa、第1-2プーリング層144ab、第2-1プーリング層144ba、第2-2プーリング層144bb、第3-1プーリング層144ca、第3-2プーリング層144cb、第N-1プーリング層144na、第N-2プーリング層144nb、第3プーリング層144c、第4プーリング層144d、組合せ層146、デンスブロック150と総称される第1デンスブロック150a、第2デンスブロック150bを含む。
 処理部114は、第1検査画像から第N-1検査画像、つまりN-1種の検査画像を変換部112から受けつける。第1-1畳み込み層142aaは、参照画像を受けつけ、第2-1畳み込み層142baは、第1検査画像を受けつけ、第3-1畳み込み層142caは、第2検査画像を受けつけ、第N-1畳み込み層142naは、第N-1検査画像を受けつける。第1-1畳み込み層142aa、第1-1プーリング層144aa、第1-2畳み込み層142ab、第1-3畳み込み層142ac、第1-2プーリング層144abは、これまで通りに参照画像に対するニューラルネットワークの処理を実行する。第2-1畳み込み層142ba、第2-1プーリング層144ba、第2-2畳み込み層142bb、第2-3畳み込み層142bc、第2-2プーリング層144bbは、第1検査画像に対するニューラルネットワークの処理を実行する。他の検査画像についても同様である。
 組合せ層146は、第1-2プーリング層144abから第N-2プーリング層144nbのそれぞれからの処理結果を受けつける。組合せ層146は、前述のようにこれらの処理結果を組み合わせる。組合せの際に、異なる検査画像に対して互いに異なる色で合成してもよく、これによりカラー判定による処理が可能になる。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。第1デンスブロック150aは、畳み込み層142、組合せ層146等の組合せによって構成される。デンスブロック150には公知の技術が使用されればよいので、ここでは説明を省略する。第1デンスブロック150aに続く、第3プーリング層144c、第2デンスブロック150b、第4プーリング層144dは、これまでと同様の処理を実行するので、ここでは説明を省略する。図7の畳み込み層142、デンスブロック150について、図7に合わせた学習がなされる。
 図7に示される処理部114の構成は、図5(b)に類似する。しかしながら、処理部114の構成は、図5(a)に類似してもよく、図5(c)に類似してもよい。
(第2変形例)
 検査画像と参照画像は、N次元Mチャンネル(N、M整数)を有する画像であってもよい。ここで、N次元には、1次元、2次元、3次元、4次元、・・・・が含まれる。このような検査画像と参照画像に対して、処理部114はこれまでと同様の処理を実行すればよい。
(第3変形例)
 これまでの処理部114には、畳み込み層142、プーリング層144が含まれていたが、畳み込み層142、プーリング層144が含まれなくてもよい。図8は、処理部114の構成を示す。処理部114は、組合せ層146、全結合層148と総称される第1-1全結合層148aa、第1-2全結合層148ab、第1-3全結合層148ac、第2-1全結合層148ba、第2-2全結合層148bb、第2-3全結合層148bc、第4全結合層148dを含む。つまり、組合せ層146を除いて、全結合層148だけが含まれる。第1-1全結合層148aaは、参照画像を受けつけ、第2-1全結合層148baは、検査画像を受けつける。第1-1全結合層148aaから第1-3全結合層148acは、参照画像に対して全結合層の処理を実行し、第2-1全結合層148baから第2-3全結合層148bcは、検査画像に対して全結合層の処理を実行する。組合せ層146は、第1-3全結合層148acと第2-3全結合層148bcから処理結果を受けつける。組合せ層146は、前述のようにこれらの処理結果を組み合わせる。組合せ層146は、組合せの結果(以下、これもまた「組合画像」という)を出力する。第4全結合層148dは、組合画像に対して全結合層の処理を実行する。
 図8に示される処理部114の構成は、図5(b)に類似する。しかしながら、処理部114の構成は、図5(a)に類似してもよく、図5(c)に類似してもよい。
(第4変形例)
 これまでの組合せ層146では、組合せの第1例、第3例から第5例のように、複数のチャンネルが1つに合併されている。合併はこれに限定されない。図9(a)-(c)は、処理部114の構成を示す。第1入力画像200a、第2入力画像200bは、組合せ層146に入力される2つの画像であり、学習用画像、検査画像、参照画像、処理結果を含む。図9(a)は、組合せ層146におけるこれまでの合併を示し、2つのチャンネルの第1入力画像200a、第2入力画像200bが合併により1つのチャンネルにされる。第1入力画像200a、第2入力画像200bを総称する入力画像200の数は「2」に限定されない。また、1つのチャンネルにされた画像が前述の組合画像に相当する。図9(b)では、2つのチャンネルの第1入力画像200a、第2入力画像200bが、x軸方向に並べることによって1つのチャンネルにされる。図9(c)では、2つのチャンネルの第1入力画像200a、第2入力画像200bが、y軸方向に並べることによって1つのチャンネルにされる。
 本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路(IC)、またはLSI(Large Scale Integration)を含む1つまたは複数の電子回路で構成される。複数の電子回路は、1つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは1つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なROM、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。
 本実施例によれば、検査画像と参照画像とに対してニューラルネットワークの処理を実行することによって、2つの画像の比較結果として、検査画像に異音の成分が含まれるか否かを示す情報を出力できる。また、2つの画像を比較した結果が出力されるので、参照画像が変わっても新たな参照画像による学習の量を低減できる。また、参照画像が変わっても新たな参照画像による学習の量が低減されるので、学習の作業量の増加を抑制できる。また、検査画像に含まれる不良項目を教師データとしてニューラルネットワークを学習させるので、処理の正確性の低下を抑制できる。また、波形が示される検査情報を、周波数成分の時間変化が示される検査画像に変換してからニューラルネットワークの処理を実行するので、処理の精度を向上できる。
 また、参照画像と複数の検査画像とに対してニューラルネットワークの処理を実行するので、複数の加速度ピックアップ10からの検出結果をもとに、検査画像に異音の成分が含まれるか否かを判定するので、判定精度を向上できる。また、検査情報は、検査対象の物体から取得した音声情報であるので、物体から発生する異音を検出できる。また、ニューラルネットワークは、出力部118から出力される検査結果が良品あるいは欠陥を示すように学習されていているので、物体の検査を実行できる。
 また、検査画像と参照画像とを組み合わせてから、組合せに対して畳み込み層142の処理とプーリング層144の処理を実行するので、処理量の増加を抑制できる。また、検査画像と参照画像のそれぞれに対して畳み込み層142の処理とプーリング層144の処理を実行してから、これらの組合せに対して畳み込み層142の処理とプーリング層144の処理を実行するので、処理の精度を向上できる。また、検査画像と参照画像のそれぞれに対して畳み込み層142の処理とプーリング層144の処理を実行してから、これらを組み合わせるので、処理の精度を向上できる。
 また、検査画像に対して畳み込み層142の処理を実行する際の重み係数と、参照画像に対して畳み込み層142の処理を実行する際の重み係数とを共通にするので、処理の精度を向上できる。また、組合せとして、2つの入力を1つに合併するので、処理を簡易にできる。また、組合せとして、2つの入力の差分を導出するので、処理の精度を向上できる。また、組合せとして、差分に、2つの入力の少なくとも1つを合併するので、処理の精度を向上できる。1×1の空間次元を有する教師データに対して、畳み込み層142の空間フィルタの学習がなされている畳み込みニューラルネットワークを使用するので、教師データの作成の作業量を低減できる。また教師データの作成の作業量が低減されるので、学習の作業量の増加を抑制できる。また教師データの作成の作業量が低減されるので、教師データの数を多くできる。また、教師データの数が多くなるので、学習の精度を向上できる。
 また、検査画像と参照画像は、N次元Mチャンネル(N、Mは整数)を有する画像であるので、本実施例の適用範囲を拡大できる。また、検査画像と参照画像とを組み合わせてから、組合せに対して全結合層148の処理を実行するので、構成の自由度を向上できる。また、検査画像に対して全結合層148の処理を実行するとともに、参照画像に対して全結合層148の処理を実行し、検査画像に対する処理結果と参照画像に対する処理結果との組合せに対して全結合層148の処理を実行するので、構成の自由度を向上できる。また、検査画像に対して全結合層148の処理を実行するとともに、参照画像に対して全結合層148の処理を実行し、検査画像に対する処理結果と参照画像に対する処理結果とを組み合わせるので、構成の自由度を向上できる。
 本開示の一態様の概要は、次の通りである。本開示のある態様の処理装置(100)は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する入力部(110)と、入力部(110)に入力した検査情報を、周波数成分の時間変化が示される検査画像に変換する変換部(112)と、正常な物体における周波数成分の時間変化が示される参照画像と、変換部(112)において変換した検査画像とに対してニューラルネットワークの処理を実行する処理部(114)と、処理部(114)の処理結果として、検査対象の物体の検査結果を出力する出力部(118)と、を備える。
 入力部(110)は、複数の検査情報を入力し、変換部(112)は、入力部(110)に入力した複数の検査情報を複数の検査画像に変換し、処理部(114)は、参照画像と、変換部(112)において変換した複数の検査画像とに対してニューラルネットワークの処理を実行してもよい。
 入力部(110)に入力される検査情報は、検査対象の物体から取得した音声情報であってもよい。
 処理部(114)におけるニューラルネットワークは、出力部(118)から出力される検査結果が良品あるいは欠陥を示すように学習されていてもよい。
 出力部(118)は、処理部(114)におけるニューラルネットワークの処理の途中の特徴量も出力してもよい。
 本開示のさらに別の態様は、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力するステップと、入力した検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、正常な物体における周波数成分の時間変化が示される参照画像と、変換した検査画像とに対してニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
(実施例2)
 次に実施例2を説明する。実施例2は、実施例1と同様に、モータ等の回転装置のような製品に異常が含まれているか否かを判定する処理装置に関する。これまで、学習用画像、検査画像、参照画像等の画像に対してニューラルネットワークの処理が実行されている。実施例2に係る処理装置は、学習用情報、検査情報等の情報に対してニューラルネットワークを実行する。このような処理のために、処理装置は、参照画像の代わりに、参照情報を使用する。参照情報は、正常な物体における波形が示され、かつ検査情報と比較可能な情報である。参照情報も、時間の経過に対する電圧の波形で示される。ここでは、これまでとの差異を中心に説明する。
 図10は、処理装置100の構成を示す。処理装置100は、加速度ピックアップ10、増幅器12、A/Dコンバータ14に接続されるとともに、入力部110、処理部114、記憶部116、出力部118を含む。処理部114は、学習用情報あるいは検査情報を入力部110から受けつける。処理部114は、学習処理の場合に、参照情報と学習用情報とに対してニューラルネットワークの処理を実行し、判定処理の場合に、参照情報と検査情報とに対してニューラルネットワークの処理を実行する。処理部114における処理はこれまでと同様でよいので、ここでは説明を省略する。
 本実施例によれば、波形が示される検査情報と、正常な物体における波形が示される参照情報とに対してニューラルネットワークの処理を実行するので、検査情報から検査画像への変換を不要にできる。また、検査情報から検査画像への変換が不要になるので、処理量を低減できる。
 本開示の一態様の概要は、次の通りである。本開示の別の態様もまた、処理装置(100)である。この装置は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する入力部(110)と、正常な物体における波形が示される参照情報と、入力部(110)に入力した検査情報とに対してニューラルネットワークの処理を実行する処理部(114)と、処理部(114)の処理結果として、検査対象の物体の検査結果を出力する出力部(118)と、を備える。
 入力部(110)は、複数の検査情報を入力し、処理部(114)は、参照情報と、入力部(110)に入力した複数の検査情報とに対してニューラルネットワークの処理を実行してもよい。
 本開示のさらに別の態様もまた、処理方法である。この方法は、検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力するステップと、正常な物体における波形が示される参照情報と、入力した検査情報とに対してニューラルネットワークの処理を実行するステップと、ニューラルネットワークの処理結果として、検査対象の物体の検査結果を出力するステップと、を備える。
 以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
 実施例1、第1変形例から第4変形例、実施例2における処理部114の構成は、複数の畳み込み層142と複数のプーリング層144とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部114は、GoogLeNet系、DenseNet系等の構成を有していてもよい。本変形例によれば、構成の自由度を向上できる。
 実施例1、第1変形例から第4変形例、実施例2における処理部114の構成は、複数の畳み込み層142と複数のプーリング層144とが交互に並べんでいる。しかしながらこれに限らず例えば、処理部114では、畳み込み層142のみが含まれて畳み込み処理だけが実行されてもよいし、プーリング層144のみが含まれてプーリング処理だけが実行されてもよい。本変形例によれば、構成の自由度を向上できる。
 実施例1、第1変形例から第4変形例、実施例2における出力部118は、処理部114におけるニューラルネットワークの処理結果を出力する。しかしながらこれに限らず例えば、出力部118は、処理部114におけるニューラルネットワークの処理の途中の特徴量を出力してもよい。本変形例によれば、構成の自由度を向上できる。
 実施例1、第1変形例から第4変形例、実施例2の任意の組合せも有効である。本変形例によれば、実施例1、第1変形例から第4変形例、実施例2の任意の組合せによる効果を得ることができる。例えば、実施例2と第1変形例の組合せとして、入力部110は、複数の検査情報を入力する。処理部114は、参照情報と、入力部110に入力した複数の検査情報とに対してニューラルネットワークの処理を実行する。その際、変換部112は省略される。本変形例によれば、処理量の増加を抑制しながら、処理精度を向上できる。
 本開示によれば、学習の作業量の増加を抑制しながら、処理の正確性の低下を抑制できる。
 10 加速度ピックアップ、 12 増幅器、 14 A/Dコンバータ、 100 処理装置、 110 入力部、 112 変換部、 114 処理部、 116 記憶部、 118 出力部、 140 入力画像、 142 畳み込み層、 144 プーリング層、 146 組合せ層、 148 全結合層、 150 デンスブロック。

Claims (9)

  1.  検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する入力部と、
     前記入力部に入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換する変換部と、
     正常な物体における周波数成分の時間変化が示される参照画像と、前記変換部において変換した前記検査画像とに対してニューラルネットワークの処理を実行する処理部と、
     前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
     を備えることを特徴とする処理装置。
  2.  前記入力部は、複数の前記検査情報を入力し、
     前記変換部は、前記入力部に入力した複数の前記検査情報を複数の前記検査画像に変換し、
     前記処理部は、前記参照画像と、前記変換部において変換した複数の前記検査画像とに対してニューラルネットワークの処理を実行することを特徴とする請求項1に記載の処理装置。
  3.  検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力する入力部と、
     正常な物体における波形が示される参照情報と、前記入力部に入力した前記検査情報とに対してニューラルネットワークの処理を実行する処理部と、
     前記処理部の処理結果として、前記検査対象の物体の検査結果を出力する出力部と、
     を備えることを特徴とする処理装置。
  4.  前記入力部は、複数の前記検査情報を入力し、
     前記処理部は、前記参照情報と、前記入力部に入力した複数の前記検査情報とに対してニューラルネットワークの処理を実行することを特徴とする請求項3に記載の処理装置。
  5.  前記入力部に入力される前記検査情報は、前記検査対象の物体から取得した音声情報であることを特徴とする請求項1から4のいずれか1項に記載の処理装置。
  6.  前記処理部におけるニューラルネットワークは、前記出力部から出力される前記検査結果が良品あるいは欠陥を示すように学習されていることを特徴とする請求項1から5のいずれか1項に記載の処理装置。
  7.  前記出力部は、前記処理部におけるニューラルネットワークの処理の途中の特徴量も出力することを特徴とする請求項1から6のいずれか1項に記載の処理装置。
  8.  検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力するステップと、
     入力した前記検査情報を、周波数成分の時間変化が示される検査画像に変換するステップと、
     正常な物体における周波数成分の時間変化が示される参照画像と、変換した前記検査画像とに対してニューラルネットワークの処理を実行するステップと、
     ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
     を備えることを特徴とする処理方法。
  9.  検査対象の物体から取得した検査情報であって、かつ波形が示される検査情報を入力するステップと、
     正常な物体における波形が示される参照情報と、入力した前記検査情報とに対してニューラルネットワークの処理を実行するステップと、
     ニューラルネットワークの処理結果として、前記検査対象の物体の検査結果を出力するステップと、
     を備えることを特徴とする処理方法。
PCT/JP2020/018807 2019-08-20 2020-05-11 処理方法およびそれを利用した処理装置 WO2021033372A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019150569 2019-08-20
JP2019-150569 2019-08-20

Publications (1)

Publication Number Publication Date
WO2021033372A1 true WO2021033372A1 (ja) 2021-02-25

Family

ID=74660807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/018807 WO2021033372A1 (ja) 2019-08-20 2020-05-11 処理方法およびそれを利用した処理装置

Country Status (1)

Country Link
WO (1) WO2021033372A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10274558A (ja) * 1997-01-28 1998-10-13 Matsushita Electric Works Ltd 回転機器の異常診断方法およびその装置
JPH10281859A (ja) * 1997-04-07 1998-10-23 Mitsui Eng & Shipbuild Co Ltd 異常診断方法および装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10274558A (ja) * 1997-01-28 1998-10-13 Matsushita Electric Works Ltd 回転機器の異常診断方法およびその装置
JPH10281859A (ja) * 1997-04-07 1998-10-23 Mitsui Eng & Shipbuild Co Ltd 異常診断方法および装置

Similar Documents

Publication Publication Date Title
TWI653605B (zh) 利用深度學習的自動光學檢測方法、設備、電腦程式、電腦可讀取之記錄媒體及其深度學習系統
JP6792842B2 (ja) 外観検査装置、変換データ生成装置、及びプログラム
JP6876940B2 (ja) 画像処理装置および画像処理方法
KR101992970B1 (ko) 딥러닝과 노이즈 제거 기술을 이용한 표면 결함 검출 장치 및 방법
JP3677254B2 (ja) 欠陥検査装置
KR20070078784A (ko) 이음(異音) 추출 방법, 이음 추출 장치 및 이음 검사 장치
JPH01224881A (ja) パターン検査装置
WO2021033372A1 (ja) 処理方法およびそれを利用した処理装置
WO2021033371A1 (ja) 処理方法およびそれを利用した処理装置
JP2541738B2 (ja) 信号のフィルタリングによる輪郭再生改善方法および装置
JP3752849B2 (ja) パターン欠陥検査装置及びパターン欠陥検査方法
US7646892B2 (en) Image inspecting apparatus, image inspecting method, control program and computer-readable storage medium
US20220414826A1 (en) Image processing apparatus, image processing method, and medium
WO2023204240A1 (ja) 処理方法およびそれを利用した処理装置
JPH04256844A (ja) プリント基板のパターン検査方法
JPH0979997A (ja) 欠陥検査方法及び装置
KR20220136774A (ko) 다중 영상을 이용한 업샘플링 시스템 및 방법
JP6444503B2 (ja) 検査方法および検査装置
AKINTOYE et al. COMPOSITE MEDIAN WIENER FILTER BASED TECHNIQUE FOR IMAGE ENHANCEMENT.
Sravani et al. Removal Of Low-DENSITY Impulse Noise From Grayscale Images Using New Modified Hybrid MedianFilTerWith Various Sliding Window Sizes
WO2024057768A1 (ja) 画像生成装置、学習装置、画像処理装置、画像生成方法、学習方法及び画像処理方法
US11361424B2 (en) Neural network-type image processing device, appearance inspection apparatus and appearance inspection method
WO2023238384A1 (ja) 試料観察装置および方法
JPH09218957A (ja) 画像処理方法
JP2022029262A (ja) 画像処理装置、画像処理方法、画像処理プログラム、および学習装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20854778

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20854778

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP