WO2023238565A1 - データ処理装置、データ処理方法、及びプログラム - Google Patents

データ処理装置、データ処理方法、及びプログラム Download PDF

Info

Publication number
WO2023238565A1
WO2023238565A1 PCT/JP2023/017249 JP2023017249W WO2023238565A1 WO 2023238565 A1 WO2023238565 A1 WO 2023238565A1 JP 2023017249 W JP2023017249 W JP 2023017249W WO 2023238565 A1 WO2023238565 A1 WO 2023238565A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data set
teacher data
inverted
single channel
Prior art date
Application number
PCT/JP2023/017249
Other languages
English (en)
French (fr)
Inventor
遼 池田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2023238565A1 publication Critical patent/WO2023238565A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N23/00Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00
    • G01N23/02Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by transmitting the radiation through the material
    • G01N23/06Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by transmitting the radiation through the material and measuring the absorption
    • G01N23/18Investigating the presence of flaws defects or foreign matter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the present invention relates to a data processing device, a data processing method, and a program, and particularly relates to a data processing device, a data processing method, and a program that generate a teacher data set.
  • the problem is the lack of training data sets given the complexity of the problems to be solved. Therefore, in order to secure a teacher data set having as many variations as possible from a small number of teacher data sets, a new teacher data set is generated by extending data from an existing teacher data set.
  • the teacher data set is composed of learning data that causes the learning model to perform learning, and a correct answer label that indicates the correct answer of the learning data.
  • Patent Document 1 describes that a transmission X-ray image is data expanded to generate a data set of hundreds of thousands of images.
  • One embodiment of the technology of the present disclosure is to provide a data processing device, a data processing method, and a program that generate, by data expansion, a teacher data set that allows effective learning to be performed on a learning model.
  • a data processing device is a data processing device including a processor, and the processor determines a pixel value according to a physical quantity sensed by a light-receiving element at the time of photographing, or performs reversible conversion to the physical quantity.
  • the pixel values of the single-channel image are determined by Based on the correct label of the single-channel image that constitutes the first teacher dataset, the inverted label corresponding to the inverted image is generated as the learning data of the teacher dataset of , and the correct answer that constitutes the second teacher dataset is Generate as a label.
  • the single channel image is an image captured by a digital detector array (DDA) that receives radiation transmitted through a subject, or an image captured by a digital detector array (DDA) that receives radiation transmitted through a subject.
  • DDA digital detector array
  • This is a computed radiography (CR) captured image in which a plate (IP) receives a light signal and outputs it as a digital value using a reading device.
  • the single channel image is an image obtained by lens-free imaging.
  • each pixel of the single channel image is proportional to the amount of light received by the corresponding light receiving element. It has a digital value or a digital value correlated with the amount of received light.
  • each pixel of the single channel image is correlated with a physical quantity at each point of a corresponding object. have associated digital values.
  • the first training data set is an expanded version of the first training data set.
  • the reverse label that does not cause any contradiction is selected.
  • the first training data set is an expanded version of the first training data set.
  • those whose inverted labels are effective for learning are selected.
  • the processor calculates pixel values for a partial area of the single channel image.
  • the image is inverted to generate a reversed image, and based on the correct label of the single-channel image corresponding to a part of the area, the correct label is generated as a part of the second teacher data set.
  • the processor normalizes or standardizes the learning data.
  • the processor designs a class of correct labels constituting the second teacher data set. , edit in response to using the inverted image as learning data.
  • the reversible transformation uses a linear transformation, a logarithmic transformation, and a pixel value correspondence table. At least one of nonlinear transformations.
  • a data processing method is a single-channel image in which a processor determines a pixel value according to a physical quantity sensed by a light-receiving element at the time of photographing, or a pixel value is determined by performing reversible conversion to a physical quantity. Then, an inverted image in which the pixel values of the single-channel image constituting the first teacher data set are inverted is generated as learning data for a second teacher data set obtained by expanding the first teacher data set. and a step of generating an inverted label corresponding to the inverted image as the correct label constituting the second teacher data set based on the correct label of the single channel image forming the first teacher data set. conduct.
  • a program according to a thirteenth aspect of the present invention is a single-channel image in which a pixel value is determined according to a physical quantity sensed by a light receiving element at the time of photographing, or a pixel value is determined by performing reversible conversion to a physical quantity.
  • an inverted image obtained by inverting the pixel values of the single-channel image forming the first teacher data set is generated as learning data forming a second teacher data set obtained by expanding the first teacher data set.
  • a teacher data set that allows effective learning to be performed on a learning model can be generated from an existing teacher data set by data expansion.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of a data processing device.
  • FIG. 2 is a diagram showing functional blocks of the function F realized by the processor executing the data processing program stored in the memory.
  • FIG. 3 is a schematic diagram illustrating shooting of a single channel image.
  • FIG. 4 is a diagram showing a single channel image.
  • FIG. 5 is a diagram illustrating the correct label class rereading process.
  • FIG. 6 is a diagram illustrating the correct label class rereading process.
  • FIG. 7 is a diagram illustrating editing the class design of the correct label (inverted label) of the second teacher data set.
  • FIG. 8 is a diagram illustrating a specific example of the first teacher data set and the second teacher data.
  • FIG. 9 is a flowchart illustrating a data processing method.
  • FIG. 10 is a diagram showing pixel values forming an image.
  • FIG. 11 is a diagram illustrating the first teacher data set and the second teacher data set of the third embodiment.
  • FIG. 1 is a block diagram showing an example of the hardware configuration of a data processing apparatus according to the present invention.
  • the data processing device 10 includes a processor 14, a memory 16 composed of a non-temporary tangible object, and an input/output interface 12.
  • the computer functioning as the data processing device 10 may be a workstation, a personal computer, a tablet terminal, or a server.
  • the processor 14 is composed of a CPU (Central Processing Unit). Further, the processor 14 may be configured by a GPU (Graphics Processing Unit). Processor 14 is connected to memory 16 and input/output interface 12 via bus 8 .
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • Information is input to the data processing device 10 via the input/output interface 12. Information is also output via the input/output interface 12.
  • a teacher data set DB (Database) 22 is connected to the data processing device 10 via the input/output interface 12, and a first teacher data set and a second teacher data set are input to the data processing device 10. Ru.
  • the memory 16 includes a memory that is a main storage device and a storage that is an auxiliary storage device.
  • the memory 16 may be, for example, a semiconductor memory, a hard disk drive (HDD) device, a solid state drive (SSD) device, or a combination of these.
  • a program for controlling the data processing device 10 is stored in the memory 16.
  • a data processing program 18 for executing a data processing method is stored.
  • the memory 16 also stores general programs for operating the data processing device 10.
  • the data processing device 10 is connected to an external teacher data set DB 22.
  • the teacher data set DB may be provided in the data processing device 10.
  • the teacher data set DB22 includes a first teacher data set DB24 and a second teacher data set DB26.
  • the first teacher data set and the second teacher data set are composed of learning data for learning by the learning model 40 (FIG. 8) and correct labels of the learning data.
  • a plurality of first teacher data sets are stored in the first teacher data set DB24.
  • the first teacher data set is composed of a single-channel image (corresponding to learning data) captured by the imaging system 500 (FIG. 12) and a defect (corresponding to a correct label) interpreted using the single-channel image. be done.
  • the second teacher data set DB 26 stores a plurality of second teacher data sets.
  • the second teacher data is composed of an inverted image of a single channel image (corresponding to learning data) and an inverted label (corresponding to a correct label) obtained by replacing the correct label.
  • the second teacher data set is a teacher data set that is data-enhanced from the first teacher data, and is generated by the data processing device 10.
  • FIG. 1 shows an example in which the teacher data set DB22 includes the first teacher data set DB24 and the second teacher data set DB26, the first teacher data set DB24 and the second teacher data set DB26
  • the data set DB 26 may be provided separately.
  • FIG. 2 is a diagram showing functional blocks of the function F realized by the processor 14 executing the data processing program 18 stored in the memory 16.
  • the function F realized by the processor 14 executing the data processing program 18 includes a single channel image acquisition section 30, a correct label acquisition section 32, an inverted image generation section 34, and an inverted label generation section 36.
  • the first teacher data set is data-enhanced and a second teacher data set is generated.
  • the single-channel image acquisition unit 30 acquires a single-channel image that is learning data of the first teacher data set from the teacher data set DB 22.
  • a single channel image is an image whose pixel values are determined according to a physical quantity sensed by a light-receiving element at the time of photography, or an image whose pixel values are determined by performing reversible conversion to the physical quantity.
  • the specific reversible transformation is at least one of linear transformation, logarithmic transformation, and nonlinear transformation using a pixel value correspondence table.
  • a single-channel image is an image in which only transformations that can be traced back to the original physical phenomenon have been performed.
  • a single channel image can be said to be an image on which irreversible transformation has not been performed.
  • a specific example of a single channel image is a raw image.
  • the raw image is composed of undeveloped image data output from an image sensor that is a light receiving element, and the amount of light received by each light receiving element and the signal value output by the light receiving element have a linear relationship.
  • a single-channel image is a monochrome image that captures the amount of light at a specific spectrum (color) wavelength, such as an image obtained with a microscope through a red filter.
  • single-channel images are images captured by a digital detector array (DDA) that receives radiation that has passed through the subject, or computed radios in which an imaging plate (IP) reads the received light signal and outputs it as a digital value by a device.
  • DDA digital detector array
  • IP imaging plate
  • CR graph
  • the single channel image is an image obtained by lens-free imaging.
  • FIG. 3 is a schematic diagram illustrating the shooting of a single channel image.
  • a radiation source 50 an object to be inspected OBJ, and a detector 54 are shown.
  • the detector 54 is composed of a light-receiving panel and is an example of a light-receiving element.
  • the radiation emitted from the radiation source 50 is irradiated onto the object to be inspected OBJ.
  • the radiation transmitted through the object to be inspected OBJ is received by the detector 54.
  • the detector 54 outputs a single channel image 56 of the object to be inspected OBJ.
  • FIG. 4 is a diagram showing a single channel image 56 of the object to be inspected OBJ acquired by the detector 54.
  • the value of the pixel Q of the single channel image 56 is determined according to the intensity of the radiation that has passed through the object located on the straight line L connecting the detector 54 and the radiation source 50, and the value of the pixel Q of the single channel image 56 is determined according to the intensity of the radiation that has passed through the object located on the straight line L connecting the detector 54 and the radiation source 50.
  • each pixel of the single channel image has a digital value that is proportional to or correlated with the amount of light received by the corresponding detector 54.
  • each pixel of the single channel image has a digital value that has a correlation with the physical quantity at each point (for example, point P) of the corresponding object to be inspected OBJ (subject).
  • images composed of pixel values read through a secondary external device with unknown characteristics, such as pixel values read through a low-bit monitor are single-channel images. isn't it.
  • an image that has been subjected to LUT (Look Up Table) conversion that causes blown-out highlights or blown-out shadows is not a single-channel image.
  • an image that has undergone "many-to-one" conversion, where multiple values are aggregated into one value is also not a single-channel image because the amount of information is reduced.
  • An image that has been subjected to non-linear processing such as gamma correction is also not a single-channel image because it becomes asymmetric when the inversion processing is performed by the inversion image generation unit 34.
  • the inverse transformation of the correction can be theoretically defined and the transformation does not degrade the information, it is possible to create a single channel image.
  • the theoretical function can be calculated, it will not be possible to obtain a single-channel image unless it is compatible with quantization.
  • the correct label acquisition unit 32 acquires the correct label of the first teacher data set from the teacher data set DB 22.
  • the correct answer label has information regarding the correct answer when the learning model 40 is trained using a single channel image as learning data.
  • the ground truth label includes information about a defect interpreted from a single channel image.
  • the inverted image generation unit 34 (FIG. 2) generates an inverted image by data expanding the single channel image.
  • the inverted image generation unit 34 inverts the pixel values of the single channel image forming the first teacher data set to generate an inverted image.
  • the inversion image generation unit 34 when the minimum pixel value of a single channel image is 0 and the maximum value is 65535, the pixel value "p" at each coordinate is changed to "65535- p".
  • inversion processing is performed with conversion by a function in between.
  • the inverted image generation unit 34 converts the pixel value "p" constituting the image into "exp(p)” and then converts it to the maximum value after the conversion.
  • Inversion processing can be performed by calculating the minimum value, performing linear inversion (max(exp(p))-exp(p)), and taking the logarithm of the value.
  • the reversal processing of the reversal image generation unit 34 is not limited to the above-mentioned reversal processing, but may be performed arbitrarily in advance such that a point with a relatively high pixel value and a point with a relatively low pixel value become a low point and a high point. It also includes other processing such as conversion using a pixel value-to-pixel value correspondence table (LUT) defined in .
  • LUT pixel value-to-pixel value correspondence table
  • the pixel value of a single channel image is a value based on a luminance signal, a pixel value signal representing depth information taken with a LiDAR (Light Detection and Ranging) camera, or a film inspection through which X-rays are transmitted.
  • the interpretation of the physical quantity represented by a pixel is not limited to brightness.
  • the inverted image generation unit 34 performs a conversion that allows the inverted pixel value to assume a physical phenomenon corresponding to that physical phenomenon.
  • conversions that make it unclear how the original defect has been transformed before and after the conversion by the reversed image generator 34 are performed by the reversed image generator 34. Excluded from conversion.
  • the inverted label generation unit 36 (FIG. 2) generates an inverted label by data extending the correct label.
  • the inverted label generation unit 36 performs class replacement processing for the correct label of the single channel image when the single channel image is inverted. For example, when the single-channel image is a transmission image, information as to whether the object to be inspected OBJ is depressed or excessively raised appears in the level of the brightness value of the single-channel image, which is the transmission image. In such a case, the level of brightness value may be important information for distinguishing the type of defect. In this case, a process of replacing the class in the correct label is performed, data expansion of the correct label is performed, and an inverted label is generated.
  • FIG. 5 is a diagram illustrating the correct label class rereading process in the inverted label generation unit 36.
  • FIG. 5 shows an image 60 showing low-density defects and an image 62 showing high-density defects.
  • the image 60 has a region 66 indicating FMLD (Foreign Material Less Dense). Region 66 will be darker than background 64.
  • FMLD is a general term for low-density foreign matter. For example, if the cast metal is missing, has insufficient flow, is scratched and scraped, or if bubbles or gas are mixed in, these areas (area showing FMLD (area 66)) will be removed from the surrounding area (background). 64). Note that the correct label 72 that constitutes the image 60 and the first teacher data set is FMLD.
  • the image 62 has a region 70 indicating FMMD (Foreign Material More Dense). Region 70 will be brighter than background 68.
  • FMMD is a general term for high-density foreign matter. For example, if the part is made of aluminum and it has risen more than necessary during the casting process, if there is spattered metal attached to it, or if there is impurity buried inside with a higher density than the aluminum. These areas (areas showing FMMD (area 70) are difficult to transmit X-rays, so they are displayed "white” (bright). In other words, in the areas showing FMMD (area 70), compared to normal times, , the pixel value increases. Note that when the image 62 is used as learning data, the correct label 74 becomes FMMD.
  • the relationship between the area 66 indicating FMLD and the background 64 and the relationship between the area 70 indicating FMMD and the background 68 are reversed. Therefore, if the entire image is "monochrome inverted" by combining the areas where foreign objects and defects exist (area 66 showing FMLD and area 70 showing FMMD) and the background area (background 64 and background 68), the relative In other words, the height of the defective area relative to the background is reversed. In this case, the correct label 72 is also inverted and converted into an inverted label (correct label 74).
  • FIG. 5 describes the case where the image 60 having the area 66 indicating FMLD is inverted in monochrome to the image 62 having the area 70 indicating FMMD
  • the present invention is not limited to this.
  • monochrome inversion from an image 62 having an area 70 indicating FMMD to an image 60 having an area 66 indicating FMMLD can be performed in the same manner.
  • FMLD and FMMD have a one-to-one correspondence.
  • FIG. 7 is a diagram illustrating editing the class design of the correct label (inverted label) of the second teacher data set.
  • FIG. 7(A) is a diagram illustrating a case where the correct answer label FMMD is replaced with a plurality of destinations.
  • Gas defects caused by the mixing of gas and the like appear relatively dark (small pixel values) against the background, and are common to the above-mentioned FMLD. Therefore, when the correct label of FMMD is used as an inverted label, there are multiple reading destinations, FMLD and gas defects (see FIG. 7(A)). Therefore, even if there is room to regard gas defects and FMLD as separate classes in the correct label, gas defects and FMLD are edited and collectively treated as one new class.
  • FIG. 7(B) is a diagram illustrating a case where the class design of the correct label to which the correct label FMMD is replaced is edited and aggregated.
  • the correct label to be replaced is edited to become one correct label, FMLD or gas defect, and the labels are aggregated and handled as a new class.
  • the first teacher data set of the present invention is selected such that when the first teacher data set is extended, there will be no contradiction in the inverted labels. Specifically, in a case where the correct label indicates a certain defect, it is preferable that a reverse label containing the defect is selected as the first teacher data set. Further, it is preferable that the first teacher data set is selected such that inverted labels are effective for learning when the first teacher data set is expanded.
  • a restriction may be added that the correct label (for example, classification class) associated with an image does not change before and after data expansion. This is to prevent data expansion from resulting in an incorrect class (data that never exists).
  • the correct label for example, classification class
  • the first training data set of the present invention is selected such that when the first training data set is expanded, no contradiction occurs in the inverted labels. Further, it is preferable that the first teacher data set is selected such that inverted labels are effective for learning when the first teacher data set is expanded.
  • FIG. 8 is a diagram illustrating a specific example of the first teacher data set and the second teacher data.
  • the first teacher data set S is composed of a raw image 42 that is learning data and a correct label 44.
  • the raw image 42 is subjected to inversion processing by the inversion image generation unit 34, and a monochrome inversion image 46 is generated. Further, the correct label 44 is subjected to class rereading processing by the inverted label generation unit 36, and an inverted label 48 is generated.
  • the monochrome inverted image 46 and the inverted label 48 constitute a second teacher data set T.
  • the first teacher data set S and the second teacher data set T are used as learning data for machine learning of the learning model 40.
  • the second teacher data set T is generated by performing data expansion from the first teacher data set S. Then, the learning model 40 is trained using the first teacher data set S and the second teacher data set T. This allows the learning model 40 to perform effective learning.
  • FIG. 9 is a flowchart illustrating a data processing method executed using the data processing device 10. Note that the flowchart will be explained in accordance with the specific example explained with reference to FIG. Further, each step is executed by the processor 14 of the data processing device 10 executing the data processing program 18.
  • the single channel image acquisition unit 30 acquires the Raw image 42 from the teacher data set DB 22 (Step S10).
  • the correct label acquisition unit 32 acquires the correct label 44 of the Raw image 42 from the teacher data set DB 22 (step S11).
  • the inverted image generation unit 34 generates a monochrome inverted image 46 by performing inversion processing on the Raw image 42 (step of generating it as learning data of the second teacher data set: step S12).
  • the inverted label generation unit 36 performs class reading of the correct label 44 to generate an inverted label 48 (step of generating the correct label configuring the second teacher data set: step S13).
  • the data processing device 10 outputs the monochrome inverted image and inverted label from the input/output interface 12, and stores the monochrome inverted image and inverted label in the second teacher data set DB 26 (step S14).
  • the monochrome image that makes up the second teacher data set T is A reverse image 46 and a reverse label 48 are generated. Both the generated first teacher data set S and second teacher data set T are used for learning the learning model 40. This allows the learning model 40 to perform effective learning.
  • the hardware structure of the processing unit (single channel image acquisition unit 30, correct label acquisition unit 32, inverted image generation unit 34, and inverted label generation unit 36) that executes various processes are various types of processors as shown below.
  • processors include CPUs (Central Processing Units) and FPGAs (Field Programmable Gate Arrays), which are general-purpose processors that execute software (programs) and function as various processing units.
  • the circuit configuration can be changed after manufacturing.
  • PLDs programmable logic devices
  • ASICs Application Specific Integrated Circuits
  • One processing unit may be composed of one of these various processors, or may be composed of two or more processors of the same type or different types (for example, multiple FPGAs, or a combination of a CPU and FPGA). It's okay. Further, the plurality of processing units may be configured with one processor. As an example of configuring multiple processing units with one processor, first, one processor is configured with a combination of one or more CPUs and software, as typified by computers such as clients and servers. There is a form in which a processor functions as multiple processing units. Second, there are processors that use a single IC (Integrated Circuit) chip to implement the functions of the entire system, including multiple processing units, as typified by System On Chip (SoC). be. In this way, various processing units are configured using one or more of the various processors described above as a hardware structure.
  • SoC System On Chip
  • circuitry that is a combination of circuit elements such as semiconductor elements.
  • FIG. 10 is a diagram showing pixel values that make up an image.
  • pixel values forming the raw image a are shown
  • FIG. 10(B) the inverted image a obtained by inverting the raw image a by the inverted image generation unit 34 is shown.
  • the pixel values are shown. Note that in FIG. 10, the horizontal axis shows pixel values, and the vertical axis shows the number of pixels.
  • the pixel values forming the region of interest of Raw image a exist in the range of 10,000 to 25,000 (see FIG. 10(A)). (See range R in A). In this case, the pixel values constituting the region of interest in the inverted image a are distributed approximately from 40,000 to 55,000 (see range R in FIG. 10(B)). In this way, when the pixel values of the region of interest are significantly different between the raw image a and the inverted image a, the first and second teacher datasets that use these as learning data are used as the learning model. 40, the learning model 40 may not be able to perform learning appropriately.
  • the learning model 40 can effectively learn the data set and the second teacher data set.
  • the input layer of the learning model 40 may be provided with a mechanism such as Layer Normalization to suppress the height of each patch image.
  • ⁇ Third embodiment> Next, a third embodiment will be described.
  • the pixel values of some regions of a single-channel image are inverted to generate an inverted image, and the second teacher Generate the correct answer labels that make up the dataset.
  • FIG. 11 is a diagram illustrating the first teacher data set and the second teacher data set of this embodiment.
  • the single channel image 80 has a component area C1 and a background area D other than the component area C1. Note that a mask image may be superimposed on the single channel image 80 to separate the component region C1 and the background region D.
  • the inverted image generation unit 34 inverts only the component area C1 of the single channel image 80 to generate a inverted image 82.
  • the inverted image 82 is composed of an image in which only the component area C2 has been inverted from the component area C1, and the background area D remains the background area D of the single channel image 80.
  • the correct label 84 in the component area C1 is FMLD, and the inverted label generation unit 36 performs a process of replacing it with the correct label 86 (FMMD).
  • an inverted image is generated only for the region of interest such as a component region, and the inverted label is generated based on the correct label for the region of interest.
  • the second training data set can be generated by focusing on the region of interest, so that the learning model 40 can be trained more effectively.
  • FIG. 12 is a block diagram schematically showing a configuration example of the imaging system 500.
  • the photographing system 500 is for photographing the object to be inspected OBJ placed in the photographing room 514, and includes a photographing control section 502, a photographing operation section 504, an image recording section 506, a camera 508, and radiation sources 510 and 512.
  • a photographing control section 502 for photographing the object to be inspected OBJ placed in the photographing room 514
  • the photographing system 500 includes a photographing control section 502, a photographing operation section 504, an image recording section 506, a camera 508, and radiation sources 510 and 512.
  • the photographing control unit 502 includes a CPU that controls the operation of each part of the photographing system 500.
  • the imaging control unit 502 receives an operation input from an operator (photographer) via the imaging operation unit 504, and transmits a control signal corresponding to this operation input to each part of the imaging system 500 to control the operation of each part.
  • the photographing operation unit 504 includes an input device that accepts operation input from an operator.
  • the operator via the imaging operation unit 504, inputs information regarding the object to be inspected OBJ, inputs instructions for imaging conditions for the camera 508 and instructions to execute imaging, inputs instructions for radiation irradiation conditions for the radiation sources 510 and 512, It is possible to input an instruction to record an image obtained by photographing in the image recording unit 506.
  • the photographing conditions include, for example, photographing conditions such as exposure time, focal length, and aperture, photographing angle, and photographing location.
  • Radiation irradiation conditions include irradiation start time, irradiation duration, irradiation angle, irradiation intensity, and the like.
  • the image recording unit 506 records image data (light-receiving image) of the object to be inspected OBJ photographed by the camera 508. Information for identifying the object to be inspected OBJ is recorded in the image recording unit 506 in association with the image data.
  • the camera 508 and radiation sources 510 and 512 are arranged inside the imaging room 514.
  • the radiation sources 510 and 512 are, for example, X-ray sources, and the partition wall and entrance between the imaging room 514 and the outside are provided with X-ray protection using an X-ray protective material (for example, lead or concrete). There is. Note that when photographing the object to be inspected OBJ by irradiating it with visible light, there is no need to use the protected photographing room 514.
  • the radiation sources 510 and 512 irradiate the object to be inspected OBJ placed in the imaging room 514 with radiation according to instructions from the imaging control unit 502.
  • the camera 508 receives radiation emitted from the radiation source 510 to the object OBJ and reflected by the object OBJ, or irradiates the object OBJ from the radiation source 512 to the object OBJ, in accordance with an instruction to perform imaging from the imaging control unit 502.
  • the object to be inspected OBJ is photographed by receiving the radiation transmitted through the object to be inspected OBJ.
  • the object to be inspected OBJ is held in the imaging room 514 by a holding member (for example, a manipulator, a mounting table, a movable mounting table, etc.) (not shown), and the object to be inspected OBJ is connected to the camera 508, the radiation source 510, and the like.
  • the distance and angle relative to 512 are adjustable. The operator can control the relative positions of the object to be inspected OBJ, the camera 508, and the radiation sources 510 and 512 via the imaging control unit 502, and can image a desired location of the object to be inspected OBJ. There is.
  • the radiation sources 510 and 512 end the radiation irradiation to the object to be inspected OBJ in synchronization with the end of the imaging by the camera 508.
  • the camera 508 is placed inside the photographing room 514, but the camera 508 may be placed outside as long as it can photograph the object to be inspected OBJ in the photographing room 514. It's okay.
  • one camera 508 and two radiation sources 510 and 512 are provided, but the number of cameras and radiation sources is not limited to this. For example, there may be a plurality of cameras and a plurality of radiation sources, or one each.
  • the photographing control section 502, the photographing operation section 504, and the image recording section 506 can be realized using a combination of computer hardware and software.
  • the data processing device 10 may be communicably connected to the imaging system 500, or may be configured such that the data processing device 10 functions as the imaging control section 502, the imaging operation section 504, and the image recording section 506 of the imaging system 500. It's okay.

Landscapes

  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)

Abstract

効果的な学習を学習モデルに行える教師データセットをデータ拡張により生成する、データ処理装置、データ処理方法、及びプログラムを提供する。データ処理装置(10)は、プロセッサ(14)を含むデータ処理装置(10)であって、プロセッサ(14)は、撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は物理量に可逆変換を行うことで画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成するシングルチャンネル画像の画素値を反転させた反転画像を、第1の教師データセットを拡張して得られる第2の教師データセットの学習データとして生成し、第1の教師データセットを構成するシングルチャンネル画像の正解ラベルに基づいて、反転画像に対応させた反転ラベルを、第2の教師データセットを構成する正解ラベルとして生成する。

Description

データ処理装置、データ処理方法、及びプログラム
 本発明は、データ処理装置、データ処理方法、及びプログラムに関し、特に、教師データセットを生成するデータ処理装置、データ処理方法、及びプログラムに関する。
 一般に、機械学習では、解くべき問題の複雑さに対して、教師データセットの不足が問題となる。そこで、少数の教師データセットからできるだけ多くのバリエーションを有する教師データセットを確保するために、既存の教師データセットからデータ拡張を行って新たに教師データセットを生成することが行われている。ここで、教師データセットとは、学習モデルに学習を行わせる学習データと、その学習データの正解を示す正解ラベルとで構成される。
 例えば、特許文献1では、透過X線画像をデータ拡張して、数十万枚のデータセットを生成することが記載されている。
特開2021-110753号公報
 本開示の技術にかかる一つの実施形態は、効果的な学習を学習モデルに行える教師データセットをデータ拡張により生成する、データ処理装置、データ処理方法、及びプログラムを提供することである。
 本発明の第1の態様であるデータ処理装置は、プロセッサを含むデータ処理装置であって、プロセッサは、撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は物理量に可逆変換を行うことで画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成するシングルチャンネル画像の画素値を反転させた反転画像を、第1の教師データセットを拡張して得られる第2の教師データセットの学習データとして生成し、第1の教師データセットを構成するシングルチャンネル画像の正解ラベルに基づいて、反転画像に対応させた反転ラベルを、第2の教師データセットを構成する正解ラベルとして生成する。
 本発明の第2の態様であるデータ処理装置は、好ましくは、第1の態様において、シングルチャンネル画像は、被写体を透過した放射線を受光する、デジタルディテクタアレイ(DDA)で撮像した画像、又はイメージングプレート(IP)が受光信号を読み取り装置によりデジタル値で出力させたコンピューテッドラジオグラフィ(CR)撮像画像である。
 本発明の第3の態様であるデータ処理装置は、好ましくは、第1又は第2の態様において、シングルチャンネル画像は、レンズフリーイメージングによる画像である。
 本発明の第4の態様であるデータ処理装置は、好ましくは、第1から第3の態様のいずれか一つの態様において、シングルチャンネル画像の各画素は、対応する受光素子における受光量に比例したデジタル値、又は受光量と相関関係のあるデジタル値を有する。
 本発明の第5の態様であるデータ処理装置は、好ましくは、第1から第4の態様のいずれか一つの態様において、シングルチャンネル画像の各画素は、対応する被写体の各点における物理量と相関関係のあるデジタル値を有する。
 本発明の第6の態様であるデータ処理装置は、好ましくは、第1から第5の態様のいずれか一つの態様において、第1の教師データセットは、第1の教師データセットを拡張した場合に、反転ラベルにおいて矛盾が生じないものが選択されている。
 本発明の第7の態様であるデータ処理装置は、好ましくは、第1から第6の態様のいずれか一つの態様において、第1の教師データセットは、第1の教師データセットを拡張した場合に、反転ラベルが学習に有効であるものが選択されている。
 本発明の第8の態様であるデータ処理装置は、好ましくは、第1から第7の態様のいずれか一つの態様において、プロセッサは、シングルチャンネル画像の一部の領域に対して、画素値を反転させて反転画像を生成し、一部の領域に対応するシングルチャンネル画像の正解ラベルに基づいて、第2の教師データセットを構成する正解ラベルとして生成する。
 本発明の第9の態様であるデータ処理装置は、好ましくは、第1から第8の態様のいずれか一つの態様において、プロセッサは、学習データに対して正規化又は標準化を行う。
 本発明の第10の態様であるデータ処理装置は、好ましくは、第1から第9の態様のいずれか一つの態様において、プロセッサは、第2の教師データセットを構成する正解ラベルのクラス設計を、反転画像を学習データとすることに対応して編集する。
 本発明の第11の態様であるデータ処理装置は、好ましくは、第1から第10の態様のいずれか一つの態様において、可逆変換は、線形変換、対数変換、及び画素値対応テーブルを用いた非線形変換のうち少なくとも一つである。
 本発明の第12の態様であるデータ処理方法は、プロセッサが、撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は物理量に可逆変換を行うことで画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成するシングルチャンネル画像の画素値を反転させた反転画像を、第1の教師データセットを拡張して得られる第2の教師データセットの学習データとして生成する工程と、第1の教師データセットを構成するシングルチャンネル画像の正解ラベルに基づいて、反転画像に対応させた反転ラベルを、第2の教師データセットを構成する正解ラベルとして生成する工程と、を行う。
 本発明の第13の態様であるプログラムは、プロセッサに、撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は物理量に可逆変換を行うことで画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成するシングルチャンネル画像の画素値を反転させた反転画像を、第1の教師データセットを拡張して得られる第2の教師データセットを構成する学習データとして生成する工程と、第1の教師データセットを構成するシングルチャンネル画像の正解ラベルに基づいて、反転画像に対応させた反転ラベルを、第2の教師データセットを構成する正解ラベルとして生成する工程と、を含むデータ処理方法を実行させる。
 本発明によれば、効果的な学習を学習モデルに対して行える教師データセットを、既存の教師データセットからデータ拡張により生成することができる。
図1は、データ処理装置のハードウェアの構成例を示すブロック図である。 図2は、プロセッサがメモリに記憶されているデータ処理プログラムを実行することにより、実現される機能Fの機能ブロックを示す図である。 図3は、シングルチャンネル画像の撮影に関して説明する模式図である。 図4は、シングルチャンネル画像を示す図である。 図5は、正解ラベルのクラス読み替え処理に関して説明する図である。 図6は、正解ラベルのクラス読み替え処理に関して説明する図である。 図7は、第2の教師データセットの正解ラベル(反転ラベル)のクラス設計を編集することを説明する図である。 図8は、第1の教師データセットと第2の教師データとの具体例を説明する図である。 図9は、データ処理方法を説明するフローチャートである。 図10は、画像を構成する画素値を示す図である。 図11は、第3の実施形態の第1の教師データセット及び第2の教師データセットに関して説明する図である。 図12は、撮影システムの構成例を概略的に示すブロック図である。
 以下、添付図面にしたがって本発明の好ましい実施の形態について説明する。
 <第1の実施形態>
 <データ処理装置>
 図1は、本発明のデータ処理装置のハードウェアの構成例を示すブロック図である。
 データ処理装置10は、プロセッサ14と、非一時的な有体物で構成されるメモリ16と、入出力インターフェース12とを含む。データ処理装置10として機能するコンピュータは、ワークステーションであってもよいし、パーソナルコンピュータであってもよいし、タブレット端末であってもよく、あるいは、サーバであってもよい。
 プロセッサ14はCPU(Central Processing Unit)で構成される。また、プロセッサ14、GPU(Graphics Processing Unit)により構成されてもよい。プロセッサ14は、バス8を介して、メモリ16、及び入出力インターフェース12と接続される。
 入出力インターフェース12を介して、データ処理装置10に情報が入力される。また、入出力インターフェース12を介して、情報が出力される。例えば、入出力インターフェース12を介して、教師データセットDB(データベース:Database)22がデータ処理装置10に接続され、第1の教師データセット及び第2の教師データセットがデータ処理装置10に入力される。
 メモリ16は、主記憶装置であるメモリ及び補助記憶装置であるストレージを含む。メモリ16は、例えば、半導体メモリ、ハードディスク(Hard Disk Drive:HDD)装置、若しくはソリッドステートドライブ(Solid State Drive:SSD)装置又はこれらの複数の組み合わせであってもよい。
 メモリ16には、データ処理装置10を制御するプログラムが記憶されている。例えば、データ処理方法を実行するためのデータ処理プログラム18が記憶されている。またメモリ16には、データ処理装置10を作動させる一般的なプログラムを記憶している。
 図1に示した場合では、データ処理装置10には、外付けの教師データセットDB22に接続されている。なお、教師データセットDBは、データ処理装置10に備えられてもよい。
 教師データセットDB22は、第1の教師データセットDB24、及び第2の教師データセットDB26を含む。第1の教師データセット及び第2の教師データセットは、学習モデル40(図8)が学習を行うための学習データとその学習データの正解ラベルとで構成される。第1の教師データセットDB24には、複数の第1の教師データセットが記憶されている。例えば、第1の教師データセットは、撮影システム500(図12)で撮影されたシングルチャンネル画像(学習データに相当)と、そのシングルチャンネル画像で読影された欠陥(正解ラベルに相当)とで構成される。第2の教師データセットDB26には、複数の第2の教師データセットが記憶されている。第2の教師データは、シングルチャンネル画像の反転画像(学習データに相当)と、正解ラベルを読み替え処理した反転ラベル(正解ラベルに相当)とで構成される。第2の教師データセットは、第1の教師データからデータ拡張された教師データセットであり、データ処理装置10により生成される。
 なお、図1では、教師データセットDB22に第1の教師データセットDB24と第2の教師データセットDB26とが含まれている例について示したが、第1の教師データセットDB24と第2の教師データセットDB26とが別々に設けられてもよい。
 図2は、プロセッサ14がメモリ16に記憶されているデータ処理プログラム18を実行することにより、実現される機能Fの機能ブロックを示す図である。
 プロセッサ14がデータ処理プログラム18を実行することにより実現される機能Fは、シングルチャンネル画像取得部30、正解ラベル取得部32、反転画像生成部34、及び反転ラベル生成部36を備える。上述の機能Fの各々が実現されることにより、第1の教師データセットがデータ拡張されて第2の教師データセットが生成される。
 シングルチャンネル画像取得部30は、教師データセットDB22から第1の教師データセットの学習データであるシングルチャンネル画像を取得する。ここでシングルチャンネル画像とは、撮影時に、受光素子がセンシングした物理量に応じて、画素値が定まる画像、物理量に可逆変換を行うことで画素値が定まる画像である。なおここで、具体的な可逆変換は、線形変換、対数変換、及び画素値対応テーブルを用いた非線形変換のうち少なくとも一つである。また、シングルチャンネル画像は、元の物理現象に逆変換で辿れる変換のみが施されている画像である。すなわち、シングルチャンネル画像は、不可逆変換が行われていない画像であるとも言える。シングルチャンネル画像の具体例としては、Raw画像が挙げられる。ここでRaw画像とは、受光素子である撮像素子から出力された未現像の画像データで構成されており、各受光素子で受光した光量と受光素子が出力した信号値とが線形性の関係を有する。またシングルチャンネル画像の他の具体例としては、例えば赤のフィルタを通して顕微鏡で取得した画像など、特定のスペクトル(色)の波長における光量をとらえたモノクロ画像である。また、シングルチャンネル画像は、被写体を透過した放射線を受光する、デジタルディテクタアレイ(DDA)で撮像した画像、又はイメージングプレート(IP)が受光信号を読み取り装置によりデジタル値で出力させたコンピューテッドラジオグラフィ(CR)撮像画像である。また、シングルチャンネル画像は、レンズフリーイメージングによる画像である。
 図3は、シングルチャンネル画像の撮影に関して説明する模式図である。
 図3では、放射線源50、被検査体OBJ、及びディテクタ54が示されている。なお、ディテクタ54は、受光パネルで構成され、受光素子の一例である。
 放射線源50から出射した放射線は、被検査体OBJに照射される。被検査体OBJを透過した放射線は、ディテクタ54に受光される。ディテクタ54は、被検査体OBJのシングルチャンネル画像56を出力する。
 図4は、ディテクタ54で取得された被検査体OBJのシングルチャンネル画像56を示す図である。シングルチャンネル画像56の画素Qは、ディテクタ54と放射線源50とを結んだ直線L上にある被写体を透過してきた放射線の強度、に応じて値が定まり、直線Lで貫かれた被写体の領域Pに対応する。したがって、シングルチャンネル画像の各画素は、対応するディテクタ54における受光量に比例したデジタル値、又は受光量と相関関係のあるデジタル値を有する。また、シングルチャンネル画像の各画素は、対応する被検査体OBJ(被写体)の各点(例えばP点)における物理量と相関関係のあるデジタル値を有する。
 次に、本発明におけるシングルチャンネル画像では無い具体例を参考のために説明する。元の物理量に対する特性が不明となってしまうために、低ビットモニタを通して読み取った画素値など、2次的な特性不明の外部装置を介して読み取った画素値で構成される画像は、シングルチャンネル画像ではない。また、白飛びや黒飛びが発生するようなLUT(Look Up Table)変換が行われた画像は、シングルチャンネル画像ではない。また、複数の値が一つの値に集約されてしまうような、「多対1」になるような変換が行われた画像も、情報量が落ちているため、シングルチャンネル画像ではない。ガンマ補正などの非線形処理が行われた画像も、反転画像生成部34で反転処理が行われたときに非対称となるので、シングルチャンネル画像ではない。但し、補正の逆変換が理論的に定義できて、その変換で情報が劣化しないならば、シングルチャンネル画像とすることが可能である。しかしながら、理論関数が計算できたとしても、量子化との兼ね合いで対応が取れなければシングルチャンネル画像とすることができない。
 正解ラベル取得部32(図2)は、教師データセットDB22から第1の教師データセットの正解ラベルを取得する。
 ここで、正解ラベルは、シングルチャンネル画像を学習データとして学習モデル40に学習させた場合の正解に関する情報を有している。例えば、正解ラベルは、シングルチャンネル画像から読影された欠陥の情報を有する。
 反転画像生成部34(図2)は、シングルチャンネル画像をデータ拡張することにより反転画像を生成する。反転画像生成部34は、第1の教師データセットを構成するシングルチャンネル画像の画素値を反転させて、反転画像を生成する。
 反転画像生成部34で行われる反転処理の具体例としては、シングルチャンネル画像の画素値の最小値が0、最大値が65535である場合に、各座標における画素値「p」を、「65535-p」に置き換えるという処理を行う。
 また、反転画像生成部34で行われる反転処理の他の具体例としては、関数による変換を途中に挟んだ反転処理を行う。反転画像生成部34は、画素が物理量の対数に比例して構成される場合に、画像を構成する画素値「p」を、「exp(p)」に変換したうえで、変換後の最大値及び最小値を算出したうえで線形な反転(max(exp(p))-exp(p))を行い、その値の対数をとる、という反転処理を行うことができる。
 また、反転画像生成部34の反転処理は、上述した反転処理に限定されず、相対的に画素値の高い点と、画素値の低い点が、低い点と高い点になるような、予め任意に定めた画素値と画素値の対応表(LUT;look up table)による変換などのその他の処理も含む。
 なお、シングルチャンネル画像の画素値は、輝度信号に基づく値である場合、LiDAR(Light Detection and Ranging)カメラで撮影した深さ情報を表す画素値信号に基づく場合、X線を透過させたフィルム検査の濃淡を読み取った濃度情報に基づく場合などであり、画素が表している物理量の解釈は、輝度とは限定されない。
 以上より、反転画像生成部34では、物理現象が画素値に表されるという関係がある場合に、反転させた画素値がその物理現象と対応する物理現象が想定可能な変換を行う。一方で、反転画像生成部34での変換の前後で、もとの欠陥に対してどのように変換されたものであるかが、不明となってしまう変換は、反転画像生成部34で行われる変換から除外される。
 反転ラベル生成部36(図2)は、正解ラベルをデータ拡張することにより反転ラベルを生成する。
 反転ラベル生成部36は、シングルチャンネル画像が反転処理される場合に、シングルチャンネル画像の正解ラベルのクラス読み替え処理を行う。例えば、シングルチャンネル画像が透過画像の場合は、被検査体OBJが凹んでいるのか余分に盛り上がっているのか、という情報が、透過画像であるシングルチャンネル画像の輝度値の高低に現れる。このような場合には、輝度値の高低が欠陥の種別を区別するために重要な情報となる場合がある。この場合には、正解ラベルにおけるクラスの読み替え処理を行って、正解ラベルのデータ拡張を行い、反転ラベルを生成する。
 図5は、反転ラベル生成部36での正解ラベルのクラス読み替え処理に関して説明する図である。
 図5は、低密度欠陥を示す画像60及び高密度欠陥を示す画像62が示されている。
 画像60は、FMLD(Foreign Material Less Dense)を示す領域66を有する。領域66は、背景64よりも暗くなる。ここで、FMLDは、低密度の異物の総称である。例えば欠けていたり、鋳造金属の流れ込みが不足していたり、傷ついて削れてしまっている場合、気泡やガスが混入した場合に、それらの領域(FMLDを示す領域(領域66))は周囲(背景64)よりも暗く表示される。なお、画像60と第1の教師データセットを構成する、正解ラベル72はFMLDとなる。
 画像62は、FMMD(Foreign Material More Dense)を示す領域70を有する。領域70は、背景68よりも明るくなる。ここで、FMMDは高密度の異物の総称である。例えば、部材がアルミニウムでできており、それが鋳造の過程で必要以上に盛り上がってしまった場合や、飛び散った金属が付着している場合、内部にアルミニウムよりも高い密度の不純物が埋まっている場合に、それらの領域(FMMDを示す領域(領域70)はX線を透過しにくいため、「白く」(明るく)表示される。すなわち、FMMDを示す領域(領域70)では、通常時と比べて、画素値が大きくなる。なお、画像62を学習データとした場合には、正解ラベル74はFMMDとなる。
 上述したように、FMLDを示す領域66と背景64との関係と、FMMDを示す領域70と背景68との関係は、反転した関係となる。したがって、異物や欠陥が存在する領域(FMLDを示す領域66及びFMMDを示す領域70)、及び、背景の領域(背景64及び背景68)、をまとめて画像全体を「モノクロ反転」させると、相対的に、背景に対する欠陥領域の高低が逆転する。この場合、正解ラベル72も反転させて反転ラベル(正解ラベル74)に変換する。
 なお、図5では、FMLDを示す領域66を有する画像60からFMMDを示す領域70を有する画像62にモノクロ反転させる場合について説明したがこれに限定されるものではない。図6に示すように、FMMDを示す領域70を有する画像62からFMMLDを示す領域66を有する画像60にモノクロ反転させることも、同様に行うことができる。
 なお、正解ラベルの読み替えを行うことにより、同一画像内に両者のカテゴリーの欠陥が混在していることも、問題なく扱うことができる。
 以上で説明した場合では、FMLDとFMMDとが1対1に対応する場合について説明をした。しかしながら、必ずしもFMLDとFMMDとが1対1に対応するとは限らない。このように1対1に対応しない場合には、第2の教師データセットを構成する正解ラベルのクラス設計を、反転画像を学習データとすることに対応して編集することが好ましい。
 図7は、第2の教師データセットの正解ラベル(反転ラベル)のクラス設計を編集することを説明する図である。
 図7(A)は、正解ラベルFMMDの読み替え先が複数になる場合を説明する図である。気体等が混入して生じるガス欠陥は、背景に対して相対的に暗く(画素値が小さく)写るので、上述したFMLDに共通する。したがって、FMMDの正解ラベルを反転ラベルとした場合に、読み替え先がFMLDとガス欠陥の複数になってしまう(図7(A)参照)。したがって、ガス欠陥とFMLDとを正解ラベルにおいて別々のクラスとみなす余地がある場合であっても、ガス欠陥とFMLDとを1つの新しいクラスとして編集し集約して扱うようにする。
 図7(B)は、正解ラベルFMMDの読み替え先の正解ラベルのクラス設計を編集し集約した場合を説明する図である。図7(B)に示した場合では、読み替え先の正解ラベルをFMLD又はガス欠陥という一つの正解ラベルになるように編集して新しいクラスとして集約して扱っている。これにより、読み替え先が複数になることがなく、検出又は分類モデルの学習において、効果的な学習を行うことができる。
 また、本発明の第1の教師データセットは、第1の教師データセットを拡張した場合に、反転ラベルにおいて矛盾が生じないものが選択されることが好ましい。具体的には、正解ラベルがある欠陥を示してる場合に、反転ラベルとした場合の欠陥が存在するものが、第1の教師データセットとして選択されることが好ましい。また、第1の教師データセットは、第1の教師データセットを拡張した場合に、反転ラベルが学習に有効であるものが選択されことが好ましい。
 上述したようなデータ拡張において、画像に紐づく正解ラベル(たとえば分類クラス)が、データ拡張前後で変化しないという制約を加える場合がある。これは、データ拡張を行った結果、誤ったクラス(存在する事がないデータ)、にならないようにするためである。
 本発明においても同様に、特定のクラスだけを、選択的に反転させることが考えられる。例えば、Porosity(=微小なガス)欠陥は、異物混入とは異なり、広範囲に密集して発生する傾向がある。このPorosity欠陥を含む画像も、同様に画素反転させて、多数の白い欠陥と同視することは可能である。しかしながら、検査対象物に、反転させた結果の画像、すなわち「高密度であって、密集して発生する」欠陥が、実際には生じえない場合や、発生する可能性はあっても、製品の品質に悪影響を与えないため、検査項目の対象外である場合には、学習をする必要がない場合がある。
 そのような状況下では、Porosity欠陥を含まない画像に限り、画素反転を適用することが好ましい。
 このように、本発明の第1の教師データセットは、第1の教師データセットを拡張した場合に、反転ラベルにおいて矛盾が生じないものが選択されることが好ましい。また、第1の教師データセットは、第1の教師データセットを拡張した場合に、反転ラベルが学習に有効であるものが選択されことが好ましい。
 図8は、第1の教師データセットと第2の教師データとの具体例を説明する図である。
 第1の教師データセットSは、学習データであるRaw画像42及び正解ラベル44とで構成される。
 Raw画像42は、反転画像生成部34により反転処理が行われ、モノクロ反転画像46が生成される。また、正解ラベル44は、反転ラベル生成部36によりクラス読み替え処理が行われ、反転ラベル48が生成される。そして、モノクロ反転画像46と反転ラベル48とは、第2の教師データセットTを構成する。第1の教師データセットSと第2の教師データセットTとは、学習モデル40の機械学習の学習データとして使用される。
 以上で説明したように、第1の教師データセットSからデータ拡張を行うことにより第2の教師データセットTが生成される。そして、学習モデル40は、第1の教師データセットS及び第2の教師データセットTにより学習が行われる。これにより、効果的な学習を学習モデル40に行わせることが可能となる。
 図9は、データ処理装置10を用いて実行されるデータ処理方法を説明するフローチャートである。なお、図8で説明を行った具体例に沿ってフローチャートの説明を行う。また、データ処理装置10のプロセッサ14がデータ処理プログラム18を実行することにより各ステップが実行する。
 先ず、シングルチャンネル画像取得部30は、教師データセットDB22から、Raw画像42を取得する(ステップS10)。その後、正解ラベル取得部32は、教師データセットDB22から、Raw画像42の正解ラベル44を取得する(ステップS11)。次に、反転画像生成部34は、Raw画像42に対して反転処理を行うことにより、モノクロ反転画像46を生成する(第2の教師データセットの学習データとして生成する工程:ステップS12)。その後、反転ラベル生成部36は、正解ラベル44のクラス読み替えを行って反転ラベル48を生成する(第2の教師データセットを構成する正解ラベルとして生成する工程:ステップS13)。その後、データ処理装置10は、入出力インターフェース12からモノクロ反転画像及び反転ラベルを出力し、モノクロ反転画像及び反転ラベルを第2の教師データセットDB26に記憶させる(ステップS14)。
 上述したように、第1の教師データセットSを構成するRaw画像42と正解ラベル44とをデータ拡張(反転処理、クラス読み替え処理)を行うことにより、第2の教師データセットTを構成するモノクロ反転画像46と反転ラベル48が生成される。そして、生成された第1の教師データセットSと第2の教師データセットTとは共に学習モデル40の学習に使用される。これにより、学習モデル40に効果的な学習を行わせることができる。
 上記実施形態において、各種の処理を実行する処理部(processing unit)(シングルチャンネル画像取得部30、正解ラベル取得部32、反転画像生成部34、及び反転ラベル生成部36)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
 上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
 <第2の実施形態>
 次に、第2の実施形態に関して説明する。本実施形態では、学習データに対して正規化又は標準化が行われる。本実施形態によれば、反転したことによる画素値の偏りを防ぐことができ、学習モデル40に対して効果的な学習を行わせることができる。
 図10は、画像を構成する画素値を示す図である。図10(A)では、Raw画像aを構成する画素値が示されており、図10(B)では、Raw画像aを反転画像生成部34で反転処理して得られた反転画像aを構成する画素値が示されている。なお、図10では、横軸に画素値、縦軸に画素数が示されている。
 図10(A)に示した場合では、画像の取り得る画素値が0~65535である場合に、Raw画像aの注目領域を構成する画素値が10000~25000の範囲に存在する(図10(A)の範囲Rを参照)。この場合には、反転画像aにおける注目領域を構成する画素値は、およそ40000~55000に分布する(図10(B)の範囲Rを参照)。このように、注目領域の画素値が、Raw画像aと反転画像aとの間で大きく異なる場合には、これらを学習データとする第1の教師データセット及び第2の教師データセットを学習モデル40に入力したとしても、学習モデル40が適切に学習を行えない可能性がある。
 そこで、本実施形態では、Raw画像aに対して正規化又は標準化を行うことにより、画素値分布の相対的な高低のみに注目できるため、正規化又は標準化の影響は抑制され、第1の教師データセット及び第2の教師データセットを学習モデル40が効果的に学習できるようになる。
 なお、上述した説明では、Raw画像aに対して正規化又は標準化する手法について説明を行ったが、注目領域の画素値が、Raw画像aと反転画像aとの間で大きく異なる場合の対処法として、学習モデル40の入力層に、Layer Normalization など、パッチ画像ごとに高低を抑える機構を備えてもよい。
 <第3の実施形態>
 次に、第3の実施形態に関して説明する。本実施形態では、シングルチャンネル画像の一部の領域に対して、画素値を反転させて反転画像を生成し、一部の領域に対応するシングルチャンネル画像の正解ラベルに基づいて、第2の教師データセットを構成する正解ラベルとして生成する。
 図11は、本実施形態の第1の教師データセット及び第2の教師データセットに関して説明する図である。
 シングルチャンネル画像80は、部品領域C1と、部品領域C1以外の背景領域Dとを有する。なお、シングルチャンネル画像80に、マスク画像を重畳させて、部品領域C1と背景領域Dとを分離してもよい。
 反転画像生成部34は、シングルチャンネル画像80の部品領域C1のみを反転処理し、反転画像82を生成する。反転画像82は、部品領域C2のみ部品領域C1が反転処理した画像で構成され、背景領域Dはシングルチャンネル画像80の背景領域Dのままである。また、部品領域C1における正解ラベル84はFMLDであり、反転ラベル生成部36により正解ラベル86(FMMD)に読み替え処理が行われる。
 このように、本実施形態では、部品領域などの注目領域に対してのみ反転画像を生成し、注目領域に対しての正解ラベルに基づいて反転ラベルを生成する。これにより、注目領域にフォーカスして第2の教師データセットを生成することができるので、より効果的に学習モデル40に学習を行わすことができる。
 <撮影システムの構成例>
 次に、被検査体OBJの画像(シングルチャンネル画像)を撮影するための撮影システム500の例について説明する。図12は、撮影システム500の構成例を概略的に示すブロック図である。撮影システム500は、撮影室514内に置かれた被検査体OBJを撮影するためのものであり、撮影制御部502、撮影操作部504、画像記録部506、カメラ508及び放射線源510、512を備えている。
 撮影制御部502は、撮影システム500の各部の動作を制御するCPUを含む。撮影制御部502は、撮影操作部504を介してオペレータ(撮影者)からの操作入力を受け付け、この操作入力に応じた制御信号を撮影システム500の各部に送信して各部の動作を制御する。
 撮影操作部504は、オペレータからの操作入力を受け付ける入力装置を含む。オペレータは、撮影操作部504を介して、被検査体OBJに関する情報の入力、カメラ508に対する撮影条件の指示及び撮影実行の指示の入力、放射線源510及び512に対する放射線の照射条件の指示の入力、撮影により得られた画像を画像記録部506に記録する指示の入力などを行うことができる。撮影条件には、例えば、露出時間、焦点距離、絞り等の撮影条件、撮影角度及び撮影箇所等が含まれる。放射線の照射条件には、照射開始時間、照射継続時間、照射角度及び照射強度等が含まれる。
 画像記録部506は、カメラ508によって撮影された被検査体OBJの画像データ(受光画像)を記録する。画像記録部506には、被検査体OBJを特定するための情報が画像データと関連付けられて記録される。
 カメラ508、放射線源510及び512は、撮影室514の内部に配置されている。放射線源510及び512は、例えば、X線源であり、撮影室514と外部との間の隔壁及び出入口には、X線防護材料(例えば、鉛又はコンクリート等)によりX線防護が施されている。なお、被検査体OBJに可視光を照射して撮影を行う場合には、防護を施した撮影室514を用いる必要はない。
 放射線源510及び512は、撮影制御部502からの指示にしたがって、撮影室514内に置かれた被検査体OBJに放射線を照射する。
 カメラ508は、撮影制御部502からの撮影実行の指示にしたがって、放射線源510から被検査体OBJに照射されて被検査体OBJにより反射された放射線、又は放射線源512から被検査体OBJに照射されて被検査体OBJを透過した放射線を受光して被検査体OBJを撮影する。被検査体OBJは、不図示の保持部材(例えば、マニピュレーター、載置台又は可動式の載置台など)によって撮影室514内に保持されており、被検査体OBJは、カメラ508、放射線源510及び512に対する距離及び角度が調整可能となっている。操作者は、撮影制御部502を介して、被検査体OBJ、カメラ508、放射線源510及び512の相対位置を制御可能となっており、被検査体OBJの所望の箇所を撮影可能となっている。
 放射線源510及び512は、カメラ508による撮影の実行の終了に同期して、被検査体OBJに対する放射線の照射を終了する。
 なお、図12に示す例では、カメラ508は、撮影室514の内部に配置されているが、カメラ508は、撮影室514内の被検査体OBJを撮影可能であれば、外部に配置されていてもよい。また、図12に示す例では、カメラ508が1台、放射線源510及び512が2台設けられているが、カメラ及び放射線源の台数はこれに限定されるものではない。例えば、カメラ及び放射線源は、それぞれ複数台あってもよいし、1つずつであってもよい。撮影制御部502、撮影操作部504及び画像記録部506は、コンピュータのハードウェアとソフトウェアとの組み合わせを用いて実現できる。
 データ処理装置10は、撮影システム500と通信可能に接続されてもよいし、データ処理装置10が撮影システム500の撮影制御部502、撮影操作部504及び画像記録部506として機能するように構成されてもよい。
 以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
8    :バス
10   :データ処理装置
12   :入出力インターフェース
14   :プロセッサ
16   :メモリ
18   :データ処理プログラム
30   :シングルチャンネル画像取得部
32   :正解ラベル取得部
34   :反転画像生成部
36   :反転ラベル生成部
40   :学習モデル
42   :Raw画像
44   :正解ラベル
46   :モノクロ反転画像
48   :反転ラベル
50   :放射線源
54   :ディテクタ
56   :シングルチャンネル画像

Claims (14)

  1.  プロセッサを含むデータ処理装置であって、
     前記プロセッサは、
     撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は前記物理量に可逆変換を行うことで前記画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成する前記シングルチャンネル画像の前記画素値を反転させた反転画像を、前記第1の教師データセットを拡張して得られる第2の教師データセットの学習データとして生成し、
     前記第1の教師データセットを構成する前記シングルチャンネル画像の正解ラベルに基づいて、前記反転画像に対応させた反転ラベルを、前記第2の教師データセットを構成する正解ラベルとして生成する、データ処理装置。
  2.  前記シングルチャンネル画像は、被写体を透過した放射線を受光する、デジタルディテクタアレイ(DDA)で撮像した画像、又はイメージングプレート(IP)が受光信号を読み取り装置によりデジタル値で出力させたコンピューテッドラジオグラフィ(CR)撮像画像である請求項1に記載のデータ処理装置。
  3.  前記シングルチャンネル画像は、レンズフリーイメージングによる画像である請求項1に記載のデータ処理装置。
  4.  前記シングルチャンネル画像の各画素は、対応する前記受光素子における受光量に比例したデジタル値、又は前記受光量と相関関係のあるデジタル値を有する請求項1に記載のデータ処理装置。
  5.  前記シングルチャンネル画像の各画素は、対応する被写体の各点における前記物理量と相関関係のあるデジタル値を有する請求項1に記載のデータ処理装置。
  6.  前記第1の教師データセットは、前記第1の教師データセットを拡張した場合に、前記反転ラベルにおいて矛盾が生じないものが選択されている請求項1に記載のデータ処理装置。
  7.  前記第1の教師データセットは、前記第1の教師データセットを拡張した場合に、前記反転ラベルが学習に有効であるものが選択されている請求項1に記載のデータ処理装置。
  8.  前記プロセッサは、
     前記シングルチャンネル画像の一部の領域に対して、前記画素値を反転させて前記反転画像を生成し、
     前記一部の領域に対応する前記シングルチャンネル画像の正解ラベルに基づいて、前記第2の教師データセットを構成する正解ラベルとして生成する請求項1に記載のデータ処理装置。
  9.  前記プロセッサは、前記学習データに対して正規化又は標準化を行う請求項1に記載のデータ処理装置。
  10.  前記プロセッサは、前記第2の教師データセットを構成する前記正解ラベルのクラス設計を、前記反転画像を前記学習データとすることに対応して編集する請求項1に記載のデータ処理装置。
  11.  前記可逆変換は、線形変換、対数変換、及び画素値対応テーブルを用いた非線形変換のうち少なくとも一つである請求項1に記載のデータ処理装置。
  12.  プロセッサが、
     撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は前記物理量に可逆変換を行うことで前記画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成する前記シングルチャンネル画像の前記画素値を反転させた反転画像を、前記第1の教師データセットを拡張して得られる第2の教師データセットの学習データとして生成する工程と、
     前記第1の教師データセットを構成する前記シングルチャンネル画像の正解ラベルに基づいて、前記反転画像に対応させた反転ラベルを、前記第2の教師データセットを構成する正解ラベルとして生成する工程と、を行うデータ処理方法。
  13.  プロセッサに、
     撮影時に受光素子がセンシングした物理量に応じて画素値が定まる、又は前記物理量に可逆変換を行うことで前記画素値が定まるシングルチャンネル画像であって、第1の教師データセットを構成する前記シングルチャンネル画像の前記画素値を反転させた反転画像を、前記第1の教師データセットを拡張して得られる第2の教師データセットを構成する学習データとして生成する工程と、
     前記第1の教師データセットを構成する前記シングルチャンネル画像の正解ラベルに基づいて、前記反転画像に対応させた反転ラベルを、前記第2の教師データセットを構成する正解ラベルとして生成する工程と、を含むデータ処理方法を実行させるプログラム。
  14.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項13に記載のプログラムが記録された記録媒体。
PCT/JP2023/017249 2022-06-07 2023-05-08 データ処理装置、データ処理方法、及びプログラム WO2023238565A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-092152 2022-06-07
JP2022092152 2022-06-07

Publications (1)

Publication Number Publication Date
WO2023238565A1 true WO2023238565A1 (ja) 2023-12-14

Family

ID=89118106

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/017249 WO2023238565A1 (ja) 2022-06-07 2023-05-08 データ処理装置、データ処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023238565A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020102111A (ja) * 2018-12-25 2020-07-02 トヨタ自動車株式会社 情報処理装置および外観検査装置
JP2020169680A (ja) * 2019-04-03 2020-10-15 株式会社Ihiインフラシステム ボルトの締結状態検知装置及び方法、並びにプログラム
JP2021033835A (ja) * 2019-08-28 2021-03-01 株式会社Jvcケンウッド 対象物認識装置、対象物認識方法及びプログラム
JP2021110753A (ja) * 2020-01-15 2021-08-02 株式会社クオルテック 物体内部の可視化装置及び可視化方法と当該コンピュータプログラム。

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020102111A (ja) * 2018-12-25 2020-07-02 トヨタ自動車株式会社 情報処理装置および外観検査装置
JP2020169680A (ja) * 2019-04-03 2020-10-15 株式会社Ihiインフラシステム ボルトの締結状態検知装置及び方法、並びにプログラム
JP2021033835A (ja) * 2019-08-28 2021-03-01 株式会社Jvcケンウッド 対象物認識装置、対象物認識方法及びプログラム
JP2021110753A (ja) * 2020-01-15 2021-08-02 株式会社クオルテック 物体内部の可視化装置及び可視化方法と当該コンピュータプログラム。

Similar Documents

Publication Publication Date Title
US11386542B2 (en) Training data creation method and device, and defect inspection method and device
JP5043755B2 (ja) 樹脂材料検査装置およびプログラム
JP2008203034A (ja) 欠陥検出装置および欠陥検出方法
US8204291B2 (en) Method and system for identifying defects in a radiographic image of a scanned object
JP2008229102A (ja) 放射線画像撮影方法および放射線画像撮影装置
US10578560B2 (en) Inspection apparatus and method for detecting false defects
CN110915193B (zh) 图像处理系统、服务器装置、图像处理方法及记录介质
GB2577661A (en) Determination of lithography effective dose uniformity
Lo et al. Performance characteristics of a laser scanner and laser printer system for radiological imaging
CN1828631B (zh) 用于获取内部结构图像的方法和装置
WO2023238565A1 (ja) データ処理装置、データ処理方法、及びプログラム
Eckel et al. Radiographic film system classification and noise characterisation by a camera-based digitisation procedure
Karr et al. High dynamic range digital imaging of spacecraft
TW202035976A (zh) 圖案檢查裝置及圖案檢查方法
JP2015105897A (ja) マスクパターンの検査方法
CN114494080A (zh) 一种图像生成方法、装置、电子设备及存储介质
JPH11332858A (ja) 照射野外黒化処理装置
JP2009261842A (ja) 放射線画像撮影装置および画像欠陥検出方法
WO2023053768A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP4133303B2 (ja) ディスプレイ画質測定システム
JP2004219072A (ja) 画面のスジ欠陥検出方法及び装置
US20230046611A1 (en) X-ray inspection apparatus, x-ray inspection system, image management method and program
Chibel et al. Digital Photographs: Realistic Size Conversion System for Forensic Fingerprint Processing.
JPH036444A (ja) 蛍光検査装置
JP2007085995A (ja) インデックス情報作成装置、試料検査装置、レビュー装置、インデックス情報作成方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23819551

Country of ref document: EP

Kind code of ref document: A1