WO2022208620A1 - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents
情報処理装置、情報処理方法、および情報処理プログラム Download PDFInfo
- Publication number
- WO2022208620A1 WO2022208620A1 PCT/JP2021/013344 JP2021013344W WO2022208620A1 WO 2022208620 A1 WO2022208620 A1 WO 2022208620A1 JP 2021013344 W JP2021013344 W JP 2021013344W WO 2022208620 A1 WO2022208620 A1 WO 2022208620A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- learning
- image
- region
- label
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 107
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000003384 imaging method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 10
- 238000013500 data storage Methods 0.000 description 51
- 238000002372 labelling Methods 0.000 description 41
- 238000012545 processing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 19
- 230000015654 memory Effects 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000032798 delamination Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
Definitions
- the present disclosure relates to an information processing device, an information processing method, and an information processing program for generating a learning model for detecting a target area from an input image including the target image.
- MMS Mobile Mapping System
- Patent Document 1 a deformation of a structure in an input image is detected, a feature amount related to a partial image of the deformation is extracted from the input image based on the detection result, and the width of the deformation is extracted from the extracted feature amount.
- Techniques for determining attributes such as are disclosed.
- the present disclosure has been made in view of the above, and aims to obtain an information processing apparatus capable of generating a learning model capable of accurately detecting an area of interest.
- the information processing device of the present disclosure includes a learning unit.
- the learning unit labels learning image data, which is data of an input image obtained by imaging a structure, and an attention target area, which is an attention target area in the input image indicated by the learning image data.
- a learning model for determining a region of interest from an input image is generated based on learning data including label data indicating a labeled region, which is a labeled region, and label attribute data indicating attributes of the labeled region.
- FIG. 1 illustrates an example of an information processing apparatus according to a first embodiment
- FIG. FIG. 4 is a diagram showing an example of a reliability determination method by the information processing apparatus according to the first embodiment
- FIG. FIG. 4 is a diagram for explaining an example of a learning image displayed on the display unit of the information processing apparatus according to the first embodiment
- FIG. 4 is a diagram for explaining labeling processing for learning images displayed on the information processing apparatus according to the first embodiment
- FIG. 4 is a diagram for explaining a reliability determination method by a reliability determination unit of the information processing apparatus according to the first embodiment
- FIG. 5 is a diagram showing another example of reliability determined by the reliability determining unit of the information processing apparatus according to the first embodiment
- FIG. 8 is a diagram showing still another example of reliability determined by the reliability determining unit of the information processing apparatus according to the first embodiment
- 4 is a flowchart showing an example of processing by the information processing apparatus according to the first embodiment
- Flowchart showing an example of label-related data generation processing by the information processing apparatus according to the first embodiment 3 is a flowchart showing an example of learning processing by the information processing apparatus according to the first embodiment
- 1 is a diagram showing an example of a hardware configuration of an information processing apparatus according to a first embodiment
- FIG. FIG. 12 illustrates an example of an information processing apparatus according to a second embodiment
- Embodiment 1. 1 is a diagram illustrating an example of an information processing apparatus according to a first embodiment; FIG. The information processing apparatus 1 shown in FIG. 1 generates a learning model for detecting a target region from a learning image including the target image, and uses the generated learning model to detect an input image including the target image. Detect regions of interest.
- the target of attention is, for example, deformation that occurs in structures such as tunnels, bridges, or roads.
- Structural deformation is, for example, cracking, lifting, delamination, or rusting.
- the target of attention is not limited to the deformation of the structure, and may be a target other than the deformation of the structure.
- the information processing device 1 generates label data and label attribute data.
- the label data is data indicating a labeled area, which is an area labeled as a target area in the learning image based on the user's labeling operation on the learning image.
- Label attribute data is data indicating attributes of a labeled region, and includes data indicating, for example, the width, length, or area of a region of interest.
- the target area may be referred to as the target area.
- the information processing device 1 determines a reliability indicating the probability that each pixel in the labeled area set by the labeling operation is a pixel in the target area.
- FIG. 2 is a diagram showing an example of a reliability determination method by the information processing apparatus according to the first embodiment. As shown in FIG. 2, in a relatively small area in units of pixels at the edge of the target area in the learning image, blurring may occur and the area may become unclear depending on the resolution of the learning image.
- the pixel confidence is high in the central region of the labeled region and the pixel confidence decreases from the center to the edge of the labeled region.
- the reliability of a pixel indicates the probability that it is a pixel in the region of interest.
- the information processing apparatus 1 determines the reliability of the pixels in the central portion of the labeled region of interest to be high reliability, and the pixels in the peripheral portion. is determined to be low confidence.
- the label attribute data is data indicating the width of the target area
- the width of the labeled area indicated by the label data is the label width
- the width of the target area indicated by the label attribute data is the attribute width.
- the information processing device 1 determines the reliability of each pixel in the labeled region based on the label width and the attribute width.
- the information processing apparatus 1 determines the reliability of the pixels in the area corresponding to the attribute width when the center of the labeled area in the width direction is the center of the attribute width. , and the reliability of the pixels in the labeled area other than the attribute width area is determined to be low. Further, when the label width is narrower than the attribute width, the information processing device 1 sets the reliability of the pixels in the labeled region to high reliability.
- the information processing apparatus 1 generates a learning model for determining a region of interest from the input image based on the learning image, the labeled region, and the reliability of each pixel in the labeled region by machine learning.
- the information processing device 1 generates a learning model by machine learning in which the reliability of each pixel in the labeled region is used as the weight of the label of each pixel.
- the information processing apparatus 1 can generate a learning model capable of accurately detecting the attention target area.
- the information processing apparatus 1 includes a display unit 10, an input unit 11, a learning image data storage unit 12, a data generation unit 13, a label data storage unit 14, and a label attribute data storage unit. 15 and an image resolution data storage unit 16 .
- the information processing apparatus 1 also includes a learning unit 17 , a learning model storage unit 23 , a learning model acquisition unit 24 , an image data acquisition unit 25 and a determination unit 26 .
- the display unit 10 is, for example, an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) display.
- the input unit 11 includes, for example, a keyboard, mouse, keypad, or touch panel, and is operated by the user of the information processing device 1 .
- an operation performed by the user on the input unit 11 may be referred to as a user operation.
- the learning image data storage unit 12 stores a plurality of learning image data.
- Each piece of learning image data is data of a learning image used to generate a learning model, and is, for example, data of an image obtained by imaging a structure such as a tunnel, a bridge, or a road.
- the data generation unit 13 acquires the learning image data from the learning image data storage unit 12 and causes the display unit 10 to display the learning image based on the acquired learning image data. For example, the data generation unit 13 causes the display unit 10 to display the learning image when there is a request to display the learning image by user operation.
- the data generation unit 13 performs labeling processing when a labeling operation, which is a labeling operation, is performed as a user operation while the learning image is being displayed on the display unit 10 . In the labeling process, label data generation processing and label attribute data generation processing are performed.
- the label data is data indicating the pixels of the labeled area, which is the area labeled by the labeling operation in the learning image displayed on the display unit 10 .
- the label attribute data is data indicating attributes of the labeling region, and includes data indicating attributes of the labeling region such as width, length, or area of the labeling region, for example.
- FIG. 3 is a diagram for explaining an example of a learning image displayed on the display unit of the information processing apparatus according to Embodiment 1
- FIG. 4 is a partially enlarged view of FIG.
- FIG. 5 is a diagram for explaining the labeling process for the learning images displayed on the information processing apparatus according to the first embodiment
- FIG. 6 is a partially enlarged view of FIG.
- a learning image 30 shown in FIG. 3 is displayed on the display unit 10 of the information processing device 1 .
- the learning images 30 include crack images 31a and 31b, which are images of cracks.
- the crack images 31a and 31b are indicated by dashed lines for convenience. These crack images 31a and 31b are blurry and unclear at their edges.
- the crack image 31b includes a non-blurred area 37a and a blurred area 37b.
- the central portion in the width direction of the crack is a non-blurred region 37a
- the left and right marginal portions in FIG. 4 are blurred regions 37b. Since the pixels in the blurred region 37b are unclear, it is not clear whether they are pixels in the cracked region.
- the user moves the cursor 32 shown in FIG. 3 by user operation and traces the areas of the crack images 31a and 31b to set the area including the crack image 31a as the labeling area 33a as shown in FIG. , the region containing the crack image 31b is set as the labeled region 33b.
- the data generation unit 13 generates label data indicating the labeling area 33a and label data indicating the labeling area 33b, and causes the label data storage unit 14 to store the generated label data.
- label data includes data indicating each pixel in the labeled region, and is stored in the label data storage unit 14 in association with the identification information of the learning image data.
- the data generation unit 13 generates label data in which all pixels of the crack image 31b are pixels of the labeled region 33b.
- attribute 34a of labeled region 33a indicates that the width of the crack in labeled region 33a is 0.3 mm
- attribute 34b of labeled region 33b indicates that the width of the crack in labeled region 33b is 0.3 mm. .5 mm.
- the data generator 13 generates label attribute data indicating the attribute 34a of the labeling area 33a and label attribute data indicating the attribute 34b of the labeling area 33b, and converts the generated label attribute data into label attribute data.
- Store in the storage unit 15 The label attribute data is stored in the label attribute data storage unit 15 in association with the identification information of the learning image data, the identification information of the label data, and the like.
- each of the labeled regions 33a and 33b is indicated without distinguishing them individually, they may be referred to as a labeled region 33 in some cases.
- the image resolution data storage unit 16 of the information processing device 1 stores image resolution data, which is data indicating the resolution of the learning image 30 .
- image resolution data is data indicating the resolution of the learning image 30 .
- the resolution of the learning image 30 indicates the size per pixel, it may also be expressed in terms of pixel density, for example.
- the learning unit 17 stores the learning image data stored in the learning image data storage unit 12, the label data stored in the label data storage unit 14, and the label attribute data stored in the label attribute data storage unit 15. A region of interest is determined from the input image based on the included learning data.
- the learning unit 17 includes a reliability determination unit 18 , a data output unit 19 , a reliability data storage unit 20 , a learning data acquisition unit 21 , and a learning model generation unit 22 .
- the reliability determination unit 18 acquires label data from the label data storage unit 14 , label attribute data from the label attribute data storage unit 15 , and image resolution data from the image resolution data storage unit 16 .
- the reliability determination unit 18 determines a reliability indicating the probability that the labeled pixel is a pixel in the region of interest. .
- the reliability determining unit 18 identifies the width, length, or area of the target region in the learning image 30 based on the label attribute data and the image resolution data. For example, assume that the width of the region of interest indicated by the label attribute data is 0.3 mm, and the resolution indicated by the image resolution data is 0.1 mm/pixel. In this case, the reliability determination unit 18 determines that the width of the region of interest in the learning image 30 is a width of 3 pixels.
- the reliability determining unit 18 determines, for example, the width, length, or area of the region of interest specified based on the label attribute data and the image resolution data, and the width, length, or area of the labeled region. Based on the results of the comparison, the reliability of each pixel in labeled region 33 is determined.
- an attention target area specified based on label attribute data and image resolution data may be referred to as a specific attention target area.
- the reliability determination unit 18 assumes that the width, length, or area of the specific region of interest exceeds the width, length, or area of the labeled region 33 . In this case, the reliability determining unit 18 determines the width, length, or area of the specific target region of the labeled region 33 and centering on the center of the labeled region 33. The reliability of the pixels is determined to be high, and the reliability of pixels other than the pixels determined to be high in the labeled region 33 is set to low.
- FIG. 7 is a diagram for explaining a reliability determination method by the reliability determining unit of the information processing apparatus according to the first embodiment.
- the width of the region of interest indicated by the label attribute data is 0.3 mm
- the resolution indicated by the image resolution data is 0.1 mm/pixel
- the width of the labeled region 33b is , 0.5 mm.
- the reliability determination unit 18 divides the width “0.3 mm” of the target area indicated by the label attribute data by the resolution “0.1 mm/pixel” indicated by the image resolution data, thereby obtaining the learning image. Determine that the width of the region of interest at 30 is three pixels wide. The reliability determination unit 18 determines that the width of the specific region of interest is narrower than the width of the labeled region 33b because the labeled region 33b has a width of 5 pixels.
- the reliability determination unit 18 determines the reliability of each pixel in the central region 38a of the labeled region 33b to be high.
- the central area 38a is an area having a width of the specific target area centered on the widthwise center 38c of the labeled area 33b. Further, the reliability determination unit 18 determines low reliability as the reliability of each pixel of the peripheral region 38b other than the central region 38a in the labeled region 33b.
- FIG. 8 is a diagram illustrating an example of reliability determined by the reliability determination unit of the information processing apparatus according to the first embodiment;
- labeled region 39 is shown having a width of 9 pixels and the specific region of interest is 5 pixels wide.
- the reliability of each pixel in the central region 39a of the labeled region 39 is determined as WH with high reliability
- the reliability of each pixel in the peripheral region 39b other than the central region 39a is determined as WL with low reliability.
- the central area 39a is an area having the width of the specific target area centered on the center 39c in the width direction of the labeled area 33b.
- the reliability WH is higher than the reliability WL .
- the reliability levels set for the pixels in the labeled regions 33 and 39 are three or more levels of reliability. or the reliability obtained using a function that defines the reliability according to the distance from the center of the labeled regions 33,39.
- FIG. 9 is a diagram illustrating another example of reliability determined by the reliability determining unit of the information processing apparatus according to the first embodiment; FIG.
- FIG. 9 among the central region 39a of the labeling region 39, pixels in the region near the center 39c in the width direction are determined to have the highest reliability W H1 , and pixels in the central region 39a far from the center 39c are determined to have the highest reliability WH1.
- the reliability of pixels in the region is determined to be the next highest reliability WH2 .
- the reliability of the pixels in the region near the center 39c of the peripheral region 39b of the labeled region 39 is determined as the reliability WL1
- the reliability of the pixels in the region far from the center 39c in the central region 39a is determined as the reliability WL1.
- WL2 has been determined.
- the reliability WL1 is lower than the reliability WH2 and higher than the reliability WL2 .
- FIG. 10 is a diagram illustrating still another example of reliability determined by the reliability determining unit of the information processing apparatus according to the first embodiment; FIG.
- the reliability of pixels in the central region 39a of the labeled region 39 is defined by a function f 1 (x) that defines the reliability according to the distance from the center 39c of the labeled region 39 in the width direction. determined by the reliability obtained by “x” in the function f 1 (x) is the widthwise distance from the center 39c.
- the reliability of the pixels in the edge region 39b of the labeled region 39 is obtained by a function f 2 (x) that defines the reliability according to the distance from the center 39c in the width direction of the labeled region 39. determined by degrees. “x” in the function f 2 (x) is the widthwise distance from the center 39c.
- the function f 1 (x) and the function f 2 ( x) are different functions, they may be the same function . It may be a function or a Poisson distribution function. Also, the reliability of each pixel in the labeled region 39 may be determined based on a table instead of a function, or may be determined based on a function or table according to statistical distribution.
- the reliability distribution is symmetrical in the width direction around the centers 38c and 39c in the width direction. and need not be symmetrical.
- the data output unit 19 of the information processing apparatus 1 causes the reliability data storage unit 20 to store reliability data, which is data indicating the reliability of each pixel in the labeled region determined by the reliability determination unit 18 .
- the reliability data is stored in the reliability data storage unit 20 in association with, for example, the identification information of the label data and the identification information of the learning image data.
- a learning data acquisition unit 21 stores a data set of learning image data, label data, and reliability data for each learning image data in a learning image data storage unit 12, a label data storage unit 14, and a reliability data storage unit. Acquired from the unit 20 . Note that a data set including training image data associated with multiple label data and reliability data includes multiple label data and multiple reliability data.
- the learning data acquisition unit 21 outputs learning data including a data set of learning image data, label data, and reliability data for each learning image data to the learning model generation unit 22 .
- the learning model generation unit 22 receives an image represented by the image data, and generates a learning model for determining a region of interest from the image represented by the image data. Generated by machine learning.
- a learning model is, for example, a learning model that takes an image represented by image data as an input image and outputs score data that indicates the probability that each pixel of the input image is a pixel of the region of interest.
- the learning model generation unit 22 generates the learning model so that the calculation result of the loss function set with the reliability indicated by the reliability data as the weight is minimized.
- the learning model generation unit 22 generates a learning model using, for example, the following equation (1) as a loss function. Equation (1) below is a loss function using the weighted cross-entropy error between the predicted value P and the true value T.
- K is the number of classes
- N is the number of pixels
- i indicates the class
- n indicates the pixel
- w ni indicates the weight
- T ni indicates the true value
- P ni indicates the predicted value.
- the weights are weights based on the reliability described above. For example, the weight corresponding to the reliability WH is “1.0" and the weight corresponding to the reliability WL is “0.5". . Further, the weight corresponding to the reliability W H1 is “1.0”, the weight corresponding to the reliability W H2 is “0.75", and the weight corresponding to the reliability W L1 is “0". .5”, and the weight corresponding to the reliability W L2 is “0.25”.
- Machine learning by the learning model generation unit 22 is deep learning, and the learning model generated by the learning model generation unit 22 is, for example, a neural network such as a convolutional neural network or a recurrent neural network.
- Machine learning by the learning model generation unit 22 may be machine learning other than deep learning, and the learning model generated by the learning model generation unit 22 may be a network model other than a neural network.
- the loss function used in the learning model generation unit 22 is not limited to the example described above, and may be a loss function that uses a weight corresponding to the reliability of each pixel.
- a loss function using a mean square error, a loss function using a mean absolute error, or the like may be used.
- the learning model generation unit 22 stores the learning model generated by the above-described machine learning in the learning model storage unit 23. For example, when new learning image data, new label data, and new reliability data are acquired by the learning data acquisition unit 21, the learning model generation unit 22 generates The learning model can be updated based on the new information, and the updated learning model can be stored in the learning model storage unit 23 .
- the image data acquisition unit 25 acquires image data via an interface circuit or communication unit (not shown).
- the learning model acquisition unit 24 acquires the latest learning model stored in the learning model storage unit 23 .
- the determination unit 26 inputs the image represented by the image data acquired by the image data acquisition unit 25 as an input image to the learning model acquired by the learning model acquisition unit 24, and based on the data output from the learning model, A region of interest included in an image represented by image data is determined.
- the data output from the learning model is, for example, score data that indicates the probability that each pixel in the input image is a pixel in the region of interest.
- the determination unit 26 determines pixels whose score output from the learning model is equal to or greater than a preset threshold value to be pixels of the target region, and determines a region of a plurality of pixels determined to be pixels of the target region. is determined as the region of interest.
- the quality of the label data used for learning in the learning unit 17 deteriorates as the labeling accuracy decreases, and is directly linked to the inference accuracy of the learning model.
- the former improves the inference accuracy.
- the learning unit 17 is provided with label attribute data, which is numerical information indicating a region of interest numerically, such as the width, length, or area of a crack, together with the label data.
- label attribute data is numerical information indicating a region of interest numerically, such as the width, length, or area of a crack.
- label attribute data In general, creation of label data is also called annotation, and is often performed by human-wave tactics such as manually labeling each pixel of a learning image. For example, if the deformation of the structure is a crack in a tunnel, a person in charge of creating label data who does not have civil engineering knowledge can A labeling operation is performed on each pixel corresponding to a crack in the training image. At that time, blurring occurs at the edge of the crack due to the influence of the image quality such as the resolution or the number of pixels of the learning image, and the accuracy of labeling varies. In other words, some pixels are erroneously set as the target area even though they are not the target area.
- the crack width determined by an engineer with civil engineering knowledge looking at the training image, or the crack that occurred on the tunnel wall was actually measured on-site or on-site using a crack scale.
- a numerical value indicating the crack width obtained by When labeling each pixel, the person in charge of creating the label data sets the numerical value of the crack width entered in the deformation development view as the labeled crack width.
- the data generator 13 can generate the label attribute data.
- the reliability determining unit 18 can determine the crack area considering the influence of image quality based on the label attribute data, which is numerical information indicating the crack width, and the image resolution data. This will reveal pixels labeled as "crack" for areas in the training images that exceed the actual crack width, or areas at the edges of the crack, so we can reduce the confidence in those areas. By learning, it is possible to improve the accuracy of the learning model.
- the actual crack width is defined as "a crack width judged by an engineer with knowledge of civil engineering by looking at learning images” or "a crack width obtained by actually measuring it using a crack scale at the site or at the site.” width.
- FIG. 11 is a flowchart illustrating an example of processing by the information processing apparatus according to the first embodiment; FIG. As shown in FIG. 11, the data generator 13 of the information processing device 1 determines whether or not there is a labeling operation (step S10).
- step S10 determines that there is a labeling operation (step S10: Yes)
- label-related data generation processing is the processing of steps S20 to S25 shown in FIG. 12, and will be described in detail later.
- the learning model generating unit 22 of the information processing device 1 determines whether it is learning timing when the process of step S11 is completed, or when the data generating unit 13 determines that there is no labeling operation (step S10: No). (Step S12). In step S ⁇ b>12 , the learning model generation unit 22 determines that it is the learning timing when the learning data is output from the learning data acquisition unit 21 , for example.
- step S12 determines that it is the learning timing (step S12: Yes)
- step S13 executes the learning process (step S13).
- This learning process is the process of steps S30 to S32 shown in FIG. 13, and will be described in detail later.
- step S13 When the processing of step S13 is completed, or when the learning model generation unit 22 determines that it is not the learning timing (step S12: No), the determination unit 26 of the information processing device 1 determines that the learning model is generated by the learning model generation unit 22. has already been generated (step S14).
- step S14 determines whether or not the learning model has been generated (step S14: Yes). If the determination unit 26 determines that the image data has been acquired (step S15: Yes), it performs target target determination processing for determining target regions included in the image indicated by the image data (step S16).
- step S16 determines that the learning model has not been generated (step S14: No), or determines that the image data has not been acquired (step S15: No ), the process shown in FIG. 11 ends.
- FIG. 12 is a flowchart showing an example of label-related data generation processing by the information processing apparatus according to the first embodiment.
- the data generator 13 generates label data representing labeled regions 33 and 39, which are regions labeled as regions of interest by the labeling operation in the image represented by the learning image data. is generated (step S20).
- the data generation unit 13 also generates label attribute data indicating attributes of the labeled regions 33 and 39 based on the labeling operation (step S21). Then, the data generation unit 13 stores the label data generated in step S20 in the label data storage unit 14, and stores the label attribute data generated in step S21 in the label attribute data storage unit 15 (step S22).
- the reliability determination unit 18 acquires label data, label attribute data, and image resolution data from the label data storage unit 14, label attribute data storage unit 15, and image resolution data storage unit 16 (step S23).
- the reliability determination unit 18 determines the reliability of each pixel in the labeled region based on the label data, label attribute data, and image resolution data acquired in step S23 (step S24).
- the data output unit 19 causes the reliability data storage unit 20 to store the reliability data indicating the reliability of each pixel in the labeled region determined by the reliability determination unit 18 (step S25). Terminate the indicated process.
- FIG. 13 is a flowchart showing an example of learning processing by the information processing apparatus according to Embodiment 1.
- the learning model generating unit 22 extracts the learning image data, the label data, and the reliability data from the learning image data storage unit 12, the label data storage unit 14, and the reliability data storage unit 20. Acquire (step S30).
- the learning model generation unit 22 generates a learning model based on the learning image data, label data, and reliability data acquired in step S30 (step S31).
- the learning model generation unit 22 stores the generated learning model in the learning model storage unit 23 (step S32), and ends the processing shown in FIG.
- FIG. 14 is a diagram showing an example of the hardware configuration of the information processing apparatus according to the first embodiment.
- the information processing apparatus 1 includes a computer including a processor 101, a memory 102, a communication device 103, and an interface circuit 104.
- the processor 101, the memory 102, the communication device 103, and the interface circuit 104 can transmit and receive information to and from each other via the bus 105, for example.
- the learning image data storage unit 12 , the label data storage unit 14 , the label attribute data storage unit 15 , the image resolution data storage unit 16 , the reliability data storage unit 20 and the learning model storage unit 23 are realized by the memory 102 .
- the processor 101 reads out and executes the programs stored in the memory 102 to generate the data generation unit 13, the reliability determination unit 18, the data output unit 19, the learning data acquisition unit 21, the learning model generation unit 22, the learning model Functions such as an acquisition unit 24, an image data acquisition unit 25, and a determination unit 26 are executed.
- the processor 101 is an example of a processing circuit, for example, and includes one or more of a CPU (Central Processing Unit), a DSP (Digital Signal Processor), and a system LSI (Large Scale Integration).
- the memory 102 includes one or more of RAM (Random Access Memory), ROM (Read Only Memory), flash memory, EPROM (Erasable Programmable Read Only Memory), and EEPROM (registered trademark) (Electrically Erasable Programmable Read Only Memory). include.
- the memory 102 also includes a recording medium in which a computer-readable program is recorded. Such recording media include one or more of nonvolatile or volatile semiconductor memories, magnetic disks, flexible memories, optical disks, compact disks, and DVDs (Digital Versatile Discs).
- the information processing device 1 may include integrated circuits such as ASIC (Application Specific Integrated Circuit) and FPGA (Field Programmable Gate Array).
- the information processing device 1 may be composed of a server, or may be composed of a client and a server. When the information processing apparatus 1 is composed of two or more devices, each of the two or more devices has the hardware configuration shown in FIG. 14, for example. Note that communication between two or more devices is performed via the communication device 103 . Moreover, the information processing apparatus 1 may include two or more servers. For example, the information processing device 1 may include a processing server and a data server.
- the information processing apparatus 1 includes the learning unit 17.
- the learning unit 17 performs labeling as learning image data, which is data of an input image obtained by imaging a structure, and an attention target area, which is an attention target area in the input image indicated by the learning image data.
- a learning model for determining a region of interest from an input image is generated based on learning data including label data indicating a labeled region, which is an isolated region, and label attribute data indicating an attribute of the labeled region. .
- the information processing apparatus 1 can generate a learning model capable of accurately detecting the attention target area.
- the learning unit 17 includes a reliability determination unit 18 and a learning model generation unit 22.
- the reliability determination unit 18 generates label data indicating labeled regions 33 and 39, which are regions labeled as target regions of interest in the learning image 30 indicated by the learning image data, and , and label attribute data indicating the attributes of the labeled regions 33 and 39, the reliability indicating the probability that each pixel of the labeled regions 33 and 39 is a pixel of the region of interest is determined.
- the learning model generation unit 22 generates a learning model for determining a region of interest from the input image based on the learning image data, the label data, and the reliability determined by the reliability determination unit 18 . As a result, the information processing apparatus 1 can generate a learning model capable of accurately detecting the attention target area.
- the learning model generation unit 22 generates a learning model based on the calculation result of the loss function set with the reliability determined by the reliability determination unit 18 as the weight.
- the information processing apparatus 1 can generate a learning model capable of accurately detecting the attention target area.
- the label attribute data is data that numerically indicates the region of interest. Thereby, the information processing device 1 can easily determine the reliability.
- the label attribute data includes data indicating the width, length, or area of the attention target area.
- the reliability determination unit 18 determines based on the width, length, or area of the labeled regions 33, 39 indicated by the label data and the width, length, or area of the labeled regions 33, 39 indicated by the label attribute data. to determine the confidence level. Thereby, the information processing apparatus 1 can accurately detect the width, length, or area of the attention target area.
- the information processing device 1 also includes an image data acquisition unit 25 that acquires image data, and a determination unit 26 .
- the determination unit 26 inputs the image represented by the image data acquired by the image data acquisition unit 25 to the learning model, and based on the data output from the learning model, determines the attention target region included in the image represented by the image data. judge. As a result, the information processing apparatus 1 can accurately detect the attention target area.
- the information processing device 1 also includes a learning model acquisition unit 24 , an image data acquisition unit 25 , and a determination unit 26 .
- the learning model acquiring unit 24 acquires the labeled region 33, which is the region labeled as the image of the target region, which is the target region of the learning image 30 indicated by the learning image data and the learning image data. , 39 and the reliability indicating the probability that the pixels in the labeled regions 33 and 39 are pixels in the region of interest.
- the image data acquisition unit 25 acquires image data.
- the determination unit 26 inputs the image represented by the image data acquired by the image data acquisition unit 25 to the learning model acquired by the learning model acquisition unit 24, and based on the data output from the learning model, the image data. A region of interest contained in the shown image is determined. As a result, the information processing apparatus 1 can accurately detect the attention target area.
- Embodiment 2 calculates reliability based on color data indicating the color of each pixel of the learning image represented by the learning image data, in addition to the label data, label attribute data, and image resolution data. It differs from the information processing apparatus 1 according to the first embodiment in that data is generated.
- constituent elements having functions similar to those of the first embodiment are denoted by the same reference numerals, and descriptions thereof are omitted, and differences from the information processing apparatus 1 of the first embodiment are mainly described.
- FIG. 15 is a diagram illustrating an example of an information processing device according to the second embodiment.
- the information processing apparatus 1A according to the second embodiment includes a reliability determining unit 18A instead of the reliability determining unit 18, and further includes a color data storage unit 27. It is different from the information processing apparatus 1 according to the first form.
- the color data storage unit 27 contains color data of each pixel of the learning image 30 for each learning image 30 .
- the color data is, for example, RGB (Red-Green-Blue color model) data.
- RGB data is 24-bit data in which red, green, and blue data are indicated in 256 steps, for example.
- the color data is not limited to RGB data as long as it indicates the color of each pixel. Note that the color of a pixel may be represented by luminance.
- the reliability determination unit 18A for example, based on the label data, the label attribute data, and the image resolution data, uses the same reliability determination method as the reliability determination unit 18 to temporarily determine each pixel in the labeled regions 33 and 39. Determine the tentative reliability, which is the reliability of
- the reliability determination unit 18A determines the weight of each pixel in the labeled regions 33 and 39 based on the color data of the learning image 30 stored in the color data storage unit 27. Then, the reliability determining unit 18A multiplies the tentative reliability by the weight determined based on the color data for each pixel of the labeled regions 33 and 39, so that each pixel of the labeled regions 33 and 39 Determine confidence.
- the reliability determination unit 18A determines the brightness of each pixel in the labeled regions 33 and 39 based on the color data of the learning image 30 stored in the color data storage unit 27, and based on the determined brightness , determine the weight of each pixel in the labeled regions 33,39.
- the reliability determining unit 18A determines the weight to be "1.0" when the luminance is in the range of 0 to 127, and the luminance is 128. If it is in the range of .about.255, then determine the weight to be '0.5'.
- the method of determining the weight for determining the reliability based on the color data is not limited to the above-described example, and the reliability determination unit 18A determines the weight for determining the reliability by various methods. can decide. For example, the reliability determination unit 18A determines the hue and color of each pixel based on the color data of the learning image 30, and determines the weight of each pixel in the labeled regions 33 and 39 from the luminance, hue, and color. You can also Further, the reliability determining unit 18A can also determine a weight according to a value obtained by multiplying each of the red data value, the green data value, and the blue data value by a coefficient and summing them.
- FIG. 16 is a flowchart illustrating an example of processing by the information processing apparatus according to the second embodiment;
- FIG. Steps S40, S41, S42, and S45 shown in FIG. 16 are the same as steps S20, S21, S22, and S25 shown in FIG. 12, and description thereof is omitted.
- Reliability determination unit 18A of information processing apparatus 1A stores label data, label attribute data, image resolution data, and color data in label data storage unit 14, label attribute data storage unit 15, image resolution data storage unit 16, and color data. It is obtained from the data storage unit 27 (step S43).
- the reliability determination unit 18A determines the reliability of each pixel in the labeled region based on the label data, label attribute data, image resolution data, and color data acquired in step S43 (step S44).
- a hardware configuration example of the information processing apparatus 1A according to the second embodiment is the same as the hardware configuration of the information processing apparatus 1 shown in FIG.
- Color data storage unit 27 is implemented by memory 102 .
- the processor 101 can execute the function of the reliability determination unit 18A by reading and executing the program stored in the memory 102 .
- the information processing apparatus 1A includes the reliability determining section 18A.
- the reliability determination unit 18A selects each pixel of the labeled regions 33 and 39 as the object of interest based on the data regarding the color of each pixel of the image indicated by the learning image data in addition to the label data and label attribute data.
- a confidence level is determined that indicates the likelihood of being a pixel in the region.
- the information processing apparatus 1A can generate a learning model that can detect the attention target area with higher accuracy.
- the reliability determining units 18 and 18A specify the width, length, or area of the region of interest in the learning image 30 based on the label attribute data and the image resolution data. If the resolution of the image 30 is constant, the image resolution data may not be used. In this case, the reliability determination units 18 and 18A can specify the width, length, area, or the like of the region of interest in the learning image 30 assuming that the resolution of the learning image 30 is constant.
- the learning model generation unit 22 of the information processing device 1, 1A described above can also generate a learning model for each imaging device. Further, the learning model generation unit 22 of the information processing device 1, 1A can also generate a learning model for each type of lighting equipment used in the imaging device.
- the lighting equipment used in the imaging device is, for example, a halogen lamp, an LED (Light Emitting Diode) lamp, or an HID (High Intensity Discharge) lamp.
- the data generation unit 13 of the information processing apparatuses 1 and 1A can widen or narrow the labeled areas 33 and 39 for each user.
- the data generating unit 13 generates label data that includes narrowed regions in the labeling regions 33 and 39 set by the user who performs wide labeling, or generates label data that narrows the labeling regions 33 and 39 . It is possible to generate label data that includes, in the labeling areas 33 and 39, areas in which the widths of the labeling areas 33 and 39 set by the labeling user are widened. Note that the labeling areas 33 and 39 set by the user may be changed by the reliability determination units 18 and 18A instead of the data generation unit 13. FIG.
- the information processing apparatuses 1 and 1A for example, based on the information obtained from the learning model generated by the learning model generation unit 22 and the like, the user who widens the labeled regions 33 and 39, and the labeled regions 33 and 39. It is also possible to determine which users to narrow.
- the image data acquisition unit 25 acquires image data of the structure imaged by the imaging device.
- the imaging device is installed at a position capable of imaging the structure.
- the learning units 17 and 17A generate a learning model for detecting deformation of a structure as a region of interest from the image data of the structure.
- the determination unit 26 inputs the image data of the structure acquired by the image data acquisition unit 25 to the learning models generated by the learning units 17 and 17A, and determines the region of interest included in the image data of the structure. .
- the result of the determination by the determination unit 26 of whether or not the target region is the target region is, for example, determination result information having information in which pixels not corresponding to the target region are set to 0, and pixels corresponding to the target region are set to 1, for each pixel. Given.
- the value of the red color data of the pixels determined to correspond to the target region is set to 255, thereby determining the target region shown in red. It is possible to generate an image superimposed on the previous image data (an image in which the region of interest is highlighted in red). By displaying this image on the display unit 10, it is possible to confirm the position of the target area within the image data. Further, by generating data obtained by tracing the target area based on this image, it is possible to create a deformation development view.
- 1, 1A information processing device 10 display unit, 11 input unit, 12 learning image data storage unit, 13 data generation unit, 14 label data storage unit, 15 label attribute data storage unit, 16 image resolution data storage unit, 17, 17A Learning unit 18, 18A Reliability determination unit 19 Data output unit 20 Reliability data storage unit 21 Learning data acquisition unit 22 Learning model generation unit 23 Learning model storage unit 24 Learning model acquisition unit 25 Image data acquisition unit 26 Determination unit 27 Color data storage unit 30 Learning image 31a, 31b Crack image 32 Cursor 33, 33a, 33b, 39 Labeling area 34a, 34b Attribute 36, 37a, 37b Regions, 38a, 39a Central regions, 38b, 39b Peripheral regions, 38c, 39c Center.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
情報処理装置(1)は、学習部(17)を備える。学習部(17)は、構造物を撮像して得られる入力画像のデータである学習用画像データと、学習用画像データで示される入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて、入力画像から注目対象領域を判定するための学習モデルを生成する。
Description
本開示は、注目対象の画像を含む入力画像から注目対象の領域を検出する学習モデルを生成する情報処理装置、情報処理方法、および情報処理プログラムに関する。
従来、トンネル、橋梁、または道路などの構造物の点検を効率的に行うため、MMS(Mobile Mapping System)と呼ばれる走行型計測装置または点検ロボットなどが用いられている。MMSまたは点検ロボットなどは、撮像装置を有しており、移動しながら周囲の構造物を撮像装置で撮像する。
構造物の点検を行う作業員は、撮像装置の撮像によって得られた構造物の画像から構造物の変状の有無および構造物に生じている変状の状態などを判断しているが、構造物の画像を確認する作業は時間がかかる。
そこで、構造物の画像から構造物に生じている変状を検出する技術が提案されている。例えば、特許文献1には、入力画像における構造物の変状を検出し、かかる検出結果に基づいて入力画像から変状の部分画像に関する特徴量を抽出し、抽出した特徴量から変状の幅などの属性を判定する技術が開示されている。
構造物の画像から構造物の変状を検出するために、機械学習によって画像から変状などの注目対象の領域を検出する学習モデルを生成する場合、事前に画像データとラベルデータとのデータセットが大量に必要となる。
しかしながら、ラベル付けは人手によって主観的な基準で行われるため、注目対象の領域に対して過大にラベル付けが行われたり過少にラベル付けが行われたりする可能性がある。そのため、かかるラベル付けによって生成された学習モデルでは、注目対象の領域を精度よく検出することができない可能性がある。このことは、注目対象が構造物の変状である場合に限定されず、構造物の変状以外の注目対象を検出する場合も同様である。
本開示は、上記に鑑みてなされたものであって、注目対象の領域を精度よく検出可能な学習モデルを生成することができる情報処理装置を得ることを目的とする。
上述した課題を解決し、目的を達成するために、本開示の情報処理装置は、学習部を備える。学習部は、構造物を撮像して得られる入力画像のデータである学習用画像データと、学習用画像データで示される入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて、入力画像から注目対象領域を判定するための学習モデルを生成する。
本開示によれば、注目対象の領域を精度よく検出可能な学習モデルを生成することができる、という効果を奏する。
以下に、実施の形態にかかる情報処理装置、情報処理方法、および情報処理プログラムを図面に基づいて詳細に説明する。
実施の形態1.
図1は、実施の形態1にかかる情報処理装置の一例を示す図である。図1に示す情報処理装置1は、注目対象の画像を含む学習用画像から注目対象の領域を検出する学習モデルを生成し、生成した学習モデルを用いて、注目対象の画像を含む入力画像から注目対象の領域を検出する。
図1は、実施の形態1にかかる情報処理装置の一例を示す図である。図1に示す情報処理装置1は、注目対象の画像を含む学習用画像から注目対象の領域を検出する学習モデルを生成し、生成した学習モデルを用いて、注目対象の画像を含む入力画像から注目対象の領域を検出する。
注目対象は、例えば、トンネル、橋梁、または道路などの構造物に生じた変状である。構造物の変状は、例えば、ひび割れ、浮き、剥離、またはさびなどである。なお、注目対象は、構造物の変状に限定されず、構造物の変状以外の対象であってもよい。
情報処理装置1は、ラベルデータと、ラベル属性データとを生成する。ラベルデータは、ユーザによる学習用画像へのラベル付け操作に基づいて、学習用画像のうち注目対象の領域としてラベル付けが行われた領域であるラベル付け領域を示すデータである。ラベル属性データは、ラベル付け領域の属性を示すデータであり、例えば、注目対象の領域の幅、長さ、または面積などを示すデータを含む。以下において、注目対象の領域を注目対象領域と記載する場合がある。
情報処理装置1は、ラベルデータとラベル属性データとに基づいて、ラベル付け操作によって設定されたラベル付け領域の各画素に対して注目対象領域の画素である確からしさを示す信頼度を決定する。
図2は、実施の形態1にかかる情報処理装置による信頼度の決定方法の一例を示す図である。図2に示すように、学習用画像における注目対象領域の辺縁部分における画素単位の比較的小さい領域において、学習用画像の解像度によっては、ボケが生じて不鮮明になることがある。
このような場合、ラベル付けを行うユーザは、注目対象領域の輪郭を正確に把握することが難しいことから、注目対象領域にラベルを正確に付けることが難しく、ラベル付け領域は、注目対象領域の辺縁付近でユーザ毎またはユーザ操作毎にばらつく。そのため、ラベル付け領域の中心の領域では画素の信頼度が高く、ラベル付け領域の中心から辺縁に向かって画素の信頼度が低くなる。画素の信頼度は、注目対象領域の画素であることの確からしさを示す。
そこで、情報処理装置1は、ラベルデータとラベル属性データとに基づいて、ラベル付けが行われた注目対象領域のうち中心部分の画素の信頼度を高い信頼度に決定し、辺縁部分の画素の信頼度を低い信頼度に決定する。
ここで、ラベル属性データが注目対象領域の幅を示すデータであるとし、ラベルデータで示されるラベル付け領域の幅をラベル幅とし、ラベル属性データで示される注目対象領域の幅を属性幅とする。この場合、情報処理装置1は、ラベル幅と属性幅とに基づいて、ラベル付け領域の各画素の信頼度を決定する。
例えば、情報処理装置1は、ラベル幅が属性幅よりも広い場合、ラベル付け領域のうち幅方向の中心を属性幅の中心とした場合における属性幅分の領域の画素の信頼度を高い信頼度に設定し、ラベル付け領域のうち属性幅分の領域以外の領域の画素の信頼度を低い信頼度に決定する。また、情報処理装置1は、ラベル幅が属性幅よりも狭い場合、ラベル付け領域の画素の信頼度を高い信頼度に設定する。
そして、情報処理装置1は、学習用画像とラベル付け領域とラベル付け領域の各画素の信頼度とに基づいて、入力画像から注目対象領域を判定するための学習モデルを機械学習によって生成する。例えば、情報処理装置1は、ラベル付け領域の各画素の信頼度を各画素のラベルの重みとする機械学習によって学習モデルを生成する。これにより、情報処理装置1は、注目対象領域を精度よく検出可能な学習モデルを生成することができる。
図1に示すように、情報処理装置1は、表示部10と、入力部11と、学習用画像データ記憶部12と、データ生成部13と、ラベルデータ記憶部14と、ラベル属性データ記憶部15と、画像解像度データ記憶部16とを備える。また、情報処理装置1は、学習部17と、学習モデル記憶部23と、学習モデル取得部24と、画像データ取得部25と、判定部26とを備える。
表示部10は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイである。入力部11は、例えば、キーボード、マウス、キーパッド、またはタッチパネルなどを含み、情報処理装置1のユーザによって操作される。以下において、ユーザによる入力部11への操作をユーザ操作と記載する場合がある。
学習用画像データ記憶部12は、複数の学習用画像データを記憶する。各学習用画像データは、学習モデルを生成するために用いられる学習用画像のデータであり、例えば、トンネル、橋梁、または道路などの構造物を撮像して得られる画像のデータである。
データ生成部13は、学習用画像データ記憶部12から学習用画像データを取得し、取得した学習用画像データに基づいて、学習用画像を表示部10に表示させる。例えば、データ生成部13は、ユーザ操作によって学習用画像の表示要求がある場合、学習用画像を表示部10に表示させる。
データ生成部13は、学習用画像が表示部10で表示されている状態で、ユーザ操作としてラベル付けの操作であるラベル付け操作が行われた場合、ラベル付け処理を行う。ラベル付け処理では、ラベルデータの生成処理と、ラベル属性データの生成処理とが行われる。
ラベルデータは、表示部10に表示されている学習用画像のうちラベル付け操作でラベル付けが行われた領域であるラベル付け領域の画素を示すデータである。ラベル属性データは、ラベル付け領域の属性を示すデータであり、例えば、ラベル付け領域の幅、長さ、または面積などのラベル付け領域の属性を示すデータを含む。
図3は、実施の形態1にかかる情報処理装置の表示部に表示される学習用画像の一例を説明するための図であり、図4は、図3の部分拡大図である。図5は、実施の形態1にかかる情報処理装置に表示される学習用画像に対するラベル付け処理を説明するための図であり、図6は、図5の部分拡大図である。
図3に示す学習用画像30は、情報処理装置1の表示部10に表示される。かかる学習用画像30には、ひび割れの画像であるひび割れ画像31a,31bが含まれている。図3に示す例では、ひび割れ画像31a,31bを便宜上破線で示している。これらのひび割れ画像31a,31bは、辺縁部分がボケて不鮮明になっている。
例えば、図4に示すように、ひび割れ画像31bには、ボケていない領域37aとボケている領域37bとが含まれる。ひび割れ画像31bのうちひび割れの幅方向の中央部分はボケていない領域37aであり、図4における左右の辺縁部分はボケている領域37bである。そして、ボケている領域37bの画素は、不鮮明であるため、ひび割れの領域の画素であるか否かが明確ではない。
ユーザは、ユーザ操作によって図3に示すカーソル32を移動させ、ひび割れ画像31a,31bの領域をなぞることなどによって、図5に示すように、ひび割れ画像31aを含む領域をラベル付け領域33aに設定し、ひび割れ画像31bを含む領域をラベル付け領域33bに設定する。
この場合、データ生成部13は、ラベル付け領域33aを示すラベルデータとラベル付け領域33bを示すラベルデータとを生成し、生成したこれらのラベルデータをラベルデータ記憶部14に記憶させる。かかるラベルデータは、ラベル付け領域の各画素を示すデータを含み、学習用画像データの識別情報に関連付けられた状態でラベルデータ記憶部14に記憶される。
図6に示す例では、図5に示す領域36において、図4に示すボケていない領域37aとボケている領域37bとを含むひび割れ画像31bの領域がラベル付け領域33bとして設定されている。この場合、データ生成部13は、ひび割れ画像31bのすべての画素をラベル付け領域33bの画素とするラベルデータを生成する。
また、ユーザは、ラベル付け操作によって、図5に示すように、ラベル付け領域33a,33bの属性34a,34bを設定する。図5において、ラベル付け領域33aの属性34aは、ラベル付け領域33aのひび割れの幅が0.3mmであることを示し、ラベル付け領域33bの属性34bは、ラベル付け領域33bのひび割れの幅が0.5mmであることを示す。
この場合、データ生成部13は、ラベル付け領域33aの属性34aを示すラベル属性データとラベル付け領域33bの属性34bを示すラベル属性データとを生成し、生成したこれらのラベル属性データをラベル属性データ記憶部15に記憶させる。なお、ラベル属性データは、学習用画像データの識別情報およびラベルデータの識別情報などに関連付けられた状態でラベル属性データ記憶部15に記憶される。以下において、ラベル付け領域33a,33bの各々を個別に区別せずに示す場合、ラベル付け領域33と記載する場合がある。
図1に戻って、情報処理装置1の説明を続ける。情報処理装置1の画像解像度データ記憶部16は、学習用画像30の解像度を示すデータである画像解像度データを記憶している。学習用画像30の解像度は、1画素当たりの大きさを示すが、例えば、画素密度で表されてもよい。
学習部17は、学習用画像データ記憶部12に記憶された学習用画像データと、ラベルデータ記憶部14に記憶されたラベルデータと、ラベル属性データ記憶部15に記憶されたラベル属性データとを含む学習用データに基づいて、入力画像から注目対象領域を判定する。
学習部17は、信頼度決定部18と、データ出力部19と、信頼度データ記憶部20と、学習用データ取得部21と、学習モデル生成部22とを備える。信頼度決定部18は、ラベルデータ記憶部14からラベルデータを取得し、ラベル属性データ記憶部15からラベル属性データを取得し、画像解像度データ記憶部16から画像解像度データを取得する。
信頼度決定部18は、取得したラベルデータ、ラベル属性データ、および画像解像度データに基づいて、ラベル付けが行われた画素に対して注目対象領域の画素である確からしさを示す信頼度を決定する。
例えば、信頼度決定部18は、ラベル属性データと画像解像度データとに基づいて、学習用画像30における注目対象領域の幅、長さ、または面積を特定する。例えば、ラベル属性データで示される注目対象領域の幅が0.3mmであり、画像解像度データで示される解像度が、0.1mm/画素であるとする。この場合、信頼度決定部18は、学習用画像30における注目対象領域の幅が3画素分の幅であると判定する。
そして、信頼度決定部18は、例えば、ラベル属性データと画像解像度データとに基づいて特定した注目対象領域の幅、長さ、または面積と、ラベル付け領域の幅、長さ、または面積との比較結果に基づいて、ラベル付け領域33の各画素の信頼度を決定する。以下において、ラベル属性データと画像解像度データとに基づいて特定した注目対象領域を特定注目対象領域と記載する場合がある。
例えば、信頼度決定部18は、ラベル付け領域33の幅、長さ、または面積を、特定注目対象領域の幅、長さ、または面積が超えるとする。この場合、信頼度決定部18は、ラベル付け領域33のうち、特定注目対象領域の幅分、長さ分、または面積分の領域であってラベル付け領域33の中心を中心とする領域の各画素の信頼度を高い信頼度に決定し、ラベル付け領域33のうち高い信頼度に決定した画素以外の画素の信頼度を低い信頼度に設定する。
図7は、実施の形態1にかかる情報処理装置の信頼度決定部による信頼度の決定方法を説明するための図である。図7に示す例では、ラベル属性データで示される注目対象領域の幅が、0.3mmであり、画像解像度データで示される解像度が、0.1mm/画素であり、ラベル付け領域33bの幅が、0.5mmである。
この場合、信頼度決定部18は、ラベル属性データで示される注目対象領域の幅「0.3mm」を画像解像度データで示される解像度「0.1mm/画素」で除算することで、学習用画像30における注目対象領域の幅が3画素分の幅であることを特定する。信頼度決定部18は、ラベル付け領域33bの幅が5画素分の幅であるため、特定注目対象領域の幅がラベル付け領域33bの幅よりも狭いと判定する。
この場合、信頼度決定部18は、ラベル付け領域33bのうち中央領域38aの各画素の信頼度を高い信頼度に決定する。中央領域38aは、ラベル付け領域33bの幅方向の中心38cを幅方向の中心とする特定注目対象領域の幅分の領域である。また、信頼度決定部18は、ラベル付け領域33bのうち中央領域38a以外の辺縁領域38bの各画素の信頼度を低い信頼度に決定する。
図8は、実施の形態1にかかる情報処理装置の信頼度決定部によって決定される信頼度の一例を示す図である。図8では、9画素分の幅を有するラベル付け領域39が示されており、特定注目対象領域は、5画素分の幅である。そして、ラベル付け領域39のうち中央領域39aの各画素の信頼度が高い信頼度WHに決定され、中央領域39a以外の辺縁領域39bの各画素の信頼度が低い信頼度WLに決定されている。中央領域39aは、ラベル付け領域33bの幅方向の中心39cを中心とする特定注目対象領域の幅分の領域である。信頼度WHは、信頼度WLよりも高い。
上述した例では、例えば、ラベル付け領域33,39の画素には2段階の信頼度が設定されるが、ラベル付け領域33,39の画素に設定される信頼度は、3段階以上の信頼度であってもよく、ラベル付け領域33,39の中心からの距離に応じた信頼度を定義する関数を用いて得られる信頼度であってもよい。
図9は、実施の形態1にかかる情報処理装置の信頼度決定部によって決定される信頼度の他の例を示す図である。図9に示す例では、ラベル付け領域39の中央領域39aのうち幅方向の中心39cに近い領域の画素の信頼度が最も高い信頼度WH1に決定され、中央領域39aのうち中心39cから遠い領域の画素の信頼度が次に高い信頼度WH2に決定されている。
また、ラベル付け領域39の辺縁領域39bのうち中心39cに近い領域の画素の信頼度が信頼度WL1に決定され、中央領域39aのうち中心39cから遠い領域の画素の信頼度が信頼度WL2に決定されている。信頼度WL1は、信頼度WH2よりも低く、信頼度WL2よりも高い。
図10は、実施の形態1にかかる情報処理装置の信頼度決定部によって決定される信頼度のさらに他の例を示す図である。図10に示す例では、ラベル付け領域39のうち中央領域39aの画素の信頼度は、ラベル付け領域39の幅方向の中心39cからの距離に応じた信頼度を定義する関数f1(x)によって得られる信頼度に決定される。関数f1(x)における「x」は、中心39cからの幅方向の距離である。
また、ラベル付け領域39のうち辺縁領域39bの画素の信頼度は、ラベル付け領域39の幅方向の中心39cからの距離に応じた信頼度を定義する関数f2(x)によって得られる信頼度に決定される。関数f2(x)における「x」は、中心39cからの幅方向の距離である。
なお、関数f1(x)と関数f2(x)とは、異なる関数であるが、同一関数であってもよく、関数f1(x)と関数f2(x)は、正規分布の関数またはポアソン分布の関数であってもよい。また、ラベル付け領域39の各画素の信頼度は、関数に代えてテーブルに基づいて決定されてもよく、また、統計分布に応じた関数またはテーブルに基づいて決定されてもよい。
また、上述したラベル付け領域33b,39では、信頼度の分布が幅方向の中心38c,39cを中心として幅方向で対称であるが、信頼度の分布は、中心38c,39cを中心として幅方向で対称でなくてもよい。
図1に戻って、情報処理装置1の説明を続ける。情報処理装置1のデータ出力部19は、信頼度決定部18によって決定されたラベル付け領域の各画素の信頼度を示すデータである信頼度データを信頼度データ記憶部20に記憶させる。なお、信頼度データは、例えば、ラベルデータの識別情報および学習用画像データの識別情報などに関連付けられた状態で、信頼度データ記憶部20に記憶される。
学習用データ取得部21は、学習用画像データとラベルデータと信頼度データとのデータセットを学習用画像データ毎に、学習用画像データ記憶部12、ラベルデータ記憶部14、および信頼度データ記憶部20から取得する。なお、ラベルデータおよび信頼度データが複数関連付けられている学習用画像データを含むデータセットには、複数のラベルデータおよび複数の信頼度データが含まれる。
学習用データ取得部21は、学習用画像データとラベルデータと信頼度データとのデータセットを学習用画像データ毎に含む学習用データを学習モデル生成部22へ出力する。学習モデル生成部22は、学習用データ取得部21から取得した学習用データに基づいて、画像データで示される画像を入力とし画像データで示される画像から注目対象領域を判定するための学習モデルを機械学習によって生成する。かかる学習モデルは、例えば、画像データで示される画像を入力画像とし、入力画像の各画素が注目対象領域の画素である確度を示すスコアのデータを出力とする学習モデルである。
学習モデル生成部22は、例えば、信頼度データで示される信頼度を重みとして設定された損失関数による演算結果が最小になるように学習モデルを生成する。学習モデル生成部22は、例えば、損失関数として下記式(1)を用いて学習モデルを生成する。下記式(1)は、予測値Pと真値Tの重み付きクロスエントロピー誤差を用いた損失関数である。
上記式(1)において、「K」は、クラス数、「N」は、画素数、「i」はクラスを示し、「n」は、画素を示し、「wni」は、重みを示し、「Tni」は、真値を示し、「Pni」は、予測値を示す。
重みは、上述した信頼度に基づく重みであり、例えば、信頼度WHに対応する重みは、「1.0」であり、信頼度WLに対応する重みは、「0.5」である。また、信頼度WH1に対応する重みは、「1.0」であり、信頼度WH2に対応する重みは、「0.75」であり、信頼度WL1に対応する重みは、「0.5」であり、信頼度WL2に対応する重みは、「0.25」である。
学習モデル生成部22による機械学習は深層学習であり、学習モデル生成部22によって生成される学習モデルは、例えば、畳み込みニューラルネットワークまたは回帰型ニューラルネットワークなどのニューラルネットワークである。なお、学習モデル生成部22による機械学習は深層学習以外の機械学習であってもよく、学習モデル生成部22によって生成される学習モデルは、ニューラルネットワーク以外のネットワークモデルであってもよい。
また、学習モデル生成部22で用いられる損失関数は、上述した例に限定されず、各画素に対して信頼度に対応する重みを用いる損失関数であればよく、例えば、2乗和誤差を用いた損失関数、平均2乗誤差を用いた損失関数、または平均絶対誤差を用いた損失関数などであってもよい。
学習モデル生成部22は、上述した機械学習によって生成した学習モデルを学習モデル記憶部23に記憶させる。学習モデル生成部22は、例えば、新たな学習用画像データ、新たなラベルデータ、および新たな信頼度データが学習用データ取得部21によって取得された場合、学習用データ取得部21によって取得された新たな情報に基づいて、学習モデルを更新し、更新した学習モデルを学習モデル記憶部23に記憶させることができる。
画像データ取得部25は、不図示のインタフェース回路または通信部を介して画像データを取得する。学習モデル取得部24は、学習モデル記憶部23に記憶された最新の学習モデルを取得する。判定部26は、画像データ取得部25によって取得された画像データで示される画像を入力画像として学習モデル取得部24によって取得された学習モデルへ入力し、学習モデルから出力されるデータに基づいて、画像データで示される画像に含まれる注目対象領域を判定する。
学習モデルから出力されるデータは、例えば、入力画像の各画素が注目対象領域の画素である確度を示すスコアのデータである。この判定部26は、学習モデルから出力されるスコアが予め設定された閾値以上である画素を注目対象領域の画素であると判定し、注目対象領域の画素であると判定した複数の画素の領域を注目対象領域として判定する。
学習部17において学習に用いられるラベルデータの品質は、ラベル付けの精度が悪いほど悪化し、学習モデルの推論精度に直結する。つまり、注目対象領域のみを注目対象領域として正しく設定した品質の高いラベルデータで学習して生成される学習モデルと、注目対象領域でない領域を注目対象領域として誤って設定したラベルデータが混入した品質の低いラベルデータで学習して生成される学習モデルとでは、前者のほうが、推論精度が向上する。
実施の形態1にかかる情報処理装置1では、ひび割れの幅、長さ、または面積などのように、注目対象領域を数値で示す数値情報であるラベル属性データを、ラベルデータとともに学習部17へ与えることにより、注目対象領域でないにもかかわらず、注目対象領域と誤って設定される可能性があるひび割れの辺縁部の信頼度を低くして学習することを可能とし、学習モデルの精度向上を図ることができる。なお、ひび割れの辺縁部は、ひび割れの境界部ということもできる。また、以下、ひび割れの幅をひび割れ幅と記載する場合がある。
ここで、ラベル属性データを用いることで学習モデルの推定精度が向上する理由について、より具体的に説明する。一般に、ラベルデータの作成は、アノテーションとも呼ばれ、学習用画像の各画素へのラベル付け操作を人手で行うといった人海戦術で行われることが多い。例えば、構造物の変状がトンネルのひび割れの場合、実際に土木知見を持った技術者が生成したトンネルの変状展開図をもとにして、土木知見を持たないラベルデータ作成担当者が、学習用画像のひび割れに該当する箇所の各画素にラベル付け操作を行う。その際、ひび割れの辺縁部には、学習用画像の解像度または画素数のような画質の影響によりボケが発生し、ラベル付けの精度にばらつきが生じる。つまり、注目対象領域でないにもかかわらず、注目対象領域と誤って設定される画素が生じる。
一方、変状展開図には、土木知見を持った技術者が学習用画像を見て判定したひび割れ幅、または、トンネル壁面に生じたひび割れを現場または現地でクラックスケールを用いて実際に測定して取得したひび割れ幅を示す数値が入力されている。ラベルデータ作成担当者は、各画素へのラベル付け操作をする際に、変状展開図に入力されているひび割れ幅の数値を、ラベル付けしたひび割れ幅として設定する。これにより、データ生成部13は、ラベル属性データを生成することができる。
信頼度決定部18は、ひび割れ幅を示す数値情報であるラベル属性データと画像解像度データとに基づき、画質の影響を考慮したひび割れの領域を求めることができる。これにより、学習用画像において、実際のひび割れ幅を超える領域、または、ひび割れ辺縁部分の領域に対して「ひび割れ」としてラベル付けされた画素が分かるので、それらの部分の信頼度を低くして学習させることで、学習モデルの精度向上を図ることができる。ここで、実際のひび割れ幅とは、「土木知見を持った技術者が学習用画像を見て判定したひび割れ幅」、あるいは「現場または現地でクラックスケールを用いて実際に測定して取得したひび割れ幅」を指す。
つづいて、フローチャートを用いて情報処理装置1による処理を説明する。図11は、実施の形態1にかかる情報処理装置による処理の一例を示すフローチャートである。図11に示すように、情報処理装置1のデータ生成部13は、ラベル付け操作があるか否かを判定する(ステップS10)。
データ生成部13は、ラベル付け操作があると判定した場合(ステップS10:Yes)、ラベル関連データ生成処理を実行する(ステップS11)。かかるラベル関連データ生成処理は、図12に示すステップS20~S25の処理であり、後で詳述する。
情報処理装置1の学習モデル生成部22は、ステップS11の処理が終了した場合、またはデータ生成部13によってラベル付け操作がないと判定された場合(ステップS10:No)、学習タイミングであるか否かを判定する(ステップS12)。ステップS12において、学習モデル生成部22は、例えば、学習用データ取得部21から学習用データが出力された場合に、学習タイミングであると判定する。
学習モデル生成部22は、学習タイミングであると判定した場合(ステップS12:Yes)、学習処理を実行する(ステップS13)。かかる学習処理は、図13に示すステップS30~S32の処理であり、後で詳述する。
情報処理装置1の判定部26は、ステップS13の処理が終了した場合、または学習モデル生成部22によって学習タイミングではないと判定された場合(ステップS12:No)、学習モデル生成部22によって学習モデルが生成済みであるか否かを判定する(ステップS14)。
判定部26は、学習モデルが生成済みであると判定した場合(ステップS14:Yes)、画像データが画像データ取得部25で取得されたか否かを判定する(ステップS15)。判定部26は、画像データが取得されたと判定した場合(ステップS15:Yes)、画像データで示される画像に含まれる注目対象領域を判定する注目対象判定処理を実行する(ステップS16)。
情報処理装置1は、ステップS16の処理が終了した場合、学習モデルが生成済みではないと判定した場合(ステップS14:No)、または画像データが取得されていないと判定した場合(ステップS15:No)、図11に示す処理を終了する。
図12は、実施の形態1にかかる情報処理装置によるラベル関連データ生成処理の一例を示すフローチャートである。図12に示すように、データ生成部13は、学習用画像データで示される画像のうちラベル付け操作によって注目対象領域としてラベル付けが行われた領域であるラベル付け領域33,39を示すラベルデータを生成する(ステップS20)。
また、データ生成部13は、ラベル付け操作に基づいて、ラベル付け領域33,39の属性を示すラベル属性データを生成する(ステップS21)。そして、データ生成部13は、ステップS20で生成したラベルデータをラベルデータ記憶部14に記憶させ、ステップS21で生成したラベル属性データをラベル属性データ記憶部15に記憶させる(ステップS22)。
信頼度決定部18は、ラベルデータ、ラベル属性データ、および画像解像度データを、ラベルデータ記憶部14、ラベル属性データ記憶部15、および画像解像度データ記憶部16から取得する(ステップS23)。
次に、信頼度決定部18は、ステップS23で取得したラベルデータ、ラベル属性データ、および画像解像度データに基づいて、ラベル付け領域の各画素の信頼度を判定する(ステップS24)。
そして、データ出力部19は、信頼度決定部18によって判定されたラベル付け領域の各画素の信頼度を示す信頼度データを信頼度データ記憶部20に記憶させて(ステップS25)、図12に示す処理を終了する。
図13は、実施の形態1にかかる情報処理装置による学習処理の一例を示すフローチャートである。図13に示すように、学習モデル生成部22は、学習用画像データ記憶部12、ラベルデータ記憶部14、および信頼度データ記憶部20から、学習用画像データ、ラベルデータ、および信頼度データを取得する(ステップS30)。
次に、学習モデル生成部22は、ステップS30で取得した学習用画像データ、ラベルデータ、および信頼度データに基づいて、学習モデルを生成する(ステップS31)。学習モデル生成部22は、生成した学習モデルを学習モデル記憶部23に記憶させて(ステップS32)、図13に示す処理を終了する。
図14は、実施の形態1にかかる情報処理装置のハードウェア構成の一例を示す図である。図14に示すように、情報処理装置1は、プロセッサ101と、メモリ102と、通信装置103と、インタフェース回路104とを備えるコンピュータを含む。
プロセッサ101、メモリ102、通信装置103、およびインタフェース回路104は、例えば、バス105によって互いに情報の送受信が可能である。学習用画像データ記憶部12、ラベルデータ記憶部14、ラベル属性データ記憶部15、画像解像度データ記憶部16、信頼度データ記憶部20、および学習モデル記憶部23は、メモリ102によって実現される。プロセッサ101は、メモリ102に記憶されたプログラムを読み出して実行することによって、データ生成部13、信頼度決定部18、データ出力部19、学習用データ取得部21、学習モデル生成部22、学習モデル取得部24、画像データ取得部25、および判定部26などの機能を実行する。プロセッサ101は、例えば、処理回路の一例であり、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、およびシステムLSI(Large Scale Integration)のうち一つ以上を含む。
メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、およびEEPROM(登録商標)(Electrically Erasable Programmable Read Only Memory)のうち一つ以上を含む。また、メモリ102は、コンピュータが読み取り可能なプログラムが記録された記録媒体を含む。かかる記録媒体は、不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルメモリ、光ディスク、コンパクトディスク、およびDVD(Digital Versatile Disc)のうち一つ以上を含む。なお、情報処理装置1は、ASIC(Application Specific Integrated Circuit)およびFPGA(Field Programmable Gate Array)などの集積回路を含んでいてもよい。
情報処理装置1は、サーバで構成されてもよく、クライアントとサーバとで構成されてもよい。情報処理装置1が2以上の装置で構成される場合、2以上の装置の各々は、例えば、図14に示すハードウェア構成を有する。なお、2以上の装置間の通信は、通信装置103を介して行われる。また、情報処理装置1は、2以上のサーバを含んでいてもよい。例えば、情報処理装置1は、処理サーバと、データサーバとを含んでいてもよい。
以上のように、実施の形態1にかかる情報処理装置1は、学習部17を備える。学習部17は、構造物を撮像して得られる入力画像のデータである学習用画像データと、学習用画像データで示される入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて、入力画像から注目対象領域を判定するための学習モデルを生成する。これにより、情報処理装置1は、注目対象領域を精度よく検出可能な学習モデルを生成することができる。
学習部17は、信頼度決定部18と、学習モデル生成部22とを含む。信頼度決定部18は、学習用画像データで示される学習用画像30のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域33,39を示すラベルデータと、ラベル付け領域33,39の属性を示すラベル属性データとに基づいて、ラベル付け領域33,39の各画素に対して注目対象領域の画素である確からしさを示す信頼度を決定する。学習モデル生成部22は、学習用画像データとラベルデータと信頼度決定部18によって決定された信頼度とに基づいて、入力画像から注目対象領域を判定するための学習モデルを生成する。これにより、情報処理装置1は、注目対象領域を精度よく検出可能な学習モデルを生成することができる。
また、学習モデル生成部22は、信頼度決定部18によって決定された信頼度を重みとして設定された損失関数による演算結果に基づいて学習モデルを生成する。これにより、情報処理装置1は、注目対象領域を精度よく検出可能な学習モデルを生成することができる。
また、ラベル属性データは、注目対象領域を数値で示すデータである。これにより、情報処理装置1は、信頼度を容易に決定することができる。
また、ラベル属性データは、注目対象領域の幅、長さ、または面積を示すデータを含む。信頼度決定部18は、ラベルデータで示されるラベル付け領域33,39の幅、長さ、または面積とラベル属性データで示されるラベル付け領域33,39の幅、長さ、または面積とに基づいて、信頼度を決定する。これにより、情報処理装置1は、注目対象領域の幅、長さ、または面積を精度よく検出することができる。
また、情報処理装置1は、画像データを取得する画像データ取得部25と、判定部26とを備える。判定部26は、画像データ取得部25によって取得された画像データで示される画像を学習モデルに入力し、学習モデルから出力されるデータに基づいて、画像データで示される画像に含まれる注目対象領域を判定する。これにより、情報処理装置1は、注目対象領域を精度よく検出することができる。
また、情報処理装置1は、学習モデル取得部24と、画像データ取得部25と、判定部26とを備える。学習モデル取得部24は、学習用画像データと学習用画像データで示される学習用画像30のうち注目対象の領域である注目対象領域の画像としてラベル付けが行われた領域であるラベル付け領域33,39を示すラベルデータとラベル付け領域33,39における画素の注目対象領域の画素である確からしさを示す信頼度とに基づいて生成された学習モデルを取得する。画像データ取得部25は、画像データを取得する。判定部26は、画像データ取得部25によって取得された画像データで示される画像を学習モデル取得部24によって取得された学習モデルに入力し、学習モデルから出力されるデータに基づいて、画像データで示される画像に含まれる注目対象領域を判定する。これにより、情報処理装置1は、注目対象領域を精度よく検出することができる。
実施の形態2.
実施の形態2にかかる情報処理装置は、ラベルデータ、ラベル属性データ、および画像解像度データに加え、学習用画像データで示される学習用画像の各画素の色を示す色データに基づいて、信頼度データを生成する点で、実施の形態1にかかる情報処理装置1と異なる。以下においては、実施の形態1と同様の機能を有する構成要素については同一符号を付して説明を省略し、実施の形態1の情報処理装置1と異なる点を中心に説明する。
実施の形態2にかかる情報処理装置は、ラベルデータ、ラベル属性データ、および画像解像度データに加え、学習用画像データで示される学習用画像の各画素の色を示す色データに基づいて、信頼度データを生成する点で、実施の形態1にかかる情報処理装置1と異なる。以下においては、実施の形態1と同様の機能を有する構成要素については同一符号を付して説明を省略し、実施の形態1の情報処理装置1と異なる点を中心に説明する。
図15は、実施の形態2にかかる情報処理装置の一例を示す図である。図15に示すように、実施の形態2にかかる情報処理装置1Aは、信頼度決定部18に代えて信頼度決定部18Aを備える点、および色データ記憶部27をさらに備える点で、実施の形態1にかかる情報処理装置1と異なる。
色データ記憶部27は、学習用画像30の各画素の色データを学習用画像30毎に含む。色データは、例えば、RGB(Red-Green-Blue color model)データである。かかるRGBデータは、赤色、緑色、および青色の各々のデータが例えば256段階で示される24ビットデータである。なお、色データは、各画素の色を示すデータであればよく、RGBデータに限定されない。なお、画素の色は、輝度で表されてもよい。
信頼度決定部18Aは、例えば、ラベルデータとラベル属性データと画像解像度データとに基づいて、信頼度決定部18と同様の信頼度の決定方法によって、ラベル付け領域33,39の各画素の仮の信頼度である仮信頼度を決定する。
次に、信頼度決定部18Aは、色データ記憶部27に記憶された学習用画像30の色データに基づいて、ラベル付け領域33,39の各画素の重みを決定する。そして、信頼度決定部18Aは、色データに基づいて決定した重みを仮信頼度に乗算する処理をラベル付け領域33,39の画素毎に行うことによって、ラベル付け領域33,39の各画素の信頼度を決定する。
例えば、信頼度決定部18Aは、色データ記憶部27に記憶された学習用画像30の色データに基づいて、ラベル付け領域33,39の各画素の輝度を判定し、判定した輝度に基づいて、ラベル付け領域33,39の各画素の重みを決定する。
例えば、信頼度決定部18Aは、画素の輝度が0~255の範囲の値で示される場合、輝度が0~127の範囲である場合、重みを「1.0」に決定し、輝度が128~255の範囲である場合、重みを「0.5」に決定する。
なお、信頼度決定部18Aは、色データに基づいて信頼度を決定するための重みを決定する方法は、上述した例に限定されず、種々の方法によって、信頼度を決定するための重みを決定することができる。例えば、信頼度決定部18Aは、学習用画像30の色データに基づいて、各画素の色相と色彩を判定し、輝度と色相と色彩とからラベル付け領域33,39の各画素の重みを決定することもできる。また、信頼度決定部18Aは、赤色のデータの値、緑色のデータの値、および青色のデータの値の各々に係数を乗算して合算した値に応じた重みを決定することもできる。
つづいて、フローチャートを用いて情報処理装置1Aによるラベル関連データ生成処理を説明する。図16は、実施の形態2にかかる情報処理装置による処理の一例を示すフローチャートである。図16に示すステップS40,S41,S42,S45は、図12に示すステップS20,S21,S22,S25と同じであり、説明を省略する。
情報処理装置1Aの信頼度決定部18Aは、ラベルデータ、ラベル属性データ、画像解像度データ、および色データを、ラベルデータ記憶部14、ラベル属性データ記憶部15、画像解像度データ記憶部16、および色データ記憶部27から取得する(ステップS43)。
次に、信頼度決定部18Aは、ステップS43で取得したラベルデータ、ラベル属性データ、画像解像度データ、および色データに基づいて、ラベル付け領域の各画素の信頼度を判定する(ステップS44)。
実施の形態2にかかる情報処理装置1Aのハードウェア構成例は、図14に示す情報処理装置1のハードウェア構成と同じである。色データ記憶部27は、メモリ102によって実現される。プロセッサ101は、メモリ102に記憶されたプログラムを読み出して実行することによって、信頼度決定部18Aの機能を実行することができる。
以上のように、実施の形態2にかかる情報処理装置1Aは、信頼度決定部18Aを備える。信頼度決定部18Aは、ラベルデータとラベル属性データとに加えて学習用画像データで示される画像の各画素の色に関するデータに基づいて、ラベル付け領域33,39の各画素に対して注目対象領域の画素である確からしさを示す信頼度を決定する。これにより、情報処理装置1Aは、注目対象領域をさらに精度よく検出可能な学習モデルを生成することができる。
上述した例では、信頼度決定部18,18Aは、ラベル属性データと画像解像度データとに基づいて、学習用画像30における注目対象領域の幅、長さ、または面積などを特定するが、学習用画像30の解像度が一定である場合、画像解像度データを用いなくてもよい。この場合、信頼度決定部18,18Aは、学習用画像30の解像度が一定であるものとして、学習用画像30における注目対象領域の幅、長さ、または面積などを特定することができる。
また、上述した情報処理装置1,1Aの学習モデル生成部22は、撮像装置毎の学習モデルを生成することもできる。また、情報処理装置1,1Aの学習モデル生成部22は、撮像装置で用いる照明機器の種類毎の学習モデルを生成することもできる。撮像装置で用いる照明機器は、例えば、ハロゲンランプ、LED(Light Emitting Diode)ランプ、またはHID(High Intensity Discharge)ランプなどである。
また、情報処理装置1,1Aのデータ生成部13は、ラベル付け領域33,39をユーザ毎に広めたり狭めたりすることができる。例えば、データ生成部13は、広めにラベル付けを行うユーザによって設定されたラベル付け領域33,39の幅を狭くした領域をラベル付け領域33,39に含むラベルデータを生成したり、狭めにラベル付けを行うユーザによって設定されたラベル付け領域33,39の幅を広くした領域をラベル付け領域33,39に含むラベルデータを生成したりすることができる。なお、ユーザによって設定されたラベル付け領域33,39の変更は、データ生成部13に代えて信頼度決定部18,18Aによって行ってもよい。
また、情報処理装置1,1Aは、例えば、学習モデル生成部22が生成する学習モデルから得られる情報などに基づいて、ラベル付け領域33,39を広めにするユーザとラベル付け領域33,39を狭めにするユーザを判定することもできる。
情報処理装置1,1Aを適用した具体的なアプリケーションである点検装置について説明する。画像データ取得部25は、撮像装置により撮像された構造物の画像データを取得する。撮像装置は、構造物を撮像可能な位置に設置される。学習部17,17Aは、構造物の画像データから、構造物の変状を注目対象領域として検出する学習モデルを生成する。判定部26は、画像データ取得部25で取得された構造物の画像データを、学習部17,17Aで生成された学習モデルに入力し、構造物の画像データに含まれる注目対象領域を判定する。判定部26で注目対象領域か否かを判定した結果は、例えば、注目対象領域に該当しない画素を0とし、注目対象領域に該当する画素を1とする情報を画素単位で有する判定結果情報として与えられる。
次に、判定結果情報の活用例について説明する。例えば、判定に用いられた画像データの各画素のうち、注目対象領域に該当する画素と判定された画素の赤色の色データの値を255に設定することにより、赤色で示す注目対象領域を判定前の画像データに重畳表示させた画像(注目対象領域を赤色で強調表示した画像)を生成することができる。この画像を表示部10に表示することにより、注目対象領域の画像データ内での位置確認が可能となる。また、この画像をベースにして注目対象領域をトレースしたデータを生成することで、変状展開図を作成することが可能となる。
以上の実施の形態に示した構成は、一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、実施の形態同士を組み合わせることも可能であるし、要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。
1,1A 情報処理装置、10 表示部、11 入力部、12 学習用画像データ記憶部、13 データ生成部、14 ラベルデータ記憶部、15 ラベル属性データ記憶部、16 画像解像度データ記憶部、17,17A 学習部、18,18A 信頼度決定部、19 データ出力部、20 信頼度データ記憶部、21 学習用データ取得部、22 学習モデル生成部、23 学習モデル記憶部、24 学習モデル取得部、25 画像データ取得部、26 判定部、27 色データ記憶部、30 学習用画像、31a,31b ひび割れ画像、32 カーソル、33,33a,33b,39 ラベル付け領域、34a,34b 属性、36,37a,37b 領域、38a,39a 中央領域、38b,39b 辺縁領域、38c,39c 中心。
Claims (12)
- 構造物を撮像して得られる入力画像のデータである学習用画像データと、前記学習用画像データで示される前記入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、前記ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて、前記入力画像から前記注目対象領域を判定するための学習モデルを生成する学習部を備える
ことを特徴とする情報処理装置。 - 前記学習部は、
前記ラベルデータと前記ラベル属性データとに基づいて、前記ラベル付け領域の各画素に対して前記注目対象領域の画素である確からしさを示す信頼度を決定する信頼度決定部と、
前記学習用画像データと前記ラベルデータと前記信頼度決定部によって決定された前記信頼度とに基づいて、前記学習モデルを生成する学習モデル生成部と、を備える
ことを特徴とする請求項1に記載の情報処理装置。 - 前記学習モデル生成部は、
前記信頼度決定部によって決定された前記信頼度を重みとして設定された損失関数による演算結果に基づいて前記学習モデルを生成する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記信頼度決定部は、
前記ラベルデータと前記ラベル属性データとに加えて前記学習用画像データで示される画像の各画素の色に関するデータに基づいて、前記信頼度を決定する
ことを特徴とする請求項2または3に記載の情報処理装置。 - 前記ラベル属性データは、
前記注目対象領域を数値で示すデータである
ことを特徴とする請求項1から4のいずれか1つに記載の情報処理装置。 - 前記ラベル属性データは、
前記注目対象領域の幅、長さ、または面積を示すデータを含み、
前記信頼度決定部は、
前記ラベルデータで示される前記ラベル付け領域の幅、長さ、または面積と前記ラベル属性データで示される前記ラベル付け領域の幅、長さ、または面積とに基づいて、前記信頼度を決定する
ことを特徴とする請求項2から4のいずれか1つに記載の情報処理装置。 - 画像データを取得する画像データ取得部と、
前記画像データ取得部によって取得された前記画像データで示される画像を前記学習モデルに入力し、前記学習モデルから出力されるデータに基づいて、前記画像データで示される画像に含まれる前記注目対象領域を判定する判定部と、を備える
ことを特徴とする請求項2から6のいずれか1つに記載の情報処理装置。 - 構造物を撮像して得られる入力画像のデータである学習用画像データと、前記学習用画像データで示される前記入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、前記ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて生成された学習モデルを取得する学習モデル取得部と、
画像データを取得する画像データ取得部と、
前記画像データ取得部によって取得された前記画像データで示される画像を前記学習モデル取得部によって取得された前記学習モデルに入力し、前記学習モデルから出力されるデータに基づいて、前記画像データで示される画像に含まれる前記注目対象領域を判定する判定部と、を備える
ことを特徴とする情報処理装置。 - 構造物を撮像して得られる入力画像のデータである学習用画像データと、前記学習用画像データで示される前記入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、前記ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて、前記入力画像から前記注目対象領域を判定するための学習モデルを生成するステップを含む
ことを特徴とする情報処理方法。 - 構造物を撮像して得られる入力画像のデータである学習用画像データと、前記学習用画像データで示される前記入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、前記ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて生成された学習モデルを取得する第1のステップと、
画像データを取得する第2のステップと、
前記第2のステップによって取得された前記画像データで示される画像を前記第1のステップによって取得された前記学習モデルに入力し、前記学習モデルから出力されるデータに基づいて、前記画像データで示される画像に含まれる前記注目対象領域を判定する第3のステップと、を含む
ことを特徴とする情報処理方法。 - 構造物を撮像して得られる入力画像のデータである学習用画像データと、前記学習用画像データで示される前記入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、前記ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて、前記入力画像から前記注目対象領域を判定するための学習モデルを生成するステップをコンピュータに実行させる
ことを特徴とする情報処理プログラム。 - 構造物を撮像して得られる入力画像のデータである学習用画像データと、前記学習用画像データで示される前記入力画像のうち注目対象の領域である注目対象領域としてラベル付けが行われた領域であるラベル付け領域を示すラベルデータと、前記ラベル付け領域の属性を示すラベル属性データとを含む学習用データに基づいて生成された学習モデルを取得する第1のステップと、
画像データを取得する第2のステップと、
前記第2のステップによって取得された前記画像データで示される画像を前記第1のステップによって取得された前記学習モデルに入力し、前記学習モデルから出力されるデータに基づいて、前記画像データで示される画像に含まれる前記注目対象領域を判定する第3のステップと、をコンピュータに実行させる
ことを特徴とする情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/013344 WO2022208620A1 (ja) | 2021-03-29 | 2021-03-29 | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2021546797A JP7023425B1 (ja) | 2021-03-29 | 2021-03-29 | 情報処理装置、情報処理方法、および情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/013344 WO2022208620A1 (ja) | 2021-03-29 | 2021-03-29 | 情報処理装置、情報処理方法、および情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022208620A1 true WO2022208620A1 (ja) | 2022-10-06 |
Family
ID=81076727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/013344 WO2022208620A1 (ja) | 2021-03-29 | 2021-03-29 | 情報処理装置、情報処理方法、および情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7023425B1 (ja) |
WO (1) | WO2022208620A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018198053A (ja) * | 2017-05-22 | 2018-12-13 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2019053842A1 (ja) * | 2017-09-14 | 2019-03-21 | 三菱電機株式会社 | 変状検出装置 |
JP2019194562A (ja) * | 2018-04-26 | 2019-11-07 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020204835A (ja) * | 2019-06-14 | 2020-12-24 | キヤノン株式会社 | 情報処理装置、システム、情報処理方法及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11234666B2 (en) * | 2018-05-31 | 2022-02-01 | Canon Medical Systems Corporation | Apparatus and method for medical image reconstruction using deep learning to improve image quality in position emission tomography (PET) |
-
2021
- 2021-03-29 JP JP2021546797A patent/JP7023425B1/ja active Active
- 2021-03-29 WO PCT/JP2021/013344 patent/WO2022208620A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018198053A (ja) * | 2017-05-22 | 2018-12-13 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2019053842A1 (ja) * | 2017-09-14 | 2019-03-21 | 三菱電機株式会社 | 変状検出装置 |
JP2019194562A (ja) * | 2018-04-26 | 2019-11-07 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020204835A (ja) * | 2019-06-14 | 2020-12-24 | キヤノン株式会社 | 情報処理装置、システム、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022208620A1 (ja) | 2022-10-06 |
JP7023425B1 (ja) | 2022-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210231581A1 (en) | Method for performing smart semiconductor wafer defect calibration | |
US8165350B2 (en) | Assessment of a view through the overlay of maps | |
JP3834041B2 (ja) | 学習型分類装置及び学習型分類方法 | |
WO2023159961A1 (zh) | 缺陷检测方法、装置、设备及计算机可读存储介质 | |
CN106920245B (zh) | 一种边界检测的方法及装置 | |
TWI413937B (zh) | 影像辨識方法與裝置 | |
CN110766095B (zh) | 基于图像灰度特征的缺陷检测方法 | |
JP7118277B2 (ja) | 検査装置、検査方法及びプログラム | |
CN101443897B (zh) | 图像二值化方法和图像处理装置 | |
JP7145970B2 (ja) | コンクリート構造物の点検支援装置、点検支援方法及び点検支援プログラム | |
JP5726472B2 (ja) | アライメント方法及び検出装置 | |
CN113012096B (zh) | 显示屏子像素定位及亮度提取方法、设备以及存储介质 | |
JP2018036226A (ja) | 画像処理プログラム、画像処理方法および画像処理装置 | |
CN108445010A (zh) | 自动光学检测方法及装置 | |
JP2010091361A (ja) | 画像検査方法および画像検査装置 | |
JP2010014503A (ja) | 画像検査処理装置、画像検査処理方法、プログラム、及び、記録媒体 | |
JP2005345290A (ja) | 筋状欠陥検出方法及び装置 | |
WO2022208620A1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP7356010B2 (ja) | 表面性状検査装置及び表面性状検査方法 | |
JP4796535B2 (ja) | 画像処理による多導体電線の追跡方法、装置及びプログラム並びにこれを用いた多導体電線の異常検出方法、装置及びプログラム | |
CN110672631B (zh) | 面板缺陷拍照方法和面板缺陷拍照装置 | |
WO2022172469A1 (ja) | 画像検査装置、画像検査方法、及び学習済みモデル生成装置 | |
JP2018077719A (ja) | 破面解析装置および破面解析方法 | |
JP2021117152A (ja) | 画像処理装置、画像処理方法、及び画像処理プログラム | |
KR101697648B1 (ko) | 다중 노출 카메라 영상을 이용한 자동 고속 이동 물체 검출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ENP | Entry into the national phase |
Ref document number: 2021546797 Country of ref document: JP Kind code of ref document: A |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21934793 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21934793 Country of ref document: EP Kind code of ref document: A1 |