WO2023100336A1 - 学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム - Google Patents

学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム Download PDF

Info

Publication number
WO2023100336A1
WO2023100336A1 PCT/JP2021/044362 JP2021044362W WO2023100336A1 WO 2023100336 A1 WO2023100336 A1 WO 2023100336A1 JP 2021044362 W JP2021044362 W JP 2021044362W WO 2023100336 A1 WO2023100336 A1 WO 2023100336A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
learning
scale
learning model
unit
Prior art date
Application number
PCT/JP2021/044362
Other languages
English (en)
French (fr)
Inventor
一旭 渡邉
大輔 内堀
洋介 櫻田
淳 荒武
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/044362 priority Critical patent/WO2023100336A1/ja
Publication of WO2023100336A1 publication Critical patent/WO2023100336A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques

Definitions

  • the present disclosure relates to a learning model building device, an estimating device, a learning model building method, an estimating method, and a program.
  • Non-Patent Document 1 proposes estimating the scale of an image of the surface of a concrete structure using deep learning by CNN (Convolutional Neural Network). Specifically, it has been proposed to estimate the scale of an image based on texture features formed by unevenness, shadows, voids, etc. on the surface of concrete structures such as pedestrian bridges and concrete walls.
  • CNN Convolutional Neural Network
  • An object of the present disclosure which has been made in view of such circumstances, is to provide a learning model building device, an estimating device, a learning model building method, an estimating method, and a program capable of estimating the scale of the surface of a concrete structure with high accuracy. That's what it is.
  • the learning model construction device provides image data representing a learning image of which the true value of the scale is known, which is an image of the surface of concrete, and the true value of the scale of the learning image.
  • a plurality of learning units that construct a plurality of learning models using a plurality of loss functions that are different from each other based on teacher data that associates with the training image, the true value of the scale of which is known a plurality of verification units that calculate a plurality of estimated values of the scale using the plurality of learning models for different optimal verification images; a plurality of correlation calculators for calculating respective correlations between estimated values of the plurality of scales; and an optimal learning model for selecting an optimal learning model having the highest correlation among the plurality of learning models. and a selection unit.
  • the estimation device includes: a learning model storage unit that stores the optimal learning model selected by the learning model building device; an estimating unit for calculating an estimated value of the scale of the unknown image whose value is unknown.
  • the learning model building method includes image data representing a learning image in which the surface of concrete is imaged and the true value of the scale is known, and the scale of the learning image. constructing each of a plurality of learning models using a plurality of loss functions that are different from each other based on teacher data associated with true values; calculating each of the plurality of estimated values of the scale using each of the plurality of learning models for an optimal verification image; and selecting the optimal learning model, which is the learning model with the highest correlation among the plurality of learning models.
  • an estimation method is an estimation method executed by an estimation device including a learning model storage unit that stores the optimal learning model selected by the learning model construction device. and calculating, using the optimal learning model, an estimate of the scale of the unknown image for which the true value of the scale is unknown.
  • the program according to the present disclosure causes a computer to function as the learning model construction device described above.
  • the learning model construction device estimation device, learning model construction method, estimation method, and program according to the present disclosure, it is possible to estimate the scale of the surface of a concrete structure with high accuracy.
  • FIG. 1 is a schematic diagram showing an example of an estimation system according to a first embodiment
  • FIG. 2 is a schematic diagram showing an example of a model construction unit shown in FIG. 1
  • FIG. 2 is a schematic diagram showing an example of a scale estimator shown in FIG. 1
  • FIG. 4 is a schematic diagram showing another example of the estimation system according to the first embodiment
  • FIG. 2 is a sequence diagram showing an example of an operation for storing teacher data in the estimation device shown in FIG. 1
  • FIG. 2 is a sequence diagram showing an example of operations for constructing a learning model in the estimation device shown in FIG. 1
  • FIG. FIG. 7 is a sequence diagram showing a first example in detail of the operation shown in FIG. 6;
  • FIG. 7 is a sequence diagram showing a second example in detail of the operation shown in FIG. 6; 2 is a sequence diagram showing an example of an operation for calculating an estimated value of scale in the estimation device shown in FIG. 1;
  • FIG. It is a schematic diagram showing an example of an estimation system according to a second embodiment.
  • FIG. 9 is a schematic diagram showing another example of the estimation system according to the second embodiment;
  • FIG. 11 is a sequence diagram showing an example of an operation for storing teacher data in the estimation device shown in FIG. 10; 11 is a sequence diagram showing an example of an operation for calculating an estimated value of scale in the estimation device shown in FIG. 10;
  • FIG. It is a schematic diagram showing an example of an estimation system according to a third embodiment.
  • FIG. 15 is a schematic diagram showing an example of a noise image removing unit shown in FIG. 14;
  • FIG. FIG. 4 is a diagram showing an example of frequency distribution of pixel values of a * component in an image containing color noise;
  • FIG. 4 is a diagram showing an example of frequency distribution of pixel values of a * component in an image containing no color noise;
  • FIG. 4 is a diagram showing an example of frequency distribution of pixel values of b * component in an image containing color noise;
  • FIG. 4 is a diagram showing an example of frequency distribution of pixel values of b * component in an image containing no color noise;
  • FIG. 13 is a schematic diagram showing another example of the estimation system according to the third embodiment;
  • FIG. 15 is a sequence diagram showing an example of an operation for storing teacher data in the estimation device shown in FIG. 14; 15 is a sequence diagram showing an example of an operation for calculating an estimated value of scale in the estimation device shown in FIG. 14;
  • FIG. 3 is a hardware block diagram of an estimation device and a learning data construction device;
  • an estimation system 100 includes an image capturing device 1, a data storage device 2, an estimation device 3, and a data storage device 4.
  • the image capturing device 1 may be configured by a camera including an optical element, an image capturing element, and an output interface.
  • the output interface is an interface for outputting image data representing an image captured by the imaging device.
  • the image capturing device 1 generates an image of the subject.
  • the subject may be a concrete surface. Concrete may, for example, form footbridges, walls, paved roads, and the like.
  • the surface of the subject has a surface pattern and may have exposed aggregates.
  • the format of the image may be arbitrary, and may be, for example, JPG format or PNG format.
  • the image capturing device 1 also outputs image data representing an image to the data storage device 2 .
  • the data storage device 2 may be configured by a computer with memory, controller, input interface, and output interface.
  • the memory may be composed of HDD (Hard Disk Drive), SSD (Solid State Drive), EEPROM (Electrically Erasable Programmable Read-Only Memory), ROM (Read-Only Memory), RAM (Random Access Memory), and the like.
  • the controller may be composed of dedicated hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array), may be composed of a processor, or may be composed of both. good.
  • the input interface can be a pointing device, keyboard, mouse, or the like.
  • the input interface may also be an interface that accepts input of information received by the communication interface. Standards such as Ethernet (registered trademark), FDDI (Fiber Distributed Data Interface), and Wi-Fi (registered trademark) may be used for the communication interface.
  • the data storage device 2 receives input of image data output by the image capturing device 1 and stores the image data.
  • the data storage device 2 also outputs image data to the estimation device 3 .
  • n 2.
  • the input unit 31 is configured by an input interface.
  • the teacher data storage unit 32, the learning model storage unit 33, and the loss function storage unit 34-k are configured by memories.
  • the model construction unit 35 and the scale estimation unit 36 are configured by a controller.
  • the output unit 37 is configured by an output interface.
  • the input unit 31 receives input of image data output from the data storage device 2 .
  • the input unit 31 may receive input of image data from the image capturing device 1 without going through the data storage device 2 .
  • the input unit 31 receives an input of teacher data in which image data representing an image with a known scale true value is associated with the scale true value y true of the image represented by the image data. good too. Images for which the true value of the scale is known include training images, training verification images, and optimal verification images, and the training images, training verification images, and optimal verification images are different images. be. The input unit 31 also receives input of image data representing an unknown image in which the true value y true of the scale is unknown.
  • the scale is a value indicating the ratio between the length of one pixel in the image and the length in real space, and may be the length in real space with respect to the length of one pixel (cm/pixel), or It may be one pixel length for length (pixel/cm).
  • the training data storage unit 32 stores training data in which image data representing an image whose scale true value y true is known is associated with the scale true value y true of the image.
  • the teacher data storage unit 32 may store teacher data whose input is accepted by the input unit 31 .
  • the training data storage unit 32 also stores training data in which the image data whose input is accepted by the input unit 31 is associated with the true value y true of the scale calculated by the scale calculation unit 351, which will be described later in detail. You may Further, the teacher data storage unit 32 associates the image data representing the image received by the input unit 31 and processed by the data processing unit 352, which will be described later in detail, with the true value y true of the scale of the image.
  • the teacher data may be stored.
  • the images stored by the teacher data storage unit 32 include learning images, learning verification images, and optimal verification images.
  • the learning model storage unit 33 stores a learning model for calculating an estimated value y pred of the scale of the image indicated by the image data. Further, the learning model storage unit 33 stores each constructed learning model when the learning model is constructed by each of the learning units 354-k, which will be described later in detail. Also, the learning model storage unit 33 stores an optimum learning model which will be described later in detail.
  • a learning model may be any model, for example a deep learning model. Also, the learning model is configured to output one estimated value y pred for the scale when one image data is input.
  • the plurality of loss function storage units 34-k store different loss functions (parameters set in the loss functions).
  • the loss value L is a value for evaluating the accuracy of the learning model based on the error of the estimated value y pred,i of the scale with respect to the true value y true ,i of the scale.
  • the loss function can be, for example, the functions shown in Equations (1)-(4).
  • (alpha) is a preset coefficient.
  • the loss value L calculated by the loss function shown in Equation (1) is the mean absolute error (MAE) of the estimated value y pred,i with respect to the true value y true, i and the true value y true,i is the sum of the mean absolute percentage error (MAPE) of the estimated value y pred,i for . Therefore, by using the loss function shown in equation (1), the mean absolute error value is taken into account in addition to the mean absolute percent error between the true value y true,i and the estimated value y pred,i . Therefore, the loss value L increases as the true value y true,i of the scale increases. In addition, the loss value L increases when the estimated value y pred,i of the scale is an outlier that is greatly deviated from the true value y true,i .
  • the loss value L calculated by the loss function shown in Equation (2) is the mean square error of the estimated value y pred,i with respect to the true value y true, i and the estimated value y pred ,i with respect to the true value y true ,i. It is the sum with the mean absolute percent error.
  • the loss value L can exhibit the same tendency as when the loss function shown in equation (1) is used. It is larger for outliers than when it is used.
  • the first term of Equation (2) indicates the variance of the estimated value y pred , i with respect to the true value y true ,i, and the difference between the estimated value y pred,i and the true value y true,i is large.
  • Loss value L becomes large, so that there are many imaging data. Therefore, when the estimated value y pred,i greatly deviates from the true value y true,i, the learning unit 354-k increases the loss for the estimated value y pred,i that greatly deviates from the true value y true,i. be able to.
  • the second term shown in Equation (2) can reflect the magnitude of the outliers in the loss value L to a greater extent than the first term shown in Equation (2).
  • the loss value L calculated by the loss function shown in Equation (3) is the average absolute percent error of the estimated value y pred ,i with respect to the true value y true, i.
  • the loss value L is expressed in mean absolute percent error. Therefore, the loss value L is the ratio of the error between the true value y true ,i and the estimated value y pred ,i to the true value y true, i, regardless of the size of the estimated value y pred,i of the scale. You can show the percentage.
  • the loss function shown in Equation (3) can be used without requiring work for setting the coefficient ⁇ unlike the loss functions shown in Equations (1) and (2).
  • the loss value L calculated by the loss function shown in Equation (4) is a value obtained by replacing the denominator of the average absolute percent error in the loss function shown in Equation (1) from the true value y true,i with the estimated value y pred,i is.
  • the loss value L can be changed according to the magnitude relationship between the estimated value y pred,i and the true value y true,i . For example, when the estimated value y pred,i is smaller than the true value y true, i, the loss value L changes more greatly than when the estimated value y pred,i is greater than the true value y true,i .
  • the model construction unit 35 includes a scale calculation unit 351, a data processing unit 352, a learning model reading unit 353, a learning unit 354-k, a verification unit 355-k, and a correlation calculation unit. 356-k and an optimal learning model selection unit 357.
  • the scale calculation unit 351 calculates the true value y true,i of the scale of the image indicated by the image data whose input is accepted by the input unit 31 .
  • the scale calculation unit 351 calculates the scale based on the length in the image space of the image of the measure whose dimensions in the real space are known, and the length in the real space of the measure, which is included in the image represented by the image data.
  • a true value y true,i of the scale may be calculated.
  • the scale calculator 351 may calculate the true value y true,i of the scale using a known library such as an AR (Augmented Reality) marker included in the image indicated by the image data. Note that the scale calculator 351 is not limited to these methods, and can calculate the true value y true,i of the scale by any method.
  • the data processing unit 352 processes the image data representing the image for which the scale true value y true,i has been calculated by the scale calculating unit 351 . Specifically, the data processing unit 352 may change the size of the image data, or may change the format.
  • the data processing unit 352 can generate a plurality of images by dividing the image indicated by the image data.
  • the learning unit 354-k which will be described later in detail, can learn a plurality of image data representing each of a plurality of images as teacher data.
  • a highly accurate learning model can be generated efficiently.
  • the data processing unit 352 can convert the shape of the image indicated by the image data into a square, and create a rotated image obtained by rotating the square image converted to a square, a reverse image obtained by reversing the square image, and the like. .
  • the learning unit 354-k can learn a plurality of image data, each representing a plurality of patterns of images, as teacher data. It is possible to generate a learning model with a high Further, when the image represented by the image data includes an image of a subject other than a concrete structure, the data processing unit 352 may process the image data so as to remove pixels representing the image.
  • the data processing unit 352 causes the teacher data storage unit 32 to store teacher data in which the processed image data and the true value y true,i of the scale of the image indicated by the image data before processing are associated with each other.
  • the learning model reading unit 353 reads learning models stored in the learning model storage unit 33 . Further, the learning model reading unit 353 reads the image data and the true value y true,i of the scale of the image indicated by the image data, which are associated as teacher data stored in the teacher data storage unit 32. .
  • a plurality of learning units 354-k combine image data representing a learning image, which is an image of a concrete surface and in which the true value y true,i of the scale is known, and the true value y true,i of the scale of the learning image.
  • the learning unit 354-2 constructs a learning model using the loss functions stored in the loss function storage unit 34-2.
  • the plurality of learning units 354-k each learn a plurality of learning models, and each of the learning verification images differs from the learning image and the optimal verification image, in which the true value y true,i of the scale is known.
  • a scale estimate y pred,i is calculated using each of the plurality of learning models.
  • the plurality of learning units 354-k calculate a loss function using the estimated values y pred,i of the plurality of scales for the learning verification images and the true values y true,i of the scales for the learning verification images.
  • a learning model is constructed based on the obtained loss value L.
  • each learning unit 354-k reads the deep learning model read by the learning model reading unit 353, the learning image indicated by the image data, and the true value y true,i of the scale.
  • the learning unit 354-k convolves the learning verification image to calculate the estimated scale value y pred,i .
  • the learning unit 354-k adjusts the weight parameter so that the loss value L calculated based on the true value y true,i and the estimated value y pred,i of the learning verification image becomes the lowest value.
  • the learning unit 354-k causes the learning model storage unit 33 to store the constructed learning model.
  • a plurality of verification units 355- k generate a plurality of estimated scale values y Calculate pred,i respectively.
  • the verification unit 355-1 uses the learning model constructed by the learning unit 354-1 to calculate the estimated scale value y pred,i .
  • the verification unit 355-2 uses the learning model constructed by the learning unit 354-2 to calculate the estimated scale value y pred,i .
  • the verification unit 355-k preferably calculates scale estimates y pred,i for each of the plurality of images.
  • the scale estimation unit 36 includes a data processing unit 361, a learning model reading unit 362, an estimation unit 363, and a data restoration unit 364.
  • the data processing unit 361 processes the image data representing the unknown image input by the input unit 31 .
  • the details of the processing executed by the data processing unit 361 are the same as the details of the processing executed by the data processing unit 352 .
  • the learning model reading unit 362 reads the optimal learning model selected by the optimal learning model selection unit 357, which is stored in the learning model storage unit 33.
  • the estimating unit 363 uses the optimal learning model to calculate an estimated scale value y pred,i of an unknown image for which the true scale value y true,i is unknown.
  • the data restoration unit 364 restores the image data processed by the data processing unit 361.
  • the data restoration unit 364 processes the divided image so as to restore the unknown image before division. restore the image data by
  • the data restoration unit 364 sets the representative value of the estimated scale values y pred,i calculated for each of the divided images as the estimated scale value y pred,i of the unknown image represented by the restored image data. can be calculated.
  • a representative value can be a statistical value such as an average value, a median value, or the like.
  • the data restoration unit 364 restores the image whose size has been changed to the unknown image before division.
  • the image data is restored by processing so as to restore the image.
  • the output unit 37 outputs scale estimation information including the image data and the estimated scale value y pred,i of the image indicated by the image data. Specifically, the output unit 37 may output scale estimation information to the data storage device 4 via a communication network. The output unit 37 may output scale estimation information to a display device configured by an organic EL (Electro Luminescence), a liquid crystal panel, or the like.
  • a display device configured by an organic EL (Electro Luminescence), a liquid crystal panel, or the like.
  • the data storage device 4 shown in FIG. 1 is composed of a computer having a memory, a controller, and an input interface.
  • the data storage device 4 stores scale estimation information output from the estimation device 3 .
  • an estimation system 100A of another example of the first embodiment includes an image capturing device 1, a data storage device 2, a learning model construction device 3A, an estimation device 3B, data and a storage device 4 .
  • the learning model construction device 3A includes an input unit 31, a teacher data storage unit 32, a learning model storage unit 33, a loss function storage unit 34-k, and a model construction unit 35.
  • the estimation device 3B also includes an input unit 31 , a learning model storage unit 33 , a scale estimation unit 36 and an output unit 37 .
  • functional units denoted by the same reference numerals as in the estimation system 100 have the same functions.
  • the learning model storage unit 33 included in the estimation device 3B stores the optimal learning model selected by the learning model construction device 3A.
  • FIG. 5 to 9 are flowcharts showing an example of the operation of the estimation device 3 according to the first embodiment.
  • the operation of the estimation device 3 described with reference to FIGS. 5 to 9 corresponds to an example of the estimation method of the estimation device 3 according to the first embodiment.
  • step S11 the input unit 31 receives input of image data output from the data storage device 2.
  • step S12 the scale calculator 351 calculates the true value y true,i of the scale of the image indicated by the image data.
  • step S13 the data processing unit 352 processes the image data.
  • step S14 the teaching data storage unit 32 stores teaching data in which the image data processed in step S13 and the true value y true,i of the scale of the image calculated in step S12 are associated with each other.
  • step S21 the learning model reading unit 353 reads the teacher data stored in the teacher data storage unit 32. Also, the learning model reading unit 353 reads a learning model from the learning model storage unit 33 .
  • the plurality of learning units 354-k acquire image data representing a learning image of which the true value y true,i of the scale is known, which is an image of the concrete surface, and the true value of the scale of the learning image.
  • a plurality of learning models are constructed using a plurality of loss functions that are different from each other, based on teacher data in which y true,i are associated with each other.
  • step S23 the plurality of verification units 355-k use each of the plurality of learning models for the optimum verification image, for which the scale true value y true,i is known, and which is different from the learning image. Calculate the estimated value y pred,i of each.
  • step S24 the plurality of correlation calculation units 356-k calculate the correlations of the plurality of estimated values y pred ,i of the scale with respect to the true value y true,i of the scale for the optimum verification image. do.
  • step S25 the optimal learning model selection unit 357 selects the optimal learning model, which is the learning model with the highest correlation, from among the plurality of learning models.
  • step S21 the learning model reading unit 353 reads the teacher data stored in the teacher data storage unit 32. Also, the learning model reading unit 353 reads a learning model from the learning model storage unit 33 .
  • step S22-11 the learning unit 354-1 acquires a learning image of the surface of concrete in which the true value y true,i of the scale is known, and the true value y true,i of the scale of the learning image.
  • a first learning model is constructed using a first loss function based on teacher data in which .
  • step S23-11 the verification unit 355-1 uses the first learning model for the optimal verification image, which is different from the learning image and whose scale true value y true,i is known. Calculate the estimated value y pred,i of .
  • step S24-11 the correlation calculator 356-1 calculates the correlation of the first estimated value y pred, i of the scale with the true value y true ,i of the scale for the optimum verification image.
  • step S22-12 the learning unit 354-2 uses an image for learning, which is an image of the surface of concrete and in which the true value y true,i of the scale is known, and the true value y of the scale of the learning image.
  • a second learning model is constructed using a second loss function based on teacher data in which true and i are associated with each other.
  • step S23-12 the verification unit 355-2 uses the second learning model for the optimal verification image, which is different from the learning image and for which the true value y true,i of the scale is known. Calculate the estimated value y pred,i of .
  • step S24-12 the correlation calculator 356-2 calculates the correlation of the second estimated value y pred, i of the scale with the true value y true ,i of the scale for the optimum verification image.
  • step S25 the optimal learning model selection unit 357 selects the optimal learning model, which is the learning model with the highest correlation, from among the plurality of learning models.
  • step S21 the learning model reading unit 353 reads the teacher data stored in the teacher data storage unit 32. Also, the learning model reading unit 353 reads a learning model from the learning model storage unit 33 .
  • step S22-21 the learning unit 354-1 acquires a learning image of the surface of the concrete in which the true value y true,i of the scale is known, and the true value y true,i of the scale of the learning image.
  • a first learning model is constructed using a first loss function based on teacher data in which .
  • step S23-21 the verification unit 355-1 uses the first learning model for the optimal verification image, which is different from the learning image and for which the true value y true,i of the scale is known. Calculate the estimated value y pred,i of .
  • step S24-21 the correlation calculator 356-1 calculates the correlation of the first estimated value y pred, i of the scale with the true value y true ,i of the scale for the optimum verification image.
  • step S22-22 the learning unit 354-2 captures an image of the surface of the concrete, an image for learning in which the true value y true,i of the scale is known, A second learning model is constructed using a second loss function based on teacher data in which the true value y true,i of the scale of the learning image is associated.
  • step S23-22 the verification unit 355-2 uses the second learning model for the optimal verification image, which is different from the learning image and for which the true value y true,i of the scale is known. Calculate the estimated value y pred,i of .
  • step S24-22 the correlation calculator 356-2 calculates the correlation of the second estimated value y pred, i of the scale with the true value y true ,i of the scale for the optimum verification image.
  • step S25 the optimal learning model selection unit 357 selects the optimal learning model, which is the learning model with the highest correlation, from among the plurality of learning models.
  • step S31 the input unit 31 receives input of image data representing an unknown image with an unknown scale output from the data storage device 2.
  • step S32 the data processing unit 361 processes the image data representing the unknown image.
  • step S33 the learning model reading unit 362 reads the optimal learning model selected by the optimal learning model selecting unit 357.
  • step S34 the estimating unit 363 uses the optimal learning model read by the learning model reading unit 362 to calculate an estimated scale value y pred , i of an unknown image for which the true scale value y true, i is unknown. do.
  • step S35 the data restoration unit 364 restores the image data representing the unknown image processed by the data processing unit 361.
  • step S36 the output unit 37 outputs scale estimation information including the image data restored in step S35 and the estimated scale value y pred,i of the image indicated by the image data calculated in step S34.
  • the method by which the learning model construction device 3A stores the teacher data and the method by which the learning model is constructed are the same as the method by which the estimation device 3 stores the teacher data and the method by which the learning model is constructed. is.
  • the method by which the estimating device 3B calculates the estimated scale value y pred,i is the same as the method by which the estimating device 3 calculates the estimated scale value y pred,i .
  • the plurality of learning units 354-k include learning images of the surface of concrete in which the true value y true,i of the scale is known, and A plurality of learning models are constructed using a plurality of loss functions that are different from each other, based on teacher data in which true values y true,i of image scales are associated with each other.
  • the verification unit 355- k uses each of the plurality of learning models to obtain the estimated scale value y pred, Calculate i respectively.
  • the correlation calculation unit 356-1 calculates the correlations of the estimated values y pred ,i of a plurality of scales with respect to the true values y true ,i of the scales for the optimum verification image.
  • the optimum learning model selection unit 357 selects the optimum learning model, which is the learning model with the highest correlation, from among the plurality of learning models.
  • the estimation device 3 and the learning model building device 3A can build a learning model that can estimate the scale of the surface of the concrete structure (calculate the estimated value y pred,i of the scale) with high accuracy. can be done.
  • an image of the surface of a concrete structure installed in a dark place indoors, such as a tunnel for communication, contains a lot of noise. Therefore, for example, when only one loss function is used, it may be difficult to construct a learning model in consideration of outlier noise.
  • the estimation device 3 of the present embodiment selects the optimal learning model having the highest correlation with the true value y true,i among the learning models constructed using such a plurality of loss functions, The scale can be estimated with high accuracy even considering outliers.
  • the plurality of learning units 354-k respectively builds a plurality of learning models.
  • the plurality of learning units 354-k estimates scales using each of the plurality of learning models for learning verification images different from the learning image and the optimal verification image, for which the true value y true,i of the scale is known. Calculate the value y pred,i .
  • the plurality of learning units 354-k use the estimated values y pred,i of the plurality of scales for the learning verification images and the true values y true,i of the scales for the learning verification images to calculate the loss Build a learning model based on the value L.
  • the estimation device 3 and the learning model building device 3A can build a learning model that can estimate the scale of the surface of the concrete structure with higher accuracy.
  • the learning model storage unit 33 stores the optimal learning model selected by the optimal learning model selection unit 357.
  • the estimating unit 363 uses the optimal learning model to calculate an estimated scale value of an unknown image whose true scale value is unknown. Thereby, the estimation device 3 and the estimation device 3A can estimate the scale of the surface of the concrete structure with high accuracy.
  • the estimation device 3 constructs the first learning model, calculates the first estimated value y pred,i , scales After calculating the correlation of the first estimated value y pred,i with respect to the true value y true,i of the scale A correlation of the second estimated value y pred ,i to the true value y true ,i may be calculated.
  • the estimation device 3 may repeat construction of the learning model, calculation of the estimated value y pred,i , and calculation of the correlation in the same order.
  • the estimation device 3 can have a simple configuration as long as it has one processor instead of a plurality of processors.
  • the learning model construction device 3A can also have a simple configuration.
  • the estimation device 3 constructs the first learning model, calculates the first estimated value y pred,i , and scales Calculate the correlation of the first estimated value y pred,i with respect to the true value y true,i, construct a second learning model at the same timing, and calculate the second estimated value y pred,i , the correlation of the second estimate y pred ,i to the true value y true,i of the scale.
  • the estimation device 3 executes construction of the learning model, calculation of the estimated value y pred,i , and calculation of the correlation at the same timing based on each of the n loss functions. may Thereby, the estimation device 3 can shorten the calculation time compared to the example described with reference to FIG. 7 . For the same reason, the learning model construction device 3A can also shorten the calculation time.
  • an estimation system 100-1 includes an image capturing device 1, a data storage device 2, an estimation device 3-1, and a data storage device 4.
  • the estimation device 3-1 includes an input unit 31, a teacher data storage unit 32, a learning model storage unit 33, a loss function storage unit 34-k, a model construction unit 35, a scale estimation unit 36, and an output unit 37. , and a focus correction unit 38 .
  • the focus corrector 38 is configured by a controller.
  • the focus correction unit 38 corrects the image data representing the images including the learning images and the optimal verification images so that the images do not include out-of-focus portions.
  • the focus correction unit 38 may correct an image that further includes an unknown image so that the image does not include an out-of-focus portion.
  • the focus correction unit 38 may correct the image further including the learning verification image so that the image does not include an out-of-focus portion.
  • an image processing method such as edge detection using Laplacian differentiation, a deep learning method, etc.
  • the focus correction unit 38 determines that the image has an out-of-focus portion, it corrects the image so that the out-of-focus portion is not included. For example, the focus correction unit 38 may remove the out-of-focus portion from the image, or may convert the out-of-focus portion so that it is out of focus. Also, the focus correction unit 38 may perform sharpening processing using an unsharp mask or the like in the conversion.
  • the model construction unit 35 uses the image corrected by the focus correction unit 38 to perform the same processing as in the first embodiment.
  • the scale estimation unit 36 uses the image corrected by the focus correction unit 38 to perform the same processing as in the first embodiment.
  • an estimation system 100-1A of another example of the second embodiment includes an image capturing device 1, a data storage device 2, a learning model construction device 3-1A, and an estimation device 3-1B. and a data storage device 4 .
  • the learning model construction device 3-1A includes an input unit 31, a teacher data storage unit 32, a learning model storage unit 33, a loss function storage unit 34-k, a model construction unit 35, and a focus correction unit 38 .
  • the estimation device 3-1B also includes an input unit 31, a learning model storage unit 33, a scale estimation unit 36, an output unit 37, and a focus correction unit .
  • functional units denoted by the same reference numerals as in estimation system 100-1 have the same functions.
  • the focus correction unit 38 of the learning model construction device 3-1A corrects the learning image, the optimal verification image, and the learning verification image, and corrects the focus correction of the estimation device 3-1B.
  • a section 38 corrects the unknown image.
  • FIG. 12 and 13 are flowcharts showing an example of the operation of the estimation device 3-1 according to the second embodiment.
  • the operation of the estimation device 3-1 described with reference to FIGS. 12 and 13 corresponds to an example of the estimation method of the estimation device 3-1 according to the second embodiment.
  • the estimation device 3-1 executes the process of step S41.
  • the processing of step S41 is the same as the processing of step S11 in the first embodiment.
  • step S42 the focus correction unit 38 corrects the images including the learning images and the optimal verification images so that the images do not include out-of-focus portions.
  • step S ⁇ b>43 the scale calculator 351 calculates the true value y true,i of the scale of the image corrected by the focus corrector 38 .
  • the estimation device 3-1 executes the processes of steps S44 and S45.
  • the processing up to step S45 and step S46 is the same as the processing of step S13 and step S14 in the first embodiment.
  • the method by which the estimating device 3-1 builds the learning model is the same as the method by which the estimating device 3 in the first embodiment builds the learning model.
  • the estimation device 3-1 executes the process of step S51.
  • the processing of step S51 is the same as the processing of step S31 in the first embodiment.
  • step S52 the focus correction unit 38 corrects the unknown image so that the unknown image does not include the out-of-focus portion.
  • step S53 the data processing unit 352 processes the image data representing the image corrected in step S52.
  • the estimation device 3-1 executes the processing from step S54 to step S57.
  • the processing from step S54 to step S57 is the same as the processing from step S33 to step S36 in the first embodiment.
  • the method for storing the teacher data and the method for building the learning model by the learning model building device 3-1A are the same as the method for storing the teacher data and the method for building the learning model by the learning model building device 3-1. are the same.
  • the method by which the estimating device 3-1B calculates the estimated scale value y pred,i is the same as the method by which the estimating device 3-1 calculates the estimated scale value y pred,i .
  • the estimation device 3-1 and the learning model construction device 3-1A generate an image including a learning image and an optimal verification image, and the image includes an out-of-focus portion. correct it so that it does not As a result, the estimating device 3-1 and the learning model building device 3-1A are out of focus of images showing voids, shadows, etc. formed on the surface of concrete such as communication tunnels. As a result, it is possible to suppress the deterioration of the accuracy of the learning model.
  • the estimation device 3-1 and the estimation device 3-1B can also estimate the scale of an out-of-focus image with high accuracy.
  • FIG. 14 and 15 The overall configuration of the third embodiment will be described with reference to FIGS. 14 and 15.
  • FIG. 14 and 15 functional units that are the same as those in the first embodiment are denoted by the same reference numerals, and descriptions thereof are omitted.
  • an estimation system 100-2 includes an image capturing device 1, a data storage device 2, an estimation device 3-2, and a data storage device 4.
  • the estimation device 3-2 includes an input unit 31, a teacher data storage unit 32, a learning model storage unit 33, a loss function storage unit 34-k, a model construction unit 35, a scale estimation unit 36, and an output unit 37. and a noise image removing unit 39 .
  • the noise image removing section 39 is configured by a controller.
  • the noise image removal section 39 includes a color space conversion section 391, a noise determination section 392, and an image removal section 393.
  • the color space conversion unit 391 converts the color space of the image indicated by the image data whose input is accepted by the input unit 31 .
  • the color space conversion unit 391 converts the color space of the image from the RGB color space to L * a * b *. Convert to color space.
  • the L* component in the L * a * b * color space is the component representing lightness, and the a* (green-red) and b* (blue-yellow) components are chromaticity components.
  • the color space conversion unit 391 sets the color space of an image of a concrete structure as an object to the L * a * b * color space, thereby clearly distinguishing between the color of color noise and the color of concrete. can be expressed separately.
  • the color space conversion unit 391 may convert the color space of the image into the Luv color space.
  • the noise determination unit 392 determines whether or not the image contains color noise.
  • the noise determination unit 392 may determine whether color noise is included in the image based on the chromaticity component in the color space of the image further including the learning verification image.
  • the noise determination section 392 may determine whether or not the image contains color noise based on the chromaticity components in the color space of the image that further includes the unknown image. For example, when the color space conversion unit 391 converts the color space of the image into the L * a * b * color space , the noise determination unit 392 converts a * Based on the pixel values of the component or b * component, it is determined whether the image contains color noise.
  • the noise determination unit 392 determines whether or not color noise occurs in the image based on the pixel values of the a* components of the pixels forming the image, the first threshold value, and the second threshold value. be able to.
  • the noise determination unit 392 determines that the pixel value of the a* component of any pixel that constitutes the image is in the range of less than the first threshold or greater than the second threshold (equation ( If 5) is not satisfied), it is determined that color noise occurs in the image. In addition, when the pixel values of the a* components of all the pixels forming the image are in the range of the first threshold value or more and the second threshold value or less (when expression (5) is satisfied), the noise determination unit 392 It is determined that no color noise occurs in the image.
  • a* i,j is the pixel value of the a* component of the pixel located at the coordinates (i,j) in the image, i is the x-coordinate of the pixel, and j is the y-coordinate of the pixel. .
  • the noise determination unit 392 may determine noise based on whether the variance of the a* component of the pixel values in the image is greater than the third threshold value ⁇ , as shown in Equation (6). good. Specifically, when the variance of the pixel values of the a* component in the image is larger than the third threshold value ⁇ (when Expression (6) is satisfied), the noise determination unit 392 determines that color noise is generated in the image. determine that there is When the variance of the pixel values of the a* component in the image is equal to or less than the third threshold value ⁇ (when Expression (6) is not satisfied), the noise determination unit 392 determines that color noise does not occur in the image. do.
  • a* ave may be the average value of a* components in a plurality of pixels that respectively constitute a plurality of images, or the average value of a* components in a plurality of pixels that constitute one image. good too.
  • the noise determination unit 392 can determine noise in the image based on the pixel values of the b* components of the pixels forming the image and the fourth threshold.
  • the noise determination unit 392 determines that the image is determined to have color noise.
  • the noise determination unit 392 determines that color noise is generated in the image. determine that it is not. Note that b* i,j is the pixel value of the b* component at the coordinates (i,j) of the image.
  • the noise determination unit 392 may determine noise using any two or more of the methods described in the first to third examples.
  • the image removal unit 393 removes from the image data set the image data representing the image determined by the noise determination unit 392 to have color noise. For example, the image remover 393 may erase image data representing an image determined to have color noise. Further, the image removing unit 393 moves the image data representing the image determined to have color noise to a folder different from the folder (logical area in the memory) storing the plurality of image data. You may let
  • the model construction unit 35 uses the image that has not been removed by the noise image removal unit 39 to perform the same processing as in the first embodiment.
  • the learning unit 354-k performs the first A learning model is constructed in the same manner as in the first embodiment.
  • the verification unit 355-k calculates the estimated scale value y pred,i for the optimum verification image determined not to contain color noise, in the same manner as in the first embodiment.
  • the scale estimation unit 36 uses the image that has not been removed by the noise image removal unit 39 to perform the same processing as in the first embodiment.
  • the scale estimating unit 36 calculates the estimated scale value y pred,i for an unknown image that has been determined not to contain color noise, as in the first embodiment.
  • an estimation system 100-2A of another example of the third embodiment includes an image capturing device 1, a data storage device 2, a learning model construction device 3-2A, and an estimation device 3-2B. and a data storage device 4 .
  • the learning model construction device 3-2A includes an input unit 31, a teacher data storage unit 32, a learning model storage unit 33, a loss function storage unit 34-k, a model construction unit 35, and a noise image removal unit 39.
  • the estimation device 3 - 2 B also includes an input unit 31 , a learning model storage unit 33 , a scale estimation unit 36 , an output unit 37 and a noise image removal unit 39 .
  • estimation system 100-2A functional units denoted by the same reference numerals as in estimation system 100-2 have the same functions.
  • the noise determination unit 392 of the learning model construction device 3-1A determines whether or not the learning image, the optimal verification image, and the learning verification image contain color noise. Then, the noise determination unit 392 of the estimation device 3-2B determines whether or not the unknown image contains color noise.
  • FIG. 19 and 20 are flowcharts showing an example of the operation of the estimation device 3-2 according to the third embodiment.
  • the operation of the estimation device 3-2 described with reference to FIGS. 19 and 20 corresponds to an example of the estimation method of the estimation device 3-2 according to the third embodiment.
  • the estimation device 3-2 executes the process of step S61.
  • the processing of step S61 is the same as the processing of step S11 in the first embodiment.
  • step S62 the color space conversion unit 391 converts the color space of the image whose input is accepted by the input unit 31.
  • step S63 the noise determination unit 392 determines whether or not the image contains color noise based on the chromaticity components in the color space of the image including the learning image, the optimal verification image, and the unknown image. do.
  • step S64 the image removal unit 393 removes the image data from the set of multiple image data.
  • step S65 the image removal unit 393 does not remove the image data from the set of multiple image data.
  • step S64 When step S64 is executed, the estimation device 3-2 executes the processing from step S66 to step S68.
  • the processing from step S65 to step S68 is the same as the processing from step S12 to step S14 in the first embodiment.
  • step S65 or step S68 the estimation device 3-2 ends the process of storing teacher data.
  • the method by which the estimating device 3-2 builds the learning model is the same as the method by which the estimating device 3 in the first embodiment builds the learning model.
  • the estimation device 3-2 executes the processing from step S71 to step S75.
  • the processing from step S71 to step S75 is the same as the processing from step S61 to step S65 in the method for storing teacher data by the estimation device 3-2.
  • the image data received by the input unit 31 is image data representing an unknown image in which the true value y true,i of the scale is unknown.
  • the estimation device 3-2 terminates the process of calculating the estimated scale value y pred,i .
  • step S76 to step S80 executes the processing from step S76 to step S80.
  • the processing from step S76 to step S80 is the same as the processing from step S32 to step S36 in the first embodiment.
  • the method for storing the teacher data and the method for building the learning model by the learning model building device 3-2A are the same as the method for storing the teacher data and the method for building the learning model by the learning model building device 3-2. are the same.
  • the method by which the estimating device 3-2B calculates the estimated scale value y pred,i is the same as the method by which the estimating device 3-2 calculates the estimated scale value y pred,i .
  • the estimation device 3-2 and the learning model construction device 3-2A use the chromaticity in the color space of images including learning images, optimal verification images, and unknown images. Based on the components, it is determined whether the image contains color noise.
  • the estimating device 3-2 and the learning model building device 3-2A create teacher data in which the learning image determined not to contain color noise is associated with the true value y true,i of the scale of the learning image. Build a learning model based on Also, the estimation device 3-2 and the estimation device 3-2B calculate the estimated scale value y pred,i for the unknown image determined not to contain color noise.
  • the camera's shutter speed is adjusted to a low speed so that the camera can receive more light.
  • color noise false colors
  • colors which are colors such as red, blue, and green that the subject in the real space does not have, may occur in the pixels forming the image of the indoor concrete structure captured by the camera.
  • the features of the texture formed on the surface of the concrete structure may be lost or divided. Therefore, the accuracy in estimating the scale of an image taken of the surface may be degraded.
  • the estimation device 3-2 and the learning model construction device 3-2A in the third embodiment prevent the accuracy of the learning model from deteriorating due to the use of images containing color noise. can be suppressed. That is, the estimating device 3-2 and the learning model building device 3-2A can calculate the estimated scale value y pred,i with high accuracy by not using an image containing color noise. can be constructed. In addition, the estimating devices 3-2 and 3-2B remove images containing color noise in the process of calculating the estimated value y pred,i of the scale, thereby estimating the scale with low accuracy. can be suppressed.
  • the estimation device 3 and the learning model construction device 3A do not have to include the scale calculator 351 .
  • the estimating device 3 and the learning model building device 3A may receive input of the image data and the true value y true,i of the scale of the image represented by the image data through the input unit 31 .
  • the estimation device 3 and the learning model construction device 3A do not need to calculate the true value y true,i of the scale of the image, and can suppress the processing load.
  • the estimating device 3 and the learning model building device 3A do not execute step S12 in the process of storing the teacher data described above in a configuration that does not include the scale calculating unit 351 .
  • the estimation device 3-1 and the learning model construction device 3-1A of the second embodiment, and the estimation device 3-2 and the learning model construction device 3-2A of the third embodiment also have scale calculation units. 351 may not be provided. Further, in such a configuration, the estimation device 3-1, the learning model construction device 3-1A, the estimation device 3-2, and the learning model construction device 3-2A perform step S43 and step S66 in the process of storing teacher data. do not run
  • the estimation device 3 and the learning model construction device 3A do not have to include the data processing unit 352, the data processing unit 361, and the data restoration unit 364.
  • the teacher data storage unit 32 stores teacher data that associates unprocessed image data with the true value y true,i of the scale of the image represented by the image data.
  • the estimating device 3 and the learning model building device 3A do not execute step S13 in the process of storing the teacher data described above in a configuration that does not include the data processing unit 352, the data processing unit 361, and the data restoring unit 364.
  • the estimation device 3 and the learning model construction device 3A do not execute steps S32 and S35 in the process of calculating the estimated scale value y pred,i described above.
  • the estimation device 3-1 and the learning model construction device 3-1A of the second embodiment, and the estimation device 3-2 and the learning model construction device 3-2A of the second embodiment also have data processing units. 352, the data processing unit 361, and the data restoring unit 364 may not be provided. Further, in such a configuration, the estimating device 3-1, the learning model building device 3-1A, the estimating device 3-2, and the learning model building device 3-2A respectively perform steps S44 and Step S67 is not executed. The estimation device 3-1 and the estimation device 3-2 do not execute steps S44 and S67, respectively, in the process of storing teacher data.
  • estimation device 3-1 the learning model construction device 3-1A, the estimation device 3-2, and the learning model construction device 3-2A perform the process of calculating the scale estimated value y pred,i described above. , steps S53, S56, S76 and S79 are not executed.
  • FIG. 21 is a block diagram showing a schematic configuration of the computer 101 functioning as each of the estimation devices 3, 3-1, and 3-2.
  • the computer 101 may be a general-purpose computer, a dedicated computer, a workstation, a PC (Personal Computer), an electronic notepad, or the like.
  • Program instructions may be program code, code segments, etc. for performing the required tasks. The same applies to the learning model construction devices 3A, 3-1A, 3-2A and the estimation devices 3B, 3-1B, 3-2B.
  • the computer 101 includes a processor 110, a ROM (Read Only Memory) 120, a RAM (Random Access Memory) 130, a storage 140, an input unit 150, a display unit 160, and a communication interface ( I/F) 170.
  • the processor 110 is specifically a CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), DSP (Digital Signal Processor), SoC (System on a Chip), etc. may be configured by a plurality of processors of
  • the processor 110 controls each component and executes various arithmetic processes. That is, processor 110 reads a program from ROM 120 or storage 140 and executes the program using RAM 130 as a work area. The processor 110 performs control of each configuration and various arithmetic processing according to programs stored in the ROM 120 or the storage 140 . In the above-described embodiment, the ROM 120 or storage 140 stores the program according to the present disclosure.
  • the program may be stored in a storage medium readable by the computer 101. By using such a storage medium, it is possible to install the program in the computer 101 .
  • the storage medium storing the program may be a non-transitory storage medium.
  • the non-temporary storage medium is not particularly limited, but may be, for example, a CD-ROM, a DVD-ROM, a USB (Universal Serial Bus) memory, or the like.
  • this program may be downloaded from an external device via a network.
  • the ROM 120 stores various programs and various data.
  • RAM 130 temporarily stores programs or data as a work area.
  • the storage 140 is configured by a HDD (Hard Disk Drive) or SSD (Solid State Drive) and stores various programs including an operating system and various data.
  • the input unit 150 includes one or more input interfaces that receive user's input operations and acquire information based on the user's operations.
  • the input unit 150 is a pointing device, keyboard, mouse, etc., but is not limited to these.
  • the display unit 160 includes one or more output interfaces that output information.
  • the display unit 160 is a display that outputs information as video or a speaker that outputs information as audio, but is not limited to these.
  • the display unit 160 also functions as the input unit 150 when it is a touch panel type display.
  • a communication interface (I/F) 170 is an interface for communicating with an external device.
  • the controller is A plurality of loss functions different from each other based on training data in which image data representing a learning image, which is an image of a concrete surface and in which the true value of the scale is known, is associated with the true value of the scale of the learning image
  • the controller learns a plurality of learning models, and uses each of the plurality of learning models for a learning verification image different from the learning image and the optimal verification image, in which the true value of the scale is known. calculating an estimated value of the scale, and based on a loss value calculated by the loss function using a plurality of estimated values of the scale for the training verification image and the true value of the scale for the training verification image;
  • the learning model construction device according to additional item 1, wherein the learning model is constructed by (Appendix 3) 3.
  • the learning model construction device according to additional item 1 or 2 wherein the controller corrects an image including the learning image and the optimal verification image so that the image does not include an out-of-focus portion that is an out-of-focus portion. .
  • the controller is Determining whether the image contains color noise based on the chromaticity components in the color space of the image including the learning image and the optimal verification image, constructing the learning model based on the training data in which image data representing the learning image determined not to contain the color noise and the true value of the scale of the learning image are associated with each other; 4.
  • the learning model construction device according to any one of 1 to 3.
  • (Appendix 5) a memory for storing the optimal learning model constructed by the learning model construction device according to any one of additional items 1 to 4; a controller that uses the optimal learning model to calculate an estimated value of the scale of an unknown image for which the true value of the scale is unknown;
  • An estimating device comprising: (Appendix 6) A plurality of loss functions different from each other based on training data in which image data representing a learning image, which is an image of a concrete surface and in which the true value of the scale is known, is associated with the true value of the scale of the learning image constructing each of a plurality of learning models using each; calculating each of a plurality of estimated values of the scale using each of the plurality of learning models for an optimal verification image different from the training image in which the true value of the scale is known; calculating a correlation of each of the plurality of estimated values of the scale to the true value of the scale for the optimal verification image; selecting the optimal learning model, which is the learning model with the highest correlation, from among the plurality of learning models; Learning
  • Appendix 8 A non-temporary storage medium storing a computer-executable program, the non-temporary storage medium storing the program for causing the computer to function as the estimation device according to any one of additional items 1 to 4.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本開示に係る学習モデル構築装置(3A)は、学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築する複数の学習部(354-k)と、最適検証用画像について、複数の推定値をそれぞれ算出する複数の検証部(355-k)と、複数のスケールの推定値に対する真値との相関関係それぞれを算出する複数の相関関係算出部(356-k)と、相関関係が最も高い学習モデルである最適学習モデルを選択する最適学習モデル選択部(357)と、を備える。

Description

学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム
 本開示は、学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラムに関する。
 近年、画像処理技術を用いて画像から対象物の像を検出することが知られている。特に、セグメンテーション等の手法を用いることによって、画像から対象物の像を画素単位で検出することも可能となっている。このように対象物の像を検出する技術を活用して、対象物である構造物の点検及び診断を効率化する手法が研究され、開発されている。例えば、対象物がコンクリート構造物である場合、該コンクリート構造物の表面に発生する、ひび割れ、鉄筋の露出等の損傷を検出することにより、コンクリート構造物の劣化を診断することが知られている。
 さらに、損傷が検出された構造物の像を示す画像のスケール(単位は「cm/pixel」又は「pixel/cm」)を判定することによって、構造物における損傷部分の大きさ(面積、長さ等)を定量的に評価することが知られている。例えば、非特許文献1では、CNN(Convolutional Neural Network)による深層学習を用いて、コンクリート構造物の表面を撮影した画像のスケールを推定することが提案されている。具体的には、歩道橋、コンクリート壁等のコンクリート構造物の表面における凹凸、陰影、空隙等によって形成されるテクスチャの特徴に基づいて、画像のスケールを推定することが提案されている。
Ju An Park、外2名、"Learning-based image scale estimation using surface texture for quantitative visual inspection of regions-of interest"、Computer-Aided Civil and Infrastructure engineering、Vol.36、pp.227-241、2020
 しかしながら、例えば、通信用とう道の内側のような、コンクリート構造物の表面が屋内に配設されている環境においては、屋外の環境に比べて光量が少ない。そのため、屋内において、カメラがコンクリート構造物を撮像した画像にはノイズが発生することがある。このようなノイズにより、コンクリート構造物の表面を撮影した画像のスケールを高い精度で推定することが困難となることがある。
 かかる事情に鑑みてなされた本開示の目的は、コンクリート構造物の表面のスケールを高い精度で推定することができる学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラムを提供することにある。
 上記課題を解決するため、本開示に係る学習モデル構築装置は、コンクリートの表面を撮像した、スケールの真値が既知である学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築する複数の学習部と、スケールの真値が既知である、前記学習用画像とは異なる最適検証用画像について、前記複数の学習モデルそれぞれを用いて、前記スケールの複数の推定値それぞれを算出する複数の検証部と、前記最適検証用画像についての、前記スケールの真値に対する、前記複数の前記スケールの推定値の相関関係それぞれを算出する複数の相関関係算出部と、前記複数の学習モデルのうちの、前記相関関係が最も高い学習モデルである最適学習モデルを選択する最適学習モデル選択部と、を備える。
 また、上記課題を解決するため、本開示に係る推定装置は、学習モデル構築装置によって選択された前記最適学習モデルを記憶する学習モデル記憶部と、前記最適学習モデルを用いて、前記スケールの真値が未知である未知画像のスケールの推定値を算出する推定部と、を備える。
 また、上記課題を解決するため、本開示に係る学習モデル構築方法は、コンクリートの表面を撮像した、スケールの真値が既知である学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築するステップと、スケールの真値が既知である、前記学習用画像とは異なる最適検証用画像について、前記複数の学習モデルそれぞれを用いて、前記スケールの複数の推定値それぞれを算出するステップと、前記最適検証用画像についての、前記スケールの真値に対する、前記複数の前記スケールの推定値の相関関係それぞれを算出するステップと、前記複数の学習モデルのうちの、前記相関関係が最も高い学習モデルである最適学習モデルを選択するステップと、を含む。
 また、上記課題を解決するため、本開示に係る推定方法は、上記の学習モデル構築装置によって選択された前記最適学習モデルを記憶する学習モデル記憶部を備える推定装置が実行する推定方法であって、前記最適学習モデルを用いて、前記スケールの真値が未知である未知画像のスケールの推定値を算出するステップを含む。
 また、上記課題を解決するため、本開示に係るプログラムは、コンピュータを上述した学習モデル構築装置として機能させる。
 本開示に係る学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラムによれば、高い精度で、コンクリート構造物の表面のスケールを推定することができる。
第1の実施形態に係る推定システムの一例を示す概略図である。 図1に示すモデル構築部の一例を示す概略図である。 図1に示すスケール推定部の一例を示す概略図である。 第1の実施形態に係る推定システムの他の例を示す概略図である。 図1に示す推定装置における、教師データを記憶するための動作の一例を示すシーケンス図である。 図1に示す推定装置における、学習モデルを構築するための動作の一例を示すシーケンス図である。 図6に示す動作の詳細である第1例を示すシーケンス図である。 図6に示す動作の詳細である第2例を示すシーケンス図である。 図1に示す推定装置における、スケールの推定値を算出するための動作の一例を示すシーケンス図である。 第2の実施形態に係る推定システムの一例を示す概略図である。 第2の実施形態に係る推定システムの他の例を示す概略図である。 図10に示す推定装置における、教師データを記憶するための動作の一例を示すシーケンス図である。 図10に示す推定装置における、スケールの推定値を算出するための動作の一例を示すシーケンス図である。 第3の実施形態に係る推定システムの一例を示す概略図である。 図14に示すノイズ画像除去部の一例を示す概略図である。 カラーノイズが含まれている画像におけるa成分の画素値の度数分布の一例を示す図である。 カラーノイズが含まれていない画像におけるa成分の画素値の度数分布の一例を示す図である。 カラーノイズが含まれている画像におけるb成分の画素値の度数分布の一例を示す図である。 カラーノイズが含まれていない画像におけるb成分の画素値の度数分布の一例を示す図である。 第3の実施形態に係る推定システムの他の例を示す概略図である。 図14に示す推定装置における、教師データを記憶するための動作の一例を示すシーケンス図である。 図14に示す推定装置における、スケールの推定値を算出するための動作の一例を示すシーケンス図である。 推定装置及び学習データ構築装置のハードウェアブロック図である。
<<第1の実施形態>>
 図1から図3を参照して第1の実施形態の全体構成について説明する。
 図1に示すように、第1の実施形態に係る推定システム100は、画像撮影装置1と、データ格納装置2と、推定装置3と、データ保存装置4とを備える。
 <画像撮影装置の構成>
 画像撮影装置1は、光学素子、撮影素子、及び出力インターフェースを備えるカメラによって構成されてもよい。出力インターフェースは、撮影素子によって撮影された画像を示す画像データを出力するためのインターフェースである。
 画像撮影装置1は、被写体を撮影した画像を生成する。被写体は、コンクリートの表面とすることができる。コンクリートは、例えば、歩道橋、壁面、舗装された道路等を形成するものとすることができる。被写体の表面には、表面模様が表されており、骨材が露出されていることもある。また、画像の形式は任意であってよく、例えば、JPG形式であってもよいし、PNG形式であってもよい。
 また、画像撮影装置1は、データ格納装置2に画像を示す画像データを出力する。
 <データ格納装置の構成>
 データ格納装置2は、メモリ、コントローラ、入力インターフェース、及び出力インターフェースを備えるコンピュータによって構成されてもよい。メモリは、HDD(Hard Disk Drive)、SSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、ROM(Read-Only Memory)及びRAM(Random Access Memory)等によって構成されてもよい。コントローラは、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。入力インターフェースは、ポインティングデバイス、キーボード、マウス等とすることができる。また、入力インターフェースは、通信インターフェースによって受信された情報の入力を受け付けるインターフェースであってもよい。通信インターフェースには、例えば、イーサネット(登録商標)、FDDI(Fiber Distributed Data Interface)、Wi-Fi(登録商標)等の規格が用いられてもよい。
 データ格納装置2は、画像撮影装置1によって出力された画像データの入力を受け付け、該画像データを格納する。また、データ格納装置2は、推定装置3に画像データを出力する。
 <推定装置の構成>
 推定装置3は、入力部31と、教師データ記憶部32と、学習モデル記憶部33と、損失関数記憶部34-k(k=1~n、nは2以上の整数)、モデル構築部35と、スケール推定部36と、出力部37とを備える。図1に示す例では、n=2である。入力部31は、入力インターフェースによって構成される。教師データ記憶部32、学習モデル記憶部33、及び損失関数記憶部34-kは、メモリによって構成される。モデル構築部35及びスケール推定部36は、コントローラによって構成される。出力部37は、出力インターフェースによって構成される。
 入力部31は、データ格納装置2から出力された画像データの入力を受け付ける。入力部31は、画像撮影装置1から、データ格納装置2を介さずに、画像データの入力を受け付けてもよい。
 具体的には、入力部31は、スケールの真値が既知である画像を示す画像データと、該画像データが示す画像のスケールの真値ytrueとを対応付けた教師データの入力を受け付けてもよい。スケールの真値が既知である画像には、学習用画像、学習検証用画像、及び最適検証用画像が含まれ、学習用画像、学習検証用画像、及び最適検証用画像は、互いに異なる画像である。また、入力部31は、スケールの真値ytrueが未知である未知画像を示す画像データの入力を受け付ける。
 スケールは、画像における1画素の長さと実空間における長さとの比率を示す値であって、1画素の長さに対する実空間における長さ(cm/pixel)であってもよいし、実空間における長さに対する1画素の長さ(pixel/cm)であってもよい。
 教師データ記憶部32は、スケールの真値ytrueが既知である画像を示す画像データと、画像のスケールの真値ytrueとを対応付けた教師データを記憶する。具体的には、教師データ記憶部32は、入力部31によって入力が受け付けられた教師データを記憶してもよい。また、教師データ記憶部32は、入力部31によって入力が受け付けられた画像データと、追って詳細に説明するスケール算出部351によって算出されたスケールの真値ytrueとを対応付けた教師データを記憶してもよい。また、教師データ記憶部32は、入力部31によって入力が受け付けられ、追って詳細に説明するデータ加工部352によって加工された画像を示す画像データと、画像のスケールの真値ytrueとを対応付けた教師データを記憶してもよい。
 教師データ記憶部32によって記憶される画像には、学習用画像、学習検証用画像、及び最適検証用画像が含まれる。
 学習モデル記憶部33は、画像データが入力されると、該画像データが示す画像のスケールの推定値ypredを算出する学習モデルを記憶する。また、学習モデル記憶部33は、追って詳細に説明する学習部354-kそれぞれによって学習モデルが構築されると、構築された学習モデルそれぞれを記憶する。また、学習モデル記憶部33は、追って詳細に説明する最適学習モデルを記憶する。学習モデルは、任意のモデルであってよく、例えば深層学習モデルとすることができる。また、学習モデルは、1つの画像データが入力されると、スケールについての1つの推定値ypredを出力するように構成されている。
 複数の損失関数記憶部34-kは、それぞれ互いに異なる損失関数(損失関数に設定されるパラメータ)を記憶している。損失関数は、N個の画像データi(i=1~N、Nは整数)における損失値Lを算出するための関数である。損失値Lは、スケールの真値ytrue,iに対する、スケールの推定値ypred,iの誤差に基づく、学習モデルの精度を評価するための値である。損失関数は、例えば、式(1)~式(4)に示される関数とすることができる。なお、式(1)及び式(2)において、αは、予め設定される係数である。
Figure JPOXMLDOC01-appb-M000001
 式(1)に示す損失関数によって算出される損失値Lは、真値ytrue,iに対する推定値ypred,iの平均絶対誤差(MAE(Mean Absolute Error))と、真値ytrue,iに対する推定値ypred,iの平均絶対パーセント誤差(MAPE(Mean Absolute Percentage Error))との合計値である。そのため、式(1)に示す損失関数を用いることによって、真値ytrue,iと推定値ypred,iとの平均絶対パーセント誤差に加えて、平均絶対誤差の値が考慮される。そのため、スケールの真値ytrue,iが大きいほど、損失値Lが大きくなる。また、スケールの推定値ypred,iが真値ytrue,iに対して大きく外れた外れ値となった場合に、損失値Lが大きくなる。
Figure JPOXMLDOC01-appb-M000002
 式(2)に示す損失関数によって算出される損失値Lは、真値ytrue,iに対する推定値ypred,iの平均二乗誤差と、真値ytrue,iに対する推定値ypred,iの平均絶対パーセント誤差との合計値である。式(2)に示す損失関数を用いることによって、損失値Lは、式(1)に示す損失関数を用いた場合と同様の傾向を示すことができ、さらに式(1)に示す損失関数を用いた場合よりも、外れ値に対して大きくなる。また、式(2)の第1項は、真値ytrue,iに対する推定値ypred,iの分散を示しており、推定値ypred,iと真値ytrue,iとの差が大きい撮像データが多いほど、損失値Lが大きくなる。このため、学習部354-kは、推測値ypred,iが真値ytrue,iに対して大きく外れた場合に、より大きく外れた推測値ypred,iに対して損失をより大きくすることができる。式(2)に示す第2項は、式(2)に示す第1項と比較して、外れ値の大きさを損失値Lにより大きく反映することが可能である。
Figure JPOXMLDOC01-appb-M000003
 式(3)に示す損失関数によって算出される損失値Lは、真値ytrue,iに対する推定値ypred,iの平均絶対パーセント誤差である。式(3)に示す損失関数を用いることによって、損失値Lは、平均絶対パーセント誤差で表される。このため、損失値Lは、スケールの推定値ypred,iの大きさに依存せずに、真値ytrue,iに対する、真値ytrue,iと推測値ypred,iとの誤差の割合を示すことができる。これにより、式(3)に示す損失関数は、式(1)及び式(2)に示す損失関数のように係数αを設定するための作業を要することなく用いることができる。
Figure JPOXMLDOC01-appb-M000004
 式(4)に示す損失関数によって算出される損失値Lは、式(1)に示す損失関数における平均絶対パーセント誤差の分母を真値ytrue,iから推定値ypred,iに置換した値である。式(4)に示す損失関数を用いることによって、推定値ypred,iと真値ytrue,iとの大小関係に応じて損失値Lを変化させることができる。例えば、推定値ypred,iが真値ytrue,iより小さい場合、推定値ypred,iが真値ytrue,iより大きい場合に比べて、損失値Lは大きく変化する。
 図2に示すように、モデル構築部35は、スケール算出部351と、データ加工部352と、学習モデル読込部353と、学習部354-kと、検証部355-kと、相関関係算出部356-kと、最適学習モデル選択部357とを含む。
 スケール算出部351は、入力部31によって入力が受け付けられた画像データが示す画像のスケールの真値ytrue,iを算出する。
 具体的には、スケール算出部351は、画像データが示す画像に含まれる、実空間における寸法が既知であるメジャーの像の、画像空間における長さと、該メジャーの実空間における長さとに基づいてスケールの真値ytrue,iを算出してもよい。また、スケール算出部351は、画像データが示す画像に含まれるAR(Augmented Reality)マーカー等の既知のライブラリを用いてスケールの真値ytrue,iを算出してもよい。なお、スケール算出部351は、これらの方法に限られず、任意の方法にてスケールの真値ytrue,iを算出することができる。
 データ加工部352は、スケール算出部351によってスケールの真値ytrue,iが算出された画像を示す画像データを加工する。具体的には、データ加工部352は、画像データのサイズを変更してもよいし、形式を変更してもよい。
 例えば、データ加工部352は、画像データが示す画像を分割することによって複数の画像を生成することができる。これにより、追って詳細に説明する学習部354-kは、複数の画像それぞれを示す複数の画像データを教師データとして学習することができ、1つの画像データを教師データとして学習する場合に比べて、効率的に精度の高い学習モデルを生成することができる。
 また、データ加工部352は、画像データが示す画像の形状を正方形に変換し、正方形に変換された正方形画像を回転させた回転画像、正方形画像を反転させた反転画像等を作成することができる。これにより、学習部354-kは、複数パターンの画像をそれぞれ示す複数の画像データを教師データとして学習することができ、1つの画像データを教師データとして学習する場合に比べて、効率的に精度の高い学習モデルを生成することができる。また、データ加工部352は、画像データが示す画像にコンクリート構造物以外の被写体の像が含まれている場合に、該像を示す画素を除去するように画像データを加工してもよい。
 データ加工部352は、加工された画像データと、加工前の画像データが示す画像のスケールの真値ytrue,iとを対応付けた教師データを教師データ記憶部32に記憶させる。
 学習モデル読込部353は、学習モデル記憶部33に記憶されている学習モデルを読み込む。また、学習モデル読込部353は、教師データ記憶部32に記憶されている、教師データとして対応付けられている、画像データと該画像データが示す画像のスケールの真値ytrue,iとを読み込む。
 複数の学習部354-kは、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像を示す画像データと、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築する。例えば、n=2である構成において、学習部354-1は、損失関数記憶部34-1で記憶されている損失関数を用いて学習モデルを構築する。学習部354-2は、損失関数記憶部34-2で記憶されている損失関数を用いて学習モデルを構築する。
 具体的には、複数の学習部354-kは、それぞれ複数の学習モデルを学習し、スケールの真値ytrue,iが既知である、学習用画像及び最適検証用画像とは異なる学習検証用画像について、複数の学習モデルそれぞれを用いてスケールの推定値ypred,iを算出する。そして、複数の学習部354-kは、学習検証用画像についての複数のスケールの推定値ypred,i、及び学習検証用画像についてのスケールの真値ytrue,iを用いて損失関数により算出した損失値Lに基づいて学習モデルを構築する。
 例えば、学習モデルがCNNである構成において、学習部354-kそれぞれは、学習モデル読込部353によって読み込まれた深層学習モデル、画像データが示す学習用画像、及び、スケールの真値ytrue,iに基づいて学習モデルを構築する。そして、学習部354-kは、学習検証用画像を畳み込んでスケールの推定値ypred,iを算出する。そして、学習部354-kは、学習検証用画像の真値ytrue,iと推定値ypred,iとに基づいて算出される損失値Lが最低値となるように重みパラメータを調整した学習モデル(重みファイル)を構築する。また、学習部354-kは、構築された学習モデルを学習モデル記憶部33に記憶させる。
 複数の検証部355-kは、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、複数の学習モデルそれぞれを用いて、スケールの複数の推定値ypred,iそれぞれを算出する。例えば、n=2である構成において、検証部355-1は、学習部354-1によって構築された学習モデルを用いて、スケールの推定値ypred,iを算出する。検証部355-2は、学習部354-2によって構築された学習モデルを用いて、スケールの推定値ypred,iを算出する。検証部355-kは、それぞれ複数の画像のスケールの推定値ypred,iを算出することが好ましい。
 複数の相関関係算出部356-kは、最適検証用画像についての、スケールの真値ytrue,iに対する、複数のスケールの推定値ypred,iの相関関係それぞれを算出する。相関関係は、相関係数、決定係数等の指標とすることができる。例えば、n=2である構成において、相関関係算出部356-1は、真値ytrue,iに対する、検証部355-1によって算出された推定値ypred,iの相関関係を算出する。相関関係算出部356-2は、真値ytrue,iに対する、検証部355-2によって算出された推定値ypred,iの相関関係を算出する。
 最適学習モデル選択部357は、複数の学習モデルのうちの、相関関係が最も高い学習モデルである最適学習モデルを選択する。例えば、n=2である構成において、最適学習モデル選択部357は、相関関係算出部356-1によって算出された相関関係と、相関関係算出部356-2によって算出された相関関係とのうち、最も高い相関関係の学習モデルを最適学習モデルとして選択する。
 図3に示すように、スケール推定部36は、データ加工部361と、学習モデル読込部362と、推定部363と、データ復元部364とを含む。
 データ加工部361は、入力部31によって入力された、未知画像を示す画像データを加工する。データ加工部361が実行する処理の詳細は、データ加工部352が実行する処理の詳細と同様である。
 学習モデル読込部362は、学習モデル記憶部33に記憶されている、最適学習モデル選択部357によって選択された最適学習モデルを読み込む。
 推定部363は、最適学習モデルを用いて、スケールの真値ytrue,iが未知である未知画像のスケールの推定値ypred,iを算出する。
 データ復元部364は、データ加工部361によって加工された画像データを復元する。
 例えば、入力部31によって入力された画像データが示す未知画像が、データ加工部361によって分割されていた場合、データ復元部364は、分割された画像を分割前の未知画像に戻すように加工することによって画像データを復元する。この場合、データ復元部364は、分割された画像それぞれについて算出されたスケールの推定値ypred,iの代表値を、復元された画像データが示す未知画像のスケールの推定値ypred,iとして算出してもよい。代表値は、平均値、中央値等の統計値とすることができる。
 また、入力部31によって入力が受け付けられた画像データが示す未知画像のサイズが、データ加工部361によって変更されていた場合、データ復元部364は、サイズが変更されていた画像を分割前の未知画像に戻すように加工することによって画像データを復元する。
 出力部37は、画像データと、該画像データが示す画像のスケールの推定値ypred,iとを含むスケール推定情報を出力する。具体的には、出力部37は、通信ネットワークを介してデータ保存装置4にスケール推定情報を出力してもよい。出力部37は、有機EL(Electro Luminescence)、液晶パネル等によって構成される表示装置にスケール推定情報を出力してもよい。
 <データ保存装置の構成>
 図1に示すデータ保存装置4は、メモリ、コントローラ、及び入力インターフェースを備えるコンピュータによって構成される。データ保存装置4は、推定装置3から出力されたスケール推定情報を保存する。
 なお、図4に示すように、第1の実施形態の他の例の、推定システム100Aは、画像撮影装置1と、データ格納装置2と、学習モデル構築装置3Aと、推定装置3Bと、データ保存装置4とを備える。推定システム100Aにおいて、学習モデル構築装置3Aは、入力部31と、教師データ記憶部32と、学習モデル記憶部33と、損失関数記憶部34-kと、モデル構築部35と、を備える。また、推定装置3Bは、入力部31と、学習モデル記憶部33と、スケール推定部36と、出力部37とを備える。なお、推定システム100Aにおいて、推定システム100と同じ符号を付した機能部は同じ機能を有する。ただし、推定システム100Aにおいては、推定装置3Bが備える学習モデル記憶部33は、学習モデル構築装置3Aによって選択された最適学習モデルを記憶する。
 <推定装置の動作>
 ここで、第1の実施形態に係る推定装置3の動作について、図5~図9を参照して説明する。図5~図9は、第1の実施形態に係る推定装置3の動作の一例を示すフローチャートである。図5~図9を参照して説明する推定装置3における動作は第1の実施形態に係る推定装置3の推定方法の一例に相当する。
 (教師データの記憶)
 図5を参照して、推定装置3が教師データを記憶する方法を説明する。
 ステップS11において、入力部31が、データ格納装置2から出力された画像データの入力を受け付ける。
 ステップS12において、スケール算出部351が、画像データが示す画像のスケールの真値ytrue,iを算出する。
 ステップS13において、データ加工部352が、画像データを加工する。
 ステップS14において、教師データ記憶部32が、ステップS13で加工された画像データと、ステップS12で算出された画像のスケールの真値ytrue,iとを対応付けた教師データを記憶する。
 (学習モデルの構築)
 図6を参照して、推定装置3が学習モデルを構築する方法を説明する。
 ステップS21において、学習モデル読込部353が、教師データ記憶部32に記憶されている教師データを読み込む。また、学習モデル読込部353は、学習モデル記憶部33から学習モデルを読み込む。
 ステップS22において、複数の学習部354-kが、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像を示す画像データと、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築する。
 ステップS23において、複数の検証部355-kが、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、複数の学習モデルそれぞれを用いて、スケールの複数の推定値ypred,iそれぞれを算出する。
 ステップS24において、複数の相関関係算出部356-kが、最適検証用画像についての、スケールの真値ytrue,iに対する、複数のスケールの推定値推定値ypred,iの相関関係それぞれを算出する。
 ステップS25において、最適学習モデル選択部357が、複数の学習モデルのうちの、相関関係が最も高い学習モデルである最適学習モデルを選択する。
 ここで、n=2である構成における、推定装置3が学習モデルを構築する方法の第1例について、図7を参照して詳細に説明する。
 図7に示すように、ステップS21において、学習モデル読込部353が、教師データ記憶部32に記憶されている教師データを読み込む。また、学習モデル読込部353は、学習モデル記憶部33から学習モデルを読み込む。
 ステップS22-11において、学習部354-1が、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像と、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、第1の損失関数を用いて第1の学習モデルを構築する。
 ステップS23-11において、検証部355-1が、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、第1の学習モデルを用いてスケールの第1の推定値ypred,iを算出する。
 ステップS24-11において、相関関係算出部356-1が、最適検証用画像についての、スケールの真値ytrue,iに対する、スケールの第1の推定値ypred,iの相関関係を算出する。
 続いて、ステップS22-12において、学習部354-2が、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像と、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、第2の損失関数を用いて第2の学習モデルを構築する。
 ステップS23-12において、検証部355-2が、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、第2の学習モデルを用いてスケールの第2の推定値ypred,iを算出する。
 ステップS24-12において、相関関係算出部356-2が、最適検証用画像についての、スケールの真値ytrue,iに対する、スケールの第2の推定値ypred,iの相関関係を算出する。
 ステップS25において、最適学習モデル選択部357が、複数の学習モデルのうちの、相関関係が最も高い学習モデルである最適学習モデルを選択する。
 次に、n=2である構成における、推定装置3が学習モデルを構築する方法の第2例について、図8を参照して詳細に説明する。
 図8に示すように、ステップS21において、学習モデル読込部353が、教師データ記憶部32に記憶されている教師データを読み込む。また、学習モデル読込部353は、学習モデル記憶部33から学習モデルを読み込む。
 ステップS22-21において、学習部354-1が、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像と、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、第1の損失関数を用いて第1の学習モデルを構築する。
 ステップS23-21において、検証部355-1が、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、第1の学習モデルを用いてスケールの第1の推定値ypred,iを算出する。
 ステップS24-21において、相関関係算出部356-1が、最適検証用画像についての、スケールの真値ytrue,iに対する、スケールの第1の推定値ypred,iの相関関係を算出する。
 また、ステップS22-21の処理と同じタイミングで、ステップS22-22において、学習部354-2が、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像と、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、第2の損失関数を用いて第2の学習モデルを構築する。
 ステップS23-22において、検証部355-2が、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、第2の学習モデルを用いてスケールの第2の推定値ypred,iを算出する。
 ステップS24-22において、相関関係算出部356-2が、最適検証用画像についての、スケールの真値ytrue,iに対する、スケールの第2の推定値ypred,iの相関関係を算出する。
 ステップS25において、最適学習モデル選択部357が、複数の学習モデルのうちの、相関関係が最も高い学習モデルである最適学習モデルを選択する。
 (スケールの推定値の算出)
 図9を参照して、推定装置3が、画像のスケールの推定値ypred,iを算出する方法を説明する。
 ステップS31において、入力部31が、データ格納装置2から出力された、スケールが未知である未知画像を示す画像データの入力を受け付ける。
 ステップS32において、データ加工部361が、未知画像を示す画像データを加工する。
 ステップS33において、学習モデル読込部362が、最適学習モデル選択部357によって選択された最適学習モデルを読み込む。
 ステップS34において、推定部363が、学習モデル読込部362によって読み込まれた最適学習モデルを用いて、スケールの真値ytrue,iが未知である未知画像のスケールの推定値ypred,iを算出する。
 ステップS35において、データ復元部364が、データ加工部361によって加工された未知画像を示す画像データを復元する。
 ステップS36において、出力部37が、ステップS35で復元された画像データと、ステップS34で算出された、画像データが示す画像のスケールの推定値ypred,iとを含むスケール推定情報を出力する。
 なお、推定システム100Aにおいて、学習モデル構築装置3Aが教師データを記憶する方法、及び学習モデルを構築する方法は、推定装置3がそれぞれ教師データを記憶する方法、及び学習モデルを構築する方法と同じである。また、推定装置3Bがスケールの推定値ypred,iを算出する方法は、推定装置3がスケールの推定値ypred,iを算出する方法と同じである。
 上述したように、第1の実施形態によれば、複数の学習部354-kは、コンクリートの表面を撮像した、スケールの真値ytrue,iが既知である学習用画像と、該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルをそれぞれ構築する。また、検証部355-kは、スケールの真値ytrue,iが既知である、学習用画像とは異なる最適検証用画像について、複数の学習モデルそれぞれを用いて、スケールの推定値ypred,iをそれぞれ算出する。また、相関関係算出部356-1は、最適検証用画像についての、スケールの真値ytrue,iに対する、複数のスケールの推定値ypred,iの相関関係それぞれを算出する。また、最適学習モデル選択部357は、複数の学習モデルのうちの、相関関係が最も高い学習モデルである最適学習モデルを選択する。これにより、推定装置3及び学習モデル構築装置3Aは、高い精度で、コンクリート構造物の表面のスケールを推定する(スケールの推定値ypred,iを算出する)ことができる学習モデルを構築することができる。
 特に、通信用とう道等のような、屋内の暗所に配設されたコンクリート構造物の表面を撮像した画像には、多くのノイズが含まれている。そのため、例えば、1つの損失関数のみを用いた場合、外れ値となるノイズも考慮して学習モデルを構築することが困難であることがある。これに対して、本実施形態の推定装置3のように複数の損失関数を用いることによって、1つの損失関数では考慮されにくい外れ値に大きく影響を受けるような他の損失関数によっても学習モデルが構築される。したがって、本実施形態の推定装置3は、このような複数の損失関数を用いて構築された学習モデルのうち真値ytrue,iとの相関関係が最も高い最適学習モデルを選択することによって、外れ値をも考慮した高い精度でスケールを推定することができる。
 また、第1の実施形態によれば、複数の学習部354-kは、それぞれ複数の学習モデルを構築する。複数の学習部354-kは、スケールの真値ytrue,iが既知である、学習用画像及び最適検証用画像とは異なる学習検証用画像について、複数の学習モデルそれぞれを用いてスケールの推定値ypred,iを算出する。複数の学習部354-kは、学習検証用画像についての複数のスケールの推定値ypred,i、及び学習検証用画像についてのスケールの真値ytrue,iを用いて損失関数により算出した損失値Lに基づいて学習モデルを構築する。これにより、推定装置3及び学習モデル構築装置3Aは、コンクリート構造物の表面のスケールをさらに高い精度で推定することができるできる学習モデルを構築することができる。
 また、第1の実施形態によれば、学習モデル記憶部33は、最適学習モデル選択部357によって選択された最適学習モデルを記憶する。推定部363は、最適学習モデルを用いて、スケールの真値が未知である未知画像のスケールの推定値を算出する。これにより、推定装置3及び推定装置3Aは、コンクリート構造物の表面のスケールを高い精度で推定することができる。
 また、第1の実施形態によれば、図7を参照して説明したように、推定装置3は、第1の学習モデルを構築し、第1の推定値ypred,iを算出し、スケールの真値ytrue,iに対する第1の推定値ypred,iの相関関係を算出してから、第2の学習モデルを構築し、第2の推定値ypred,iを算出し、スケールの真値ytrue,iに対する第2の推定値ypred,iの相関関係を算出してもよい。また、n≧3である構成においては、推定装置3は、同様の順にて、学習モデルの構築、推定値ypred,iの算出、及び相関関係の算出を繰り返してもよい。これにより、推定装置3は、複数のプロセッサを有することなく、1つのプロセッサを備えていればよく、簡易な構成とすることができる。同様の理由により、学習モデル構築装置3Aも簡易な構成とすることができる。
 また、第1の実施形態によれば、図8を参照して説明したように推定装置3は、第1の学習モデルを構築し、第1の推定値ypred,iを算出し、スケールの真値ytrue,iに対する第1の推定値ypred,iの相関関係を算出し、さらに、同じタイミングで、第2の学習モデルを構築し、第2の推定値ypred,iを算出し、スケールの真値ytrue,iに対する第2の推定値ypred,iの相関関係を算出してもよい。また、n≧3である構成においては、推定装置3は、n個の損失関数それぞれに基づく、学習モデルの構築、推定値ypred,iの算出、及び相関関係の算出を同じタイミングで実行してもよい。これにより、推定装置3は、図7を参照して説明した例に比べて、計算時間を短縮することができる。同様の理由により、学習モデル構築装置3Aも計算時間を短縮することができる。
 <<第2の実施形態>>
 図10を参照して第2の実施形態の全体構成について説明する。第2の実施形態において、第1の実施形態と同一の機能部については同じ符号を付加し、説明を省略する。
 図10に示すように、第2の実施形態に係る推定システム100-1は、画像撮影装置1と、データ格納装置2と、推定装置3-1と、データ保存装置4とを備える。
 <推定装置の構成>
 推定装置3-1は、入力部31と、教師データ記憶部32と、学習モデル記憶部33と、損失関数記憶部34-kと、モデル構築部35と、スケール推定部36と、出力部37と、ピント補正部38とを備える。ピント補正部38は、コントローラによって構成される。
 ピント補正部38は、学習用画像及び最適検証用画像を含む画像を示す画像データを、該画像にピントボケの部分が含まれないように補正する。ピント補正部38は、未知画像をさらに含む画像を、該画像にピントボケの部分が含まれないように補正してもよい。ピント補正部38は、学習検証用画像をさらに含む画像を、該画像にピントボケの部分が含まれないように補正してもよい。
 具体的には、ピント補正部38は、入力部31によって入力が受け付けられた画像データが示す画像にピントボケしている部分であるピントボケ部分があるか否かを判定する。例えば、ピント補正部38は、高速フーリエ変換(FFT(Fast Fourier Transform))、ラプラシアン微分を用いたエッジ検出のような画像処理方法、深層学習手法等を用いて、画像にピントボケ部分があるか否かを判定してもよい。
 また、ピント補正部38は、画像にピントボケ部分があると判定すると、ピントボケ部分が含まれないように画像を補正する。例えば、ピント補正部38は、画像からピントボケ部分を除去してもよいし、ピントボケ部分をピントボケしていないように変換してもよい。また、ピント補正部38は、該変換において、アンシャープマスク等を用いた鮮鋭化処理を実行してもよい。
 モデル構築部35は、ピント補正部38によって補正された画像を用いて、第1の実施形態と同様の処理を実行する。
 スケール推定部36は、ピント補正部38によって補正された画像を用いて、第1の実施形態と同様の処理を実行する。
 図11に示すように、第2の実施形態の他の例の推定システム100-1Aは、画像撮影装置1と、データ格納装置2と、学習モデル構築装置3-1Aと、推定装置3-1Bと、データ保存装置4とを備える。推定システム100-1Aにおいて、学習モデル構築装置3-1Aは、入力部31と、教師データ記憶部32と、学習モデル記憶部33と、損失関数記憶部34-kと、モデル構築部35と、ピント補正部38とを備える。また、推定装置3-1Bは、入力部31と、学習モデル記憶部33と、スケール推定部36と、出力部37と、ピント補正部38とを備える。なお、推定システム100-1Aにおいて、推定システム100-1と同じ符号を付した機能部は同じ機能を有する。ただし、推定システム100-1Aにおいては、学習モデル構築装置3-1Aのピント補正部38が、学習用画像、最適検証用画像、及び学習検証用画像を補正し、推定装置3-1Bのピント補正部38が未知画像を補正する。
 <推定装置の動作>
 ここで、第2の実施形態に係る推定装置3-1の動作について、図12及び図13を参照して説明する。図12及び図13は、第2の実施形態に係る推定装置3-1の動作の一例を示すフローチャートである。図12及び図13を参照して説明する推定装置3-1における動作は第2の実施形態に係る推定装置3-1の推定方法の一例に相当する。
 (教師データの記憶)
 図12を参照して、推定装置3-1が教師データを記憶する方法を説明する。
 推定装置3-1は、ステップS41の処理を実行する。ステップS41の処理は、第1の実施形態におけるステップS11の処理と同じである。
 ステップS42において、ピント補正部38が、学習用画像及び最適検証用画像を含む画像を、該画像にピントボケの部分が含まれないように補正する。
 ステップS43において、スケール算出部351が、ピント補正部38によって補正された画像のスケールの真値ytrue,iを算出する。
 その後、推定装置3-1は、ステップS44及びステップS45の処理を実行する。ステップS45及びステップS46までの処理は、第1の実施形態におけるステップS13及びステップS14の処理と同じである。
 (学習モデルの構築)
 推定装置3-1が学習モデルを構築する方法を説明する。
 推定装置3-1が学習モデルを構築する方法は、第1の実施形態における推定装置3が学習モデルを構築する方法と同じである。
 (スケールの推定値の算出)
 図13を参照して、推定装置3-1が画像のスケールの推定値ypred,iを算出する方法を説明する。
 推定装置3-1は、ステップS51の処理を実行する。ステップS51の処理は、第1の実施形態におけるステップS31の処理と同じである。
 ステップS52において、ピント補正部38が、未知画像を、該未知画像にピントボケの部分が含まれないように補正する。
 ステップS53において、データ加工部352が、ステップS52で補正された画像を示す画像データを加工する。
 その後、推定装置3-1は、ステップS54からステップS57までの処理を実行する。ステップS54からステップS57までの処理は、第1の実施形態におけるステップS33からステップS36までの処理と同じである。
 なお、学習モデル構築装置3-1Aが教師データを記憶する方法、及び学習モデルを構築する方法は、学習モデル構築装置3-1がそれぞれ教師データを記憶する方法、及び学習モデルを構築する方法と同じである。また、推定装置3-1Bがスケールの推定値ypred,iを算出する方法は、推定装置3-1がスケールの推定値ypred,iを算出する方法と同じである。
 上述したように、第2の実施形態によれば、推定装置3-1及び学習モデル構築装置3-1Aは、学習用画像及び最適検証用画像を含む画像を、該画像にピントボケの部分が含まれないように補正する。これにより、推定装置3-1及び学習モデル構築装置3-1Aは、通信用とう道等のようなコンクリートの表面に形成されている空隙、陰影等を示す画像のピントが合っていないことに起因して、学習モデルの精度が低下することを抑制することができる。また、推定装置3-1及び推定装置3-1Bは、ピントが合っていない画像のスケールも高い精度で推定することができる。
 <<第3の実施形態>>
 図14及び図15を参照して第3の実施形態の全体構成について説明する。第3の実施形態において、第1の実施形態と同一の機能部については同じ符号を付加し、説明を省略する。
 図14に示すように、第3の実施形態に係る推定システム100-2は、画像撮影装置1と、データ格納装置2と、推定装置3-2と、データ保存装置4とを備える。
 <推定装置の構成>
 推定装置3-2は、入力部31と、教師データ記憶部32と、学習モデル記憶部33と、損失関数記憶部34-kと、モデル構築部35と、スケール推定部36と、出力部37と、ノイズ画像除去部39とを備える。ノイズ画像除去部39は、コントローラによって構成される。
 図15に示すように、ノイズ画像除去部39は、色空間変換部391と、ノイズ判定部392と、画像除去部393とを含む。
 色空間変換部391は、入力部31によって入力が受け付けられた画像データが示す画像の色空間を変換する。例えば、入力部31によって入力が受け付けられた画像データが示す画像の色空間がRGB色空間である場合、色空間変換部391は、該画像の色空間をRGB色空間からL色空間に変換する。L色空間におけるL*成分は、明度を表す成分であり、a*(緑-赤)成分及びb*(青-黄)成分は色度成分である。このように、色空間変換部391は、コンクリート構造物を被写体として撮像した画像の色空間をL色空間とすることにより、カラーノイズの色と、コンクリートの色とを明確に分けて表すことができる。同様の理由により、色空間変換部391は、画像の色空間をLuv色空間に変換してもよい。
 ノイズ判定部392は、学習用画像及び最適検証用画像を含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定する。ノイズ判定部392は、学習用検証用画像をさらに含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定してもよい。ノイズ判定部392は、未知画像をさらに含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定してもよい。例えば、色空間変換部391が、該画像の色空間をL色空間に変換した場合、ノイズ判定部392は、L色空間における色成分である、a成分又はb成分の画素値に基づいて、画像にカラーノイズが含まれているか否かを判定する。
 画像にカラーノイズが発生している場合、図16Aに示すように、a*成分の画素値は第1の閾値(本例では120)未満の範囲にも、第1の閾値より大きい第2の閾値(本例では140)より大きい範囲にも分布している。これに対して、画像にカラーノイズが発生していない場合、図16Bに示すように、a*成分の画素値は第1の閾値未満の範囲、及び第2の閾値より大きい範囲には、ほとんど分布していない。このため、ノイズ判定部392は、画像を構成する画素のa*成分の画素値と第1の閾値及び第2の閾値とに基づいて、画像にカラーノイズが発生しているか否かを判定することができる。
 そこで、第1例として、ノイズ判定部392は、画像を構成するいずれかの画素のa*成分の画素値が、第1の閾値未満、又は第2の閾値より大きい範囲にある場合(式(5)を満たさない場合)、当該画像にはカラーノイズが発生していると判定する。また、ノイズ判定部392は、画像を構成する全ての画素のa*成分の画素値が第1の閾値以上、かつ第2の閾値以下の範囲にある場合(式(5)を満たす場合)、当該画像にはカラーノイズが発生していないと判定する。なお、a*i,jは、画像における座標(i,j)に位置する画素のa*成分の画素値であり、iは、画素のx座標であり、jは、画素のy座標である。
Figure JPOXMLDOC01-appb-M000005
 第2例として、ノイズ判定部392は、式(6)に示すように、画像における画素値のa*成分の分散が第3の閾値βより大きいか否かに基づいてノイズを判定してもよい。具体的には、ノイズ判定部392は、画像におけるa*成分の画素値の分散が第3の閾値βより大きい場合(式(6)を満たす場合)、当該画像にはカラーノイズが発生していると判定する。ノイズ判定部392は、画像におけるa*成分の画素値の分散が第3の閾値β以下である場合(式(6)を満たさない場合)、当該画像にはカラーノイズが発生していないと判定する。なお、a*aveは、複数の画像をそれぞれ構成する複数の画素におけるa*成分の平均値であってもよいし、1つの画像を構成する複数の画素におけるa*成分の平均値であってもよい。
Figure JPOXMLDOC01-appb-M000006
 また、画像にカラーノイズが発生している場合、図17Aに示すように、b*成分の画素値は第4の閾値(本例では120)未満の範囲にも分布している。これに対して、画像にカラーノイズが発生していない場合、図17Bに示すように、b*成分の画素値は第4の閾値未満の範囲には、ほとんど分布していない。このため、ノイズ判定部392は、画像を構成する画素のb*成分の画素値と第4の閾値とに基づいて、画像におけるノイズを判定することができる。
 そこで、第3例として、ノイズ判定部392は、画像を構成するいずれかの画素のb*成分の画素値が第4の閾値未満である場合(式(7)を満たさない場合)、当該画像にはカラーノイズが発生していると判定する。また、ノイズ判定部392は、画像を構成する全ての画素の画素値のb*成分が第4の閾値以上である場合(式(7)を満たす場合)、当該画像にはカラーノイズが発生していないと判定する。なお、b*i,jは、画像の座標(i,j)におけるb*成分の画素値である。
Figure JPOXMLDOC01-appb-M000007
 また、ノイズ判定部392は、上述した第1例から第3例において説明した、いずれか2つ以上の方法を用いて、ノイズを判定してもよい。
 画像除去部393は、ノイズ判定部392によってカラーノイズが発生していると判定された画像を示す画像データを、画像データのセットから除去する。例えば、画像除去部393は、カラーノイズが発生していると判定された画像を示す画像データを消去してもよい。また、画像除去部393は、複数の画像データを記憶しているフォルダ(メモリにおける論理的な領域)とは異なるフォルダに、カラーノイズが発生していると判定された画像を示す画像データを移動させてもよい。
 モデル構築部35は、ノイズ画像除去部39によって除去されなかった画像を用いて、第1の実施形態と同様の処理を実行する。
 例えば、学習部354-kは、カラーノイズが含まれていないと判定された学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、第1の実施形態と同様に、学習モデルを構築する。また、検証部355-kは、カラーノイズが含まれていないと判定された最適検証用画像についてのスケールの推定値ypred,iを第1の実施形態と同様に算出する。
 また、スケール推定部36は、ノイズ画像除去部39によって除去されなかった画像を用いて、第1の実施形態と同様の処理を実行する。
 例えば、スケール推定部36は、カラーノイズが含まれていないと判定された未知画像についてのスケールの推定値ypred,iを第1の実施形態と同様に算出する。
 図18に示すように、第3の実施形態の他の例の推定システム100-2Aは、画像撮影装置1と、データ格納装置2と、学習モデル構築装置3-2Aと、推定装置3-2Bと、データ保存装置4とを備える。学習モデル構築装置3-2Aは、入力部31と、教師データ記憶部32と、学習モデル記憶部33と、損失関数記憶部34-kと、モデル構築部35と、ノイズ画像除去部39とを備える。また、推定装置3-2Bは、入力部31と、学習モデル記憶部33と、スケール推定部36と、出力部37と、ノイズ画像除去部39とを備える。なお、推定システム100-2Aにおいて、推定システム100-2と同じ符号を付した機能部は同じ機能を有する。ただし、推定システム100-2Aにおいては、学習モデル構築装置3-1Aのノイズ判定部392が、学習用画像、最適検証用画像、及び学習用検証用画像にカラーノイズが含まれているか否かを判定し、推定装置3-2Bのノイズ判定部392が未知画像にカラーノイズが含まれているか否かを判定する。
 <推定装置の動作>
 ここで、第3の実施形態に係る推定装置3-2の動作について、図19及び図20を参照して説明する。図19及び図20は、第3の実施形態に係る推定装置3-2の動作の一例を示すフローチャートである。図19及び図20を参照して説明する推定装置3-2における動作は第3の実施形態に係る推定装置3-2の推定方法の一例に相当する。
 (教師データの記憶)
 図19を参照して、推定装置3-2が教師データを記憶する方法を説明する。
 推定装置3-2は、ステップS61の処理を実行する。ステップS61の処理は、第1の実施形態におけるステップS11の処理と同じである。
 ステップS62において、色空間変換部391が、入力部31によって入力が受け付けられた画像の色空間を変換する。
 ステップS63において、ノイズ判定部392は、学習用画像、最適検証用画像、及び未知画像を含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定する。
 ステップS63でカラーノイズが含まれていると判定されると、ステップS64において、画像除去部393が、画像データを、複数の画像データのセットから除去する。
 ステップS63でカラーノイズが含まれていると判定されると、ステップS65において、画像除去部393が、画像データを、複数の画像データのセットから除去しない。
 ステップS64が実行されると、推定装置3-2は、ステップS66からステップS68の処理を実行する。ステップS65からステップS68の処理は、第1の実施形態におけるステップS12からステップS14の処理と同じである。
 ステップS65又はステップS68の処理が実行されると、推定装置3-2は、教師データを記憶する処理を終了する。
 (学習モデルの構築)
 推定装置3-2が学習モデルを構築する方法を説明する。
 推定装置3-2が学習モデルを構築する方法は、第1の実施形態における推定装置3が学習モデルを構築する方法と同じである。
 (スケールの推定)
 図20を参照して、推定装置3-2が画像のスケールの推定値ypred,iを算出する方法を説明する。
 推定装置3-2は、ステップS71からステップS75の処理を実行する。ステップS71からステップS75の処理は、推定装置3-2が教師データを記憶する方法におけるステップS61からステップS65の処理と同じである。ただし、ステップS71において、入力部31が入力を受け付ける画像データは、スケールの真値ytrue,iが未知である未知画像を示す画像データである。
 ステップS74で画像データが除去されると、推定装置3-2は、スケールの推定値ypred,iを算出する処理を終了する。
 ステップS75で画像データが除去されないと、推定装置3-2は、ステップS76からステップS80の処理を実行する。ステップS76からステップS80の処理は、第1の実施形態におけるステップS32からステップS36の処理と同じである。
 なお、学習モデル構築装置3-2Aが教師データを記憶する方法、及び学習モデルを構築する方法は、学習モデル構築装置3-2がそれぞれ教師データを記憶する方法、及び学習モデルを構築する方法と同じである。また、推定装置3-2Bがスケールの推定値ypred,iを算出する方法は、推定装置3-2がスケールの推定値ypred,iを算出する方法と同じである。
 上述したように、第3の実施形態によれば、推定装置3-2及び学習モデル構築装置3-2Aは、学習用画像、最適検証用画像、及び未知画像を含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定する。推定装置3-2及び学習モデル構築装置3-2Aは、カラーノイズが含まれていないと判定された学習用画像と該学習用画像のスケールの真値ytrue,iとを対応付けた教師データに基づいて学習モデルを構築する。また、推定装置3-2及び推定装置3-2Bは、カラーノイズが含まれていないと判定された未知画像についてのスケールの推定値ypred,iを算出する。
 屋内に配設されている、コンクリート構造物の表面を撮像するにあたって、カメラがより多くの光を受光するこができるように、該カメラのシャッタースピードは低速に調整される。これにより、カメラが屋内コンクリート構造物を撮像した画像を構成する画素に赤色、青色、緑色等の、実空間における被写体が有さない色であるカラーノイズ(偽色)が発生することがある。これに伴い、該画像において、コンクリート構造物の表面に形成されているテクスチャの特徴が失われたり、分断されたりすることがある。したがって、該表面を撮像した画像のスケールの推定における精度が低下することがある。
 このようなカラーノイズを抑制させるためにメディアンフィルタを用いることが知られている。メディアンフィルタを用いることによって、画像における中心画像と該中心画素の近傍に位置する近傍画素との関係に基づいて、カラーノイズを有すると見込まれる画素の画素値が変換される。このとき、画像に含まれる、コンクリート構造物の表面に形成されている凹凸、陰影等を示す画素の画素値が変換される可能性がある。このため、メディアンフィルタを用いることによっても画像のスケールを高い精度で推定することができないことがある。
 これに対して、第3の実施形態における推定装置3-2及び学習モデル構築装置3-2Aは、カラーノイズが含まれている画像を用いることに起因して学習モデルの精度が低下するのを抑制することができる。すなわち、推定装置3-2及び学習モデル構築装置3-2Aは、カラーノイズが含まれている画像を用いないことによって、高い精度でスケールの推定値ypred,iを算出することができる学習モデルを構築するすることができる。また、推定装置3-2及び推定装置3-2Bは、スケールの推定値ypred,iを算出する処理において、カラーノイズが含まれている画像を除去することによって、低い精度でスケールが推定されることを抑制することができる。
 <第1の変形例>
 なお、上述した第1の実施形態において、推定装置3及び学習モデル構築装置3Aは、スケール算出部351を備えなくてもよい。このような構成において、推定装置3及び学習モデル構築装置3Aは、入力部31によって画像データとともに、該画像データが示す画像のスケールの真値ytrue,iの入力を受け付けてもよい。これにより、推定装置3及び学習モデル構築装置3Aは、画像のスケールの真値ytrue,iを算出する必要がなく、処理負荷を抑制することができる。なお、推定装置3及び学習モデル構築装置3Aは、スケール算出部351を備えない構成において、上述した教師データを記憶する処理で、ステップS12を実行しない。
 また、第2の実施形態の推定装置3-1及び学習モデル構築装置3-1A、並びに第3の実施形態の推定装置3-2及び学習モデル構築装置3-2Aも、同様にしてスケール算出部351を備えなくてもよい。また、このような構成において、推定装置3-1、学習モデル構築装置3-1A、推定装置3-2、及び学習モデル構築装置3-2Aは、教師データを記憶する処理におけるステップS43及びステップS66を実行しない。
 <第2の変形例>
 また、上述した第1の実施形態において、推定装置3及び学習モデル構築装置3Aは、データ加工部352、データ加工部361、及びデータ復元部364を備えなくてもよい。このような構成において、上述したように、教師データ記憶部32は、加工されていない画像データと、該画像データが示す画像のスケールの真値ytrue,iとを関連付けた教師データを記憶してもよい。なお、推定装置3及び学習モデル構築装置3Aは、データ加工部352、データ加工部361、及びデータ復元部364を備えない構成において、上述した教師データを記憶する処理で、ステップS13を実行しない。また、推定装置3及び学習モデル構築装置3Aは、上述したスケールの推定値ypred,iを算出する処理で、ステップS32及びS35を実行しない。
 また、第2の実施形態の推定装置3-1及び学習モデル構築装置3-1A、並びに第2の実施形態の推定装置3-2及び学習モデル構築装置3-2Aも、同様にしてデータ加工部352、データ加工部361、及びデータ復元部364を備えなくてもよい。また、このような構成において、推定装置3-1、学習モデル構築装置3-1A、推定装置3-2、及び学習モデル構築装置3-2Aは、教師データを記憶する処理における、それぞれステップS44及びステップS67を実行しない。推定装置3-1及び推定装置3-2は、教師データを記憶する処理における、それぞれステップS44及びステップS67を実行しない。また、推定装置3-1、及び学習モデル構築装置3-1A、推定装置3-2、及び、及び学習モデル構築装置3-2Aは、上述したスケールの推定値ypred,iを算出する処理で、ステップS53、S56、S76、及びS79を実行しない。
 <プログラム>
 上述した推定装置3、3-1、3-2は、コンピュータ101によって実現することができる。また、推定装置3、3-1、3-2として機能させるためのプログラムが提供されてもよい。また、該プログラムは、記憶媒体に記憶されてもよいし、ネットワークを通して提供されてもよい。図21は、推定装置3、3-1、3-2としてそれぞれ機能するコンピュータ101の概略構成を示すブロック図である。ここで、コンピュータ101は、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。学習モデル構築装置3A、3-1A、3-2A、及び推定装置3B、3-1B、3-2Bについても同様である。
 図21に示すように、コンピュータ101は、プロセッサ110と、ROM(Read Only Memory)120と、RAM(Random Access Memory)130と、ストレージ140と、入力部150と、表示部160と、通信インターフェース(I/F)170とを備える。各構成は、バス180を介して相互に通信可能に接続されている。プロセッサ110は、具体的にはCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)などであり、同種又は異種の複数のプロセッサにより構成されてもよい。
 プロセッサ110は、各構成の制御、及び各種の演算処理を実行する。すなわち、プロセッサ110は、ROM120又はストレージ140からプログラムを読み出し、RAM130を作業領域としてプログラムを実行する。プロセッサ110は、ROM120又はストレージ140に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。上述した実施形態では、ROM120又はストレージ140に、本開示に係るプログラムが記憶されている。
 プログラムは、コンピュータ101が読み取り可能な記憶媒体に記憶されていてもよい。このような記憶媒体を用いれば、プログラムをコンピュータ101にインストールすることが可能である。ここで、プログラムが記憶された記憶媒体は、非一時的(non-transitory)記憶媒体であってもよい。非一時的記憶媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USB(Universal Serial Bus)メモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 ROM120は、各種プログラム及び各種データを記憶する。RAM130は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ140は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム及び各種データを記憶する。
 入力部150は、ユーザの入力操作を受け付けて、ユーザの操作に基づく情報を取得する1つ以上の入力インターフェースを含む。例えば、入力部150は、ポインティングデバイス、キーボード、マウスなどであるが、これらに限定されない。
 表示部160は、情報を出力する1つ以上の出力インターフェースを含む。例えば、表示部160は、情報を映像で出力するディスプレイ、又は情報を音声で出力するスピーカであるが、これらに限定されない。なお、表示部160は、タッチパネル方式のディスプレイである場合には、入力部150としても機能する。
 通信インターフェース(I/F)170は、外部の装置と通信するためのインターフェースである。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのコントローラと、を備え、
 前記コントローラは、
  コンクリートの表面を撮像した、スケールの真値が既知である学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築し、
  スケールの真値が既知である、前記学習用画像とは異なる最適検証用画像について、前記複数の学習モデルそれぞれを用いて、前記スケールの複数の推定値それぞれを算出し、
  前記最適検証用画像についての、前記スケールの真値に対する、前記複数の前記スケールの推定値の相関関係それぞれを算出し、
  前記複数の学習モデルのうちの、前記相関関係が最も高い学習モデルである最適学習モデルを選択する、
学習モデル構築装置。
 (付記項2)
 前記コントローラは、それぞれ複数の学習モデルを学習し、スケールの真値が既知である、前記学習用画像及び前記最適検証用画像とは異なる学習検証用画像について、前記複数の学習モデルそれぞれを用いて前記スケールの推定値を算出し、前記学習検証用画像についての複数の前記スケールの推定値、及び前記学習検証用画像についての前記スケールの真値を用いて前記損失関数により算出した損失値に基づいて前記学習モデルを構築する、付記項1に記載の学習モデル構築装置。
 (付記項3)
 前記コントローラは、前記学習用画像及び前記最適検証用画像を含む画像を、該画像にピントボケした部分であるピントボケ部分が含まれないように補正する、付記項1又は2に記載の学習モデル構築装置。
 (付記項4)
 前記コントローラは、
  前記学習用画像及び前記最適検証用画像を含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定し、
  前記カラーノイズが含まれていないと判定された前記学習用画像を示す画像データと該学習用画像のスケールの真値とを対応付けた前記教師データに基づいて前記学習モデルを構築する、付記項1から3のいずれか一項に記載の学習モデル構築装置。
 (付記項5)
 付記項1から4に記載の学習モデル構築装置によって構築された前記最適学習モデルを記憶するメモリと、
 前記最適学習モデルを用いて、前記スケールの真値が未知である未知画像のスケールの推定値を算出するコントローラと、
を備える推定装置。
 (付記項6)
 コンクリートの表面を撮像した、スケールの真値が既知である学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築するステップと、
 スケールの真値が既知である、前記学習用画像とは異なる最適検証用画像について、前記複数の学習モデルそれぞれを用いて、前記スケールの複数の推定値それぞれを算出するステップと、
 前記最適検証用画像についての、前記スケールの真値に対する、前記複数の前記スケールの推定値の相関関係それぞれを算出するステップと、
 前記複数の学習モデルのうちの、前記相関関係が最も高い学習モデルである最適学習モデルを選択するステップと、
を含む学習モデル構築方法。
 (付記項7)
 付記項6に記載の学習モデル構築方法によって選択された前記最適学習モデルを記憶するメモリを備える推定装置が実行する推定方法であって、
 前記最適学習モデルを用いて、前記スケールの真値が未知である未知画像のスケールの推定値を算出するステップを含む推定方法。
 (付記項8)
 コンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、前記コンピュータを付記項1から4のいずれか一項に記載の推定装置として機能させるプログラムを記憶した非一時的記憶媒体。
 本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。
 上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形又は変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
1            画像撮影装置
2            データ格納装置
3、3-1、3―2    推定装置
3A、3-1A、3―2A 学習モデル構築装置
3B、3-1B、3―2B 推定装置
4            データ保存装置
31           入力部
32           教師データ記憶部
33           学習モデル記憶部
34-k         損失関数記憶部
35           モデル構築部
36           スケール推定部
37           出力部
38           ピント補正部
39           ノイズ画像除去部
100、100-1、100-2 推定システム
100A、100-1A、100-2A 推定システム
101          コンピュータ
110          プロセッサ
120          ROM
130          RAM
140          ストレージ
150          入力部
160          出力部
170          通信インターフェース
180          バス
351          スケール算出部
352          データ加工部
353          学習モデル読込部
354-k        学習部
355-k        検証部
356―k        相関関係算出部
357          最適学習モデル選択部
361          データ加工部
362          学習モデル読込部
363          推定部
364          データ復元部
391          色空間変換部
392          ノイズ判定部
393          画像除去部

Claims (8)

  1.  コンクリートの表面を撮像した、スケールの真値が既知である学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築する複数の学習部と、
     スケールの真値が既知である、前記学習用画像とは異なる最適検証用画像について、前記複数の学習モデルそれぞれを用いて、前記スケールの複数の推定値それぞれを算出する複数の検証部と、
     前記最適検証用画像についての、前記スケールの真値に対する、前記複数の前記スケールの推定値の相関関係それぞれを算出する複数の相関関係算出部と、
     前記複数の学習モデルのうちの、前記相関関係が最も高い学習モデルである最適学習モデルを選択する最適学習モデル選択部と、
    を備える学習モデル構築装置。
  2.  前記複数の学習部は、それぞれ複数の学習モデルを学習し、スケールの真値が既知である、前記学習用画像及び前記最適検証用画像とは異なる学習検証用画像について、前記複数の学習モデルそれぞれを用いて前記スケールの推定値を算出し、前記学習検証用画像についての複数の前記スケールの推定値、及び前記学習検証用画像についての前記スケールの真値を用いて前記損失関数により算出した損失値に基づいて前記学習モデルを構築する、請求項1に記載の学習モデル構築装置。
  3.  前記学習用画像及び前記最適検証用画像を含む画像を、該画像にピントボケした部分であるピントボケ部分が含まれないように補正するピント補正部をさらに備える、請求項1又は2に記載の学習モデル構築装置。
  4.  前記学習用画像及び前記最適検証用画像を含む画像の色空間における色度成分に基づいて、該画像にカラーノイズが含まれているか否かを判定するノイズ判定部をさらに備え、
     前記学習部は、前記カラーノイズが含まれていないと判定された前記学習用画像を示す画像データと該学習用画像のスケールの真値とを対応付けた前記教師データに基づいて前記学習モデルを構築する、請求項1から3のいずれか一項に記載の学習モデル構築装置。
  5.  請求項1から4に記載の学習モデル構築装置によって選択された前記最適学習モデルを記憶する学習モデル記憶部と、
     前記最適学習モデルを用いて、前記スケールの真値が未知である未知画像のスケールの推定値を算出する推定部と、
    を備える推定装置。
  6.  コンクリートの表面を撮像した、スケールの真値が既知である学習用画像を示す画像データと、該学習用画像のスケールの真値とを対応付けた教師データに基づいて、互いに異なる複数の損失関数それぞれを用いて複数の学習モデルそれぞれを構築するステップと、
     スケールの真値が既知である、前記学習用画像とは異なる最適検証用画像について、前記複数の学習モデルそれぞれを用いて、前記スケールの複数の推定値それぞれを算出するステップと、
     前記最適検証用画像についての、前記スケールの真値に対する、前記複数の前記スケールの推定値の相関関係それぞれを算出するステップと、
     前記複数の学習モデルのうちの、前記相関関係が最も高い学習モデルである最適学習モデルを選択するステップと、
    を含む学習モデル構築方法。
  7.  請求項6に記載の学習モデル構築方法によって選択された前記最適学習モデルを記憶する学習モデル記憶部を備える推定装置が実行する推定方法であって、
     前記最適学習モデルを用いて、前記スケールの真値が未知である未知画像のスケールの推定値を算出するステップを含む推定方法。
  8.  コンピュータを、請求項1から4のいずれか一項に記載の学習モデル構築装置として機能させるためのプログラム。
PCT/JP2021/044362 2021-12-02 2021-12-02 学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム WO2023100336A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044362 WO2023100336A1 (ja) 2021-12-02 2021-12-02 学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/044362 WO2023100336A1 (ja) 2021-12-02 2021-12-02 学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023100336A1 true WO2023100336A1 (ja) 2023-06-08

Family

ID=86611759

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/044362 WO2023100336A1 (ja) 2021-12-02 2021-12-02 学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023100336A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194562A (ja) * 2018-04-26 2019-11-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2021135903A (ja) * 2020-02-28 2021-09-13 武蔵精密工業株式会社 不良品画像生成プログラムおよび良否判定装置
JP2021156656A (ja) * 2020-03-26 2021-10-07 株式会社奥村組 構造物損傷特定装置、構造物損傷特定方法および構造物損傷特定プログラム
JP2021163190A (ja) * 2020-03-31 2021-10-11 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194562A (ja) * 2018-04-26 2019-11-07 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2021135903A (ja) * 2020-02-28 2021-09-13 武蔵精密工業株式会社 不良品画像生成プログラムおよび良否判定装置
JP2021156656A (ja) * 2020-03-26 2021-10-07 株式会社奥村組 構造物損傷特定装置、構造物損傷特定方法および構造物損傷特定プログラム
JP2021163190A (ja) * 2020-03-31 2021-10-11 キヤノン株式会社 情報処理装置、情報処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PARK JU AN, YEUM CHUL MIN, HRYNYK TREVOR D.: "Learning‐based image scale estimation using surface textures for quantitative visual inspection of regions‐of‐interest", COMPUTER-AIDED CIVIL AND INFRASTRUCTURE ENGINEERING, BLACKWELL PUBLISHERS, MALDEN,, US, vol. 36, no. 2, 1 February 2021 (2021-02-01), US , pages 227 - 241, XP093069502, ISSN: 1093-9687, DOI: 10.1111/mice.12613 *

Similar Documents

Publication Publication Date Title
Zhang et al. Hazerd: an outdoor scene dataset and benchmark for single image dehazing
US8950872B2 (en) Image projecting device, image processing device, image projecting method, and computer-readable recording medium
WO2016036898A1 (en) Depth map enhancement
KR102080694B1 (ko) 곡면 모델링을 통한 깊이 영상 부호화에서 움직임 추정 방법 및 장치와 비일시적 컴퓨터 판독가능 기록매체
JP5242248B2 (ja) 欠陥検出装置、欠陥検出方法、欠陥検出プログラム、及び、記録媒体
JP5705711B2 (ja) ひび割れ検出方法
JP2010134700A (ja) 画像評価装置および画像評価方法
JP2011250013A (ja) 画質評価方法、画質評価装置、及びプログラム
WO2023100336A1 (ja) 学習モデル構築装置、推定装置、学習モデル構築方法、推定方法、及びプログラム
JP5617841B2 (ja) 画像処理装置、画像処理方法および画像処理用プログラム
JP5095263B2 (ja) 画像評価装置、および画像評価プログラム
JP2008053875A (ja) 画像処理装置および方法、プログラム、並びにプログラム格納媒体
CN111862086A (zh) 用于检测表面形貌的方法、设备、介质和系统
JP6624061B2 (ja) 画像処理方法、画像処理装置、及び画像処理プログラムを記憶する記録媒体
CN106611405B (zh) 图像插值方法及装置
CN114549613A (zh) 基于深度超分辨率网络的结构位移测量方法及装置
JP6897448B2 (ja) 線幅推定プログラム、装置、及び方法
JP2011242134A (ja) 画像処理装置、画像処理方法、プログラム、及び電子装置
CN113034553A (zh) 图像配准算法的评估方法、终端及存储介质
JP2007156954A (ja) 信頼度テーブル作成方法、オプティカルフロー推定方法、信頼度テーブル作成装置、オプティカルフロー推定装置、及びプログラム
JP2019215247A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP2009077051A (ja) 撮像装置及びその撮像方法
JP2018190201A (ja) 画像処理装置、画像処理方法およびプログラム
JP2005303705A (ja) 画像処理装置および方法
JP2005251123A (ja) 画像処理装置および画像処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21966419

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023564688

Country of ref document: JP

Kind code of ref document: A