WO2021199366A1 - 情報処理装置、方法、プログラム、およびモデル - Google Patents

情報処理装置、方法、プログラム、およびモデル Download PDF

Info

Publication number
WO2021199366A1
WO2021199366A1 PCT/JP2020/014970 JP2020014970W WO2021199366A1 WO 2021199366 A1 WO2021199366 A1 WO 2021199366A1 JP 2020014970 W JP2020014970 W JP 2020014970W WO 2021199366 A1 WO2021199366 A1 WO 2021199366A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information processing
correction parameter
subject
white balance
Prior art date
Application number
PCT/JP2020/014970
Other languages
English (en)
French (fr)
Inventor
荻原 康樹
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to PCT/JP2020/014970 priority Critical patent/WO2021199366A1/ja
Publication of WO2021199366A1 publication Critical patent/WO2021199366A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/11Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths for generating image signals from visible and infrared light wavelengths

Definitions

  • This disclosure relates to information processing devices, methods, programs, and models.
  • AVB Auto White Balance
  • the AWB function is often provided in terminals equipped with a camera function, such as mobile phones and smartphones.
  • the AWB function is realized by an algorithm constructed based on physical phenomena and the know-how of the developer. While such algorithms are complicated to accommodate different captured images, they are more developer-dependent and draw more captured images (eg, brown subjects too much to create an overall bluish tint). It is practically difficult to deal with a pull-in image of a specific color, such as being scratched.
  • the acquisition unit for acquiring the captured image of the subject and the teacher data in which the captured image is input and the image correction parameter for adjusting the white balance of the captured image is the correct answer are learned.
  • An information processing apparatus includes a learning unit that learns a model that generates a first image correction parameter for adjusting the white balance of the first image from the first image.
  • an acquisition unit for acquiring the first image in which the first subject is photographed, and an image correction parameter for inputting the photographed image in which the subject is photographed and adjusting the white balance of the photographed image.
  • the model is equipped with an estimation unit that estimates a first image correction parameter for adjusting the white balance of the first image by inputting the first image into the model that has learned the teacher data having the correct answer.
  • An information processing device is provided.
  • the information processing apparatus acquires the photographed image in which the subject is photographed, inputs the photographed image, and learns the teacher data in which the image correction parameter for adjusting the white balance of the photographed image is the correct answer. Then, a method of executing a process of training a model for generating a first image correction parameter for adjusting the white balance of the first image from the first image is provided.
  • the information processing apparatus acquires the first image in which the first subject is photographed, inputs the photographed image in which the subject is photographed, and adjusts the white balance of the photographed image.
  • the process of estimating the first image correction parameter for adjusting the white balance of the first image is executed. A method is provided.
  • the information processing apparatus acquires the photographed image of the subject, inputs the photographed image, and learns the teacher data in which the image correction parameter for adjusting the white balance of the photographed image is the correct answer. Then, a program is provided which executes a process of training a model for generating a first image correction parameter for adjusting the white balance of the first image from the first image.
  • an image for acquiring a first image in which a first subject is photographed, inputting a photographed image in which the subject is photographed, and adjusting the white balance of the photographed image is input to the information processing apparatus.
  • the process of estimating the first image correction parameter for adjusting the white balance of the first image is executed.
  • the program is provided.
  • the first image is a model in which a photographed image in which a subject is photographed is input and teacher data is learned in which an image correction parameter for adjusting the white balance of the photographed image is the correct answer.
  • An input layer an output layer that outputs a first image correction parameter for adjusting the white balance of the first image, and any layer from the input layer to the output layer other than the output layer. It includes the first element belonging to the layer and the second element whose value is calculated based on the weights of the first element and the first element, and is other than the output layer according to the first image input to the input layer.
  • the information processing device is made to function so as to output the first image correction parameter from the output layer by performing an operation based on the first element and the weight of the first element, with each element belonging to each layer of the above as the first element.
  • a model for is provided.
  • FIG. 1 is a diagram showing a difference between the conventional method of white balance adjustment and the method according to the present embodiment.
  • the left side of FIG. 1 shows an image of a conventional method of white balance adjustment.
  • the conventional method starts with estimating the light source for the captured image, and is complicated by adding a large number of determination processes in order to cope with the white balance adjustment of various captured images. For example, an image taken outdoors, indoors, or in a dark place, an image taken under high brightness such as strong sunlight, an image taken at a high color temperature, or an image taken at a low color temperature.
  • a learning model is constructed in which a WB gain, which is an image correction parameter, is output when a captured image is input.
  • the information processing device 100 may be a server device managed by the manufacturer of the information processing terminal 200, or may be a stationary terminal or a notebook PC (Personal Computer).
  • the information processing device 100 may be a cloud server device managed by a company that provides a cloud computing service. Further, the information processing apparatus 100 does not have to be composed of one computer, and may be a distributed computing system composed of a plurality of computers.
  • FIG. 2 is a block diagram showing a functional configuration example of the information processing device 100 according to the present embodiment.
  • the information processing apparatus 100 includes a storage unit 110, an acquisition unit 120, a conversion unit 130, a learning unit 140, and a control unit 150.
  • the storage unit 110 is a storage area for temporarily or permanently storing various programs and data.
  • the storage unit 110 may store programs and data for the information processing device 100 to execute various functions.
  • the storage unit 110 contains programs and parameters for converting captured images and obtaining low-resolution images, learning models for outputting WB gains from captured images, correct answer data for learning, and various types of data. Management data for managing settings and the like may be stored.
  • the above is only an example, and the type of data stored in the storage unit 110 is not particularly limited.
  • the acquisition unit 120 In order to learn the WB gain output model, the acquisition unit 120 according to the present embodiment prepares and stores the original image before the white balance adjustment and stored in advance in the storage unit 110 or a device different from the information processing device 100.
  • the optimum WB gain is acquired for the original image.
  • the original image and the WB gain of the captured image taken in various scenes such as outdoor, indoor, and dark places as described above are acquired.
  • the present embodiment in order to reduce the burden of preparing teacher data and maintain the accuracy of the conventional method, before adjusting the captured image adjusted by the algorithm of the conventional method as described with reference to FIG. Acquires the original image and WB gain of.
  • the conversion unit 130 converts the captured image acquired by the acquisition unit 120 into a low-resolution image whose resolution is reduced to a predetermined frequency.
  • the predetermined frequency is, for example, a resolution of 32 ⁇ 32, but may be more or less than 32 ⁇ 32. It is known that even if the resolution of the captured image is reduced to some extent, the accuracy of learning and estimation of the WB gain output model is not affected, and thus the processing load at the time of learning or estimation can be reduced. However, depending on the performance of the information processing device 100 and the information processing terminal 200 such as a smartphone or camera that estimates the WB gain using the WB gain output model, learning and estimation can be performed by learning the captured image with high resolution. The accuracy of
  • the learning unit 140 constructs a learning model by inputting a captured image and learning teacher data having a WB gain as the correct answer.
  • the captured image input as the teacher data is the low resolution image converted by the conversion unit 130.
  • the WB gain which is the correct answer data, is generated by designating a reference white (strictly speaking, 18% gray) pixel in the captured image. Further, the WB gain, which is the correct answer data, may be calculated by using the light source of the captured image and the white balance algorithm selected for each scene.
  • the learning model of the present embodiment belongs to any of an input layer, an output layer, and a layer from the input layer to the output layer into which the captured image of the subject is input, and is not the output layer. It includes a first element and a second element whose value is calculated based on the weights of the first element and the first element, and belongs to each layer other than the output layer according to the captured image input to the input layer. Information processing is performed so that an image correction parameter for adjusting the white balance of the captured image is output from the output layer by performing an operation based on the first element and the weight of the first element with each element as the first element.
  • the device 100 is made to function.
  • the image correction parameter is, for example, a WB gain.
  • the generation device (for example, the information processing device 100 such as the server device) that generates the learning model of the present embodiment may use any learning algorithm to generate the above-mentioned learning model.
  • the generation device may generate the learning model of the present embodiment by using a learning algorithm such as a neural network (NN: Neural Network), a support vector machine (SVM: Support Vector Machine), or reinforcement learning.
  • NN Neural Network
  • SVM Support Vector Machine
  • reinforcement learning As an example, suppose that the generator uses NN to generate the learning model of the present embodiment.
  • the learning model may have an input layer containing one or more neurons, an intermediate layer containing one or more neurons, and an output layer containing one or more neurons.
  • the first element learning model contains corresponds to the input data such as x 1 and x 2 (x i).
  • the weight of the first component corresponds to the coefficients a i corresponding to x i.
  • the regression model can be regarded as a simple perceptron having an input layer and an output layer.
  • the first element corresponds to any node of the input layer
  • the second element can be regarded as the node of the output layer.
  • the learning model according to the present embodiment is realized by an NN having one or a plurality of intermediate layers such as a DNN (Deep Neural Network).
  • the first element included in the learning model corresponds to either the node of the input layer or the intermediate layer.
  • the second element corresponds to the node of the next stage, which is the node to which the value is transmitted from the node corresponding to the first element.
  • the weight of the first element corresponds to a connection coefficient which is a weight considered for the value transmitted from the node corresponding to the first element to the node corresponding to the second element.
  • image correction parameters for adjusting the white balance of an arbitrary captured image are calculated. More specifically, in the learning model, when an arbitrary captured image is input, a coefficient is set so as to output an image correction parameter for adjusting the white balance of the captured image.
  • the learning model according to the present embodiment may be a model generated based on the result obtained by repeating the input / output of data.
  • the learning model according to the present embodiment is a model (referred to as model A) that outputs an image correction parameter for adjusting the white balance of the captured image when an arbitrary captured image is input.
  • model A a model generated based on the result obtained by repeating the input / output of data to the model A.
  • the learning model according to the present embodiment is a learning model (referred to as model B) in which an arbitrary captured image is input and an image correction parameter for adjusting the white balance of the captured image output by model A is output. It may be.
  • the learning model according to the present embodiment may be a learning model in which an arbitrary captured image is input and an image correction parameter for adjusting the white balance of the captured image output by the model B is output.
  • Control unit 150 The control unit 150 according to the present embodiment is a processing unit that controls the entire information processing device 100, and controls each configuration included in the information processing device 100. Details of the functions of the control unit 150 will be described later.
  • the functional configuration example of the information processing device 100 according to the present embodiment has been described above.
  • the above-mentioned functional configuration described with reference to FIG. 2 is merely an example, and the functional configuration of the information processing apparatus 100 according to the present embodiment is not limited to such an example.
  • the information processing device 100 does not necessarily have all of the configurations shown in FIG.
  • the functional configuration of the information processing apparatus 100 according to the present embodiment can be flexibly modified according to specifications and operations.
  • each component is stored in a ROM (Read Only Memory), RAM (Random Access Memory), etc., which stores a control program in which a computing device such as a CPU (Central Processing Unit) describes a processing procedure for realizing these functions. This may be performed by reading the control program from the storage medium of the above, interpreting the program, and executing the program. Therefore, it is possible to appropriately change the configuration to be used according to the technical level at each time when the present embodiment is implemented. An example of the hardware configuration of the information processing apparatus 100 will be described later.
  • the information processing terminal 200 is a camera device, a smartphone or tablet PC equipped with a camera function, and the like.
  • FIG. 3 is a block diagram showing a functional configuration example of the information processing terminal 200 according to the present embodiment.
  • the information processing terminal 200 according to the present embodiment includes a storage unit 210, an acquisition unit 220, a photographing unit 230, an estimation unit 240, an adjustment unit 250, and a control unit 260.
  • the storage unit 210 is a storage area similar to the storage unit 110 of the information processing device 100, and may store programs and data for the information processing terminal 200 to execute various functions.
  • the storage unit 210 may store captured images, RAW data thereof, a learning model constructed by the information processing device 100, management data for managing various settings, and the like.
  • the above is only an example, and the type of data stored in the storage unit 210 is not particularly limited.
  • the acquisition unit 220 acquires the learning model constructed by the information processing device 100. If the information processing terminal 200 does not have a learning model and the information processing device 100 estimates the image correction parameters for adjusting the white balance, it is not necessary to acquire the learning model.
  • the photographing unit 230 captures a moving image or a photograph based on the control by the control unit 260.
  • the photographing unit 230 includes an image sensor, a focus ring, a zoom lens, and the like.
  • the moving image or photograph taken by the photographing unit 230 is converted into digital data and stored in the storage unit 210.
  • the estimation unit 240 estimates an image correction parameter for adjusting the white balance of the photographed image photographed by the photographing unit 230 by using the learning model constructed by the information processing apparatus 100.
  • the adjustment unit 250 adjusts the white balance of the corresponding captured image by using the image correction parameter estimated by the estimation unit 240.
  • the image correction parameter is, for example, the WB gain.
  • the adjusting unit 250 uses the WB gain to adjust the white balance of the captured image so that the reference white (strictly speaking, 18% gray) in the captured image becomes the original color.
  • the information processing terminal 200 does not have to have the estimation unit 240 and the adjustment unit 250.
  • the first pattern is a case where the image correction parameter is estimated by the information processing device 100.
  • the information processing terminal 200 does not have to have the estimation unit 240.
  • the specific processing in this case is to transmit the RAW data of the image captured by the information processing terminal 200 to the information processing device 100.
  • the information processing device 100 has a processing unit similar to the estimation unit 240, and the processing unit inputs the received RAW data into the learning model and estimates the image correction parameter.
  • the information processing apparatus 100 transmits the estimated image correction parameters to the information processing terminal 200, and the information processing terminal 200 adjusts the white balance using the received image correction parameters.
  • the RAW data transmitted from the information processing terminal 200 does not necessarily have to be reduced in resolution because the information processing apparatus 100 has high performance until the estimation of the image correction parameters is performed.
  • the second pattern is a case where the information processing apparatus 100 performs general development processing including estimation of image correction parameters and white balance adjustment using image correction parameters.
  • the information processing terminal 200 does not have to have the estimation unit 240 and the adjustment unit 250.
  • the specific processing in this case is to transmit the RAW data of the image captured by the information processing terminal 200 to the information processing device 100.
  • the information processing device 100 has a processing unit similar to the estimation unit 240 and the adjustment unit 250, and the processing unit inputs the received RAW data into the learning model, estimates the image correction parameters, and estimates the estimated image correction parameters. It is used to perform various corrections (development processing) including white balance adjustment, and the corrected captured image is transmitted to the information processing terminal 200.
  • the RAW data transmitted from the information processing terminal 200 does not need to have a low resolution.
  • this embodiment is performed to adjust the white balance of a captured image captured by an information processing terminal 200 such as a smartphone or a camera.
  • the information processing apparatus 100 constructs a learning model for estimating the WB gain for adjusting the white balance.
  • the information processing terminal 200 estimates the WB gain and adjusts the white balance of the captured image by using the constructed learning model. Therefore, the main processing according to the present embodiment is divided into a learning phase by the information processing apparatus 100 and a recognition (estimation) phase by the information processing terminal 200.
  • FIG. 4 is a diagram showing an example of general AWB processing.
  • An information processing terminal 200 such as a smartphone or a camera converts the light of a subject incident through a camera lens into RAW data by an image sensor.
  • Raw data is, for example, signals arranged in a Bayer array by a Bayer filter.
  • RAW data is converted into a low resolution (for example, 32 ⁇ 32) image signal and input to the AWB algorithm.
  • the shooting parameters such as AE (Auto Exposure) value (EV), AF (Auto Focus) value, IR (Infrared) value, shutter speed, AGC (Auto Gain, Control),
  • AE Auto Exposure
  • AF Auto Focus
  • IR Infrared
  • shutter speed shutter speed
  • AGC Automatic Gain, Control
  • Various external sensing information such as ISO sensitivity, scene information, indoor / outdoor, strobe On / Off, face recognition, and recognition information may be input together with the AWB algorithm.
  • the input signal is normalized by adjusting the brightness and saturation and eliminating the model dependence of the camera device.
  • a light source such as sunlight or light is estimated, and color correction is performed for each RGB component so that the reference white (strictly, gray) in the image is white.
  • other correction processing such as leaving a specific tint or relaxing the bluish tint when using the strobe is performed, and the WB gain (R gain, G gain, B gain) which is the adjustment value of each color is converted. Is output.
  • the processing of the light source estimation and the color tone correction of the AWB algorithm is realized by using the WB gain output model which is a learning model.
  • the processing for the WB gain output model is mainly divided into a learning phase and an estimation phase.
  • the learning phase the RAW data of the captured image or the image (signal) obtained by converting the RAW data to a low resolution is input, and the adjustment value (that is, WB gain) when the white balance is adjusted for the image is the correct answer.
  • the WB gain output model is trained using the data.
  • the RAW data of the captured image or an image (signal) obtained by converting the RAW data into a low resolution is input to the WB gain output model of the captured image, and the WB gain for the image is estimated.
  • FIG. 5 is a diagram showing an example of the learning phase of the WB gain output model according to the present embodiment.
  • a captured image captured by an information processing terminal 200 such as a smartphone or a camera is converted into, for example, a 32 ⁇ 32 low resolution image.
  • the number of pixels included in each of the 32 ⁇ 32 regions may be constant or different.
  • the number of pixels included in each region may be divided so as to be constant, and the pixels corresponding to the fractional number of pixels may be included in the region of the outer edge of the captured image.
  • the WB gain output model learns the captured image converted to low resolution and the correct answer data.
  • the correct answer data is the WB gain
  • the RGB value of the captured image recognized by the camera sensor tends to have a stronger G value, so strictly speaking, it is multiplied by the R value and the B value of the captured image. Values, i.e. R gain and B gain.
  • the original image (RAW data) before adjustment of the photographed image (corresponding to the second photographed image) whose white balance is adjusted by the conventional algorithm is used as the photographed image, and the photographed image thereof is used.
  • the adjustment value (for example, WB gain, which corresponds to the second image correction parameter) can be used as the correct answer data.
  • the WB gain output model can be further trained with the metadata of the captured image in order to further improve the estimation accuracy.
  • the metadata may be, for example, AE value, AF value, IR value, shutter speed, AGC, ISO sensitivity, scene information, indoor / outdoor, strobe On / Off, face recognition, recognition information, etc. of the captured image.
  • the recognition information is, for example, an authentication result such as face recognition of a person when the subject includes a person, or the position of the face.
  • the metadata may include a ToF (Time of Flight), which is a distance to a specific subject, and a main subject in the subject.
  • the main subject is a subject (for example, a person or a flower) that the user wants to shoot.
  • the metadata learning is input as a set with the captured image which is the input data at the time of learning the WB gain output model.
  • the main subject can be estimated using a learning model in which the captured image is input and the teacher data with the main subject data as the correct answer is learned.
  • the main subject data to be trained by such a main subject detection model is, for example, an object that is the main subject extracted from the captured image.
  • FIG. 6 is a diagram showing an example of extraction of the main subject object according to the present embodiment.
  • the left side of FIG. 6 is a photographed image of a cat in a living room with a window overlooking the outside scenery.
  • the right side of FIG. 6 is an image of a cat, which is the main subject, extracted.
  • -A learning model is generated by extracting objects such as, etc., and training an image showing an object that can be the main subject and a mask image masking the main subject part. With such a learning model, an appropriate main subject can be determined from the captured image.
  • the depth of the subject may be used as the teacher data of the learning model. This makes it possible to generate a learning model that takes into account the distance to the subject. It is also possible to perform deep learning by RNN (Recurrent Neural Network) that inputs time-series data including captured images of past frames of captured moving images.
  • RNN Recurrent Neural Network
  • FIG. 7 is a diagram showing an example of generation of a main subject MAP according to the present embodiment.
  • the main subject degree (probability of being the main subject, for example, a value of 0 to 1) is calculated for each predetermined area of the captured image, and the main subject MAP in which each predetermined area is mapped to the main subject degree is obtained.
  • the main subject area is determined. As shown on the left side of FIG. 7, each predetermined area is determined, for example, by dividing the captured image into vertical 9 ⁇ horizontal 11.
  • the number of regions to be divided is not limited to 9 in the vertical direction and 11 in the horizontal direction, and the number of pixels included in each region may be constant or different.
  • the number of pixels included in each region may be divided so as to be constant, and the pixels corresponding to the fractional number of pixels may be included in the region of the outer edge of the captured image.
  • the main subject degree is calculated using the learning model generated as described in FIG. 6, and the main subject MAP is generated.
  • the right side of FIG. 7 is an example of the generated main subject MAP.
  • the main subject MAP shows the main subject degree calculated for each area.
  • the region including the “flower” in the captured image shows a high degree of main subject.
  • the regions having a high degree of main subject are concentrated in one place, but the regions having a high degree of main subject may be dispersed or absent depending on the captured image.
  • FIG. 8 is a diagram showing an example of the estimation phase of the WB gain output model according to the present embodiment.
  • the RAW data or the RAW data of the captured image taken by the information processing terminal 200 such as a smartphone or a camera is converted to a low resolution on the trained WB gain output model (in some cases, further captured).
  • the image metadata is input, the R gain and B gain, which are image correction parameters for adjusting the white balance of the captured image, are output as the estimation result.
  • the re-learning of the WB gain output model will be described.
  • For re-learning of the WB gain output model for example, using the WB gain output model constructed by inputting a captured image and learning teacher data with the WB gain as the correct answer, the above-mentioned outdoor, indoor, dark place, etc. Shoot various scenes. Then, a human judges a scene in which the white balance is not appropriate from the captured images of various scenes, prepares the captured image of the scene and the optimum WB gain for the captured image, and obtains these as teacher data. As a result, the WB gain output model is retrained.
  • Another example is re-learning using feedback from users. This is because when the user adjusts the white balance of the image captured by the information processing terminal 200 by himself / herself using an image processing application or the like, the information processing terminal 200 transmits the WB gain at this time to the information processing device 100. Then, the information processing terminal 200 relearns the WB gain output model as the captured image, the WB gain, and the teacher data.
  • the captured image is transmitted to the information processing device 100 in advance, for example, the information processing terminal 200 acquires the captured image in the information processing device 100 by transmitting the identification number of the captured image together with the WB gain. I do.
  • the WB gain output model is learned according to the preference of a specific user, but it is relearned as a common WB gain output model by using feedback from not only the specific user but also other users. May be done.
  • the re-learning of the WB gain output model may be executed when the error is equal to or greater than a predetermined threshold value. Further, the re-learning of the WB gain output model may be performed by transfer learning.
  • FIG. 9 is a diagram showing an example of transfer learning of the WB gain output model according to the present embodiment.
  • a convolutional neural network CNN
  • CNN convolutional neural network
  • FIG. 9 when the captured image is input to the WB gain output model, the visual features of the image are structured into semantic features via the feature extraction layers (convolution layers) 200-1 to 200-5. ..
  • the feature amount extraction layers 200-1 to 200-5 in FIG. 9 are examples, and the depth of the layers is not limited to five.
  • the feature amount output from the feature amount extraction layer 200-5 is input to the fully connected layer 300, and the R gain and B gain which are the estimation results are output.
  • the transfer learning is not limited to the entire fully connected layer 300, and can be relearned including only the latter half of the fully connected layer 300 or a part of the feature amount sampling layers 200-1 to 200-5.
  • the correct answer data to be trained by the WB gain output model is, for example, the WB gain for adjusting the reference gray in the captured image to the original color.
  • a WB gain for adjusting to various hues is output from the WB gain output model, and the captured image is, for example, retro using the WB gain. You can adjust the color tones as if they were taken with a simple camera, or to special colors such as sepia toning.
  • FIG. 10 is a block diagram showing a hardware configuration example of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 includes, for example, a processor 801 and a ROM 802, a RAM 803, a host bus 804, a bridge 805, an external bus 806, an interface 807, an input device 808, and an output device 809.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the processor 801 functions as, for example, an arithmetic processing unit or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 802, RAM 803, storage 810, or removable recording medium 901. ..
  • the ROM 802 is a means for storing a program read into the processor 801 and data used for calculation.
  • the RAM 803 temporarily or permanently stores, for example, a program read into the processor 801 and various parameters that change as appropriate when the program is executed.
  • the processors 801, ROM 802, and RAM 803 are connected to each other via, for example, a host bus 804 capable of high-speed data transmission.
  • the host bus 804 is connected to the external bus 806, which has a relatively low data transmission speed, via, for example, the bridge 805.
  • the external bus 806 is connected to various components via the interface 807.
  • Input device 808 For the input device 808, for example, a mouse, a keyboard, a touch panel, buttons, switches, levers, and the like are used. Further, as the input device 808, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 808 includes a voice input device such as a microphone.
  • the output device 809 provides the user with acquired information such as a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or headphones, a printer, a mobile phone, or a facsimile. It is a device that can notify visually or audibly. Further, the output device 809 according to the present embodiment includes various vibration devices capable of outputting tactile stimuli.
  • the storage 810 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like is used.
  • the drive 811 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • connection port 812 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, or an optical audio terminal.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, or an optical audio terminal.
  • the communication device 813 is a communication device for connecting to a network, and is, for example, a communication card for wired or wireless LAN, Bluetooth (registered trademark), or WUSB (Wireless USB), a router for optical communication, and ADSL (Asymmetric Digital). A router for Subscriber Line), a modem for various communications, and the like.
  • the removable recording medium 901 is, for example, a DVD media, a Blu-ray (registered trademark) media, an HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • the externally connected device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the storage unit 110 is realized by the ROM 802, the RAM 803, and the storage 810. Further, the control unit 150 according to the present embodiment realized by the processor 801 transfers each control program for realizing the acquisition unit 120, the conversion unit 130, the learning unit 140, the estimation unit 240, and the adjustment unit 250 from the ROM 802, RAM 803, or the like. Read and execute.
  • the acquisition unit that acquires the captured image of the subject and the teacher data that inputs the captured image and sets the image correction parameter for adjusting the white balance of the captured image as the correct answer are learned.
  • An information processing apparatus includes a learning unit that learns a model that generates a first image correction parameter for adjusting the white balance of the first image from the first image.
  • the present technology can also have the following configurations.
  • An acquisition unit that acquires a captured image of the subject, and The first to adjust the white balance of the first image from the first image by inputting the captured image and learning the teacher data having the image correction parameter for adjusting the white balance of the captured image as the correct answer.
  • An information processing device including a learning unit that learns a model that generates the image correction parameter of 1.
  • the information processing apparatus according to (1) above, wherein the image correction parameter and the first image correction parameter are white balance gains.
  • the information processing device (8) The information processing device according to (7), wherein the metadata is an EV value, an IR value, recognition information for the subject, a distance to the subject, and at least one of the main subjects in the subject.
  • the captured image is a low-resolution image whose resolution is reduced to a predetermined frequency.
  • An acquisition unit that acquires a first image in which the first subject is captured, and The first image is obtained by inputting the first image into a model in which the captured image in which the subject is captured is input data and the image correction parameter for adjusting the white balance of the captured image is learned as correct data.
  • An information processing device including an estimation unit that estimates a first image correction parameter for adjusting the white balance of the image.
  • the information processing apparatus according to (10) above, wherein the image correction parameter and the first image correction parameter are white balance gains.
  • the input of the model further includes metadata of the captured image.
  • the metadata is at least one of the EV value and IR value of the captured image, the recognition information for the subject, the distance to the subject, and the main subject in the subject, and the metadata is the metadata.
  • the information processing apparatus according to (12).
  • the information processing apparatus according to any one of (10) to (13) above, wherein the captured image and the first image are low-resolution images whose resolution is reduced to a predetermined frequency.
  • the information processing device Acquire the captured image of the subject, The first image correction parameter for adjusting the white balance of the first image from the first image, using the captured image as input data and the image correction parameter for adjusting the white balance of the captured image as correct answer data. A method of performing processing that trains a model that produces.
  • the information processing device Acquire the first image in which the first subject was taken, The first image is obtained by inputting the first image into a model in which the captured image in which the subject is captured is input data and the image correction parameter for adjusting the white balance of the captured image is learned as correct data.
  • a method of performing a process of estimating a first image correction parameter for adjusting the white balance of a (17) For information processing equipment Acquire the captured image of the subject, The first image correction parameter for adjusting the white balance of the first image from the first image, using the captured image as input data and the image correction parameter for adjusting the white balance of the captured image as correct answer data. A program that executes the process of training the model that generates the image. (18) For information processing equipment Acquire the first image in which the first subject was taken, By inputting the first image into a model in which the photographed image in which the subject is photographed is input and the teacher data in which the image correction parameter for adjusting the white balance of the photographed image is the correct answer is learned, the first image is input.
  • a program that executes a process of estimating a first image correction parameter for adjusting the white balance of an image (19) A model in which a photographed image in which a subject is photographed is input, and teacher data is learned in which an image correction parameter for adjusting the white balance of the photographed image is the correct answer.
  • each element belonging to each layer other than the output layer is set as the first element, and an operation based on the weight of the first element and the first element is performed.
  • a model for making the information processing apparatus function so as to output the first image correction parameter from the output layer.
  • Information processing device 110 Storage unit 120 Acquisition unit 130 Conversion unit 140 Learning unit 150 Control unit 200 Information processing terminal 210 Storage unit 220 Acquisition unit 230 Imaging unit 240 Estimating unit 250 Adjustment unit 260 Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Color Television Image Signal Generators (AREA)
  • Processing Of Color Television Signals (AREA)

Abstract

被写体が撮影された撮影画像を取得する取得部と、撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う学習部とを備えた、情報処理装置が提供される。このような情報処理装置により、様々な撮影画像のホワイトバランスをより容易に調整することができる。

Description

情報処理装置、方法、プログラム、およびモデル
 本開示は、情報処理装置、方法、プログラム、およびモデルに関する。
 カメラやビデオカメラなどにおいて、光源の影響により発生する被写体の色かぶり(特定の色に偏ること)を補正し、適切なホワイトバランスに調整するオートホワイトバランス(AWB:Auto White Balance)機能がある。AWB機能は、携帯電話やスマートフォンなどカメラ機能を搭載した端末にも備わっている場合が多い。
特開2017-055231号公報
 しかしながら、AWB機能は、物理現象と開発者のノウハウに基づいて構築されたアルゴリズムによって実現される。このようなアルゴリズムは、様々な撮影画像に対応するために複雑化する一方で、開発者への依存度が高く、より多くの撮影画像(例えば、茶色い被写体を引き込み過ぎて全体的に青味がかってしまうなどの特定色の引き込み画像)に対応することが実質的に困難になっている。
 そこで、本開示では、様々な撮影画像のホワイトバランスをより容易に調整することができる情報処理装置、方法、プログラム、およびモデルを提案する。
 本開示によれば、被写体が撮影された撮影画像を取得する取得部と、撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う学習部とを備えた、情報処理装置が提供される。
 また、本開示によれば、第1の被写体が撮影された第1の画像を取得する取得部と、被写体が撮影された撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、第1の画像を入力することにより、第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する推定部とを備えた、情報処理装置が提供される。
 また、本開示によれば、情報処理装置が、被写体が撮影された撮影画像を取得し、撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う処理を実行する、方法が提供される。
 また、本開示によれば、情報処理装置が、第1の被写体が撮影された第1の画像を取得し、被写体が撮影された撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、第1の画像を入力することにより、第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する処理を実行する、方法が提供される。
 また、本開示によれば、情報処理装置に、被写体が撮影された撮影画像を取得し、撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う処理を実行させる、プログラムが提供される。
 また、本開示によれば、情報処理装置に、第1の被写体が撮影された第1の画像を取得し、被写体が撮影された撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、第1の画像を入力することにより、第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する処理を実行させる、プログラムが提供される。
 また、本開示によれば、被写体が撮影された撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルであって、第1の画像が入力される入力層と、第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを出力する出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素とを含み、入力層に入力された第1の画像に応じて、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、第1の画像補正パラメータを出力層から出力するように情報処理装置を機能させるためのモデルが提供される。
ホワイトバランス調整の従来法と本実施形態に係る方法との違いを示す図である。 本実施形態に係る情報処理装置100の機能構成例を示すブロック図である。 本実施形態に係る情報処理端末200の機能構成例を示すブロック図である。 一般的なAWB処理の一例を示す図である。 本実施形態に係るWBゲイン出力モデルの学習フェーズの一例を示す図である。 同実施形態に係る主要被写体オブジェクトの抽出の一例を示す図である。 同実施形態に係る主要被写体MAPの生成の一例を示す図である。 同実施形態に係るWBゲイン出力モデルの推定フェーズの一例を示す図である。 同実施形態に係るWBゲイン出力モデルの転移学習の一例を示す図である。 同実施形態に係る情報処理装置100のハードウェア構成例を示すブロック図である。
 以下に、本実施形態について図面に基づいて詳細に説明する。なお、本明細書および図面において、実質的に同一の部位には、同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.機能構成例
  1.2.機能の詳細
  1.3.変形例
 2.ハードウェア構成例
 3.まとめ
<1.実施形態>
 まず、本実施形態は、スマートフォンやカメラなどの情報処理端末200によって撮影される様々な撮影画像のホワイトバランスをより容易に調整することを目的としている。図1は、ホワイトバランス調整の従来法と本実施形態に係る方法との違いを示す図である。図1の左側は、ホワイトバランス調整の従来法のイメージを示している。図1の左側に示されるように、従来法は、撮影画像に対する光源推定から始まり、様々な撮影画像のホワイトバランス調整に対応するために多数の判定処理が付け加えられ、複雑化している。例えば、屋外、屋内、暗所で撮影された画像、太陽の光が強い等、高輝度の下で撮影された画像、色温度が高いところで撮影された画像、色温度が低いところで撮影された画像、各種光源(蛍光灯、LED、電球など)の下で撮影された画像、特殊光源(水銀灯など)の下で撮影された画像、人物を撮影した画像、料理を撮影した画像など、様々なシーンで部類可能な撮影画像には、それぞれ最適なホワイトバランスの調整処理が存在する。
 そこで、従来法に置き換わる本実施形態では、図1の右側に示すように、撮影画像を入力すると画像補正パラメータであるWBゲインを出力するような学習モデルを構築する。これにより、様々な撮影画像に対応するために、既存アルゴリズムを変更するのではなく、既存モデルに対する学習および再学習を行えば済むようになり、開発者の負担を減らすことができる。
<<1.1.機能構成例>>
 次に、本実施形態に係る情報処理装置100の機能構成例について説明する。情報処理装置100は、情報処理端末200のメーカーによって管理されるサーバ装置であってもよいし、据え置き端末やノートPC(Personal Computer)であってもよい。なお、情報処理装置100は、クラウドコンピューティングサービスを提供する企業によって管理されるクラウドサーバ装置であってもよい。また、情報処理装置100は1台のコンピュータで構成される必要はなく、複数台のコンピュータで構成される分散型コンピューティングシステムであってもよい。
 図2は、本実施形態に係る情報処理装置100の機能構成例を示すブロック図である。図2に示すように、本実施形態に係る情報処理装置100は、記憶部110、取得部120、変換部130、学習部140、制御部150を備える。
(記憶部110)
 本実施形態に係る記憶部110は、各種プログラムやデータを一時的または恒常的に記憶するための記憶領域である。記憶部110には、情報処理装置100が各種機能を実行するためのプログラムやデータが記憶されてよい。具体的な一例として、記憶部110には、撮影画像を変換し、低解像度画像を得るためのプログラムやパラメータ、撮影画像からWBゲインを出力するための学習モデルや学習のための正解データ、各種設定などを管理するための管理データなどが記憶されてよい。もちろん、上記はあくまで一例であり、記憶部110に記憶されるデータの種別は特に限定されない。
(取得部120)
 本実施形態に係る取得部120は、WBゲイン出力モデルの学習を行うため、記憶部110、または情報処理装置100とは別の装置に、予め準備され記憶されたホワイトバランス調整前の原画像および当該原画像に対して最適なWBゲインを取得する。特に、WBゲイン出力モデルの教師データが偏らないようにするため、上述したような屋外、屋内、暗所など様々なシーンで撮影された撮影画像の原画像およびWBゲインを取得する。また、本実施形態では、教師データの準備負担を軽減させること、および従来法の精度を維持することなどのため、図1で説明したような従来法のアルゴリズムによって調整された撮影画像の調整前の原画像およびWBゲインを取得する。
(変換部130)
 本実施形態に係る変換部130は、取得部120によって取得された撮影画像を、所定の度数まで解像度を落とした低解像度画像に変換する。所定の度数とは、例えば、32×32の解像度であるが、32×32より多くても少なくてもよい。撮影画像の解像度をある程度落としても、WBゲイン出力モデルの学習および推定の精度に影響がないことがわかっており、これにより、学習時や推定時の処理負荷を軽減させることができる。しかしながら、情報処理装置100や、WBゲイン出力モデルを用いてWBゲインの推定を行うスマートフォンやカメラなど情報処理端末200の性能によっては、撮影画像を高解像度のままで学習することにより、学習および推定の精度を向上させることができる。
(学習部140)
 本実施形態に係る学習部140は、撮影画像を入力、WBゲインを正解とする教師データを学習して学習モデルを構築する。上述したように、低解像度画像を用いる場合、教師データとして入力される撮影画像は、変換部130によって変換された低解像度画像である。なお、正解データであるWBゲインは、撮影画像中の基準となる白(厳密には、例えば、18%グレー)の画素を指定することにより生成される。また、正解データであるWBゲインは、撮影画像の光源およびシーンごとに選択されたホワイトバランスアルゴリズムを用いて算出してもよい。
 なお、本実施形態の学習モデルは、被写体が撮影された撮影画像が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された撮影画像に応じて、出力層以外の各層に属する各要素を第1要素として、第1要素と前記第1要素の重みとに基づく演算を行うことにより、撮影画像のホワイトバランスを調整するための画像補正パラメータを出力層から出力するよう、情報処理装置100を機能させる。なお、当該画像補正パラメータとは、例えば、WBゲインである。
 なお、本実施形態の学習モデルを生成する生成装置(例えば、サーバ装置などの情報処理装置100)は、いかなる学習アルゴリズムを用いて上述の学習モデルを生成してもよい。例えば、生成装置は、ニューラルネットワーク(NN:Neural Network)、サポートベクターマシン(SVM:Support Vector Machine)、強化学習などの学習アルゴリズムを用いて本実施形態の学習モデルを生成してもよい。一例として、生成装置がNNを用いて本実施形態の学習モデルを生成するとする。この場合、学習モデルは、1つ以上のニューロンを含む入力層と、1つ以上のニューロンを含む中間層と、1つ以上のニューロンを含む出力層とを有していてもよい。
 ここで、本実施形態に係る学習モデルが「y=a*x+a*x+・・・+a*x」で示す回帰モデルで実現されるとする。この場合、学習モデルが含む第1要素は、xやxなどといった入力データ(x)に対応する。また、第1要素の重みは、xに対応する係数aに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンとみなすことができる。各モデルを単純パーセプトロンとみなした場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードとみなすことができる。
 また、本実施形態に係る学習モデルがDNN(Deep Neural Network)など、1つまたは複数の中間層を有するNNで実現されるとする。この場合、学習モデルが含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
 上述した回帰モデルやNNなど、任意の構造を有する学習モデルを用いて、任意の撮影画像のホワイトバランスを調整するための画像補正パラメータを算出する。より具体的には、学習モデルは、任意の撮影画像が入力された場合に、当該撮影画像のホワイトバランスを調整するための画像補正パラメータを出力するように係数が設定される。本実施形態に係る学習モデルは、データの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。
 なお、上記例では、本実施形態に係る学習モデルが、任意の撮影画像が入力された場合に、当該撮影画像のホワイトバランスを調整するための画像補正パラメータを出力するモデル(モデルAとする)である例を示した。しかしながら、本実施形態に係る学習モデルは、モデルAに対しデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、本実施形態に係る学習モデルは、任意の撮影画像を入力とし、モデルAが出力する当該撮影画像のホワイトバランスを調整するための画像補正パラメータを出力とする学習モデル(モデルBとする)であってもよい。または、本実施形態に係る学習モデルは、任意の撮影画像を入力とし、モデルBが出力する当該撮影画像のホワイトバランスを調整するための画像補正パラメータを出力とする学習モデルであってもよい。
(制御部150)
 本実施形態に係る制御部150は、情報処理装置100全体を司る処理部であり、情報処理装置100が備える各構成を制御する。制御部150が有する機能の詳細については後述される。
 以上、本実施形態に係る情報処理装置100の機能構成例について説明した。なお、図2を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置100の機能構成は係る例に限定されない。例えば、情報処理装置100は、必ずしも図2に示す構成のすべてを備えなくてもよい。本実施形態に係る情報処理装置100の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 また、各構成要素の機能を、CPU(Central Proccessing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体から制御プログラムを読み出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜利用する構成を変更することが可能である。また、情報処理装置100のハードウェア構成の一例については後述される。
 次に、本実施形態に係る情報処理端末200の機能構成例について説明する。情報処理端末200は、カメラ装置や、カメラ機能を搭載したスマートフォンやタブレットPCなどである。
 図3は、本実施形態に係る情報処理端末200の機能構成例を示すブロック図である。図3に示すように、本実施形態に係る情報処理端末200は、記憶部210、取得部220、撮影部230、推定部240、調整部250、制御部260を備える。
(記憶部210)
 本実施形態に係る記憶部210は、情報処理装置100の記憶部110と同様の記憶領域であり、情報処理端末200が各種機能を実行するためのプログラムやデータが記憶されてよい。具体的な一例として、記憶部210には、撮影画像やそのRAWデータ、情報処理装置100によって構築された学習モデル、各種設定などを管理するための管理データなどが記憶されてよい。もちろん、上記はあくまで一例であり、記憶部210に記憶されるデータの種別は特に限定されない。
(取得部220)
 本実施形態に係る取得部220は、情報処理装置100によって構築された学習モデルを取得する。なお、情報処理端末200で学習モデルを持たず、情報処理装置100によって、ホワイトバランスを調整するための画像補正パラメータを推定する場合は、学習モデルを取得する必要はない。
(撮影部230)
 本実施形態に係る撮影部230は、制御部260による制御に基づいて動画や写真の撮影を行う。撮影部230は、撮像素子、フォーカスリングやズームレンズなどを備える。撮影部230によって撮影された動画や写真はデジタルデータに変換され、記憶部210に記憶される。
(推定部240)
 本実施形態に係る推定部240は、情報処理装置100によって構築された学習モデルを用いて、撮影部230によって撮影された撮影画像のホワイトバランスを調整するための画像補正パラメータを推定する。
(調整部250)
 本実施形態に係る調整部250は、推定部240によって推定された画像補正パラメータを用いて、対応する撮影画像のホワイトバランスを調整する。上述したように、画像補正パラメータは、例えば、WBゲインである。調整部250は、WBゲインを用いて、撮影画像において基準となる白(厳密には、例えば、18%グレー)が本来の色となるよう撮影画像のホワイトバランスを調整する。
 なお、以下のような場合、情報処理端末200は、推定部240や調整部250を有さなくてもよい。このようなパターンは、例えば、以下のような2パターンがある。
 1パターン目は、画像補正パラメータの推定を情報処理装置100によって行う場合である。この場合、情報処理端末200は、推定部240を有さなくてよい。この場合の具体的な処理は、情報処理端末200が撮影した画像のRAWデータを情報処理装置100に送信する。そして、情報処理装置100は推定部240と同様の処理部を持ち、当該処理部が、受信したRAWデータを学習モデルに入力し画像補正パラメータを推定する。さらに、情報処理装置100は、推定した画像補正パラメータを情報処理端末200に送信し、情報処理端末200が、受信した画像補正パラメータを用いてホワイトバランス調整を行う。なお、情報処理端末200から送信されるRAWデータは、画像補正パラメータの推定まで性能の高い情報処理装置100で行うため、必ずしも低解像度化されたものである必要はない。
 2パターン目は、画像補正パラメータの推定、および画像補正パラメータを用いたホワイトバランス調整を含む現像処理全般を情報処理装置100によって行う場合である。この場合、情報処理端末200は、推定部240および調整部250を有さなくてよい。この場合の具体的な処理は、情報処理端末200が撮影した画像のRAWデータを情報処理装置100に送信する。そして、情報処理装置100は推定部240および調整部250と同様の処理部を持ち、当該処理部が、受信したRAWデータを学習モデルに入力し画像補正パラメータを推定し、推定した画像補正パラメータを用いてホワイトバランス調整を含む各種補正(現像処理)を実行し、補正後の撮影画像を情報処理端末200に送信する。こちらのパターンの場合も、情報処理端末200から送信されるRAWデータは、低解像度化されたものである必要はない。
<<1.2.機能の詳細>>
 次に、本実施形態に係る情報処理装置100および情報処理端末200が有する機能について詳細に説明する。まず、本実施形態は、スマートフォンやカメラなどの情報処理端末200によって撮影された撮影画像のホワイトバランスを調整するために行われる。本実施形態では、情報処理装置100が、ホワイトバランスを調整するWBゲインを推定するための学習モデルを構築する。そして、情報処理端末200が、構築された学習モデルを用いて、WBゲインを推定し、撮影画像のホワイトバランスを調整する。そのため、本実施形態に係る主な処理は情報処理装置100による学習フェーズと、情報処理端末200による認識(推定)フェーズに分かれる。
 まず、本実施形態について説明する前に、一般的なAWB処理について説明する。図4は、一般的なAWB処理の一例を示す図である。スマートフォンやカメラなどの情報処理端末200は、カメラレンズを通して入射した被写体の光をイメージセンサによってRAWデータに変換する。RAWデータは、例えば、べイヤー(Bayer)フィルタによってべイヤ配列に並べられた信号である。
 RAWデータは、低解像度(例えば、32×32)画像信号に変換され、AWBアルゴリズムに入力される。この際、撮影パラメータである、AE(Auto Exposure:自動露出)値(EV)、AF(Auto Focus:自動フォーカス)値、IR(Infrared:赤外線)値、シャッタースピード、AGC(Auto Gain、Control)、ISO感度、シーン情報、屋内/屋外、ストロボOn/Off、顔認証、認識情報など各種外部センシング情報がAWBアルゴリズムに併せて入力されてもよい。
 次に、入力された信号に対し、明度や彩度の調整やカメラ装置の機種依存を排除する正規化が行われる。次に、太陽光やライトなどの光源が推定され、RGBの成分ごとに画像中の基準となる白(厳密にはグレー)を白とするよう色味補正が行われる。そして、特定の色味を残したり、ストロボ使用時の青味を緩和したりするなどその他の補正処理が行われ、各色の調整値であるWBゲイン(Rゲイン、Gゲイン、Bゲイン)に変換され、出力される。
 本実施形態では、AWBアルゴリズムの光源推定および色味補正の処理を、学習モデルであるWBゲイン出力モデルを用いて実現する。WBゲイン出力モデルに対する処理は、主に、学習フェーズと推定フェーズとに分かれる。学習フェーズでは、撮影画像のRAWデータまたはRAWデータを低解像度に変換した画像(信号)を入力、当該画像に対しホワイトバランス調整を行った際の調整値(すなわち、WBゲイン)を正解とする教師データを用いてWBゲイン出力モデルの学習を行う。また、推定フェーズでは、撮影画像のWBゲイン出力モデルに、撮影した画像のRAWデータまたはRAWデータを低解像度に変換した画像(信号)を入力し、当該画像に対するWBゲインを推定する。
 図5は、本実施形態に係るWBゲイン出力モデルの学習フェーズの一例を示す図である。図5に示すように、まず、スマートフォンやカメラなどの情報処理端末200によって撮影された撮影画像を、例えば、32×32の低解像度画像に変換する。なお、32×32の各領域に含まれる画素数は一定であっても異なってもよい。例えば、各領域に含まれる画素数が一定になるように分割し、端数の画素数分の画素は撮影画像外縁の領域に含めるようにしてもよい。
 次に、低解像度に変換された撮影画像と、その正解データとをWBゲイン出力モデルに学習させる。なお、正解データはWBゲインであるが、カメラセンサーによって認識され撮影された撮影画像のRGB値はG値が強くなる傾向になるため、厳密には、撮影画像のR値およびB値に乗算する値、すなわち、RゲインおよびBゲインである。また、WBゲイン出力モデルの学習には、従来法のアルゴリズムによってホワイトバランス調整された撮影画像(第2の撮影画像に相当)の調整前の原画像(RAWデータ)を撮影画像として、および、その際の調整値(例えば、WBゲイン。第2の画像補正パラメータに相当)を正解データとして用いることができる。
 また、WBゲイン出力モデルにはより推定精度を高めるために、撮影画像のメタデータをさらに学習させることができる。これにより、以下のようなメタデータを考慮した学習モデルを生成することができる。当該メタデータは、例えば、撮影画像のAE値、AF値、IR値、シャッタースピード、AGC、ISO感度、シーン情報、屋内/屋外、ストロボOn/Off、顔認証、認識情報などであってよい。認識情報は、例えば、被写体に人物が含まれる場合に人物を顔認識などした認証結果や顔の位置である。さらに、当該メタデータは、特定の被写体までの距離であるToF(Time of Flight)や、被写体中の主要被写体を含んでもよい。なお、主要被写体とは、ユーザが撮影したいと考えている被写体(例えば、人物や花)である。なお、メタデータの学習は、WBゲイン出力モデルの学習の際の入力データである撮影画像とセットで入力されることになる。
 主要被写体は、撮影画像を入力、主要被写体データを正解とする教師データを学習した学習モデルを用いて推定することができる。このような主要被写体検出モデルに学習させる主要被写体データは、例えば、撮影画像から抽出された主要被写体となるオブジェクトである。
 図6は、本実施形態に係る主要被写体オブジェクトの抽出の一例を示す図である。図6の左側は、外の景色が見える窓のあるリビングにいる猫の撮影画像である。これに対し、図6の右側は、主要被写体である猫を抽出した画像である。このように、様々な撮影画像から、主要被写体になり得る、人、動植物、建築物、車や飛行機などの移動体、文字や看板、玩具、電化製品、料理、衣類、アクセサリ、天体、・・・などのオブジェクトを抽出し、主要被写体になり得るオブジェクトが写った画像と主要被写体部分をマスクしたマスク画像とを学習させることで学習モデルを生成する。このような学習モデルにより、撮影画像から適切な主要被写体を決定することができる。また、学習モデルの教師データとして、被写体の深度を用いてもよい。これにより、被写体までの距離を考慮した学習モデルを生成することができる。また、撮影動画の過去のフレームの撮影画像を含めた時系列データを入力とするRNN(Recurrent Neural Network)による深層学習を行うこともできる。
 次に、図7を用いて、撮影画像から主要被写体を決定するための主要被写体MAPの生成方法について説明する。図7は、本実施形態に係る主要被写体MAPの生成の一例を示す図である。本実施形態では、撮影画像の所定領域ごとに主要被写体度(主要被写体である確率。例えば、0~1の値。)を算出し、各所定領域と主要被写体度とをマッピングした主要被写体MAPを生成することで、主要被写体領域が決定される。図7の左側に示すように、各所定領域は、例えば、撮影画像を縦9×横11に分割することで決定される。なお、分割する領域数は縦9×横11に限定されず、各領域に含まれる画素数は一定であっても異なってもよい。例えば、各領域に含まれる画素数が一定になるように分割し、端数の画素数分の画素は撮影画像外縁の領域に含めるようにしてもよい。
 図7の左側において分割した撮影画像の各領域に対して、図6での説明のように生成された学習モデルを用いて主要被写体度が算出され、主要被写体MAPが生成される。図7の右側が生成された主要被写体MAPの一例である。図7の右側に示すように、主要被写体MAPには、領域ごとに算出された主要被写体度が示されている。図7の例では、撮影画像における“花”を含んだ領域が高い主要被写体度を示している。なお、図7の例では、主要被写体度の高い領域が一箇所に集まっているが、撮影画像によっては主要被写体度の高い領域が分散したり、無かったりする場合もあり得る。
 次に、図5に示すように撮影画像およびWBゲイン(場合によってはさらに撮影画像のメタデータ)を用いて学習させたWBゲイン出力モデルの推定フェーズについて説明する。図8は、本実施形態に係るWBゲイン出力モデルの推定フェーズの一例を示す図である。図8に示すように、学習済みのWBゲイン出力モデルに、スマートフォンやカメラなどの情報処理端末200によって撮影された撮影画像のRAWデータまたはRAWデータを低解像度に変換した画像(場合によってはさらに撮影画像のメタデータ)を入力すると、推定結果として、撮影画像のホワイトバランスを調整するための画像補正パラメータであるRゲインおよびBゲインが出力される。
 次に、WBゲイン出力モデルの再学習について説明する。WBゲイン出力モデルの再学習は、例えば、撮影画像を入力、WBゲインを正解とする教師データを学習して構築されたWBゲイン出力モデルを用いて、上述したような屋外、屋内、暗所など様々なシーンを撮影する。そして、様々なシーンの撮影画像の中からホワイトバランスが適切ではないシーンを人間が判断し、当該シーンの撮影画像と、当該撮影画像に対して最適なWBゲインを準備して、これらを教師データとしてWBゲイン出力モデルの再学習を行う。
 また、別の例として、ユーザからのフィードバックを利用した再学習がある。これは、情報処理端末200で撮影された画像を、ユーザが自ら、画像加工アプリケーションなどを用いてホワイトバランス調整した場合に、情報処理端末200は、この際のWBゲインを情報処理装置100に送信し、情報処理端末200は、撮影画像と当該WBゲインと教師データとしてWBゲイン出力モデルの再学習を行う。なお、撮影画像は予め情報処理装置100に送信されている場合は、例えば、情報処理端末200が、撮影画像の識別番号をWBゲインと併せて送信することで情報処理装置100において撮影画像の取得を行う。これにより、WBゲイン出力モデルは、特定ユーザの好みに合わせた学習が行われることになるが、特定ユーザのみならず他のユーザからのフィードバックを利用して、共通のWBゲイン出力モデルとして再学習を行ってもよい。
 また、WBゲイン出力モデルから出力された推定結果と、正解データとの誤差を用いて、WBゲイン出力モデルを再学習することもできる。なお、WBゲイン出力モデルの再学習は、当該誤差が所定の閾値以上の場合に実行するようにしてもよい。また、WBゲイン出力モデルの再学習は、転移学習によって行われてもよい。
 図9は、本実施形態に係るWBゲイン出力モデルの転移学習の一例を示す図である。WBゲイン出力モデルは、画像の学習に特化した畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いることができる。図9に示すように、撮影画像をWBゲイン出力モデルに入力すると、特徴量抽出層(畳み込み層)200-1~200-5を経て、画像の視覚的特徴から意味的特徴に構造化される。なお、図9の特徴量抽出層200-1~200-5は一例であり、層の深さは5層に限られない。次に、特徴量抽出層200-5から出力された特徴量が、全結合層300に入力され、推定結果であるRゲインおよびBゲインが出力される。そして、推定結果と正解データとの誤差を転移学習により全結合層300に再学習させる。なお、転移学習は、全結合層300全体に限られず、全結合層300の後半部分のみや、特徴量抽出層200-1~200-5の一部も含んで再学習させることもできる。
<<1.3.変形例>>
 上述したように、WBゲイン出力モデルに学習させる正解データは、例えば、撮影画像中の基準となるグレーを本来の色に調整するためのWBゲインとした。本実施形態の変形例として、この基準を変更することにより、WBゲイン出力モデルから、様々な色合いに調整するためのWBゲインを出力させ、当該WBゲインを用いて、撮影画像を、例えば、レトロなカメラで撮影されたような色合いや、セピア調など特殊な色合いに調整することができる。
<2.ハードウェア構成例>
 次に、本実施形態に係る情報処理装置100のハードウェア構成例について説明する。なお、情報処理端末200も同様の構成を有することができる。図10は、本実施形態に係る情報処理装置100のハードウェア構成例を示すブロック図である。図10を参照すると、情報処理装置100は、例えば、プロセッサ801と、ROM802と、RAM803と、ホストバス804と、ブリッジ805と、外部バス806と、インターフェース807と、入力装置808と、出力装置809と、ストレージ810と、ドライブ811と、接続ポート812と、通信装置813と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ801)
 プロセッサ801は、例えば、演算処理装置または制御装置として機能し、ROM802、RAM803、ストレージ810、またはリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般またはその一部を制御する。
(ROM802、RAM803)
 ROM802は、プロセッサ801に読み込まれるプログラムや演算に用いるデータなどを格納する手段である。RAM803には、例えば、プロセッサ801に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータなどが一時的または永続的に格納される。
(ホストバス804、ブリッジ805、外部バス806、インターフェース807)
 プロセッサ801、ROM802、RAM803は、例えば、高速なデータ伝送が可能なホストバス804を介して相互に接続される。一方、ホストバス804は、例えば、ブリッジ805を介して比較的データ伝送速度が低速な外部バス806に接続される。また、外部バス806は、インターフェース807を介して種々の構成要素と接続される。
(入力装置808)
 入力装置808には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、およびレバーなどが用いられる。さらに、入力装置808としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置808には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置809)
 出力装置809は、例えば、CRT(Cathode Ray Tube)、LCD、または有機ELなどのディスプレイ装置、スピーカ、ヘッドホンなどのオーディオ出力装置、プリンタ、携帯電話、またはファクシミリなど、取得した情報を利用者に対して視覚的または聴覚的に通知することが可能な装置である。また、本実施形態に係る出力装置809は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ810)
 ストレージ810は、各種のデータを格納するための装置である。ストレージ810としては、例えば、ハードディスクドライブ(HDD)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどが用いられる。
(ドライブ811)
 ドライブ811は、例えば、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体901に記録された情報を読み出し、またはリムーバブル記録媒体901に情報を書き込む装置である。
(接続ポート812)
 接続ポート812は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、または光オーディオ端子などのような外部接続機器902を接続するためのポートである。
(通信装置813)
 通信装置813は、ネットワークに接続するための通信デバイスであり、例えば、有線または無線LAN、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または各種通信用のモデムなどである。
(リムーバブル記録媒体901)
 リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディアなどである。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、または電子機器などであってもよい。
(外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはICレコーダなどである。
 なお、本実施形態に係る記憶部110は、ROM802やRAM803、ストレージ810によって実現される。また、プロセッサ801によって実現される本実施形態に係る制御部150が、取得部120、変換部130、学習部140、推定部240、調整部250を実現する各制御プログラムを、ROM802やRAM803などから読み出し実行する。
<3.まとめ>
 以上説明したように、被写体が撮影された撮影画像を取得する取得部と、撮影画像を入力、撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う学習部とを備えた、情報処理装置が提供される。
 これにより、様々な撮影画像のホワイトバランスをより容易に調整することができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)被写体が撮影された撮影画像を取得する取得部と、
 前記撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う学習部と
 を備えた、情報処理装置。
(2)前記画像補正パラメータ、および前記第1の画像補正パラメータはホワイトバランスゲインである、前記(1)に記載の情報処理装置。
(3)前記学習部はさらに、前記第1の画像補正パラメータと、前記画像補正パラメータとの誤差を用いて前記モデルの再学習を行う、前記(1)または(2)に記載の情報処理装置。
(4)前記再学習は、前記誤差が所定の閾値以上である場合に実行される、前記(3)に記載の情報処理装置。
(5)前記画像補正パラメータは、前記撮影画像中の基準となるグレーの画素を指定することにより生成される、前記(1)~(4)のいずれか1つに記載の情報処理装置。
(6)前記画像補正パラメータは、前記撮影画像の光源およびシーンごとに選択されたホワイトバランスアルゴリズムを用いて算出される、前記(1)~(5)のいずれか1つに記載の情報処理装置。
(7)前記モデルの前記入力は、前記撮影画像のメタデータをさらに含む、前記(1)~(6)のいずれか1つに記載の情報処理装置。
(8)前記メタデータは、EV値、IR値、前記被写体に対する認識情報、前記被写体までの距離、前記被写体中の主要被写体の少なくとも1つである、前記(7)に記載の情報処理装置。
(9)前記撮影画像は、所定の度数まで解像度を落とした低解像度画像である、前記(1)~(8)のいずれか1つに記載の情報処理装置。
(10)第1の被写体が撮影された第1の画像を取得する取得部と、
 被写体が撮影された撮影画像を入力データ、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解データとして学習したモデルに、前記第1の画像を入力することにより、前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する推定部と
 を備えた、情報処理装置。
(11)前記画像補正パラメータ、および前記第1の画像補正パラメータはホワイトバランスゲインである、前記(10)に記載の情報処理装置。
(12)前記モデルの前記入力は、前記撮影画像のメタデータをさらに含み、
 前記推定部は、前記モデルに前記第1の画像の第1のメタデータをさらに入力することで、前記第1の画像補正パラメータを推定する、前記(10)または(11)に記載の情報処理装置。
(13)前記メタデータは、前記撮影画像のEV値およびIR値、前記被写体に対する認識情報、前記被写体までの距離、ならびに前記被写体中の主要被写体の少なくとも1つであり、前記メタデータは、前記第1の画像のEV値およびIR値、前記第1の被写体に対する認識情報、前記第1の被写体までの距離、ならびに前記第1の被写体中の第1の主要被写体の少なくとも1つである、前記(12)に記載の情報処理装置。
(14)前記撮影画像および前記第1の画像は、所定の度数まで解像度を落とした低解像度画像である、前記(10)~(13)のいずれか1つに記載の情報処理装置。
(15)情報処理装置が、
 被写体が撮影された撮影画像を取得し、
 前記撮影画像を入力データ、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解データとして、第1の画像から前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う
 処理を実行する、方法。
(16)情報処理装置が、
 第1の被写体が撮影された第1の画像を取得し、
 被写体が撮影された撮影画像を入力データ、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解データとして学習したモデルに、前記第1の画像を入力することにより、前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する
 処理を実行する、方法。
(17)情報処理装置に、
 被写体が撮影された撮影画像を取得し、
 前記撮影画像を入力データ、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解データとして、第1の画像から前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う
 処理を実行させる、プログラム。
(18)情報処理装置に、
 第1の被写体が撮影された第1の画像を取得し、
 被写体が撮影された撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、前記第1の画像を入力することにより、前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する
 処理を実行させる、プログラム。
(19)被写体が撮影された撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルであって、
 第1の画像が入力される入力層と、
 前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを出力する出力層と、
 前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第1要素と、
 前記第1要素と前記第1要素の重みとに基づいて値が算出される第2要素と
 を含み、
 前記入力層に入力された前記第1の画像に応じて、前記出力層以外の各層に属する各要素を前記第1要素として、前記第1要素と前記第1要素の重みとに基づく演算を行うことにより、前記第1の画像補正パラメータを前記出力層から出力する
 ように情報処理装置を機能させるためのモデル。
 100 情報処理装置
 110 記憶部
 120 取得部
 130 変換部
 140 学習部
 150 制御部
 200 情報処理端末
 210 記憶部
 220 取得部
 230 撮影部
 240 推定部
 250 調整部
 260 制御部

Claims (19)

  1.  被写体が撮影された撮影画像を取得する取得部と、
     前記撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う学習部と
     を備えた、情報処理装置。
  2.  前記画像補正パラメータ、および前記第1の画像補正パラメータはホワイトバランスゲインである、請求項1に記載の情報処理装置。
  3.  前記学習部はさらに、前記第1の画像補正パラメータと、前記画像補正パラメータとの誤差を用いて前記モデルの再学習を行う、請求項1に記載の情報処理装置。
  4.  前記再学習は、前記誤差が所定の閾値以上である場合に実行される、請求項3に記載の情報処理装置。
  5.  前記画像補正パラメータは、前記撮影画像中の基準となるグレーの画素を指定することにより生成される、請求項1に記載の情報処理装置。
  6.  前記画像補正パラメータは、前記撮影画像の光源およびシーンごとに選択されたホワイトバランスアルゴリズムを用いて算出される、請求項1に記載の情報処理装置。
  7.  前記モデルの前記入力は、前記撮影画像のメタデータをさらに含む、請求項1に記載の情報処理装置。
  8.  前記メタデータは、EV値、IR値、前記被写体に対する認識情報、前記被写体までの距離、前記被写体中の主要被写体の少なくとも1つである、請求項7に記載の情報処理装置。
  9.  前記撮影画像は、所定の度数まで解像度を落とした低解像度画像である、請求項1に記載の情報処理装置。
  10.  第1の被写体が撮影された第1の画像を取得する取得部と、
     被写体が撮影された撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、前記第1の画像を入力することにより、前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する推定部と
     を備えた、情報処理装置。
  11.  前記画像補正パラメータ、および前記第1の画像補正パラメータはホワイトバランスゲインである、請求項10に記載の情報処理装置。
  12.  前記モデルの前記入力は、前記撮影画像のメタデータをさらに含み、
     前記推定部は、前記モデルに前記第1の画像の第1のメタデータをさらに入力することで、前記第1の画像補正パラメータを推定する、請求項10に記載の情報処理装置。
  13.  前記メタデータは、前記撮影画像のEV値およびIR値、前記被写体に対する認識情報、前記被写体までの距離、ならびに前記被写体中の主要被写体の少なくとも1つであり、前記メタデータは、前記第1の画像のEV値およびIR値、前記第1の被写体に対する認識情報、前記第1の被写体までの距離、ならびに前記第1の被写体中の第1の主要被写体の少なくとも1つである、請求項12に記載の情報処理装置。
  14.  前記撮影画像および前記第1の画像は、所定の度数まで解像度を落とした低解像度画像である、請求項10に記載の情報処理装置。
  15.  情報処理装置が、
     被写体が撮影された撮影画像を取得し、
     前記撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う
     処理を実行する、方法。
  16.  情報処理装置が、
     第1の被写体が撮影された第1の画像を取得し、
     被写体が撮影された撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、前記第1の画像を入力することにより、前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する
     処理を実行する、方法。
  17.  情報処理装置に、
     被写体が撮影された撮影画像を取得し、
     前記撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習して、第1の画像から前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを生成するモデルの学習を行う
     処理を実行させる、プログラム。
  18.  情報処理装置に、
     第1の被写体が撮影された第1の画像を取得し、
     被写体が撮影された撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルに、前記第1の画像を入力することにより、前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを推定する
     処理を実行させる、プログラム。
  19.  被写体が撮影された撮影画像を入力、前記撮影画像のホワイトバランスを調整するための画像補正パラメータを正解とする教師データを学習したモデルであって、
     第1の画像が入力される入力層と、
     前記第1の画像のホワイトバランスを調整するための第1の画像補正パラメータを出力する出力層と、
     前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第1要素と、
     前記第1要素と前記第1要素の重みとに基づいて値が算出される第2要素と
     を含み、
     前記入力層に入力された前記第1の画像に応じて、前記出力層以外の各層に属する各要素を前記第1要素として、前記第1要素と前記第1要素の重みとに基づく演算を行うことにより、前記第1の画像補正パラメータを前記出力層から出力する
     ように情報処理装置を機能させるためのモデル。
PCT/JP2020/014970 2020-03-31 2020-03-31 情報処理装置、方法、プログラム、およびモデル WO2021199366A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/014970 WO2021199366A1 (ja) 2020-03-31 2020-03-31 情報処理装置、方法、プログラム、およびモデル

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/014970 WO2021199366A1 (ja) 2020-03-31 2020-03-31 情報処理装置、方法、プログラム、およびモデル

Publications (1)

Publication Number Publication Date
WO2021199366A1 true WO2021199366A1 (ja) 2021-10-07

Family

ID=77929785

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/014970 WO2021199366A1 (ja) 2020-03-31 2020-03-31 情報処理装置、方法、プログラム、およびモデル

Country Status (1)

Country Link
WO (1) WO2021199366A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006080746A (ja) * 2004-09-08 2006-03-23 Nikon Corp 画像処理装置、電子カメラ、および画像処理プログラム
JP2009038712A (ja) * 2007-08-03 2009-02-19 Nikon Corp カラー撮像装置
WO2017208536A1 (ja) * 2016-06-02 2017-12-07 ソニー株式会社 画像処理装置と画像処理方法および学習装置と学習方法
JP2018148281A (ja) * 2017-03-01 2018-09-20 株式会社ブライセン 画像処理装置
JP2019012426A (ja) * 2017-06-30 2019-01-24 キヤノン株式会社 画像認識装置、学習装置、画像認識方法、学習方法及びプログラム
JP2020005190A (ja) * 2018-06-29 2020-01-09 キヤノン株式会社 撮影装置、撮影装置の制御方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006080746A (ja) * 2004-09-08 2006-03-23 Nikon Corp 画像処理装置、電子カメラ、および画像処理プログラム
JP2009038712A (ja) * 2007-08-03 2009-02-19 Nikon Corp カラー撮像装置
WO2017208536A1 (ja) * 2016-06-02 2017-12-07 ソニー株式会社 画像処理装置と画像処理方法および学習装置と学習方法
JP2018148281A (ja) * 2017-03-01 2018-09-20 株式会社ブライセン 画像処理装置
JP2019012426A (ja) * 2017-06-30 2019-01-24 キヤノン株式会社 画像認識装置、学習装置、画像認識方法、学習方法及びプログラム
JP2020005190A (ja) * 2018-06-29 2020-01-09 キヤノン株式会社 撮影装置、撮影装置の制御方法及びプログラム

Similar Documents

Publication Publication Date Title
CN109688351B (zh) 一种图像信号处理方法、装置及设备
WO2020093837A1 (zh) 人体骨骼关键点的检测方法、装置、电子设备及存储介质
JP2021534520A (ja) 画像強調のための人工知能技法
JP7152065B2 (ja) 画像処理装置
WO2023005818A1 (zh) 噪声图像生成方法、装置、电子设备及存储介质
CN111866483A (zh) 颜色还原方法及装置、计算机可读介质和电子设备
CN113727085B (zh) 一种白平衡处理方法、电子设备、芯片系统和存储介质
CN116668656B (zh) 图像处理方法及电子设备
CN111277751B (zh) 拍照方法、装置、存储介质及电子设备
WO2021199366A1 (ja) 情報処理装置、方法、プログラム、およびモデル
CN112489144A (zh) 图像处理方法、图像处理装置、终端设备及存储介质
WO2023040725A1 (zh) 白平衡处理方法与电子设备
JP2018045366A (ja) 画像処理装置、画像処理方法及びプログラム
WO2023015993A9 (zh) 一种色度信息的确定方法及相关电子设备
WO2022044367A1 (ja) 機械学習装置及び遠赤外線撮像装置
WO2021179819A1 (zh) 照片处理方法、装置、存储介质及电子设备
WO2021144924A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN109729269B (zh) 一种图像处理方法、终端设备及计算机可读存储介质
JP2020191546A (ja) 画像処理装置、画像処理方法、およびプログラム
WO2021149238A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
WO2017110192A1 (ja) 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US20230128220A1 (en) Information processing apparatus, information processing terminal, method, program, and model
CN112995634B (zh) 图像的白平衡处理方法、装置、电子设备和存储介质
US11869224B2 (en) Method and system for establishing light source information prediction model
CN115514947B (zh) 一种ai自动白平衡的算法和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20928871

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20928871

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP