WO2023106252A1 - 情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体 - Google Patents

情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体 Download PDF

Info

Publication number
WO2023106252A1
WO2023106252A1 PCT/JP2022/044680 JP2022044680W WO2023106252A1 WO 2023106252 A1 WO2023106252 A1 WO 2023106252A1 JP 2022044680 W JP2022044680 W JP 2022044680W WO 2023106252 A1 WO2023106252 A1 WO 2023106252A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
network model
sensing data
sensor
information processing
Prior art date
Application number
PCT/JP2022/044680
Other languages
English (en)
French (fr)
Inventor
智 佐藤
一生 登
俊介 安木
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN202280081228.0A priority Critical patent/CN118382877A/zh
Priority to JP2023566305A priority patent/JPWO2023106252A1/ja
Publication of WO2023106252A1 publication Critical patent/WO2023106252A1/ja
Priority to US18/732,866 priority patent/US20240320495A1/en

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B19/00Cameras
    • G03B19/02Still-picture cameras
    • G03B19/16Pin-hole cameras
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/45Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • This disclosure relates to a technique for generating a discriminative model by machine learning and optimizing the operating parameters of sensors to obtain sensing data to be input to the discriminative model.
  • Non-Patent Document 1 discloses a method of greatly improving conventional object identification ability by deep learning using image information as input.
  • Non-Patent Document 2 discloses that chromatic aberration or astigmatism, which has been considered unnecessary in ordinary cameras, is important in deep learning for depth estimation or three-dimensional object detection. Also, for example, in Non-Patent Document 2, using wave optics that can express refraction or diffraction, the imaging of a camera is formulated as a differentiable model, and this model and a deep learning model for depth estimation are combined. A method is disclosed to optimally design operating parameters such as chromatic aberration or astigmatism by training with error backpropagation.
  • Non-Patent Document 3 when performing action identification from spatio-temporal compressed sensing images, the spatio-temporal compressed sensing is represented by deep learning as an encoding network, and the optimal compressed sensing pattern and identification model for action identification are generated. A method for simultaneously optimizing is disclosed.
  • the present disclosure has been made to solve the above problems, and is capable of optimizing the operating parameters of a sensor used as an input device for a neural network model and improving the identification accuracy of the neural network model.
  • the purpose is to provide a technology that can
  • a computer inputs a first operation parameter used for operation of a first sensor and second sensing data obtained by operation of a second sensor, and uses the first operation parameter.
  • a first neural network model is trained to output first sensing data obtained by the operation of a first sensor, and the output of the trained first neural network model is the first sensing with the first sensing data as an input.
  • a third neural network model in which the first neural network model and the second neural network model are connected so as to be input to the second neural network model outputting a discrimination result for data;
  • the second neural network model is trained by backpropagation, and a second operating parameter updated from the first operating parameter is obtained from the first neural network model by backpropagation.
  • FIG. 1 is a block diagram showing the configuration of a training system according to an embodiment of the present disclosure
  • FIG. It is a figure which shows typically the structure of the lensless multi-pinhole camera which is an example of a 1st sensor.
  • 6 is a flowchart for explaining training processing by the training system according to the embodiment of the present disclosure
  • FIG. 4 is a schematic diagram for explaining training of the first neural network model in the embodiment
  • FIG. 4 is a schematic diagram for explaining training of a third neural network model in the embodiment
  • FIG. 4 is a schematic diagram showing an example of a multi-pinhole mask in which a plurality of pinholes are formed
  • FIG. 5 is a schematic diagram showing an example of a second sensor that captures images from a plurality of viewpoint positions
  • FIG. 4 is a diagram schematically showing the structure of a coded aperture camera that is another example of the first sensor;
  • Non-Patent Document 2 (Findings on which this disclosure is based)
  • camera imaging is represented by a differentiable model in order to obtain the optimum chromatic aberration or astigmatism, but input devices that can be represented by such a differentiable model are limited.
  • the depth of the subject is approximated by a quantized layer structure, and in fact, blurring that varies depending on the location on the image sensor is uniformed. is approximated as Therefore, the object detection accuracy of this model is not as good as the three-dimensional object detection accuracy using highly accurate depth information.
  • Non-Patent Document 3 the coded exposure pattern for compressed sensing is implemented as a one-layer network, but it is difficult to implement in a more complicated imaging system such as camera imaging. Furthermore, devices of unknown model could not be used.
  • the information processing method using the input device in the present disclosure optimizes the operating parameters by using the regression model of the device output from the input device and its operating parameters.
  • Regression models are trained using machine learning such as deep learning. Since the regression model is trained using deep learning, it is differentiable and does not need to use approximations such as [2].
  • the regression model is obtained through training without depending on the form of the input device, it is possible to handle both complex models and unknown models. Therefore, optimum operating parameters can be designed without depending on the input device.
  • a computer inputs a first operation parameter used for operation of a first sensor and second sensing data obtained by operation of a second sensor, and training a first neural network model to output first sensing data obtained by operation of the first sensor using the motion parameter, wherein the output of the trained first neural network model is the first sensing data; a third neural network model in which the first neural network model and the second neural network model are connected so as to be input to the second neural network model, the input being a discrimination result for the first sensing data as an output; identification results output from the third neural network model by inputting the second sensing data and the first operating parameter to the third neural network model, and correct identification information corresponding to the second sensing data; training the second neural network model by error backpropagation using the error from and obtaining second operating parameters that update the first operating parameters from the first neural network model by the error backpropagation.
  • the first operating parameter used for the operation of the first sensor and the second sensing data obtained by the operation of the second sensor are input, and the first operating parameter is used to operate the first sensor.
  • a first neural network model is trained to output first sensing data. Then, the first neural network model and the trained first neural network model are input so that the output of the trained first neural network model is input to the second neural network model having the first sensing data as input and the identification result for the first sensing data as output.
  • a third neural network model is generated that is concatenated with the second neural network model.
  • the first sensor is a coded aperture camera
  • the first operation parameters are the distance between the coded mask and the image sensor, and the number of pinholes. , the size of each of the plurality of pinholes, and the position of each of the plurality of pinholes.
  • the first operation parameter is optimized so as to improve the identification result of the second neural network model, so the identification performance of the second neural network model can be improved.
  • the first sensor is a lensless multi-pinhole camera
  • the first operating parameter is a focal length of the lensless multi-pinhole camera
  • a plurality of pins It may be at least one of the number of holes, the size of each of the plurality of pinholes, and the position of each of the plurality of pinholes.
  • the lens Since the image captured by the less multi-pinhole camera changes greatly, it is necessary to determine the optimum first operation parameter.
  • the first operation parameter is optimized so as to improve the identification result of the second neural network model, so the identification performance of the second neural network model can be improved.
  • the second sensing data may be an image less blurred than the first sensing data.
  • the second sensor may be a camera including a lens, one diaphragm, and an imaging device.
  • the second sensor may be a pinhole camera.
  • the pinhole camera can acquire an image similar to that of the multi-pinhole camera in vignetting or noise characteristics of the imaging device. Therefore, by inputting the first motion parameter and the second sensing data captured by the pinhole camera into the first neural network model, the first neural network model can output the first sensing data with higher accuracy.
  • the second sensing data may be images captured at different viewpoint positions.
  • the first neural network model can generate, as the first sensing data, an image obtained by superimposing images captured at different viewpoint positions from images captured at different viewpoint positions.
  • the second sensing data may be images captured at a plurality of viewpoint positions.
  • the first neural network model can generate, as first sensing data, an image obtained by superimposing images captured at a plurality of viewpoint positions from images captured at a plurality of viewpoint positions.
  • the first sensing data is an image obtained by superimposing a plurality of images acquired through each of a plurality of pinholes
  • the second sensing data is an image obtained by superimposing the plurality of images. may be images captured at viewpoint positions corresponding to the respective positions of the pinholes.
  • the second sensing data is an image captured at the viewpoint position corresponding to each position of the plurality of pinholes, so the second sensor acquires the same depth information as the first sensor. be able to.
  • the first neural network model can output more highly accurate first sensing data.
  • the present disclosure can be realized not only as an information processing method that executes the characteristic processing as described above, but also as an information processing method having a characteristic configuration corresponding to the characteristic method executed by the information processing method. It can also be realized as a system or the like. Moreover, it can also be realized as a computer program that causes a computer to execute characteristic processing included in such an information processing method. Therefore, the following other aspects can also achieve the same effect as the information processing method described above.
  • An information processing system inputs a first operation parameter used for operation of a first sensor and second sensing data obtained by operation of a second sensor, and a first training unit for training a first neural network model to output first sensing data obtained by the operation of the first sensor using the first
  • a generation unit that generates a network model; an identification result output from the third neural network model by inputting the second sensing data and the first operation parameter to the third neural network model; and the second sensing data.
  • a second training unit that trains the second neural network model by backpropagation using the error from the correct identification information corresponding to the error backpropagation from the first neural network model to the first operating parameter and an acquisition unit that acquires the updated second operation parameter.
  • An information processing program inputs a first operation parameter used for operation of a first sensor and second sensing data obtained by operation of a second sensor, and training a first neural network model to output first sensing data obtained by the operation of the first sensor using generating a third neural network model in which the first neural network model and the second neural network model are connected so as to be input to a second neural network model outputting a discrimination result for the first sensing data; , the identification result output from the third neural network model by inputting the second sensing data and the first operating parameter to the third neural network model, and correct identification information corresponding to the second sensing data; a computer to train the second neural network model using error backpropagation to obtain second operating parameters that update the first operating parameters from the first neural network model using the error backpropagation; function.
  • the second neural network model is trained by error backpropagation using the error between the identification result output from the model and the correct identification information corresponding to the second sensing data, and the error backpropagation is used to train the first neural network model.
  • a computer is operable to obtain a second operating parameter that updates the first operating parameter from a neural network model.
  • FIG. 1 is a block diagram showing the configuration of a training system 10 according to an embodiment of the present disclosure.
  • the training system 10 is composed of a microprocessor, RAM (Random Access Memory), ROM (Read Only Memory), hard disk, etc., which are not specifically illustrated.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • hard disk etc., which are not specifically illustrated.
  • the RAM, ROM, or hard disk stores computer programs, and the functions of the training system 10 are realized by the microprocessor operating according to the computer programs.
  • a training system 10 shown in FIG. A data storage unit 21 , a first model storage unit 22 and a second model storage unit 23 are provided.
  • the training data storage unit 21 stores data used for training the first neural network model and the second neural network model.
  • the training data storage unit 21 stores a first motion parameter used for motion of the first sensor, second sensing data obtained by motion of the second sensor, and motion of the first sensor using the first motion parameter.
  • the first sensing data and the correct identification information (annotation information) corresponding to the second sensing data are stored in association with each other.
  • the first sensor is a lensless multi-pinhole camera.
  • the first operating parameter is at least one of a focal length of the lensless multi-pinhole camera, a number of the plurality of pinholes, a size of each of the plurality of pinholes, and a position of each of the plurality of pinholes.
  • the second sensor is a normal camera with a lens, one diaphragm and an imaging element.
  • the second sensing data is a second training image acquired by normal camera imaging.
  • the second training image is an image containing a subject to be identified by the second neural network model.
  • the first sensing data is a first training image captured by a lensless multi-pinhole camera.
  • the first sensing data is an image obtained by superimposing a plurality of images acquired through each of a plurality of pinholes.
  • the second sensing data is an image with less blur than the first sensing data.
  • the first training images are blurred images and the second training images are unblurred images.
  • the first training image is an image of the same scene as the second training image.
  • the first sensor may be, for example, a lensless camera, a coded aperture camera, or other computational imaging camera such as a light field camera.
  • the first sensor obtains a blurred image by imaging.
  • the first sensor in this embodiment is a lensless multi-pinhole camera in which a mask having a mask pattern in which a plurality of pinholes are formed covers the light receiving surface of the imaging element. In other words, it can be said that the mask pattern is arranged between the subject and the light receiving surface.
  • the first sensor captures a calculated captured image that is a blurred image.
  • a calculated captured image is an image in which a subject cannot be recognized by a person who looks at the captured image itself due to intentionally created blurring.
  • the second sensor may not be a normal camera, and may be a pinhole camera, for example, as long as it can acquire an image with less blur than the first sensor.
  • the correct identification information differs for each identification task. For example, if the identification task is object detection, the correct identification information is a bounding box representing the area occupied by the detection target on the image. Also, for example, if the identification task is object identification, the correct identification information is the classification result. Also, for example, if the identification task is to divide an image into regions, the correct identification information is region information for each pixel.
  • FIG. 2 is a diagram schematically showing the structure of a lensless multi-pinhole camera 200, which is an example of the first sensor.
  • FIG. 2 is a top view of the lensless multi-pinhole camera 200.
  • a lensless multi-pinhole camera 200 shown in FIG. 2 has a multi-pinhole mask 201 and an image sensor 202 such as CMOS.
  • the multi-pinhole mask 201 is arranged at a fixed distance from the light receiving surface of the image sensor 202 .
  • the focal length of lensless multi-pinhole camera 200 is the distance between multi-pinhole mask 201 and image sensor 202 .
  • a multi-pinhole mask 201 has a plurality of pinholes 211 and 212 arranged at random or at regular intervals.
  • the multiple pinholes 211 and 212 are also called multi-pinholes.
  • the image sensor 202 acquires an image of the object through each pinhole 211,212. An image acquired through a pinhole is also called a pinhole image.
  • the pinhole image of the subject differs depending on the position and size of each pinhole 211,212. Therefore, the image sensor 202 acquires a superimposed image (multiple image) in which a plurality of pinhole images are slightly shifted and overlapped.
  • the positional relationship between the pinholes 211 and 212 affects the positional relationship of the pinhole images projected onto the image sensor 202 (that is, the degree of superimposition of multiple images).
  • the size of the pinholes 211 and 212 affects the degree of blurring of the pinhole image.
  • the number of pinholes 211 and 212 is the number of superimposed pinhole images, and affects the degree of blurring of the captured image.
  • the multi-pinhole mask 201 By using the multi-pinhole mask 201, it is possible to superimpose and acquire a plurality of pinhole images with different positions and degrees of blurring. That is, it is possible to obtain a calculated captured image in which multiple images and blur are intentionally created. Therefore, the captured image becomes a multiple image and a blurred image, and an image in which the privacy of the subject is protected by these blurs can be obtained.
  • the multi-pinhole mask 201 may have a structure that can be easily attached and detached by the user.
  • a plurality of types of multi-pinhole masks 201 with different mask patterns may be prepared in advance.
  • the multi-pinhole mask 201 may be freely exchanged by the user according to the mask pattern of the lensless multi-pinhole camera used during image identification.
  • the multi-pinhole mask 201 can be realized by the following various methods other than exchanging the multi-pinhole mask 201.
  • the multi-pinhole mask 201 may be rotatably attached in front of the image sensor 202, and may be arbitrarily rotated by the user.
  • the multi-pinhole mask 201 may be created by the user punching holes at arbitrary locations on a plate attached in front of the image sensor 202 .
  • the multi-pinhole mask 201 may be a liquid crystal mask using a spatial light modulator or the like.
  • a predetermined number of pinholes may be formed at predetermined positions by arbitrarily setting the transmittance of each position in the multi-pinhole mask 201 .
  • the multi-pinhole mask 201 may be molded using a stretchable material such as rubber. A user may physically deform the multi-pinhole mask 201 by applying an external force to change the position and size of each pinhole.
  • the captured image changes greatly depending on the focal length of the lensless multi-pinhole camera 200, the number of pinholes, the size of the pinholes, and the positions of the pinholes, which are the first operating parameters. Therefore, it is necessary to determine the optimal first operating parameters.
  • the training system 10 of this embodiment optimizes the first operating parameter so as to improve the discrimination result of the second neural network model. This improves the identification result of the second neural network model.
  • the present disclosure is not particularly limited to this, and the lensless multi-pinhole camera 200 has three or more pinholes. may be provided. Also, the two pinholes 211 and 212 may be arranged side by side in the vertical direction.
  • the first model storage unit 22 stores the first neural network model.
  • the first neural network model is a device simulator simulating the first sensor.
  • the first neural network model is obtained from the second sensing data by operating the first sensor using the first operating parameter. Output the first sensing data.
  • the second model storage unit 23 stores a second neural network model.
  • the second neural network model outputs the identification result.
  • the first model training unit 11 acquires the first neural network model from the first model storage unit 22.
  • the first model training unit 11 also acquires first sensing data, first motion parameters, and second sensing data from the training data storage unit 21 .
  • the first model training unit 11 inputs the first motion parameter used for the motion of the first sensor and the second sensing data obtained by the motion of the second sensor, and the motion of the first sensor using the first motion parameter
  • a first neural network model is trained to output the first sensing data obtained.
  • the third model generation unit 12 acquires the second neural network model from the second model storage unit 23.
  • the third model generation unit 12 generates a second neural network model so that the output of the trained first neural network model is input to the second neural network model having the first sensing data as an input and the identification result for the first sensing data as an output.
  • a third neural network model is generated by connecting the first neural network model and the second neural network model.
  • the third model training unit 13 inputs the second sensing data and the first operation parameter to the third neural network model, outputs the identification result from the third neural network model, and the correct identification information corresponding to the second sensing data. and train a second neural network model by error backpropagation.
  • the second model acquisition unit 14 acquires the second neural network model trained by the third model training unit 13.
  • the second operating parameter acquisition unit 15 acquires second operating parameters obtained by updating the first operating parameters from the first neural network model by error backpropagation.
  • the output unit 16 outputs the second operation parameters acquired by the second operation parameter acquisition unit 15 .
  • the first model training unit 11 acquires the first neural network model from the first model storage unit 22 (step S101).
  • the first model training unit 11 acquires the first sensing data, the first motion parameter, and the second sensing data, which are data necessary for training the first neural network model, from the training data storage unit 21 (step S102). Specifically, the first model training unit 11 trains a first training image captured by a lensless multi-pinhole camera, which is a first sensor, and a lensless multi-pinhole image used to capture the first training image. A first operating parameter of the hall camera and a second training image obtained by capturing the same scene as the first training image by a normal camera, which is a second sensor, are acquired. The first operating parameters are the focal length of the lensless multi-pinhole camera, the number of pinholes, the size of the pinholes, and the location of the pinholes.
  • the first model training unit 11 trains the first neural network model using the first sensing data, the first motion parameters, and the second sensing data acquired from the training data storage unit 21 (step S103). .
  • the first model training unit 11 uses the first motion parameter and the second sensing data acquired from the training data storage unit 21 as input data, the first sensing data acquired from the training data storage unit 21 as teacher data, and performs the first motion.
  • a first neural network model is trained to output first sensing data when parameters and second sensing data are input.
  • the first model training unit 11 trains the first neural network model by, for example, BackPropagation, which is one of algorithms in deep learning.
  • FIG. 4 is a schematic diagram for explaining the training of the first neural network model in this embodiment.
  • the first model training unit 11 sets the focal length of the lensless multi-pinhole camera, the number of pinholes, the size of the pinholes, the positions of the pinholes, and the second sensing
  • the data and the second training image captured by the normal camera are given to the first neural network model 101 as input data.
  • the first model training unit 11 outputs an estimated image obtained when the same scene as the second training image is virtually captured by a lensless multi-pinhole camera designed with the first operation parameter as output data. 1 obtained from the neural network model 101 .
  • the first model training unit 11 actually trains the estimated image output from the first neural network model 101 and the lensless multi-pinhole camera designed with the first operation parameter for the same scene as the second training image.
  • the weights of the first neural network model 101 are updated so that the error with the first training image obtained by imaging is minimized.
  • the first model training unit 11 may use, for example, Conditional GAN or Conditional Filtered GAN as a training method for generating an output image with the first motion parameter as an attribute.
  • a first neural network model can be trained on the variables.
  • Conditional GAN is disclosed in existing literature (Mehdi Mirza and Simon Osindero, "Conditional Generative Adversarial Nets", arXiv preprinter Xiv: 1411.1784, 2014), and Conditional Fil For tered GAN, existing literature ( Takuhiro Kaneko, Kaoru Hiramatsu, and Kunio Kashino, "Generative Attribute Controller with Conditional Filtered Generative Adversarial Networks", Proceedings of the I EEE Conference on Computer Vision and Pattern Recognition, pp. 6089-6098, 2017).
  • the first motion parameter and the second sensing data are given to the first neural network model, so that the image captured by the normal camera, which is the second sensing data can be output from the first neural network model when the image is captured by the lensless multi-pinhole camera of the first operating parameter.
  • the first model training unit 11 may output the trained first neural network model to the first model storage unit 22 and store the trained first neural network model in the first model storage unit 22 .
  • the first model training unit 11 may update the first neural network model stored in the first model storage unit 22 to a trained first neural network model.
  • the third model generation unit 12 acquires the second neural network model from the second model storage unit 23 (step S104).
  • the third model generation unit 12 inputs the output of the first neural network model trained by the first model training unit 11 to the second neural network model acquired from the second model storage unit 23. , the first neural network model and the second neural network model are connected to generate a third neural network model (step S105).
  • the third model training unit 13 stores correct identification information corresponding to the second sensing data, the first operation parameter, and the second sensing data, which are data necessary for training the third neural network model, in the training data storage unit. 21 (step S106). Specifically, the third model training unit 13 uses the second training image captured by the normal camera that is the second sensor, the first operation parameter of the lensless multi-pinhole camera that is the first sensor, the 2 Acquire correct identification information for training images.
  • the first operating parameters are the focal length of the lensless multi-pinhole camera, the number of pinholes, the size of the pinholes, and the position of the pinholes.
  • the third model training unit 13 trains the third neural network model using the second sensing data, the first motion parameters, and the correct identification information acquired from the training data storage unit 21 (step S107).
  • the third model training unit 13 inputs the first motion parameter and the second sensing data acquired from the training data storage unit 21 to the first neural network model, and the first sensing data output from the first neural network model, Input data for the second neural network model, correct identification information corresponding to the second sensing data as teaching data for the second neural network model, and the first operating parameter and the second sensing data are input to the first neural network model. and train the second neural network model to output a discrimination result from the second neural network model.
  • the third model training unit 13 trains the third neural network model by, for example, error backpropagation, which is one of algorithms in deep learning.
  • FIG. 5 is a schematic diagram for explaining the training of the third neural network model in this embodiment.
  • the third model training unit 13 sets the focal length of the lensless multi-pinhole camera, the number of pinholes, the size of the pinholes, the positions of the pinholes, and the second sensing
  • the data and the second training image captured by the normal camera are given to the first neural network model 101 of the third neural network model 103 as input data.
  • the third model training unit 13 outputs an estimated image obtained when the same scene as the second training image is virtually captured by a lensless multi-pinhole camera designed with the first operation parameter as output data. 1 obtained from the neural network model 101 .
  • the third model training unit 13 gives the estimated image output from the first neural network model 101 to the second neural network model 102 of the third neural network model 103 as input data. Then, the third model training unit 13 trains the second neural network model so that the error between the identification result output from the second neural network model 102 and the correct identification information corresponding to the second training image is minimized. 102 weights are updated. In addition, the third model training unit 13 performs error backpropagation so that the error between the identification result output from the second neural network model 102 and the correct identification information corresponding to the second training image is minimized. , obtains the second operation parameter updated from the first operation parameter from the first neural network model 101 . The second operating parameter is the optimal first operating parameter. The third model training unit 13 does not update the weights of the trained first neural network model 101, but updates only the first operation parameters, which are multidimensional latent variables to be described later, and converts the updated multidimensional latent variables to the 2 Acquired as operation parameters.
  • the second neural network model may be, for example, CenterNet or YOLOv4.
  • CenterNet is disclosed in existing literature (Xingyi Zhou, Dequan Wang, and Philipp Krahenbuhl, "Objects as Points", arXiv: 1904.07850, 2019)
  • YOLOv4 is disclosed in existing literature (Alexey Bochkovsk iy, Chien-Yao Wang and Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection", arXiv: 2004.10934, 2020).
  • the third model training unit 13 trains only the second neural network model and does not train the first neural network model. In other words, it is only the second neural network model that the weight information is updated by the error backpropagation method.
  • the second model acquisition unit 14 acquires the second neural network model from the third neural network model trained by the third model training unit 13 (step S108).
  • the second model acquisition unit 14 determines the acquired weight of the second neural network model as the weight of the second neural network model.
  • the second model acquisition unit 14 may output the acquired second neural network model to the second model storage unit 23 and store the acquired second neural network model in the second model storage unit 23 .
  • the second model acquisition unit 14 may update the second neural network model stored in the second model storage unit 23 to a trained second neural network model.
  • the second model acquisition unit 14 may transmit the second neural network model to an external computer.
  • the second motion parameter acquisition unit 15 acquires multidimensional latent variables corresponding to the first motion parameters of the first neural network model calculated by the error backpropagation method during training by the third model training unit 13. It is acquired as a second operation parameter (step S109).
  • the second operating parameter acquisition unit 15 determines the acquired second operating parameter as the optimum first operating parameter.
  • the second operating parameter is the operating parameter of the first sensor that is optimal for discriminating the second neural network model.
  • a first sensor (lensless multi-pinhole camera) is designed using the second motion parameters acquired by the second motion parameter acquisition unit 15 .
  • the second neural network model acquired by the second model acquisition unit 14 performs identification processing on the first sensing data (captured image) acquired by the designed first sensor (lensless multi-pinhole camera). I do.
  • the training system 10 of the present embodiment can determine not only the second neural network model of the classification task but also the first operation parameter that is optimal for the classification process by the second neural network model through training. Training for identification tasks can be implemented.
  • the third model training unit 13 does not acquire the first motion parameter and the second sensing data, and uses the first sensing data, which is the first training image, and the normal camera, which is the second sensor. Correct identification information corresponding to the captured second training image may be acquired from the training data storage unit 21 . In this case, the third model training unit 13 inputs the first sensing data to the second neural network model of the third neural network model, and trains the second neural network model so that correct identification information is output. good.
  • the first sensor is, for example, a lensless multi-pinhole camera.
  • the positions of the plurality of pinholes in the lensless multi-pinhole camera are at least two of the nine pinhole positions, and the number of the plurality of pinholes is two or more and nine or less.
  • the first operating parameter is the number of pinholes and the location of the pinholes.
  • FIG. 6 is a schematic diagram showing an example of a multi-pinhole mask 201 in which a plurality of pinholes are formed.
  • the multi-pinhole mask 201 has pinholes formed in at least two of nine pinhole positions 2011 to 2019 arranged in a 3 ⁇ 3 matrix.
  • the plurality of pinhole locations of the first operating parameter represents at least two of the nine pinhole locations 2011-2019.
  • the training data storage unit 21 stores a first training image captured by a lensless multi-pinhole camera, which is a first sensor having a pinhole formed in at least one of the nine pinhole positions 2011 to 2019. 1 is stored as sensing data.
  • the training data storage unit 21 stores information indicating at which of the nine pinhole positions 2011 to 2019 the pinhole is formed in the lensless multi-pinhole camera that captured the first sensing data. Stored as the first operating parameter.
  • the training data storage unit 21 also stores, as second sensing data, a second training image obtained by capturing the same scene as the scene in which the first sensing data was captured by a normal camera.
  • the training data storage unit 21 stores correct identification information for the second training image captured by the normal camera, which is the second sensing data.
  • the first model training unit 11 uses Conditional GAN, and sets the position where a pinhole is formed among the nine pinhole positions as 1 and the position where no pinhole is formed as 0.
  • a first neural network model is trained by inputting operating parameters as multi-dimensional latent variables, inputting second sensing data, and outputting first sensing data.
  • the third model training unit 13 uses CenterNet or the like as a second neural network model, and when the first operating parameter of the first sensor and the second sensing data of the second sensor are input, the first operating parameter
  • the output of the first neural network model that outputs the estimated data of the first sensing data obtained by the operation of the first sensor using A third neural network model is trained to output correct identification information corresponding to the second training image.
  • the second sensor may be a pinhole camera or a lensless pinhole camera, and image data captured by the pinhole camera or the lensless pinhole camera may be used as the second sensing data.
  • image data captured by the pinhole camera or the lensless pinhole camera may be used as the second sensing data.
  • an image captured by a lensless pinhole camera in which pinholes are formed only at pinhole positions 2015 in the center of the mask may be used.
  • Such a lensless pinhole camera can acquire an image similar in vignetting or noise characteristics of an image sensor to a lensless multi-pinhole camera. Therefore, by inputting the first motion parameter and the second sensing data captured by the pinhole camera or the lensless pinhole camera into the first neural network model, the first neural network model can obtain a more accurate first Sensing data can be output.
  • the second sensing data may be images captured at different viewpoint positions.
  • the second sensing data may be images captured at a plurality of viewpoint positions.
  • the second sensing data may be images captured at a plurality of viewpoint positions having the same positional relationship as nine pinhole positions assumed in a lensless multi-pinhole camera.
  • FIG. 7 is a schematic diagram showing an example of a second sensor that captures images from a plurality of viewpoint positions.
  • the second sensor is a 9-lens stereo camera and includes 9 normal cameras 301-309 arranged in a 3X3 matrix.
  • pinhole position 2015 exists in the center of the multi-pinhole mask 201.
  • Pinhole location 2011 is to the upper left of pinhole location 2015 .
  • Pinhole location 2012 is above pinhole location 2015 .
  • Pinhole location 2013 is located to the upper right of pinhole location 2015 .
  • Pinhole location 2014 is to the left of pinhole location 2015 .
  • Pinhole location 2016 is to the right of pinhole location 2015 .
  • Pinhole location 2017 is located below and to the left of pinhole location 2015 .
  • Pinhole location 2018 is below pinhole location 2015 .
  • Pinhole location 2019 is to the right and to the right of pinhole location 2015 .
  • the normal camera 305 exists in the center of the stereo camera.
  • Ordinary camera 301 is present above and to the left of ordinary camera 305 .
  • Ordinary camera 302 is usually above camera 305 .
  • the normal camera 303 is present on the upper right side of the normal camera 305 .
  • the normal camera 304 exists to the left of the normal camera 305 .
  • the normal camera 306 exists to the right of the normal camera 305 .
  • the normal camera 307 is present below and to the left of the normal camera 305 .
  • a normal camera 308 is normally located below the camera 305 .
  • Ordinary camera 309 is present to the lower right of ordinary camera 305 .
  • the lensless multi-pinhole camera captures images from multiple viewpoint positions by superimposing them. Therefore, the captured image includes depth information of the subject, which is not normally included in the camera image, as parallax between viewpoints.
  • the second sensor shown in FIG. 7 normal cameras 301 to 309 are arranged at the same positions as the multiple pinhole positions 2011 to 2019 of the lensless multi-pinhole camera provided with the multi-pinhole mask 201 shown in FIG. .
  • the second sensing data is an image captured at a viewpoint position corresponding to each position of a plurality of pinholes. Therefore, the second sensor can acquire depth information similar to that of the first sensor.
  • the first neural network model can output the first sensing data with higher accuracy.
  • the second sensing data are images captured at a plurality of viewpoint positions
  • the number of viewpoint positions does not need to match the number of pinhole positions expected in the multi-pinhole camera.
  • the number of viewpoint positions of the second sensor may be less than the number of pinhole positions or may be more than the number of pinhole positions.
  • the first neural network model can output the first sensing data with higher accuracy.
  • the correct identification information is correct identification information corresponding to an image captured at any one of the plurality of viewpoint positions. Alternatively, it may be correct identification information corresponding to each of a plurality of images captured at each of a plurality of viewpoint positions.
  • the second sensing data need not be two-dimensional image data, and may be three-dimensional image data to which depth information is added.
  • Such three-dimensional image data includes, for example, point cloud data.
  • the first model training unit 11 uses Conditional Filtered GAN as the first neural network model. In this case, the first model training unit 11 sets the size of the pinhole at the position where the pinhole is not formed among the nine pinhole positions to 0, and the pinhole at the position where the pinhole is formed.
  • a first operating parameter whose value increases as the diameter of the pinhole increases is input as a multidimensional latent variable, and second sensing data is input so that the first sensing data is output.
  • a first neural network model may be trained.
  • the first model training unit 11 uses Conditional Filtered GAN as the first neural network model.
  • the first model training unit 11 normalizes the focal length, which is the first operation parameter, to 0 or more and 1 or less, inputs the normalized focal length as a latent variable, inputs the second sensing data,
  • a first neural network model may be trained to output one sensing data.
  • the position of the pinhole which is the first operation parameter, may be a coordinate value on the multi-pinhole mask 201 instead of the position set in advance as described above.
  • the first model training unit 11 uses Conditional Filtered GAN as the first neural network model.
  • the first model training unit 11 normalizes the coordinate values of the two-dimensional coordinates (u, v) on the multi-pinhole mask 201 to 0 or more and 1 or less, inputs the normalized coordinate values as multidimensional latent variables, A first neural network model is trained to receive the second sensing data and output the first sensing data.
  • the third model training unit 13 of the present embodiment inputs the first motion parameter and the second sensing data to the trained first neural network model, thereby training the first sensing data not stored in the training data storage unit 21. is estimated.
  • the third model training unit 13 may use the correct identification information for the second sensing data regardless of the first motion parameter.
  • the second neural network model can be trained even for the first sensing data that is not stored in the training data storage unit 21, while reducing the cost for adding the correct identification information, which poses a problem during training. . Therefore, it becomes possible to train the third neural network model using a larger amount of training data, and it is possible to realize more accurate estimation.
  • the third model training unit 13 may use the first sensing data instead of using the output of the first neural network model as the input data of the second neural network model.
  • the third model training unit 13 trains the third neural network model without using the estimation result of the first neural network model. can be trained.
  • a trained first neural network model is required to acquire the second operating parameter, so the first neural network model is also trained in step S103 in this case.
  • the first sensor may be another sensor.
  • the first sensor may be a coded aperture camera with a lens.
  • a coded aperture camera 210 shown in FIG. 8 has a multi-pinhole mask 201, an image sensor 202 such as a CMOS, and a plurality of lenses 213 and 214.
  • the number of lenses does not have to be two and may be any number.
  • a multi-pinhole mask 201 is placed between the image sensor 202 and the subject.
  • the first operating parameters are the distance L between the multi-pinhole mask 201 and the image sensor 202 (shown in FIG. 8), the number of pinholes, the size of each of the pinholes, and the number of pins At least one of each position of the hole.
  • the captured image changes greatly depending on the distance L between the multi-pinhole mask 201 and the image sensor 202, the number of the pinholes, the size of the pinholes, and the positions of the pinholes, which are the first operating parameters. . Therefore, it is necessary to determine the optimal first operating parameters.
  • the training system 10 of this embodiment optimizes the first operating parameter so as to improve the discrimination result of the second neural network model. This improves the identification result of the second neural network model.
  • the third model training unit 13 of the present embodiment inputs the first motion parameter and the second sensing data to the trained first neural network model, thereby training the first sensing data not stored in the training data storage unit 21. and train a third neural network model using the estimated first sensing data. Therefore, it becomes possible to train the third neural network model using a larger amount of training data, and it is possible to realize more accurate estimation.
  • each component may be implemented by dedicated hardware or by executing a software program suitable for each component.
  • Each component may be realized by reading and executing a software program recorded in a recording medium such as a hard disk or a semiconductor memory by a program execution unit such as a CPU or processor.
  • the program may be executed by another independent computer system by recording the program on a recording medium and transferring it, or by transferring the program via a network.
  • LSI Large Scale Integration
  • circuit integration is not limited to LSIs, and may be realized by dedicated circuits or general-purpose processors.
  • An FPGA Field Programmable Gate Array
  • reconfigurable processor that can reconfigure the connections and settings of the circuit cells inside the LSI may be used.
  • a processor such as a CPU executing a program.
  • each step shown in the above flowchart is executed is for illustrative purposes in order to specifically describe the present disclosure, and may be an order other than the above as long as the same effect can be obtained. . Also, some of the above steps may be executed concurrently (in parallel) with other steps.
  • the technology according to the present disclosure can optimize the operating parameters of the sensor used as the input device of the neural network model, and can improve the identification accuracy of the neural network model. It is useful as a technique for optimizing the operating parameters of the sensor to obtain the sensing data that is generated and input to the discriminative model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

第3モデル訓練部(13)は、訓練した第1ニューラルネットワークモデルと第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルに第2センシングデータ及び第1動作パラメータを入力して第3ニューラルネットワークモデルから出力された識別結果と、第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により第2ニューラルネットワークモデルを訓練し、第2動作パラメータ取得部(15)は、誤差逆伝播法により第1ニューラルネットワークモデルから第1動作パラメータを更新した第2動作パラメータを取得する。

Description

情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体
 本開示は、機械学習により識別モデルを生成するとともに、識別モデルに入力するセンシングデータを得るためセンサの動作パラメータを最適化する技術に関する。
 自動運転の車両及びロボットにおいて、周囲の物体を識別し、環境を認識する技術は重要である。近年、物体識別のために、ディープラーニング(Deep Learning)と呼ばれる技術が注目されている。ディープラーニングとは、多層構造のニューラルネットワークを用いた機械学習であり、大量の訓練データを使用することで、従来の機械学習と比べて、より高精度な識別性能を実現することが可能である。そして、このような物体識別において、画像情報は特に有効である。例えば、非特許文献1では、画像情報を入力としたディープラーニングによって、従来の物体識別能力を大幅に向上させる手法が開示されている。
 このような情報処理システムでは、画像情報を入力するための入力デバイスとしてカメラが広く使われている。通常、このようなカメラは市販のカメラが使われている。しかし、市販のカメラは人が見ることを目的に開発されたものであり、ディープラーニングなどの入力デバイスとしては最適ではない。例えば、非特許文献2では、通常のカメラでは不要とされてきた色収差又は非点収差が奥行推定又は3次元物体検出を目的としたディープラーニングでは重要であることが開示されている。また、例えば、非特許文献2では、屈折又は回折を表現可能な波動光学を利用して、カメラの結像を微分可能なモデルとして定式化し、このモデルと奥行推定のためのディープラーニングモデルとを誤差逆伝播法により訓練することで、色収差又は非点収差などの動作パラメータを最適に設計する方法が開示されている。
 また、例えば、非特許文献3では、時空間圧縮センシング画像から行動識別を実施する際、時空間圧縮センシングをEncoding networkとしてディープラーニングで表現することで行動識別に最適な圧縮センシングパターンと識別モデルとを同時に最適化する手法が開示されている。
 しかしながら、上記従来の技術では、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することが困難であるとともに、ニューラルネットワークモデルの識別精度を向上させることが困難であり、更なる改善が必要とされていた。
A.Krizhevsky、I.Sutskever、及びG.E.Hinton、「ImageNet Classification with Deep Convolutional Neural Networks」、NIPS’12:Proceedings of the 25th International Conference on Neural Information Processing Systems、Volume 1、pp.1097-1105、2012年12月 Julie Chang、及びGordon Wetzstein、「Deep Optics for Monocular Depth Estimation and 3D Object Detection」、Proceedings of the IEEE International Conference on Computer Vision、pp.10193-10202、2019年 Tadashi Okawara、Michitaka Yoshida、Hajime Nagahara、及びYasushi Yagi、「Action Recognition from a Single Coded Image」、Proceedings of the IEEE International Conference on Computational Photography、2020年
 本開示は、上記の問題を解決するためになされたもので、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができる技術を提供することを目的とするものである。
 本開示に係る情報処理方法は、コンピュータが、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得する。
 本開示によれば、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができる。
本開示の実施形態にかかる訓練システムの構成を示すブロック図である。 第1センサの一例であるレンズレスマルチピンホールカメラの構造を模式的に示す図である。 本開示の実施形態に係る訓練システムによる訓練処理について説明するためのフローチャートである。 本実施形態における第1ニューラルネットワークモデルの訓練を説明するための模式図である。 本実施形態における第3ニューラルネットワークモデルの訓練を説明するための模式図である。 複数のピンホールが形成されたマルチピンホールマスクの一例を示す模式図である。 複数の視点位置から画像を撮像する第2センサの一例を示す模式図である。 第1センサの他の例である符号化開口カメラの構造を模式的に示す図である。
 (本開示の基礎となった知見)
 上記の非特許文献2では、最適な色収差又は非点収差を求めるために、カメラの結像を微分可能なモデルで表現しているが、このような微分可能なモデルで表現できる入力デバイスは限られている。実際、非特許文献2においても、カメラの結像を微分可能なモデルとするために、被写体の奥行を量子化した層構造で近似したり、実際にはイメージセンサ上の場所によって異なるボケを均一であると近似したりしている。そのため、このモデルの物体検出精度は、高精度な奥行情報を利用した3次元物体検出精度には及ばない。
 また、非特許文献3では、圧縮センシングの符号化露光パターンを1層のネットワークとして実装しているが、カメラの結像など、より複雑な撮像システムには実装が難しい。さらに、モデルが未知のデバイスは利用することができなかった。
 一方、本開示における、入力デバイスを利用した情報処理方法は、入力デバイスとその動作パラメータとからそのデバイス出力の回帰モデルを利用することで、動作パラメータを最適化する。回帰モデルはディープラーニングなど機械学習を利用して訓練される。回帰モデルは、ディープラーニングを利用して訓練されるため、微分可能であり、非特許文献2のような近似を利用しなくてもよい。また、入力デバイスの形態に依存せずに回帰モデルが訓練で取得されるため、複雑なモデルにも、未知のモデルにも対応することができる。そのため、入力デバイスに依存せずに、最適な動作パラメータを設計することができる。
 上記の課題を解決するために、下記の技術が開示される。
 (1)本開示の一態様に係る情報処理方法は、コンピュータが、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得する。
 この構成によれば、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし第1動作パラメータを用いた第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルが訓練される。そして、訓練された第1ニューラルネットワークモデルの出力が、第1センシングデータを入力とし第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、第1ニューラルネットワークモデルと第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルが生成される。そして、第3ニューラルネットワークモデルに第2センシングデータ及び第1動作パラメータが入力されて第3ニューラルネットワークモデルから出力された識別結果と、第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により第2ニューラルネットワークモデルが訓練される。そして、誤差逆伝播法により第1ニューラルネットワークモデルから第1動作パラメータを更新した第2動作パラメータが取得される。したがって、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができる。
 (2)上記(1)記載の情報処理方法において、前記第1センサは、符号化開口カメラであり、前記第1動作パラメータは、符号化マスクとイメージセンサとの距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも1つであってもよい。
 第1動作パラメータである、符号化マスクとイメージセンサとの距離、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも1つによって、符号化開口カメラによる撮像画像は大きく変化するため、最適な第1動作パラメータを決定する必要がある。この構成によれば、第2ニューラルネットワークモデルの識別結果が向上するように、第1動作パラメータが最適化されるので、第2ニューラルネットワークモデルの識別性能を向上させることができる。
 (3)上記(1)記載の情報処理方法において、前記第1センサは、レンズレスマルチピンホールカメラであり、前記第1動作パラメータは、前記レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも1つであってもよい。
 第1動作パラメータである、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも1つによって、レンズレスマルチピンホールカメラによる撮像画像は大きく変化するため、最適な第1動作パラメータを決定する必要がある。この構成によれば、第2ニューラルネットワークモデルの識別結果が向上するように、第1動作パラメータが最適化されるので、第2ニューラルネットワークモデルの識別性能を向上させることができる。
 (4)上記(1)~(3)のいずれか1つに記載の情報処理方法において、前記第2センシングデータは、前記第1センシングデータと比較して、ボケの少ない画像であってもよい。
 この構成によれば、第2センシングデータは、第1センシングデータと比較して、ボケの少ない画像である。そのため、第1動作パラメータと第2センシングデータとが第1ニューラルネットワークモデルに入力されることで、第1ニューラルネットワークモデルから、第1動作パラメータを用いた第1センサの動作により得られるボケのある画像を第1センシングデータとして出力させることができる。
 (5)上記(4)記載の情報処理方法において、前記第2センサは、レンズ、1つの絞り及び撮像素子を備えるカメラであってもよい。
 この構成によれば、レンズ、1つの絞り及び撮像素子を備えるカメラにより、第1センシングデータと比較して、ボケの少ない画像を得ることができる。
 (6)上記(4)記載の情報処理方法において、前記第2センサは、ピンホールカメラであってもよい。
 この構成によれば、ピンホールカメラは、マルチピンホールカメラに対して周辺減光又は撮像素子のノイズ特性などが近似した画像を取得することができる。そのため、第1動作パラメータとピンホールカメラで撮像された第2センシングデータとが第1ニューラルネットワークモデルに入力されることにより、第1ニューラルネットワークモデルはより高精度の第1センシングデータを出力できる。
 (7)上記(1)~(6)のいずれか1つに記載の情報処理方法において、前記第2センシングデータは、異なる視点位置で撮像された画像であってもよい。
 この構成によれば、第1ニューラルネットワークモデルは、異なる視点位置で撮像された画像から、異なる視点位置で撮像された画像を重畳した画像を第1センシングデータとして生成することができる。
 (8)上記(7)記載の情報処理方法において、前記第2センシングデータは、複数の視点位置で撮像された画像であってもよい。
 この構成によれば、第1ニューラルネットワークモデルは、複数の視点位置で撮像された画像から、複数の視点位置で撮像された画像を重畳した画像を第1センシングデータとして生成することができる。
 (9)上記(8)記載の情報処理方法において、前記第1センシングデータは、複数のピンホールのそれぞれを通じて取得された複数の画像を重畳した画像であり、前記第2センシングデータは、前記複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像であってもよい。
 この構成によれば、第2センシングデータは、複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像であるので、第2センサは、第1センサと同様の奥行情報を取得することができる。このように、奥行情報を与えることができる第2センサが利用されることで、第1ニューラルネットワークモデルはより高精度の第1センシングデータを出力できる。
 また、本開示は、以上のような特徴的な処理を実行する情報処理方法として実現することができるだけでなく、情報処理方法が実行する特徴的な方法に対応する特徴的な構成を備える情報処理システムなどとして実現することもできる。また、このような情報処理方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の情報処理方法と同様の効果を奏することができる。
 (10)本開示の他の態様に係る情報処理システムは、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練する第1訓練部と、訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成する生成部と、前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練する第2訓練部と、前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得する取得部と、を備える。
 (11)本開示の他の態様に係る情報処理プログラムは、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得するようにコンピュータを機能させる。
 (12)本開示の他の態様に係るコンピュータ読み取り可能な非一時的な記録媒体は、情報処理プログラムを記録しており、前記情報処理プログラムは、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得するようにコンピュータを機能させる。
 以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
 (実施形態)
 図1は、本開示の実施形態にかかる訓練システム10の構成を示すブロック図である。
 訓練システム10は、具体的には図示されていないマイクロプロセッサ、RAM(Random Access Memory)、ROM(Read Only Memory)及びハードディスクなどから構成される。RAM、ROM又はハードディスクは、コンピュータプログラムを記憶しており、マイクロプロセッサがコンピュータプログラムに従って動作することにより、訓練システム10の機能が実現される。
 図1に示す訓練システム10は、第1モデル訓練部11、第3モデル生成部12、第3モデル訓練部13、第2モデル取得部14、第2動作パラメータ取得部15、出力部16、訓練データ記憶部21、第1モデル記憶部22及び第2モデル記憶部23を備える。
 訓練データ記憶部21は、第1ニューラルネットワークモデル及び第2ニューラルネットワークモデルを訓練するために利用するデータを記憶している。訓練データ記憶部21は、第1センサの動作に用いられる第1動作パラメータと、第2センサの動作により得られる第2センシングデータと、第1動作パラメータを用いた第1センサの動作により得られる第1センシングデータと、第2センシングデータに対応する正解識別情報(アノテーション情報)とを対応付けて記憶している。
 本実施形態において、第1センサは、レンズレスマルチピンホールカメラである。第1動作パラメータは、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも1つである。第2センサは、レンズ、1つの絞り及び撮像素子を備える通常カメラである。第2センシングデータは、通常カメラの撮像により取得される第2訓練用画像である。第2訓練用画像は、第2ニューラルネットワークモデルの識別対象である被写体を含む画像である。第1センシングデータは、レンズレスマルチピンホールカメラの撮像により取得される第1訓練用画像である。第1センシングデータは、複数のピンホールのそれぞれを通じて取得された複数の画像を重畳した画像である。第2センシングデータは、第1センシングデータと比較して、ボケの少ない画像である。第1訓練用画像は、ボケのある画像であり、第2訓練用画像は、ボケのない画像である。第1訓練用画像は、第2訓練用画像と同じ場面を撮像した画像である。
 なお、第1センサは、例えば、レンズレスカメラ、符号化開口カメラ(Coded Aperture Camera)又はライトフィールドカメラなどの他の計算撮像カメラであってもよい。第1センサは、撮像によりボケ画像を取得する。本実施形態における第1センサは、複数のピンホールが形成されたマスクパターンを有するマスクが撮像素子の受光面を覆うように配置されたレンズレスマルチピンホールカメラである。言い換えると、マスクパターンは、被写体と受光面との間に配置されるともいえる。
 第1センサは、ボケのない通常の画像を撮像する通常のカメラと異なり、ボケのある画像である計算撮像画像を撮像する。計算撮像画像は、意図的に作り出されたボケによって撮像画像自体を人が見ても被写体を認識できない画像である。
 また、第2センサは、通常カメラでなくてもよく、例えばピンホールカメラであってもよく、第1センサと比較して、ボケの小さな画像を取得できればよい。正解識別情報は、識別タスクごとに異なる。例えば、識別タスクが物体検出であれば、正解識別情報は、検出対象が画像上に占める領域を表すバウンディングボックスである。また、例えば、識別タスクが物体識別であれば、正解識別情報は、分類結果である。また、例えば、識別タスクが画像の領域分割であれば、正解識別情報は、画素ごとの領域情報である。
 図2は、第1センサの一例であるレンズレスマルチピンホールカメラ200の構造を模式的に示す図である。図2は、レンズレスマルチピンホールカメラ200を上から見た図である。
 図2に示すレンズレスマルチピンホールカメラ200は、マルチピンホールマスク201と、CMOSなどのイメージセンサ202とを有する。マルチピンホールマスク201は、イメージセンサ202の受光面から一定距離離れて配置されている。レンズレスマルチピンホールカメラ200の焦点距離は、マルチピンホールマスク201とイメージセンサ202との間の距離である。マルチピンホールマスク201は、ランダム又は等間隔に配置された複数のピンホール211,212を有している。複数のピンホール211,212は、マルチピンホールとも呼ばれる。イメージセンサ202は、各ピンホール211,212を通じて被写体の画像を取得する。ピンホールを通じて取得される画像は、ピンホール画像とも呼ばれる。
 各ピンホール211,212の位置及び大きさによって被写体のピンホール画像は異なる。そのため、イメージセンサ202は、複数のピンホール画像がわずかにずれて重なり合った状態(多重像)の重畳画像を取得する。複数のピンホール211,212の位置関係は、イメージセンサ202上に投影される複数のピンホール画像の位置関係(つまり多重像の重畳の度合い)に影響を与える。ピンホール211,212の大きさは、ピンホール画像のボケの度合いに影響を与える。また、ピンホール211,212の数は、ピンホール画像の重畳数となり、撮像画像のボケの度合いに影響を与える。
 マルチピンホールマスク201が用いられることによって、位置及びボケの程度が異なる複数のピンホール画像を重畳して取得することが可能である。つまり、意図的に多重像及びボケが作り出された計算撮像画像を取得することが可能である。そのため、撮像画像は多重像かつボケ画像となり、これらのボケによって被写体のプライバシーが保護された画像を取得することができる。
 また、複数のピンホールの数、複数のピンホールの位置、及び複数のピンホールの大きさが変更されることで、ボケ方の異なる画像が取得可能となる。つまり、マルチピンホールマスク201は、ユーザによって容易に脱着できる構造であってもよい。マスクパターンが異なる複数種類のマルチピンホールマスク201が予め用意されていてもよい。マルチピンホールマスク201は、画像識別時に使用されるレンズレスマルチピンホールカメラのマスクパターンに応じて、ユーザによって自由に交換されてもよい。
 なお、このようなマルチピンホールマスク201の変更は、マルチピンホールマスク201の交換以外にも、以下の様々な方法で実現可能である。例えば、マルチピンホールマスク201は、イメージセンサ202の前に回動自在に取り付けられていてもよく、ユーザによって任意に回転されてもよい。また、例えば、マルチピンホールマスク201は、イメージセンサ202の前に取り付けられている板の任意の箇所に、ユーザによって穴が開けられることにより、作成されてもよい。また、例えば、マルチピンホールマスク201は、空間光変調器などを利用した液晶マスクであってもよい。マルチピンホールマスク201内の各位置の透過率が任意に設定されることにより、所定の数のピンホールが所定の位置に形成されてもよい。さらに、例えば、マルチピンホールマスク201は、ゴムなどの伸縮可能な材質を用いて成形されてもよい。ユーザは、外力の印加によってマルチピンホールマスク201を物理的に変形させ、各ピンホールの位置及び大きさを変えてもよい。
 つまり、第1動作パラメータであるレンズレスマルチピンホールカメラ200の焦点距離、複数のピンホールの数、複数のピンホールの大きさ、及び複数のピンホールの位置によって、撮像画像は大きく変化する。そのため、最適な第1動作パラメータを決定する必要がある。本実施形態の訓練システム10では、第2ニューラルネットワークモデルの識別結果が向上するように、第1動作パラメータを最適化する。これにより、第2ニューラルネットワークモデルの識別結果が向上する。
 なお、図2では、2つのピンホール211,212が水平方向に並んで配置されているが、本開示は特にこれに限定されず、レンズレスマルチピンホールカメラ200は、3つ以上のピンホールを備えてもよい。また、2つのピンホール211,212は、垂直方向に並んで配置されてもよい。
 第1モデル記憶部22は、第1ニューラルネットワークモデルを記憶している。第1ニューラルネットワークモデルは、第1センサを模擬したデバイスシミュレータである。第1動作パラメータ及び第2センシングデータが第1ニューラルネットワークモデルに入力されると、第1ニューラルネットワークモデルは、第1動作パラメータを用いて第1センサが動作することにより第2センシングデータから得られる第1センシングデータを出力する。
 第2モデル記憶部23は、第2ニューラルネットワークモデルを記憶している。第1センシングデータ又は第1ニューラルネットワークモデルの出力が第2ニューラルネットワークモデルに入力されると、第2ニューラルネットワークモデルは、識別結果を出力する。
 第1モデル訓練部11は、第1ニューラルネットワークモデルを第1モデル記憶部22から取得する。また、第1モデル訓練部11は、第1センシングデータ、第1動作パラメータ及び第2センシングデータを訓練データ記憶部21から取得する。
 第1モデル訓練部11は、第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし第1動作パラメータを用いた第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練する。
 第3モデル生成部12は、第2ニューラルネットワークモデルを第2モデル記憶部23から取得する。第3モデル生成部12は、訓練した第1ニューラルネットワークモデルの出力が、第1センシングデータを入力とし第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、第1ニューラルネットワークモデルと第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成する。
 第3モデル訓練部13は、第3ニューラルネットワークモデルに第2センシングデータ及び第1動作パラメータを入力して第3ニューラルネットワークモデルから出力された識別結果と、第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により第2ニューラルネットワークモデルを訓練する。
 第2モデル取得部14は、第3モデル訓練部13によって訓練された第2ニューラルネットワークモデルを取得する。
 第2動作パラメータ取得部15は、誤差逆伝播法により第1ニューラルネットワークモデルから第1動作パラメータを更新した第2動作パラメータを取得する。
 出力部16は、第2動作パラメータ取得部15によって取得された第2動作パラメータを出力する。
 続いて、本開示の実施形態に係る訓練システム10による訓練処理について説明する。
 図3は、本開示の実施形態に係る訓練システム10による訓練処理について説明するためのフローチャートである。
 まず、第1モデル訓練部11は、第1ニューラルネットワークモデルを第1モデル記憶部22から取得する(ステップS101)。
 次に、第1モデル訓練部11は、第1ニューラルネットワークモデルの訓練に必要なデータである、第1センシングデータ、第1動作パラメータ及び第2センシングデータを訓練データ記憶部21から取得する(ステップS102)。具体的には、第1モデル訓練部11は、第1センサであるレンズレスマルチピンホールカメラにより撮像された第1訓練用画像と、第1訓練用画像の撮像に用いられたレンズレスマルチピンホールカメラの第1動作パラメータと、第1訓練用画像と同じ場面を第2センサである通常カメラにより撮像した第2訓練用画像とを取得する。第1動作パラメータは、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ、及び複数のピンホールの位置である。
 次に、第1モデル訓練部11は、訓練データ記憶部21から取得した第1センシングデータ、第1動作パラメータ及び第2センシングデータを利用して、第1ニューラルネットワークモデルを訓練する(ステップS103)。第1モデル訓練部11は、訓練データ記憶部21から取得した第1動作パラメータ及び第2センシングデータを入力データとし、訓練データ記憶部21から取得した第1センシングデータを教師データとし、第1動作パラメータ及び第2センシングデータが入力されると第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練する。第1モデル訓練部11は、例えば、ディープラーニングにおけるアルゴリズムの1つである誤差逆伝播法(BackPropagation)により第1ニューラルネットワークモデルを訓練する。
 図4は、本実施形態における第1ニューラルネットワークモデルの訓練を説明するための模式図である。
 第1モデル訓練部11は、第1動作パラメータであるレンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ及び複数のピンホールの位置と、第2センシングデータである通常カメラにより撮像された第2訓練用画像とを入力データとして第1ニューラルネットワークモデル101に与える。そして、第1モデル訓練部11は、第2訓練用画像と同じ場面を第1動作パラメータで設計されたレンズレスマルチピンホールカメラが仮想的に撮像した場合に得られる推定画像を出力データとして第1ニューラルネットワークモデル101から取得する。そして、第1モデル訓練部11は、第1ニューラルネットワークモデル101から出力された推定画像と、第2訓練用画像と同じ場面を第1動作パラメータで設計されたレンズレスマルチピンホールカメラが実際に撮像することにより得られた第1訓練用画像との誤差が最小となるように、第1ニューラルネットワークモデル101の重みを更新する。
 なお、第1モデル訓練部11は、第1動作パラメータを属性として出力画像を生成する訓練方法として、例えば、Conditional GAN又はConditional Filtered GANなどを利用してもよく、第1動作パラメータを多次元潜在変数として第1ニューラルネットワークモデルを訓練すればよい。Conditional GANについては、既存の文献(Mehdi Mirza、及びSimon Osindero、「Conditional Generative Adversarial Nets」、arXiv preprint arXiv:1411.1784、2014年)に開示されており、Conditional Filtered GANについては、既存の文献(Takuhiro Kaneko、Kaoru Hiramatsu、及びKunio Kashino、「Generative Attribute Controller with Conditional Filtered Generative Adversarial Networks」、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition、pp.6089-6098、2017年)に開示されている。
 このように、第1ニューラルネットワークモデルが訓練されることで、第1動作パラメータ及び第2センシングデータが第1ニューラルネットワークモデルに与えられることで、第2センシングデータである通常カメラで撮像された画像を第1動作パラメータのレンズレスマルチピンホールカメラで撮像した際の推定画像が第1ニューラルネットワークモデルから出力可能になる。
 なお、第1モデル訓練部11は、訓練した第1ニューラルネットワークモデルを第1モデル記憶部22に出力し、訓練した第1ニューラルネットワークモデルを第1モデル記憶部22に記憶してもよい。第1モデル訓練部11は、第1モデル記憶部22に記憶されている第1ニューラルネットワークモデルを訓練済みの第1ニューラルネットワークモデルに更新してもよい。
 図3に戻り、次に、第3モデル生成部12は、第2ニューラルネットワークモデルを第2モデル記憶部23から取得する(ステップS104)。
 次に、第3モデル生成部12は、第1モデル訓練部11によって訓練された第1ニューラルネットワークモデルの出力が、第2モデル記憶部23から取得した第2ニューラルネットワークモデルに入力されるように、第1ニューラルネットワークモデルと第2ニューラルネットワークモデルとを連結して第3ニューラルネットワークモデルを生成する(ステップS105)。
 次に、第3モデル訓練部13は、第3ニューラルネットワークモデルの訓練に必要なデータである、第2センシングデータ、第1動作パラメータ及び第2センシングデータに対応する正解識別情報を訓練データ記憶部21から取得する(ステップS106)。具体的には、第3モデル訓練部13は、第2センサである通常カメラにより撮像された第2訓練用画像と、第1センサであるレンズレスマルチピンホールカメラの第1動作パラメータと、第2訓練用画像に対する正解識別情報とを取得する。第1動作パラメータは、レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ及び複数のピンホールの位置である。
 次に、第3モデル訓練部13は、訓練データ記憶部21から取得した第2センシングデータ、第1動作パラメータ及び正解識別情報を利用して、第3ニューラルネットワークモデルを訓練する(ステップS107)。第3モデル訓練部13は、訓練データ記憶部21から取得した第1動作パラメータ及び第2センシングデータを第1ニューラルネットワークモデルに入力し、第1ニューラルネットワークモデルから出力された第1センシングデータを、第2ニューラルネットワークモデルの入力データとし、第2センシングデータに対応する正解識別情報を第2ニューラルネットワークモデルの教師データとし、第1動作パラメータ及び第2センシングデータが第1ニューラルネットワークモデルに入力されると、第2ニューラルネットワークモデルから識別結果を出力するように第2ニューラルネットワークモデルを訓練する。第3モデル訓練部13は、例えば、ディープラーニングにおけるアルゴリズムの1つである誤差逆伝播法により第3ニューラルネットワークモデルを訓練する。
 図5は、本実施形態における第3ニューラルネットワークモデルの訓練を説明するための模式図である。
 第3モデル訓練部13は、第1動作パラメータであるレンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、複数のピンホールの大きさ及び複数のピンホールの位置と、第2センシングデータである通常カメラにより撮像された第2訓練用画像とを入力データとして第3ニューラルネットワークモデル103の第1ニューラルネットワークモデル101に与える。そして、第3モデル訓練部13は、第2訓練用画像と同じ場面を第1動作パラメータで設計されたレンズレスマルチピンホールカメラが仮想的に撮像した場合に得られる推定画像を出力データとして第1ニューラルネットワークモデル101から取得する。
 そして、第3モデル訓練部13は、第1ニューラルネットワークモデル101から出力した推定画像を入力データとして第3ニューラルネットワークモデル103の第2ニューラルネットワークモデル102に与える。そして、第3モデル訓練部13は、第2ニューラルネットワークモデル102から出力された識別結果と、第2訓練用画像に対応する正解識別情報との誤差が最小となるように、第2ニューラルネットワークモデル102の重みを更新する。また、第3モデル訓練部13は、第2ニューラルネットワークモデル102から出力された識別結果と、第2訓練用画像に対応する正解識別情報との誤差が最小となるように誤差逆伝播することで、第1ニューラルネットワークモデル101から第1動作パラメータを更新した第2動作パラメータを取得する。第2動作パラメータは、最適な第1動作パラメータである。第3モデル訓練部13は、訓練済みの第1ニューラルネットワークモデル101の重みを更新することなく、後述する多次元潜在変数である第1動作パラメータのみを更新し、更新した多次元潜在変数を第2動作パラメータとして取得する。
 また、第2ニューラルネットワークモデルは、それぞれの識別タスクによってどのようなネットワークモデルが利用されてもよい。第2ニューラルネットワークモデルは、例えば、CenterNet又はYOLOv4であってもよい。CenterNetについては、既存の文献(Xingyi Zhou、Dequan Wang、及びPhilipp Krahenbuhl、「Objects as Points」、arXiv:1904.07850、2019年)に開示されており、YOLOv4については、既存の文献(Alexey Bochkovskiy、Chien-Yao Wang、及びHong-Yuan Mark Liao、「YOLOv4:Optimal Speed and Accuracy of Object Detection」、arXiv:2004.10934、2020年)に開示されている。
 また、第3モデル訓練部13は、第3ニューラルネットワークモデルを訓練する際、第2ニューラルネットワークモデルのみを訓練し、第1ニューラルネットワークモデルを訓練しない。つまり、誤差逆伝播法により、重み情報が更新されるのは、第2ニューラルネットワークモデルのみである。
 図3に戻り、次に、第2モデル取得部14は、第3モデル訓練部13によって訓練された第3ニューラルネットワークモデルから、第2ニューラルネットワークモデルを取得する(ステップS108)。第2モデル取得部14は、取得した第2ニューラルネットワークモデルの重みを第2ニューラルネットワークモデルの重みとして決定する。
 なお、第2モデル取得部14は、取得した第2ニューラルネットワークモデルを第2モデル記憶部23に出力し、取得した第2ニューラルネットワークモデルを第2モデル記憶部23に記憶してもよい。第2モデル取得部14は、第2モデル記憶部23に記憶されている第2ニューラルネットワークモデルを訓練済みの第2ニューラルネットワークモデルに更新してもよい。第2モデル取得部14は、第2ニューラルネットワークモデルを外部のコンピュータへ送信してもよい。
 次に、第2動作パラメータ取得部15は、第3モデル訓練部13の訓練の際に、誤差逆伝播法により算出された第1ニューラルネットワークモデルの第1動作パラメータに対応する多次元潜在変数を第2動作パラメータとして取得する(ステップS109)。
 次に、出力部16は、第2動作パラメータ取得部15によって取得された第2動作パラメータを出力する(ステップS110)。出力部16は、第2動作パラメータを訓練システム10の内部のメモリに出力して記憶してもよいし、第2動作パラメータを外部のコンピュータへ送信してもよい。
 第2動作パラメータ取得部15は、取得した第2動作パラメータを、最適な第1動作パラメータに決定する。第2動作パラメータは、第2ニューラルネットワークモデルの識別に最適な第1センサの動作パラメータである。第2動作パラメータ取得部15によって取得された第2動作パラメータを用いて第1センサ(レンズレスマルチピンホールカメラ)が設計される。そして、設計された第1センサ(レンズレスマルチピンホールカメラ)により取得された第1センシングデータ(撮像画像)に対して、第2モデル取得部14によって取得された第2ニューラルネットワークモデルが識別処理を行う。
 本実施形態の訓練システム10は、識別タスクの第2ニューラルネットワークモデルだけでなく、第2ニューラルネットワークモデルによる識別処理に最適な第1動作パラメータも訓練により決定することができるため、より高精度な識別タスクのための訓練を実現することができる。
 なお、本実施形態において、第3モデル訓練部13は、第1動作パラメータ及び第2センシングデータを取得せず、第1訓練用画像である第1センシングデータと、第2センサである通常カメラで撮像された第2訓練用画像に対応する正解識別情報とを、訓練データ記憶部21から取得してもよい。この場合、第3モデル訓練部13は、第3ニューラルネットワークモデルの第2ニューラルネットワークモデルに第1センシングデータを入力し、正解識別情報が出力されるように第2ニューラルネットワークモデルを訓練してもよい。
 次に、訓練データ記憶部21に記憶されているデータと第1センサの第1動作パラメータとについて説明する。
 前述の通り、第1センサは、例えば、レンズレスマルチピンホールカメラである。ここで、レンズレスマルチピンホールカメラの複数のピンホールの位置は、9つのピンホール位置のうちの少なくとも2つであり、複数のピンホールの数は、2つ以上9つ以下であるとする。つまり、第1動作パラメータは、複数のピンホールの数及び複数のピンホールの位置である。
 図6は、複数のピンホールが形成されたマルチピンホールマスク201の一例を示す模式図である。
 マルチピンホールマスク201には、3X3のマトリックス状に並んだ9つのピンホール位置2011~2019のうちの少なくとも2つの位置にピンホールが形成される。第1動作パラメータの複数のピンホールの位置は、9つのピンホール位置2011~2019のうちの少なくとも2つの位置を表す。
 訓練データ記憶部21は、9つのピンホール位置2011~2019のうちの少なくとも1つの位置にピンホールが形成された第1センサであるレンズレスマルチピンホールカメラで撮像した第1訓練用画像を第1センシングデータとして記憶する。
 また、訓練データ記憶部21は、第1センシングデータを撮像したレンズレスマルチピンホールカメラにおいて、9つのピンホール位置2011~2019のうちのいずれの位置にピンホールが形成されているかを示す情報を第1動作パラメータとして記憶する。
 また、訓練データ記憶部21は、第1センシングデータを撮像した場面と同一の場面を通常カメラで撮像した第2訓練用画像を第2センシングデータとして記憶する。
 また、訓練データ記憶部21は、第2センシングデータである通常カメラで撮像した第2訓練用画像に対する正解識別情報を記憶する。
 第1モデル訓練部11は、Conditional GANを利用し、9か所のピンホール位置のうち、ピンホールが形成されている位置を1とし、ピンホールが形成されていない位置を0とした第1動作パラメータを多次元潜在変数として入力するとともに、第2センシングデータを入力し、第1センシングデータが出力されるように第1ニューラルネットワークモデルを訓練する。
 また、第3モデル訓練部13は、第2ニューラルネットワークモデルとしてCenterNetなどを利用し、第1センサの第1動作パラメータと第2センサの第2センシングデータとが入力されると、第1動作パラメータを用いた第1センサの動作により得られる第1センシングデータの推定データを出力する第1ニューラルネットワークモデルの出力を第2ニューラルネットワークモデルの入力データとし、第2センサである通常カメラで撮像された第2訓練用画像に対応する正解識別情報が出力されるように第3ニューラルネットワークモデルを訓練する。
 もちろん、訓練データ記憶部21に記憶されているデータは上記に限らない。例えば、第2センサは、ピンホールカメラ又はレンズレスピンホールカメラであってもよく、第2センシングデータとして、ピンホールカメラ又はレンズレスピンホールカメラで撮像された画像データが利用されてもよい。これは、例えば、図6に示したマルチピンホールマスク201において、マスクの中央のピンホール位置2015のみにピンホールが形成されたレンズレスピンホールカメラの撮像画像を利用すればよい。このようなレンズレスピンホールカメラは、レンズレスマルチピンホールカメラに対して周辺減光又はイメージセンサのノイズ特性などが近似した画像を取得することができる。そのため、第1動作パラメータとピンホールカメラ又はレンズレスピンホールカメラで撮像された第2センシングデータとが第1ニューラルネットワークモデルに入力されることにより、第1ニューラルネットワークモデルはより高精度の第1センシングデータを出力できる。
 また、第2センシングデータは、異なる視点位置で撮像された画像であってもよい。第2センシングデータは、複数の視点位置で撮像された画像であってもよい。例えば、第2センシングデータは、レンズレスマルチピンホールカメラで想定している9か所のピンホール位置と同様の位置関係を有する、複数の視点位置で撮像された画像であってもよい。
 図7は、複数の視点位置から画像を撮像する第2センサの一例を示す模式図である。
 図7において、第2センサは、9眼ステレオカメラであり、3X3のマトリックス状に配置された9つの通常カメラ301~309を含む。
 図6において、ピンホール位置2015は、マルチピンホールマスク201の中心に存在する。ピンホール位置2011はピンホール位置2015の左上方に存在する。ピンホール位置2012はピンホール位置2015の上方に存在する。ピンホール位置2013はピンホール位置2015の右上方に存在する。ピンホール位置2014はピンホール位置2015の左方に存在する。ピンホール位置2016はピンホール位置2015の右方に存在する。ピンホール位置2017はピンホール位置2015の左下方に存在する。ピンホール位置2018はピンホール位置2015の下方に存在する。ピンホール位置2019はピンホール位置2015の右下方に存在する。
 図7の第2センサである9眼ステレオカメラの複数の通常カメラ301~309は、マルチピンホールマスク201のピンホール位置と同様の位置に配置されている。
 すなわち、通常カメラ305は、ステレオカメラの中心に存在する。通常カメラ301は通常カメラ305の左上方に存在する。通常カメラ302は通常カメラ305の上方に存在する。通常カメラ303は通常カメラ305の右上方に存在する。通常カメラ304は通常カメラ305の左方に存在する。通常カメラ306は通常カメラ305の右方に存在する。通常カメラ307は通常カメラ305の左下方に存在する。通常カメラ308は通常カメラ305の下方に存在する。通常カメラ309は通常カメラ305の右下方に存在する。
 レンズレスマルチピンホールカメラは、複数の視点位置の画像を重畳して撮像する。そのため、撮像画像には、通常カメラ画像には含まれない被写体の奥行情報が、各視点間の視差として含まれる。図7に示す第2センサでは、図6に示すマルチピンホールマスク201を備えるレンズレスマルチピンホールカメラの複数のピンホール位置2011~2019と同様の位置に通常カメラ301~309が配置されている。第2センシングデータは、複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像である。そのため、第2センサは、第1センサと同様の奥行情報を取得することができる。このように、奥行情報を与えることができる第2センサが利用されることで、第1ニューラルネットワークモデルはより高精度の第1センシングデータを出力できる。
 もちろん、第2センシングデータが、複数の視点位置で撮像された画像である場合、視点位置の数はマルチピンホールカメラで想定されるピンホール位置の数と一致させる必要はない。第2センサの視点位置の数は、ピンホール位置の数より少なくてもよく、ピンホール位置の数より多くてもよい。第2センサの視点位置の数が少なくなると、データ数を減らすことができ、コストを低減することができる。また、第2センサの視点位置の数が多くなると、第1ニューラルネットワークモデルはより高精度の第1センシングデータを出力できる。また、第2センシングデータが、複数の視点位置で撮像された画像である場合、正解識別情報は、複数の視点位置のいずれか1つの視点位置で撮像された画像に対応する正解識別情報であってもよく、又は複数の視点位置それぞれで撮像された複数の画像それぞれに対応する正解識別情報であってもよい。
 また、第2センシングデータは、2次元の画像データである必要はなく、奥行情報が付与された3次元の画像データであってもよい。このような3次元の画像データとしては、例えば、ポイントクラウドデータなどがある。
 また、第1動作パラメータが、複数のピンホールの大きさを示す情報を含む場合、第1モデル訓練部11は、第1ニューラルネットワークモデルとしてConditional Filtered GANを利用する。この場合、第1モデル訓練部11は、9か所のピンホール位置のうち、ピンホールが形成されていない位置のピンホールの大きさを0とし、ピンホールが形成されている位置のピンホールの大きさをピンホールの直径が大きくなるほど値が大きくなる値とした第1動作パラメータを多次元潜在変数として入力するとともに、第2センシングデータを入力し、第1センシングデータが出力されるように第1ニューラルネットワークモデルを訓練してもよい。
 また、第1動作パラメータがレンズレスマルチピンホールカメラの焦点距離を示す情報を含む場合、第1モデル訓練部11は、第1ニューラルネットワークモデルとしてConditional Filtered GANを利用する。この場合、第1モデル訓練部11は、第1動作パラメータである焦点距離を0以上1以下に正規化し、正規化した焦点距離を潜在変数として入力するとともに、第2センシングデータを入力し、第1センシングデータが出力されるように第1ニューラルネットワークモデルを訓練してもよい。
 また、第1動作パラメータであるピンホールの位置は、前述のように事前に設定した位置ではなく、マルチピンホールマスク201上の座標値であってもよい。この場合、第1モデル訓練部11は、第1ニューラルネットワークモデルとしてConditional Filtered GANを利用する。第1モデル訓練部11は、マルチピンホールマスク201上の2次元座標(u,v)の座標値を0以上1以下に正規化し、正規化した座標値を多次元潜在変数として入力するとともに、第2センシングデータを入力し、第1センシングデータが出力されるように第1ニューラルネットワークモデルを訓練する。
 本実施形態の第3モデル訓練部13は、訓練された第1ニューラルネットワークモデルに第1動作パラメータ及び第2センシングデータを入力することにより、訓練データ記憶部21に記憶されていない第1センシングデータを推定している。この場合、第3モデル訓練部13は、第1動作パラメータに関係なく、第2センシングデータに対する正解識別情報を利用すればよい。これにより、訓練時に問題となる正解識別情報を付加するためのコストを下げつつ、訓練データ記憶部21に記憶されていない第1センシングデータに対しても第2ニューラルネットワークモデルを訓練することができる。そのため、より多くの訓練データを利用した第3ニューラルネットワークモデルの訓練が可能となり、より高精度の推定を実現することができる。
 また、第3モデル訓練部13は、第2ニューラルネットワークモデルの入力データとして第1ニューラルネットワークモデルの出力を利用するのではなく、第1センシングデータを利用してもよい。訓練に十分な量の第1センシングデータが訓練データ記憶部21に記憶されている場合、第3モデル訓練部13は、第1ニューラルネットワークモデルの推定結果を利用せずに、第3ニューラルネットワークモデルを訓練することができる。ただし、後述するように、第2動作パラメータの取得には、訓練済みの第1ニューラルネットワークモデルが必要であるため、この場合も、ステップS103において、第1ニューラルネットワークモデルは訓練される。
 以上の説明では、第1センサとしてレンズレスマルチピンホールカメラが利用される場合について説明したが、第1センサは別のセンサであってもよい。例えば、第1センサは、レンズを有する符号化開口(Coded Aperture)カメラであってもよい。
 図8は、第1センサの他の例である符号化開口カメラ210の構造を模式的に示す図である。
 図8に示す符号化開口カメラ210は、マルチピンホールマスク201と、CMOSなどのイメージセンサ202と、複数のレンズ213,214とを有する。もちろん、レンズの数は2枚である必要はなく、何枚であってもよい。マルチピンホールマスク201は、イメージセンサ202と被写体との間に配置される。この場合、第1動作パラメータは、マルチピンホールマスク201とイメージセンサ202との距離L(図8に図示)、複数のピンホールの数、複数のピンホールのそれぞれの大きさ、及び複数のピンホールのそれぞれの位置の少なくとも1つである。
 符号化開口カメラ210において、マルチピンホールマスク201は符号化マスクとも呼ばれ、絞りに相当する。そのため、符号化開口カメラ210のぼけ方を示すPoint Spread Function(PSF)はマルチピンホールマスク201に依存する。例えば、マルチピンホールマスク201が2つのピンホールを有する場合、符号化開口カメラ210で撮像された画像は、合焦位置以外では2つの被写体がずれて重なり合った状態(多重像)の重畳画像となる。つまり、複数のピンホールの位置関係は、イメージセンサ202上に投影される複数の画像の位置関係(つまり多重像の重畳の度合い)に影響を与える。ピンホールの大きさは、絞りの大きさとなり、画像のボケの度合いに影響を与える。また、ピンホールの数は、画像の重畳数となり、撮像画像のボケの度合いに影響を与える。
 合焦位置から外れた被写体を、マルチピンホールマスク201を用いた符号化開口カメラ210が撮影することで、位置及びボケの程度が異なる複数の画像を重畳して取得することが可能である。つまり、意図的に多重像及びボケが作り出された計算撮像画像を取得することが可能である。そのため、撮像画像は多重像かつボケ画像となり、これらのボケによって被写体のプライバシーが保護された画像を取得することができる。
 第1動作パラメータであるマルチピンホールマスク201とイメージセンサ202との距離L、複数のピンホールの数、複数のピンホールの大きさ、及び複数のピンホールの位置によって、撮像画像は大きく変化する。そのため、最適な第1動作パラメータを決定する必要がある。本実施形態の訓練システム10では、第2ニューラルネットワークモデルの識別結果が向上するように、第1動作パラメータを最適化する。これにより、第2ニューラルネットワークモデルの識別結果が向上する。
 本実施形態の第3モデル訓練部13は、訓練された第1ニューラルネットワークモデルに第1動作パラメータ及び第2センシングデータを入力することにより、訓練データ記憶部21に記憶されていない第1センシングデータを推定し、推定した第1センシングデータを用いて第3ニューラルネットワークモデルを訓練することができる。そのため、より多くの訓練データを利用した第3ニューラルネットワークモデルの訓練が可能となり、より高精度の推定を実現することができる。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。
 本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 また、本開示の実施の形態に係る装置の機能の一部又は全てを、CPU等のプロセッサがプログラムを実行することにより実現してもよい。
 また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。
 また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時(並列)に実行されてもよい。
 本開示に係る技術は、ニューラルネットワークモデルの入力デバイスとして利用されるセンサの動作パラメータを最適化することができるとともに、ニューラルネットワークモデルの識別精度を向上させることができるので、機械学習により識別モデルを生成するとともに、識別モデルに入力するセンシングデータを得るためセンサの動作パラメータを最適化する技術として有用である。

Claims (12)

  1.  コンピュータが、
     第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、
     訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、
     前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、
     前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得する、
     情報処理方法。
  2.  前記第1センサは、符号化開口カメラであり、
     前記第1動作パラメータは、符号化マスクとイメージセンサとの距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも1つである、
     請求項1に記載の情報処理方法。
  3.  前記第1センサは、レンズレスマルチピンホールカメラであり、
     前記第1動作パラメータは、前記レンズレスマルチピンホールカメラの焦点距離、複数のピンホールの数、前記複数のピンホールのそれぞれの大きさ、及び前記複数のピンホールのそれぞれの位置の少なくとも1つである、
     請求項1に記載の情報処理方法。
  4.  前記第2センシングデータは、前記第1センシングデータと比較して、ボケの少ない画像である、
     請求項1~3のいずれか1項に記載の情報処理方法。
  5.  前記第2センサは、レンズ、1つの絞り及び撮像素子を備えるカメラである、
     請求項4に記載の情報処理方法。
  6.  前記第2センサは、ピンホールカメラである、
     請求項4に記載の情報処理方法。
  7.  前記第2センシングデータは、異なる視点位置で撮像された画像である、
     請求項1~3のいずれか1項に記載の情報処理方法。
  8.  前記第2センシングデータは、複数の視点位置で撮像された画像である、
     請求項7に記載の情報処理方法。
  9.  前記第1センシングデータは、複数のピンホールのそれぞれを通じて取得された複数の画像を重畳した画像であり、
     前記第2センシングデータは、前記複数のピンホールのそれぞれの位置に対応した視点位置で撮像された画像である、
     請求項8に記載の情報処理方法。
  10.  第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練する第1訓練部と、
     訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成する生成部と、
     前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練する第2訓練部と、
     前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得する取得部と、
     を備える情報処理システム。
  11.  第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、
     訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、
     前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、
     前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得するようにコンピュータを機能させる、
     情報処理プログラム。
  12.  情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体であって、
     前記情報処理プログラムは、
     第1センサの動作に用いられる第1動作パラメータと第2センサの動作により得られる第2センシングデータとを入力とし前記第1動作パラメータを用いた前記第1センサの動作により得られる第1センシングデータを出力するように第1ニューラルネットワークモデルを訓練し、
     訓練した前記第1ニューラルネットワークモデルの出力が、前記第1センシングデータを入力とし前記第1センシングデータに対する識別結果を出力とする第2ニューラルネットワークモデルに入力されるように、前記第1ニューラルネットワークモデルと前記第2ニューラルネットワークモデルとが連結された第3ニューラルネットワークモデルを生成し、
     前記第3ニューラルネットワークモデルに前記第2センシングデータ及び前記第1動作パラメータを入力して前記第3ニューラルネットワークモデルから出力された識別結果と、前記第2センシングデータに対応する正解識別情報との誤差を用いて誤差逆伝播法により前記第2ニューラルネットワークモデルを訓練し、
     前記誤差逆伝播法により前記第1ニューラルネットワークモデルから前記第1動作パラメータを更新した第2動作パラメータを取得するようにコンピュータを機能させる、
     コンピュータ読み取り可能な非一時的な記録媒体。
PCT/JP2022/044680 2021-12-09 2022-12-05 情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体 WO2023106252A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280081228.0A CN118382877A (zh) 2021-12-09 2022-12-05 信息处理方法、信息处理系统、信息处理程序以及记录信息处理程序的计算机可读的非暂时性记录介质
JP2023566305A JPWO2023106252A1 (ja) 2021-12-09 2022-12-05
US18/732,866 US20240320495A1 (en) 2021-12-09 2024-06-04 Information processing method, information processing system, and computer-readable non-transitory recording medium having information processing program recorded thereon

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-200097 2021-12-09
JP2021200097 2021-12-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/732,866 Continuation US20240320495A1 (en) 2021-12-09 2024-06-04 Information processing method, information processing system, and computer-readable non-transitory recording medium having information processing program recorded thereon

Publications (1)

Publication Number Publication Date
WO2023106252A1 true WO2023106252A1 (ja) 2023-06-15

Family

ID=86730339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/044680 WO2023106252A1 (ja) 2021-12-09 2022-12-05 情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体

Country Status (4)

Country Link
US (1) US20240320495A1 (ja)
JP (1) JPWO2023106252A1 (ja)
CN (1) CN118382877A (ja)
WO (1) WO2023106252A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019200769A (ja) * 2018-05-14 2019-11-21 パナソニックIpマネジメント株式会社 学習装置、学習方法及びプログラム
JP2020035443A (ja) * 2018-08-24 2020-03-05 株式会社豊田中央研究所 センシング装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019200769A (ja) * 2018-05-14 2019-11-21 パナソニックIpマネジメント株式会社 学習装置、学習方法及びプログラム
JP2020035443A (ja) * 2018-08-24 2020-03-05 株式会社豊田中央研究所 センシング装置

Also Published As

Publication number Publication date
US20240320495A1 (en) 2024-09-26
CN118382877A (zh) 2024-07-23
JPWO2023106252A1 (ja) 2023-06-15

Similar Documents

Publication Publication Date Title
US12008797B2 (en) Image segmentation method and image processing apparatus
WO2020156143A1 (zh) 三维人体姿态信息检测方法及装置、电子设备、存储介质
JP2020523665A (ja) 生体検出方法及び装置、電子機器並びに記憶媒体
CN109819675B (zh) 图像生成装置以及图像生成方法
JP7126123B2 (ja) 学習装置、学習方法及びプログラム
CN111819568A (zh) 人脸旋转图像的生成方法及装置
JP2017517794A (ja) 画像処理方法および画像処理装置
CN112750085A (zh) 图像恢复方法和图像恢复设备
CN109086727B (zh) 一种确定人体头部的运动角度的方法、装置及电子设备
JP2009515493A (ja) カメラ動きの決定
CN109785322B (zh) 单眼人体姿态估计网络训练方法、图像处理方法和装置
JP7064257B2 (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
JP6675691B1 (ja) 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
JP7407428B2 (ja) 三次元モデル生成方法及び三次元モデル生成装置
WO2021193391A1 (ja) データ生成方法、学習方法及び推定方法
WO2022165722A1 (zh) 单目深度估计方法、装置及设备
TW201220253A (en) Image calculation method and apparatus
KR20190119212A (ko) 인공신경망을 이용한 가상 피팅 시스템, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
CN115457176A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN109978928B (zh) 一种基于加权投票的双目视觉立体匹配方法及其系统
WO2023106252A1 (ja) 情報処理方法、情報処理システム、情報処理プログラム及び情報処理プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体
JP2022095332A (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置
CN106461982A (zh) 用于确定至少一个行为参数的方法
TW201916669A (zh) 一種注視識別及互動方法與裝置
CN116245961A (zh) 一种基于多类传感器信息的融合感知方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22904181

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023566305

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE