WO2023276022A1 - 学習装置、学習方法及びプログラム - Google Patents
学習装置、学習方法及びプログラム Download PDFInfo
- Publication number
- WO2023276022A1 WO2023276022A1 PCT/JP2021/024673 JP2021024673W WO2023276022A1 WO 2023276022 A1 WO2023276022 A1 WO 2023276022A1 JP 2021024673 W JP2021024673 W JP 2021024673W WO 2023276022 A1 WO2023276022 A1 WO 2023276022A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- tensor
- learning
- processed
- filter
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 229
- 230000008569 process Effects 0.000 claims abstract description 203
- 238000003384 imaging method Methods 0.000 claims abstract description 34
- 238000013178 mathematical model Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 89
- 230000003287 optical effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 description 34
- 238000005457 optimization Methods 0.000 description 21
- 230000008859 change Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000010801 machine learning Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 229940050561 matrix product Drugs 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000000701 chemical imaging Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004038 photonic crystal Substances 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Definitions
- the present invention relates to a learning device, a learning method and a program.
- Non-Patent Documents 3 and 4 Some techniques sometimes increase the amount of computation in proportion to the power of the input information (for example, Non-Patent Documents 3 and 4). Also, when trying to suppress an increase in the amount of calculation, there are cases where the accuracy of the generated image is low. That is, it has been difficult to achieve both suppression of an increase in the amount of calculation and accuracy of the generated image. This is a common problem not only for images but also for signals.
- an object of the present invention is to provide a technique that achieves both an increase in the amount of calculation required for signal generation and the accuracy of signal generation.
- a learning data acquisition unit acquires learning data including image data of an image of an object captured through a filter and filter state information indicating the state of the filter, and solving an inverse problem.
- a fidelity process which is a process of generating a tensor whose solution is the tensor closest to the tensor to be processed, based on the learning data, and image data of an image having properties close to the statistical properties satisfied by the image to be shot.
- the number of tensors to be processed by the regularization process is larger than the number of tensors to be processed by the regularization process, and the size of each tensor to be processed by the fidelity process is smaller than the size of the tensor to be processed by the regularization process, and the tensor is to be processed by the regularization process.
- One aspect of the present invention is a learning data acquisition unit that acquires learning data including a signal obtained by imaging an imaging target through a filter and filter state information indicating the state of the filter, and solving an inverse problem.
- a fidelity process which is a process of generating a tensor whose solution is the tensor closest to the tensor to be processed based on the learning data, and a property close to the statistical properties satisfied by the signal obtained by imaging the imaging target.
- a learning unit that executes an image reconstruction model that is a mathematical model including a regularization process that is a process of generating a signal based on the learning data, and the number of tensors to be processed in the fidelity process is larger than the number of tensors to be processed in the regularization process, the size of each tensor to be processed in the faithfulization process is smaller than the size of the tensor to be processed in the regularization process, and the regularization process
- a target tensor is a tensor obtained by combining the tensors generated in the above-mentioned fidelity processing, and the above-mentioned fidelity processing and the above-mentioned regularization processing are executed alternately.
- a fidelity process which is a process of generating a tensor whose solution is the tensor closest to the tensor to be processed, based on the learning data, and image data of an image having properties close to the statistical properties satisfied by the image to be shot.
- an image reconstruction model which is a mathematical model including regularization processing, which is processing generated based on the learning data, and the number of tensors to be processed in the fidelity processing is
- the number of tensors to be processed in the regularization process is larger than the number of tensors to be processed in the regularization process, and the size of each tensor to be processed in the faithfulization process is smaller than the size of the tensors to be processed in the regularization process, and the number of tensors to be processed in the regularization process is
- a tensor is a tensor in which tensors generated in the fidelity processing are combined, and the learning method is such that the fidelity processing and the regularization processing are alternately executed.
- One aspect of the present invention is a program for causing a computer to function as the above learning device.
- FIG. 4 is an explanatory diagram for explaining a reconstruction neural network in the image generation system of the embodiment;
- FIG. 4 is a diagram showing an example of the flow of processing executed by the image generation system of the embodiment;
- the figure which shows an example of the functional structure of the control part in embodiment. 4 is a flowchart showing an example of the flow of processing executed by the learning device according to the embodiment;
- FIG. 1 is an explanatory diagram explaining an overview of the image generation system 100 of the embodiment. First, an outline of the image generation system 100 will be described.
- the image generation system 100 is a system that generates image data of an image of a shooting target. The image is, for example, a photograph.
- the image generation system 100 includes at least a control device 1 , an imaging device 2 and a filter 3 .
- the control device 1 controls the image generation system 100 .
- the imaging device 2 may be any sensor that uses one or more photodiodes. Examples of sensors are cameras and X-ray cameras. If the imaging device 2 is an X-ray camera, the image generation system 100 may be used for radiography, for example.
- the imaging device 2 may consist of one photodiode or may be a two-dimensional array of photodiodes. The imaging device 2 may be provided with photodiodes for each primary color of RGB, for example.
- the imaging device 2 outputs information indicating the frequency and intensity of the incident electromagnetic wave (hereinafter referred to as "electromagnetic wave information"). If it is composed of one photodiode, the electromagnetic wave information is frequency and intensity, and if it is composed of a two-dimensional array of photodiodes, the electromagnetic wave information is information indicating the spatial distribution of frequency and intensity. . From now on, the case where the photographing device 2 is composed of one photodiode will be described.
- the filter 3 is a medium whose spatial distribution of optical constants is changed by a predetermined action such as application of voltage, application of magnetic field, application of heat, and application of load.
- the filter 3 is a thin film made of, for example, a photorefractive material.
- Filter 3 may be, for example, a photonic crystal whose permittivity or structure changes upon application of an action.
- the spatial distribution of the optical constants of filter 3 is controlled by controller 1 .
- the spatial distribution of optical constants may be, for example, the spatial distribution of aperture positions (that is, the aperture pattern).
- the photographing device 2 photographs the object to be photographed through the filter 3.
- the image capturing device 2 is composed of one photodiode, the image capturing device 2 converts the incident signal through the filter 3 into an electric signal.
- imaging is the process of converting an incident signal into an electrical signal. Therefore, the content indicated by the electromagnetic wave information depends on the object to be photographed and the state of the filter 3 .
- the state of the filter 3 is specifically the spatial distribution of the optical constants of the filter 3 .
- the filter state change process is a process of changing the state of the filter 3 based on the filter state information and electromagnetic wave information obtained until a predetermined termination condition is satisfied.
- the filter state information is information indicating the spatial distribution of the optical constants of the filter 3 .
- Information obtained by solving an inverse problem based on electromagnetic wave information and filter state information obtained by the time when a predetermined end condition (hereinafter referred to as "filter state change end condition") is satisfied is stored in a storage device or the like. This is image data (hereinafter referred to as "final image data”) to be output to a predetermined output destination. That is, the inverse problem is obtained using one or more electromagnetic wave information.
- the control device 1 executes the filter state change processing.
- the filter state change end condition is, for example, a condition that the filter state change process has been executed a predetermined number of times.
- the filter state change process is a process in which the state of the filter 3 is changed so as not to project an image that satisfies a predetermined concealment condition.
- the concealment condition is a condition that the image of the object to be suppressed from leaking information due to photography satisfies. Therefore, an image that satisfies the concealment condition does not appear in the image indicated by the final image data (hereinafter referred to as the "final image").
- An image that satisfies the concealment condition is, for example, a face.
- the filter state changing process may be a process whose content is determined by a machine learning method, or may be a process whose content is determined in advance by a method other than machine learning.
- the image generation system 100 generates image data so as not to acquire further information from the time when it is determined that the image meets the concealment condition.
- the image data is generated so that the image satisfying the concealment condition has less information than the image not satisfying the concealment condition. That is, the image generation system 100 generates image data with a smaller amount of information for an image that meets the concealment condition by controlling the optical system than for an image that does not meet the concealment condition.
- the image generation system 100 does not process the obtained image to delete the image that satisfies the concealment condition from the image and, as a result of the deletion, obtain image data with less information than the image that does not satisfy the concealment condition. Therefore, the image generation system 100 can suppress the leakage of information due to photography.
- the filter state change processing includes image reconstruction processing and optimization processing.
- Image reconstruction processing is processing for solving an inverse problem based on electromagnetic wave information and filter state information.
- the image reconstruction process estimates the image data of the image to be captured by solving an inverse problem.
- the image data estimated by the image reconstruction processing is hereinafter referred to as reconstructed image data.
- An image indicated by reconstructed image data is hereinafter referred to as a reconstructed image.
- this embodiment shows that an image is reconstructed from a small number of samples by image reconstruction processing.
- a small number of samples means, for example, some of the pixels forming an image.
- a method for solving the inverse problem is, for example, compressed sensing.
- the method of solving the inverse problem may be a convex optimization method such as a method of solving by ADMM (alternating direction method of multiplier) with total variation minimization as a regularization term.
- the method of solving the inverse problem may be, for example, a method using a trained model obtained using deep learning.
- the optimization process is a process of changing the state of the filter 3 based on the reconstructed image data so as not to capture an image that satisfies a predetermined concealment condition. Therefore, the optimization process is a process of controlling the spatial distribution of the optical constants of the filter 3 based on the reconstructed image data. Therefore, the optimization process is, for example, a process of controlling the aperture pattern of the filter 3 based on reconstructed image data.
- the optimization process includes filter state information update process and update information application process.
- the filter state information update process is a process of updating filter state information based on the reconstructed image.
- the updated filter state information indicates the state of the filter 3 so as to satisfy the update conditions.
- the update condition is that the state of the filter 3 indicated by the updated filter state information obtained by the filter state information update process is a state in which an image that satisfies a predetermined concealment condition is less visible than before the update. .
- any method may be used to update the filter state information as long as the filter state information can be updated so as to satisfy the update conditions based on the reconstructed image.
- the update information application process is a process of controlling the state of the filter 3 so that the state of the filter 3 is the state indicated by the updated filter state information updated by the filter state information update process.
- the filter state information update process may update the filter state information by executing random number update process, detection process, and mask process, for example.
- the random number update process is a process of updating the filter state information using Gaussian distributed random numbers.
- the random number update process updates the spatial distribution of the optical constants of the filter 3 indicated by the filter state information.
- the detection processing is processing for detecting an image that satisfies a concealment condition based on the reconstructed image.
- the detection of the image that satisfies the concealment condition may be a process of detecting the image that satisfies the concealment condition, for example, by detecting the features of the image that satisfies the concealment condition. If the image that satisfies the concealment condition is, for example, a face, the feature that the image that satisfies the concealment condition has is, for example, the eyes, nose, or mouth.
- the masking process is a process of updating part of the optical constants at each position of the filter 3 indicated by the filter state information updated by the random number update process.
- An object to be updated by the mask processing is the optical constant at the position corresponding to the image detected by the detection processing among the positions of the filter 3 . Specifically, the corresponding position is above the filter 3 through which the electromagnetic wave coming from the imaging target and incident on the imaging device 2 passes in the optical system formed by the imaging target, the filter 3 and the imaging device 2. is the position of The mask processing changes the optical constants to be updated to values that reduce the transmittance of electromagnetic waves coming from the object to be photographed in the optical system formed by the object to be photographed, the filter 3 and the imaging device 2 .
- the random number update process, detection process, and mask process are executed to update the filter state information so that it satisfies the update conditions.
- the filter state information update process is, for example, a process of updating the filter state information based on the reconstructed image data using a trained model obtained by performing learning so as to satisfy the following filter loss conditions using a machine learning method. (hereinafter referred to as “machine learning processing”). For learning that satisfies the filter loss condition, a large amount of image data is prepared as image data of a simulated imaging target. Learning is performed by reconstructing image data (hereinafter referred to as "second learning data") obtained through image reconstruction processing when the image data of the imaging target (hereinafter referred to as "first learning data”) and the image data of the imaging target are input. data”) are used.
- the filter loss condition includes a first global image condition and a local misalignment increase condition.
- the first overall image condition is to reduce the difference between the image represented by the first learning data and the image represented by the second learning data.
- the local image difference increasing condition is a condition to increase the difference between the image satisfying the concealment condition in the image of the photographing target and the image satisfying the concealment condition in the reconstructed image data.
- a condition is set such that the difference between the image of the photographing object and the reconstructed image is large with respect to the image that satisfies the concealment condition. Updates to the filter state information are made to meet the requirements.
- the machine learning method is, for example, deep learning.
- the execution of machine learning processing updates the filter state information so that it satisfies the update conditions.
- the image reconstruction processing may be processing using a trained model obtained by the machine learning method, and the filter state information update processing is also obtained by the machine learning method as described above. It may be a trained model. Acquisition of the trained model used in the image reconstruction process and acquisition of the trained model used in the filter state information update process may be obtained independently of each other, but they do not have to be independent of each other. Mutually independent may specifically be obtained by adversarial learning.
- an image reconstruction model a mathematical model that estimates reconstructed image data based on electromagnetic wave information and filter state information, which is a mathematical model before a predetermined termination condition regarding the end of learning is satisfied. It says.
- the image reconstruction model at the time when a predetermined termination condition regarding the end of learning is satisfied is the trained image reconstruction model, and the trained image reconstruction model is the trained model used in the image reconstruction processing.
- a mathematical model that updates filter state information based on reconstructed image data and which is a mathematical model before a predetermined end condition regarding the end of learning is satisfied is hereinafter referred to as a filter state information update model.
- the filter state information update model at the time when a predetermined end condition regarding the end of learning is satisfied is the learned filter state information update model, and the learned filter state information update model is used in the filter state information update process. is a model. Note that the machine learning process described above can also be said to be a process of executing a filter state information update model.
- the image reconstruction model by adversarial learning obtains a trained model used in image reconstruction processing and a trained model used in filter state information update processing.
- the image reconstruction model and the filter state information update model are alternately updated according to a predetermined rule.
- the update of the filter state information update model is performed so as to satisfy the filter loss condition described above.
- the image reconstruction model is updated so as to satisfy the reconstruction loss condition.
- the learning data used for updating (that is, learning) the image reconstruction model includes electromagnetic wave information and filter state information.
- the reconstruction loss condition includes a second global image condition and a local disparity reduction condition.
- the second whole image condition determines the difference between the entire reconstructed image obtained based on the electromagnetic wave information and the filter state information (that is, the entire image indicated by the second learning data) and the image indicated by the first learning data.
- the condition is to make it smaller.
- the local image difference reduction condition is a condition to reduce the difference between an image that satisfies the concealment condition in the image of the photographing target and an image that satisfies the concealment condition in the reconstructed image data.
- the filter state information update model learns to increase the difference between the image satisfying the concealment condition in the image obtained as a result of processing and the image satisfying the concealment condition in the image of the photographing object. is done.
- the image reconstruction model is trained so as to reduce the difference between the image obtained as a result of processing and the image satisfying the concealment condition in the image of the photographing target. Therefore, the learning of the filter state information update model and the learning of the image reconstruction model are adversarial learning.
- a convex optimization method Compressive sensing is reduced to a convex optimization problem.
- the formula to be solved is represented by the sum of two terms, a fidelity term and a regularization term, using an auxiliary variable, and the fidelity term and the regularization term are alternately optimized.
- the convex optimization method is a method of self-consistently solving the fidelity term and the regularization term.
- the image reconstruction model is represented, for example, by a neural network that reflects this convex optimization method in machine learning. More specifically, the image reconstruction model is represented by a neural network including a plurality of fidelity neural networks and regularization neural networks.
- a fidelity neural network is a neural network that represents the process represented by the fidelity term.
- a regularization neural network is a neural network that represents the process represented by the regularization term.
- a neural network that expresses an image reconstruction model is hereinafter referred to as an image reconstruction neural network.
- a neural network is a mathematical model whose processing content is updated through learning.
- a mathematical model is a set of one or more processes whose execution timing is predetermined. Therefore, executing a mathematical model means executing each process included in the mathematical model according to a predetermined rule.
- each fidelity neural network and each regularization neural network included in the image reconstruction neural network are updated through learning. This is because the content of the process of self-consistently calculating the solution of the faithfulness term and the regularization term, such as how the parameters change in the process of self-consistently calculating the solution of the faithfulness term and the regularization term. It means that it is updated by learning.
- the faithfulness term and the regularization term are mathematically one and the other when the formula to be solved is divided into two using auxiliary variables.
- the fidelity term does not simply mean one of the two mathematically divided terms, the process of optimization of the fidelity term obtains the value that minimizes the difference from a given criterion.
- the regularization term is defined so that the process of optimizing the regularization term can be interpreted as a process of obtaining a value that minimizes the difference from the quantity indicated by the a priori information.
- a fidelity neural network is used instead of the fidelity term, and a regularization neural network is used instead of the regularization term.
- An interpretable definition is given. This will be described below with reference to FIG.
- FIG. 2 is an explanatory diagram for explaining the reconstruction neural network in the image generation system 100 of the embodiment.
- the reconstruction neural network of the image generation system 100 alternately comprises a fidelity neural network and a regularization neural network. That is, the fidelity process and the regularization process are alternately executed.
- the fidelity neural network is input with image data represented by a tensor of one or more ranks divided into a plurality of smaller tensors.
- a plurality of smaller tensors is hereinafter referred to as a block tensor.
- a block is a submatrix when image data before division is represented by a matrix.
- the division processing in FIG. 2 is processing for dividing the image data represented by a tensor of one or more ranks to be processed into a plurality of block tensors.
- information indicating the arrangement of block tensors hereinafter referred to as "block tensor arrangement information" is also generated.
- a process for outputting a tensor that minimizes the difference from a predetermined reference for each input block tensor (hereinafter referred to as “first provisional optimization block tensor”) is performed. ) is executed. Therefore, the faithful neural network outputs as many first interim optimized block tensors as input block tensors. Filter state information is also used in the fidelity process.
- the fidelity process is the process represented by the fidelity neural network and the process represented by the fidelity term.
- the predetermined criterion in the fidelity process is the input block tensor itself. In general, when inferring information on which an inference is based using a result inferred from input information, it is not always possible to obtain the information on which the inference is based.
- the input block tensor is guessed using the results obtained from the input block tensor, and the guess result is compared with the input block tensor.
- the fidelity process outputs the image that minimizes the result of the comparison as the first provisional optimized block tensor. That is, in the fidelity process, a tensor whose solution is the tensor closest to the input block tensor when the inverse problem is solved is output as the first provisional optimization block tensor.
- the regularization neural network is input with a plurality of first provisional optimization block tensors output by the preceding fidelity neural network in a combined state.
- a process described as a combining process in FIG. 2 is a process of combining a plurality of first provisional optimization block tensors.
- each block tensor is combined in a state where the optimized block tensor corresponding to each block tensor is placed according to the placement of each block tensor indicated by the block tensor placement information.
- a tensor generated by the combining process is hereinafter referred to as a combined tensor.
- a combined tensor is a combination of block tensors, so the size of the combined tensor is larger than the size of each block tensor.
- regularization processing In the regularization neural network, a process of outputting a tensor that minimizes the difference between the input combined tensor and the amount indicated by predetermined foresight information (hereinafter referred to as "second provisional optimization block tensor”) ( hereinafter referred to as “regularization processing”) is executed.
- a regularization process is a process represented by a regularization neural network and represented by a regularization term.
- the amount indicated by the predetermined foresight information is a criterion updated by learning.
- the amount indicated by the foresight information is an amount indicating the statistical properties of each pixel of the image to be shot.
- a statistical property is a property in which many coefficients become 0 when, for example, discrete cosine transform is performed.
- the property that many coefficients become 0 when the discrete cosine transform is performed is called sparsity.
- An image with a smaller difference from the amount indicated by the foresight information is closer to the image to be shot.
- the regularization process is a process of generating image data (that is, the second provisional optimization block tensor) of an image having properties close to the statistical properties satisfied by the image to be captured.
- formula (1) is an example of a formula expressing the fidelity process
- formula (2) is an example of a formula expressing the regularization process.
- f is a vector indicating the image data of the image to be shot.
- f and h represent the provisional reconstructed image data of the image of the photographing object in the k-th iterative calculation when the suffix k is used.
- u represents an auxiliary variable.
- k is the number of repetitions of self-consistent processing.
- f is a vector indicating the image data of the image to be shot.
- g indicates electromagnetic wave information.
- ⁇ is a tensor indicating filter state information.
- ⁇ indicates the step size in the gradient method.
- ⁇ indicates the weight of the penalty term.
- ⁇ indicates a weight parameter.
- I indicates an identity matrix.
- R denotes a regularization term.
- the function H is a function in which the formula (2) is input with f and u.
- the fidelity process uses the results obtained from the input block tensor to guess the input block tensor, and compares the guess result with the input block tensor. As a result of the comparison, the fidelity processing outputs a tensor whose solution is the tensor closest to the input block tensor as the first provisional optimization block tensor. Therefore, the fidelity process includes the process of obtaining a result using the filter state information based on the input block tensor, and estimating the input block tensor by solving the inverse problem using the filter state information from the obtained result. process.
- the filter state information used in solving the inverse problem is, more specifically, the inverse image of the map ⁇ representing the filter state information.
- the fidelity process which executes the process of estimating the input tensor using the results obtained from the input tensor using the filter state information, reduces the computational complexity of exponentiating the size of the tensor expressing the map ⁇ to I need.
- the fidelity processing in the fidelity processing, the consistency between the input temporary reconstructed image data (h (k) ) of the image of the imaging target at the k-th time and the observed electromagnetic wave distribution information g is evaluated, and the input k-th
- the provisional reconstructed image data of the image of the object to be photographed at the second time is converted so as to be consistent with the observed electromagnetic wave distribution information and output.
- a transposed matrix of the mapping ⁇ representing the filter state information and a matrix product of the mapping ⁇ representing the filter state information are required. Therefore, the fidelity process requires an amount of computation that is a power of the size of the tensor representing the map ⁇ .
- the fidelity processing handles the matrix product of ⁇ and the transposed matrix of ⁇ , for ⁇ indicating the filter state information.
- the function H indicates, in the regularization process, the input tensor is convolved with K filters. That is, in the regularization process, unlike the fidelity process, the amount of computation does not increase with exponentiation.
- the fidelity processing is executed for each block tensor.
- the size of ⁇ that is the same as the size of the block tensor to be computed may be used. Because the product of ⁇ T ⁇ belonging to R (L2 ⁇ L2) and f belonging to R (L2 ⁇ 1) is ⁇ ′ T ⁇ ′ belonging to R (12 ⁇ 12) and f belonging to R (12 ⁇ 1) ' and .
- ⁇ is filter state information, and can have a divisible structure. Being divisible means that the product of ⁇ and the block tensor yields the same result even after being divided.
- Non-Patent Document 1 and Non-Patent Document 2 are examples of ⁇ having a divisible structure.
- the regularization process executes the concatenation process.
- the regularization process it is important to generate an image whose overall image is close to the overall image of the object to be photographed. Therefore, not only the properties about each block tensor but also the information about the arrangement between block tensors is important. Therefore, unlike the fidelity process, the regularization process uses the tensor obtained by the combination process. Also, in the regularization process, unlike the fidelity process as described above, the amount of computation does not increase with exponentiation. Therefore, it is better to use the tensors obtained from the join operation than to use block tensors.
- the image reconstruction model is a process of performing calculations proportional to the exponentiation of the tensor to be processed. Execute the fidelity process, which is the process to generate. Furthermore, in the image reconstruction model, regularity is a process that performs calculations proportional to the tensor to be processed and that generates image data of an image that has properties close to the statistical properties satisfied by the image of the object based on learning data. Execute the conversion process.
- connection of block tensors is a connected tensor means the following. That is, the number of tensors targeted for fidelity processing is greater than the number of tensors targeted for regularization processing, and the size of each tensor targeted for fidelity processing is equal to the size of each tensor targeted for regularization processing. less than
- the fidelity neural network is updated so that the generated tensor is even closer to the tensor to be processed when the inverse problem is solved.
- the regularization neural network is updated so that the generated tensor generates image data of the image having properties closer to the statistical properties of the image of the object to be photographed.
- FIG. 3 is a diagram showing an example of the hardware configuration of the control device 1 according to the embodiment.
- the control device 1 includes a control section 11 including a processor 91 such as a CPU (Central Processing Unit) connected via a bus and a memory 92, and executes a program.
- the control device 1 functions as a device including a control section 11, an input section 12, a communication section 13, a storage section 14, an output section 15, and a filter control circuit 16 by executing a program.
- the processor 91 reads the program stored in the storage unit 14 and stores the read program in the memory 92 .
- the control device 1 is configured as a device including the control section 11, the input section 12, the communication section 13, the storage section 14, the output section 15, and the filter control circuit 16. Function.
- the control unit 11 controls the operations of various functional units included in the control device 1 .
- the control unit 11 executes, for example, filter state change processing.
- the control unit 11 controls the state of the filter 3 by controlling the operation of the filter control circuit 16, for example.
- the control unit 11 records, in the storage unit 14, various information generated by executing the filter state changing process, for example.
- the input unit 12 includes input devices such as a mouse, keyboard, and touch panel.
- the input unit 12 may be configured as an interface that connects these input devices to the control device 1 .
- the input unit 12 receives input of various information to the control device 1 .
- the communication unit 13 includes a communication interface for connecting the control device 1 to an external device.
- the communication unit 13 communicates with an external device via wire or wireless.
- the external device is, for example, the imaging device 2 .
- the communication unit 13 acquires electromagnetic wave information through communication with the imaging device 2 .
- the storage unit 14 is configured using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
- the storage unit 14 stores various information regarding the control device 1 .
- the storage unit 14 stores information input via the input unit 12 or the communication unit 13, for example.
- the storage unit 14 stores, for example, various information generated by executing the filter state changing process.
- the storage unit 14 stores, for example, filter state information.
- the output unit 15 outputs various information.
- the output unit 15 includes a display device such as a CRT (Cathode Ray Tube) display, a liquid crystal display, or an organic EL (Electro-Luminescence) display.
- the output unit 15 may be configured as an interface that connects these display devices to the control device 1 .
- the output unit 15 outputs information input to the input unit 12, for example.
- the output unit 15 outputs final image data, for example.
- the filter control circuit 16 is a circuit that gives the filter 3 the action of changing the state of the filter 3 .
- the filter control circuit 16 is a circuit that applies a voltage to the filter 3, for example.
- FIG. 4 is a diagram showing an example of the functional configuration of the control unit 11 in the embodiment.
- the control unit 11 includes an electromagnetic wave information acquisition unit 111 , a filter state control unit 112 and a storage control unit 113 .
- the electromagnetic wave information acquisition unit 111 acquires electromagnetic wave information generated by the imaging device 2 .
- the filter state control unit 112 executes filter state change processing and end determination processing.
- the end determination process is the process of determining whether or not the filter state change end condition is satisfied.
- the storage control unit 113 records various information in the storage unit 14 . For example, every time the filter state control unit 112 changes the state of the filter 3 , the storage control unit 113 records filter state information indicating the state of the filter 3 resulting from the control in the storage unit 14 .
- FIG. 5 is a diagram showing an example of the flow of processing executed by the image generation system 100 of the embodiment.
- the imaging device 2 generates electromagnetic wave information (step S101).
- the electromagnetic wave information acquisition unit 111 acquires the electromagnetic wave information generated in step S101 via the communication unit 13 (step S102).
- the filter state control unit 112 executes image reconstruction processing (step S103). Reconstructed image data is generated by executing reconstructed image processing.
- the filter state control unit 112 executes end determination processing (step S104). If the filter state change end condition is satisfied (step S104: YES), the process ends.
- the reconstructed image data at the end of processing is the final image data.
- step S104 determines whether the filter state change end condition is satisfied. If the filter state change end condition is not satisfied (step S104: NO), the filter state control unit 112 executes filter state information update processing (step S105). More specifically, the filter state control unit 112 updates the filter state information based on the filter state information stored in the storage unit 14 and the reconstructed image data acquired in step S103.
- the filter state control unit 112 executes update information application processing (step S106).
- the filter state control unit 112 controls the operation of the filter control circuit 16 to change the state of the filter 3 to the state indicated by the updated filter state information updated by the filter state information update process. Controls the state of the filter 3 such that Next, the process returns to step S101.
- the image reconstruction model is generated, for example, by the learning device 4 shown in FIG. 6 below.
- FIG. 6 is a diagram showing an example of the hardware configuration of the learning device 4 according to the embodiment.
- the learning device 4 includes a control unit 41 including a processor 93 such as a CPU and a memory 94 connected via a bus, and executes a program.
- the learning device 4 functions as a device including a control unit 41, an input unit 42, a communication unit 43, a storage unit 44, and an output unit 45 by executing a program.
- the processor 93 reads the program stored in the storage unit 44 and causes the memory 94 to store the read program.
- the processor 93 executes the program stored in the memory 94 so that the learning device 4 functions as a device including the control section 41 , the input section 42 , the communication section 43 , the storage section 44 and the output section 45 .
- the control unit 41 controls the operations of various functional units included in the learning device 4 .
- the control unit 41 executes, for example, image reconstruction model learning processing.
- the image reconstruction model learning process is a process of updating the image reconstruction model based on the electromagnetic wave information and the filter state information until a predetermined end condition (hereinafter referred to as "learning end condition") is satisfied.
- the learning end condition is, for example, a condition that learning has been performed a predetermined number of times.
- the learning end condition may be, for example, a condition that the change in the image reconstruction model due to learning is smaller than a predetermined change.
- the image reconstruction model when the learning end condition is satisfied is the trained image reconstruction model.
- the control unit 41 records, in the storage unit 44, various information generated by executing the image reconstruction model learning process, for example.
- the input unit 42 includes input devices such as a mouse, keyboard, and touch panel.
- the input unit 42 may be configured as an interface that connects these input devices to the learning device 4 .
- the input unit 42 receives input of various information to the learning device 4 . For example, pairs of electromagnetic wave information and filter state information are input to the input unit 42 as learning data used in image reconstruction model learning processing.
- the communication unit 43 includes a communication interface for connecting the learning device 4 to an external device.
- the communication unit 43 communicates with an external device via wire or wireless.
- the storage unit 44 is configured using a non-temporary computer-readable storage medium device such as a magnetic hard disk device or a semiconductor storage device.
- the storage unit 44 stores various information regarding the learning device 4 .
- the storage unit 44 stores information input via the input unit 42 or the communication unit 43, for example.
- the storage unit 44 stores various kinds of information generated by executing the image reconstruction model learning process, for example.
- the storage unit 44 stores, for example, pairs of electromagnetic wave information and filter state information as learning data.
- the storage unit 44 stores in advance an image reconstruction model to be updated.
- the output unit 45 outputs various information.
- the output unit 45 includes a display device such as a CRT display, a liquid crystal display, an organic EL display, or the like.
- the output unit 45 may be configured as an interface that connects these display devices to the study device 4 .
- the output unit 45 outputs information input to the input unit 42, for example.
- FIG. 7 is a diagram showing an example of the functional configuration of the control section 41 in the embodiment.
- the control unit 41 includes a learning data acquisition unit 411 , a learning unit 412 and a storage control unit 413 .
- the learning data acquisition unit 411 acquires pairs of electromagnetic wave information and filter state information as learning data.
- the learning unit 412 executes image reconstruction model learning processing. By executing the image reconstruction model learning process, the learning unit 412 learns the image reconstruction model based on the learning data acquired by the learning data acquisition unit 411 . During learning, the image reconstruction model to be updated is executed, and the image reconstruction model is updated based on the result of executing the image reconstruction model. Since the image reconstruction model includes fidelity processing and regularization processing, execution of the image reconstruction model is also execution of fidelity processing and regularization processing.
- the storage control unit 413 records various information in the storage unit 44.
- FIG. 8 is a flowchart showing an example of the flow of processing executed by the learning device 4 in the embodiment.
- the learning data acquisition unit 411 acquires pairs of electromagnetic wave information and filter state information as learning data (step S201).
- the learning unit 412 updates the image reconstruction model based on the learning data acquired in step S201 (step S202).
- the learning unit 412 determines whether or not the learning end condition is satisfied (step S203). If the learning end condition is satisfied (step S203: YES), the process ends. On the other hand, if the learning end condition is not satisfied (step S203: NO), the process returns to step S201.
- the control device 1 in the embodiment configured as described above generates image data of an image that does not show an image that satisfies the concealment condition under the control of the filter 3 . That is, the control device 1 generates image data of an image that does not show an image that satisfies the concealment condition by controlling the optical system. The control device 1 does not process the obtained image to delete the image that satisfies the concealment condition from the image, and obtains an image that does not show the image that satisfies the concealment condition as a result of the deletion. Therefore, the control device 1 can suppress the leakage of information due to photography.
- the learning device 4 in the embodiment configured in this manner executes fidelity processing and regularization processing.
- the fidelity process is a process of performing an operation proportional to the power of the input tensor, and is a process of generating a tensor whose solution is the tensor closest to the input tensor when the inverse problem is solved.
- the regularization process is a process of performing calculations proportional to the input tensor, and is a process of generating image data of an image that has properties close to the statistical properties satisfied by the image of the shooting target.
- the processing target of the fidelity processing is the block tensor, and the processing target of the regularization processing is the combined tensor. Therefore, the learning device 4 can achieve both an increase in the amount of calculation required for image generation and an image generation accuracy.
- the image reconstruction model learning process may be executed by the control device 1 . That is, the control unit 11 may include a learning data acquisition unit 411 and a learning unit 412 .
- faithful neural network and the regularized neural network may be the neural networks described in Reference 1 below, except for the difference in input data.
- the control device 1 may be implemented using a plurality of information processing devices communicably connected via a network.
- each functional unit included in the control device 1 may be distributed and implemented in a plurality of information processing devices.
- the learning device 4 may be implemented using a plurality of information processing devices communicably connected via a network. In this case, each functional unit included in the learning device 4 may be distributed and implemented in a plurality of information processing devices.
- control device 1 is an example of an image generation device.
- the electromagnetic wave information is an example of image data of an image of an object captured through the filter 3 .
- the control device 1 and the learning device 4 use a signal obtained by imaging the imaging target through the filter 3 instead of the electromagnetic wave information.
- the regularization process instead of the image data of the image having properties close to the statistical properties satisfied by the image of the subject, the regularization process generates statistical data that satisfies the signal obtained by photographing the subject. It is a signal that has a property close to that of a physical property.
- the filter 3 is an example of an acquisition unit.
- the imaging device 2 is an example of a conversion unit.
- the signal transmitted through the filter 3, that is, the signal incident on the imaging device 2 is an example of the observation signal.
- the electrical signal output by the photodiode is an example of the partial image signal.
- An image that satisfies a predetermined concealment condition is an example of a subject belonging to a predetermined attribute.
- An image to be captured is an example of a region forming an image.
- All or part of the functions of the control device 1 and the learning device 4 are realized using hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array).
- ASIC Application Specific Integrated Circuit
- PLD Programmable Logic Device
- FPGA Field Programmable Gate Array
- the program may be recorded on a computer-readable recording medium.
- Computer-readable recording media include portable media such as flexible disks, magneto-optical disks, ROMs and CD-ROMs, and storage devices such as hard disks incorporated in computer systems.
- the program may be transmitted over telecommunications lines.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Processing (AREA)
Abstract
フィルタを通して撮影された撮影対象の画像データとフィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得部と、逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを生成する忠実化処理と、撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを生成する正則化処理と、を含む数理モデルを実行する学習部と、を備え、忠実化処理の処理対象のテンソルの数は正則化処理の処理対象のテンソルの数より大きく、忠実化処理の処理対象の各テンソルのサイズは正則化処理の処理対象のテンソルのサイズより小さく、正則化処理の処理対象のテンソルは忠実化処理で生成された各テンソルが結合されたテンソルであり忠実化処理と正則化処理とは交互に実行される、学習装置。
Description
本発明は、学習装置、学習方法及びプログラムに関する。
推定対象の画像についての情報が少ない場合であっても、ベイズ推定を用いた推定結果を用いて元の画像を生成する技術がある。このような技術の1つは例えば圧縮センシングである。
Wagadarikar, Ashwin A., et al. "Video Rate Spectral Imaging Using a Coded Aperture Snapshot Spectral Imager." Optics Express, vol. 17, no. 8, 2009, pp. 6368-6388.
Lu Gan, "BLOCK COMPRESSED SENSING OF NATURAL IMAGES", Proc. of the 2007 15th Intl. Conf. on Digital Signal Processing (DSP 2007), 403-406.
Zhang, Jian, and Bernard Ghanem. "ISTA-Net: Interpretable Optimization-Inspired Deep Network for Image Compressive Sensing." 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 1828-1837.
Wang, Lizhi, et al. "Hyperspectral Image Reconstruction Using a Deep Spatial-Spectral Prior." 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 8032-8041.
しかしながら、そのような技術は入力される情報のべき乗に比例して演算量が増大してしまう場合があった(例えば非特許文献3及び4)。また、演算量の増大を抑制しようとすると、生成される画像の精度が低い場合があった。すなわち、演算量の増大の抑制と生成される画像の精度とを両立することは難しかった。このことは画像に限らず信号について共通する課題であった。
上記事情に鑑み、本発明は、信号の生成に要する演算量の増大と信号の生成の精度とを両立する技術の提供を目的としている。
本発明の一態様は、フィルタを通して撮影された撮影対象の画像の画像データと、前記フィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得部と、 逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを前記学習データに基づいて生成する処理である忠実化処理と、前記撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを前記学習データに基づいて生成する処理である正則化処理と、を含む数理モデルである画像再構成モデルを実行する学習部と、を備え、前記忠実化処理の処理対象のテンソルの数は、前記正則化処理の処理対象のテンソルの数より大きく、前記忠実化処理の処理対象の各テンソルのサイズは、前記正則化処理の処理対象のテンソルのサイズより小さく、前記正則化処理の処理対象のテンソルは前記忠実化処理で生成された各テンソルが結合されたテンソルであり、前記忠実化処理と前記正則化処理とは交互に実行される、学習装置である。
本発明の一態様は、フィルタを通した撮影対象の撮影により得られた信号と、前記フィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得部と、逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを前記学習データに基づいて生成する処理である忠実化処理と、前記撮影対象の撮影により得られた信号が満たす統計的性質に近い性質を有する信号を前記学習データに基づいて生成する処理である正則化処理と、を含む数理モデルである画像再構成モデルを実行する学習部と、を備え、前記忠実化処理の処理対象のテンソルの数は、前記正則化処理の処理対象のテンソルの数より大きく、前記忠実化処理の処理対象の各テンソルのサイズは、前記正則化処理の処理対象のテンソルのサイズより小さく、前記正則化処理の処理対象のテンソルは前記忠実化処理で生成された各テンソルが結合されたテンソルであり、前記忠実化処理と前記正則化処理とは交互に実行される、学習装置である。
本発明の一態様は、フィルタを通して撮影された撮影対象の画像の画像データと、前記フィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得ステップと、逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを前記学習データに基づいて生成する処理である忠実化処理と、前記撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを前記学習データに基づいて生成する処理である正則化処理と、を含む数理モデルである画像再構成モデルを実行する学習ステップと、を有し、前記忠実化処理の処理対象のテンソルの数は、前記正則化処理の処理対象のテンソルの数より大きく、前記忠実化処理の処理対象の各テンソルのサイズは、前記正則化処理の処理対象のテンソルのサイズより小さく、前記正則化処理の処理対象のテンソルは前記忠実化処理で生成された各テンソルが結合されたテンソルであり、前記忠実化処理と前記正則化処理とは交互に実行される、学習方法である。
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。
本発明により、信号の生成に要する演算量の増大と信号の生成の精度とを両立することができる。
(実施形態)
以下、画像を例に説明を行うが、以下の説明は画像に限らず信号全般について共通に成立する。
以下、画像を例に説明を行うが、以下の説明は画像に限らず信号全般について共通に成立する。
図1は、実施形態の画像生成システム100の概要を説明する説明図である。まず画像生成システム100の概要を説明する。画像生成システム100は、撮影対象の画像の画像データを生成するシステムである。画像は例えば写真である。画像生成システム100は、制御装置1と撮影装置2とフィルタ3とを少なくとも備える。制御装置1は、画像生成システム100を制御する。
撮影装置2は、1又は複数のフォトダイオードを用いるセンサであればどのようなものでもよい。センサの例としてはカメラやX線カメラであればなんでもよい。撮影装置2がX線カメラである場合、画像生成システム100は例えばレントゲン撮影に用いられてもよい。撮影装置2は、1つのフォトダイオードで構成されてもよいし、フォトダイオードの2次元アレイであってもよい。撮影装置2は、例えばRGBの原色ごとにフォトダイオードを備えてもよい。
撮影装置2は、入射した電磁波の周波数及び強度を示す情報(以下「電磁波情報」という。)を出力する。なお、1つのフォトダイオードから構成されるのであれば電磁波情報は、周波数及び強度であり、フォトダイオードの2次元アレイから構成されるのであれば電磁波情報は周波数及び強度の空間分布を示す情報である。ここから先は撮影装置2が1つのフォトダイオードから構成される場合について説明する。
フィルタ3は、光学定数の空間分布が電圧の印加、磁場の印加、熱の印加、荷重の印加等の所定の作用により変化する媒質である。フィルタ3は、例えばフォトリフラクティブ材料で形成された薄膜である。フィルタ3は、例えば作用の印加により誘電率又は構造が変化するフォトニック結晶であってもよい。フィルタ3の光学定数の空間分布は、制御装置1によって制御される。なお、光学定数の空間分布は、例えば開口の位置の空間分布(すなわち開口パターン)であってもよい。
撮影装置2は、フィルタ3を通して撮影対象を撮影する。撮影装置2が1つのフォトダイオードで構成される場合、撮影装置2はフィルタ3を通して入射した信号を電気信号に変換する。なお、入射した信号を電気信号に変換する処理が撮影である。したがって、電磁波情報が示す内容は、撮影対象とフィルタ3の状態とに依存した内容である。フィルタ3の状態とは、具体的にはフィルタ3の光学定数の空間分布である。
画像生成システム100では、撮影装置2による電磁波情報の生成と、フィルタ状態変更処理とが、所定の終了条件が満たされるまで繰り返し実行される。フィルタ状態変更処理は、所定の終了条件が満たされるまでに得られたフィルタ状態情報及び電磁波情報に基づきフィルタ3の状態を変更する処理である。フィルタ状態情報は、フィルタ3の光学定数の空間分布を示す情報である。所定の終了条件(以下「フィルタ状態変更終了条件」という。)が満たされた時点までに得られた電磁波情報とフィルタ状態情報とに基づき逆問題を解くことで得られる情報が、記憶装置等の所定の出力先に出力される画像データ(以下「最終画像データ」という。)である。すなわち逆問題は、1又は複数の電磁波情報を用いて得られる。フィルタ状態変更処理は、制御装置1が実行する。
フィルタ状態変更終了条件は、例えば所定の回数だけフィルタ状態変更処理が実行されたという条件である。
フィルタ状態変更処理は、より具体的には、所定の隠蔽条件を満たす像を写さないようにフィルタ3の状態が変更される処理である。隠蔽条件は、撮影による情報の流出を抑制すべき対象の像が満たす条件である。したがって、最終画像データが示す画像(以下「最終画像」という。)には、隠蔽条件を満たす像が写っていない。隠蔽条件を満たす像は、例えば顔である。フィルタ状態変更処理は、機械学習の方法により内容が決定された処理であってもよいし、機械学習以外の方法で予め内容が決定された処理であってもよい。
画像生成システム100は、隠蔽条件に合致した像について、合致すると判断した時点からの情報をさらに取得しないよう画像データを生成する。言い換えると、隠蔽条件を満たす像は、隠蔽条件を満たさない像と比べて少ない情報量になるよう画像データを生成する。すなわち、画像生成システム100は、隠蔽条件に合致した像について、光学系の制御により隠蔽条件を満たさない像と比べて少ない情報量の画像データを生成する。画像生成システム100は、得られた画像を加工して隠蔽条件を満たす像を画像から削除し、削除の結果として隠蔽条件を満たさない像と比べて少ない情報量の画像データを得るのではない。したがって、画像生成システム100は撮影による情報の流出を抑制することができる。
<フィルタ状態変更処理について>
フィルタ状態変更処理について説明する。フィルタ状態変更処理は、画像再構成処理と、適正化処理とを含む。画像再構成処理は、電磁波情報とフィルタ状態情報とに基づき、逆問題を解く処理である。画像再構成処理は、逆問題を解くことで、撮影対象の画像の画像データを推定する。以下、画像再構成処理によって推定された画像データを再構成画像データという。以下、再構成画像データが示す画像を再構成画像という。なお、本実施例においては、画像再構成処理により少ないサンプル数から画像が再構成されることを示す。少ないサンプル数とは、例えば像を構成する画素の一部などを意図する。このように少ない情報量から画像が再構成されることで、撮影されている像を推定するために不十分な情報量からも何が撮影されているかを画像生成システム100は推定することができる。
フィルタ状態変更処理について説明する。フィルタ状態変更処理は、画像再構成処理と、適正化処理とを含む。画像再構成処理は、電磁波情報とフィルタ状態情報とに基づき、逆問題を解く処理である。画像再構成処理は、逆問題を解くことで、撮影対象の画像の画像データを推定する。以下、画像再構成処理によって推定された画像データを再構成画像データという。以下、再構成画像データが示す画像を再構成画像という。なお、本実施例においては、画像再構成処理により少ないサンプル数から画像が再構成されることを示す。少ないサンプル数とは、例えば像を構成する画素の一部などを意図する。このように少ない情報量から画像が再構成されることで、撮影されている像を推定するために不十分な情報量からも何が撮影されているかを画像生成システム100は推定することができる。
逆問題を解く方法は、例えば圧縮センシングである。逆問題を解く方法は、例えば全変動最少化を正則化項としADMM(alternating direction method of multiplier)により求解する方法などの凸最適化の方法であってもよい。逆問題を解く方法は、例えば深層学習を用いて得られた学習済みモデルを用いた方法であってもよい。
適正化処理は、再構成画像データに基づき、所定の隠蔽条件を満たす像を写さないようにフィルタ3の状態を変更する処理である。したがって適正化処理は、再構成画像データに基づき、フィルタ3の光学定数の空間分布を制御する処理である。したがって、適正化処理は、例えば、再構成画像データに基づき、フィルタ3の開口パターンを制御する処理である。
<適正化処理>
適正化処理についてより具体的に説明する。適正化処理は、フィルタ状態情報更新処理と、更新情報適用処理とを含む。フィルタ状態情報更新処理は、再構成画像に基づきフィルタ状態情報を更新する処理である。更新後のフィルタ状態情報は、更新条件を満たすようフィルタ3の状態を示す。更新条件は、フィルタ状態情報更新処理により得られた更新後のフィルタ状態情報が示すフィルタ3の状態は、更新前よりも所定の隠蔽条件を満たす像を写さない状態である、という条件である。
適正化処理についてより具体的に説明する。適正化処理は、フィルタ状態情報更新処理と、更新情報適用処理とを含む。フィルタ状態情報更新処理は、再構成画像に基づきフィルタ状態情報を更新する処理である。更新後のフィルタ状態情報は、更新条件を満たすようフィルタ3の状態を示す。更新条件は、フィルタ状態情報更新処理により得られた更新後のフィルタ状態情報が示すフィルタ3の状態は、更新前よりも所定の隠蔽条件を満たす像を写さない状態である、という条件である。
フィルタ状態情報更新処理は、再構成画像に基づき更新条件を満たすようにフィルタ状態情報を更新可能であれば、どのような方法でフィルタ状態情報を更新してもよい。
更新情報適用処理は、フィルタ3の状態が、フィルタ状態情報更新処理によって更新された更新後のフィルタ状態情報が示す状態であるように、フィルタ3の状態を制御する処理である。
<フィルタ状態情報の更新の処理の1つ目の例>
フィルタ状態情報更新処理は、例えば乱数更新処理、検出処理及びマスク処理の実行によりフィルタ状態情報を更新してもよい。
フィルタ状態情報更新処理は、例えば乱数更新処理、検出処理及びマスク処理の実行によりフィルタ状態情報を更新してもよい。
乱数更新処理は、ガウス分布の乱数を用いてフィルタ状態情報を更新する処理である。乱数更新処理によって、フィルタ状態情報の示すフィルタ3の光学定数の空間分布が更新される。検出処理は、再構成画像に基づき隠蔽条件を満たす像を検出する処理である。隠蔽条件を満たす像の検出は、例えば隠蔽条件を満たす像が有する特徴を検出することで隠蔽条件を満たす像を検出する処理であってもよい。隠蔽条件を満たす像が例えば顔である場合、隠蔽条件を満たす像が有する特徴は、例えば目、鼻又は口である。
マスク処理は、乱数更新処理による更新後のフィルタ状態情報が示すフィルタ3の各位置の光学定数の一部を更新する処理である。マスク処理による更新の対象は、フィルタ3の各位置のうち検出処理で検出された像に対応する位置の光学定数である。対応する位置とは、具体的には、撮影対象とフィルタ3と撮影装置2とで形成される光学系において撮影対象から来た電磁波であって撮影装置2に入射する電磁波が通過するフィルタ3上の位置である。マスク処理は、更新の対象の光学定数を、撮影対象とフィルタ3と撮影装置2とで形成される光学系において撮影対象から来た電磁波の透過率を軽減する値に変更する。
このようにして、乱数更新処理、検出処理及びマスク処理の実行によりフィルタ状態情報が更新条件を満たすように更新される。
<フィルタ状態情報の更新の処理の2つ目の例>
フィルタ状態情報更新処理は、例えば機械学習の方法により以下のフィルタ損失条件を満たすように学習が行われることで得られた学習済みモデルを用いて再構成画像データに基づきフィルタ状態情報を更新する処理(以下「機械学習処理」という。)であってもよい。フィルタ損失条件を満たすように行われる学習には、大量の画像データを模擬的な撮影対象の画像データとして用意する。学習は、上記撮影対象の画像データ(以下「第1学習データ」という。)と上記撮影対象の画像データが入力されたときに画像再構成処理を通して得られる再構成画像データ(以下「第2学習データ」という。)とが用いられる。
フィルタ状態情報更新処理は、例えば機械学習の方法により以下のフィルタ損失条件を満たすように学習が行われることで得られた学習済みモデルを用いて再構成画像データに基づきフィルタ状態情報を更新する処理(以下「機械学習処理」という。)であってもよい。フィルタ損失条件を満たすように行われる学習には、大量の画像データを模擬的な撮影対象の画像データとして用意する。学習は、上記撮影対象の画像データ(以下「第1学習データ」という。)と上記撮影対象の画像データが入力されたときに画像再構成処理を通して得られる再構成画像データ(以下「第2学習データ」という。)とが用いられる。
フィルタ損失条件は、第1全体画像条件と、局所像違い増大条件とを含む。第1全体画像条件は、第1学習データが示す画像と第2学習データが示す画像との違いを小さくする、という条件である。局所像違い増大条件は、撮影対象の画像における隠蔽条件を満たす像と再構成画像データにおける隠蔽条件を満たす像との違いを大きくする、という条件である。このように、学習では、撮影対象の画像全体を正確に取得する一方で撮影対象の画像における隠蔽条件を満たす像については詳細の情報を取得しない処理が実行される。すなわち、学習では、撮影対象の画像における所定の隠蔽条件を満たす像を写さないようにするために、隠蔽条件を満たす像について、撮影対象の像と再構成画像の違いを大きくするという条件を満たすようにフィルタ状態情報の更新が行われる。なお、機械学習の方法は、例えば深層学習である。
このようにして、機械学習処理の実行によりフィルタ状態情報が更新条件を満たすように更新される。
<敵対的学習>
ところで、上述したように画像再構成処理は機械学習の方法により得られた学習済みモデルを用いる処理であってもよく、フィルタ状態情報更新処理もまた上述したように機械学習の方法により得られた学習済みモデルであってもよい。そこで画像再構成処理で用いられる学習済みモデルの取得と、フィルタ状態情報更新処理で用いられる学習済みモデルの取得とは互いに独立して得られてもよいが互いに独立でなくてもよい。互いに独立でないとは、具体的には、敵対的学習によって得られてもよい。
ところで、上述したように画像再構成処理は機械学習の方法により得られた学習済みモデルを用いる処理であってもよく、フィルタ状態情報更新処理もまた上述したように機械学習の方法により得られた学習済みモデルであってもよい。そこで画像再構成処理で用いられる学習済みモデルの取得と、フィルタ状態情報更新処理で用いられる学習済みモデルの取得とは互いに独立して得られてもよいが互いに独立でなくてもよい。互いに独立でないとは、具体的には、敵対的学習によって得られてもよい。
以下、説明の簡単のため、学習の終了に関する所定の終了条件が満たされる前の数理モデルであって電磁波情報とフィルタ状態情報とに基づき再構成画像データを推定する数理モデルを、画像再構成モデルという。学習の終了に関する所定の終了条件が満たされた時点の画像再構成モデルが学習済みの画像再構成モデルであり、学習済みの画像再構成モデルが画像再構成処理で用いられる学習済みモデルである。
以下、説明の簡単のため、学習の終了に関する所定の終了条件が満たされる前の数理モデルであって再構成画像データに基づきフィルタ状態情報を更新する数理モデル、をフィルタ状態情報更新モデルという。学習の終了に関する所定の終了条件が満たされた時点のフィルタ状態情報更新モデルが学習済みのフィルタ状態情報更新モデルであり、学習済みのフィルタ状態情報更新モデルがフィルタ状態情報更新処理で用いられる学習済みモデルである。なお、上述の機械学習処理は、フィルタ状態情報更新モデルを実行する処理であるともいえる。
敵対的学習による画像再構成モデルが画像再構成処理で用いられる学習済みモデルとフィルタ状態情報更新処理で用いられる学習済みモデルとを得る方法を具体的に説明する。敵対的学習においては、画像再構成モデルとフィルタ状態情報更新モデルとが所定の規則にしたがって交互に更新される。フィルタ状態情報更新モデルの更新は、上述のフィルタ損失条件を満たすように更新が行われる。画像再構成モデルの更新は、再構成損失条件を満たすように更新が行われる。画像再構成モデルの更新(すなわち学習)に用いられる学習データは、電磁波情報とフィルタ状態情報とを含む。
再構成損失条件は、第2全体画像条件と、局所像違い減少条件とを含む。第2全体画像条件は、電磁波情報とフィルタ状態情報とに基づいて得られた再構成画像の全体(すなわち第2学習データが示す画像の全体)と、第1学習データが示す画像との違いを小さくする、という条件である。局所像違い減少条件は、撮影対象の画像における隠蔽条件を満たす像と再構成画像データにおける隠蔽条件を満たす像との違いを小さくする、という条件である。
このように敵対的学習において、フィルタ状態情報更新モデルに対しては、処理の結果得られる画像における隠蔽条件を満たす像と撮影対象の画像における隠蔽条件を満たす像との違いを大きくするように学習が行われる。一方、画像再構成モデルに対しては、処理の結果得られる画像における隠蔽条件を満たす像と撮影対象の画像における隠蔽条件を満たす像との違いを小さくするように学習が行われる。したがって、フィルタ状態情報更新モデルの学習と画像再構成モデルの学習とは敵対的な学習である。
<画像再構成モデルの一例>
ここで画像再構成モデルのより具体的な例を説明する。ところで圧縮センシングで再構成画像を得てもよいことを上述したが、圧縮センシングにより解を得る1つの方法として凸最適化の方法がある。すなわち圧縮センシングは凸最適化の問題に帰着される。凸最適化の方法は、解を求める対象の数式を、補助変数を用いて忠実化項と正則化項との2つの項の和によって表し、忠実化項と正則化項とを交互に最適化していく方法である。すなわち凸最適化の方法は、忠実化項と正則化項とを自己無撞着に解く方法である。
ここで画像再構成モデルのより具体的な例を説明する。ところで圧縮センシングで再構成画像を得てもよいことを上述したが、圧縮センシングにより解を得る1つの方法として凸最適化の方法がある。すなわち圧縮センシングは凸最適化の問題に帰着される。凸最適化の方法は、解を求める対象の数式を、補助変数を用いて忠実化項と正則化項との2つの項の和によって表し、忠実化項と正則化項とを交互に最適化していく方法である。すなわち凸最適化の方法は、忠実化項と正則化項とを自己無撞着に解く方法である。
画像再構成モデルは、例えばこの凸最適化の方法を機械学習に反映するニューラルネットワークによって表現される。より具体的には、画像再構成モデルは、忠実化ニューラルネットワークと正則化ニューラルネットワークとをそれぞれ複数備えるニューラルネットワークによって表現される。忠実化ニューラルネットワークは、忠実化項が表す処理を表現するニューラルネットワークである。正則化ニューラルネットワークは、正則化項が表す処理を表現するニューラルネットワークである。以下、画像再構成モデルを表現するニューラルネットワークを画像再構成ニューラルネットワークという。
なお、ニューラルネットワークは、学習により処理の内容が更新される数理モデルである。数理モデルは、実行のタイミングが予め定められた1又は複数の処理の集合である。したがって数理モデルの実行とは、数理モデルが含む各処理を予め定められた規則にしたがって実行することを意味する。
画像再構成モデルの学習では、画像再構成ニューラルネットワークが備える各忠実化ニューラルネットワークと各正則化ニューラルネットワークとが学習により更新される。これは、忠実化項と正則化項との解を自己無撞着に算出する処理におけるパラメータの変化の仕方など、忠実化項と正則化項との解を自己無撞着に算出する処理の内容が学習により更新されることを意味する。
ところで、上述したように、忠実化項と正則化項とは、数学的には、解を求める対象の数式を、補助変数を用いて2つに分けた際の一方と他方とである。しかしながら、忠実化項は、単に数学的に2つに分けられた一方の項を意味するのではなく、忠実化項の最適化の処理が、所定の基準との違いを最少にする値を得る処理であると解釈できるように定義された項である。正則化項は、正則化項の最適化の処理が、先験情報が示す量との違いを最少にする値を得る処理であると解釈できるように定義された項である。
画像生成システム100においては、忠実化項に代えて忠実化ニューラルネットワークが用いられ、正則化項に代えて正則化ニューラルネットワークが用いられるが、忠実化ニューラルネットワーク及び正則化ニューラルネットワークそれぞれについて物理的な解釈が可能な定義がなされている。以下、そのことを、図2を用いて説明する。
図2は、実施形態の画像生成システム100における再構成ニューラルネットワークを説明する説明図である。画像生成システム100の再構成ニューラルネットワークは、忠実化ニューラルネットワークと正則化ニューラルネットワークとを交互に備える。すなわち、忠実化処理と正則化処理とは交互に実行される。
画像生成システム100において忠実化ニューラルネットワークには、1階以上のテンソルで表現される画像データが、よりサイズの小さい複数のテンソルに分割された状態で入力される。以下、よりサイズの小さい複数のテンソルを、ブロックテンソルという。ブロックは、分割前の画像データが行列で表現される場合には、小行列である。図2における分割処理が、処理対象の1階以上のテンソルで表現される画像データを複数のブロックテンソルに分割する処理である。分割処理では、ブロックテンソル同士の配置を示す情報(以下「ブロックテンソル配置情報」という。)も生成される。
忠実化ニューラルネットワークでは、入力されたブロックテンソルごとに所定の基準との違いを最少にするテンソル(以下「第1暫定最適化ブロックテンソル」という。)を出力する処理(以下「忠実化処理」という。)が実行される。したがって忠実化ニューラルネットワークは、入力されたブロックテンソルと同数の第1暫定最適化ブロックテンソルを出力する。忠実化処理では、フィルタ状態情報も用いられる。
忠実化処理が、忠実化ニューラルネットワークが表現する処理であって忠実化項の表す処理である。忠実化処理における所定の基準は、入力されたブロックテンソルそのものである。一般に、入力された情報から推測された結果を用いて、推測の根拠となった情報を推測する場合、必ずしも推測の根拠となった情報を得ることはできない。
忠実化処理では、入力されたブロックテンソルから得られた結果を用いて入力されたブロックテンソルを推測し、推測の結果を入力されたブロックテンソルと比較する。忠実化処理では、その比較の結果を最小にする画像を第1暫定最適化ブロックテンソルとして出力する。すなわち、忠実化処理では逆問題を解いた際に入力されたブロックテンソルに最も近いテンソルを解とするテンソルを第1暫定最適化ブロックテンソルとして出力する。
画像生成システム100において正則化ニューラルネットワークには、前段の忠実化ニューラルネットワークが出力した複数の第1暫定最適化ブロックテンソルが結合された状態で入力される。図2において結合処理と記載された処理が、複数の第1暫定最適化ブロックテンソルを結合する処理である。
結合処理では、ブロックテンソル配置情報が示す各ブロックテンソルの配置で各ブロックテンソルに対応する最適化ブロックテンソルが配置された状態、で結合される。以下、結合処理によって生成されたテンソルを結合済みテンソルという。結合済みテンソルはブロックテンソルの結合されたものであるので、結合済みテンソルのサイズの方が各ブロックテンソルのサイズよりも大きい。
正則化ニューラルネットワークでは、入力された結合済みテンソルに対して、所定の先見情報が示す量との違いを最少にするテンソル(以下「第2暫定最適化ブロックテンソル」という。)を出力する処理(以下「正則化処理」という。)が実行される。正則化処理が、正則化ニューラルネットワークが表現する処理であって正則化項の表す処理である。
所定の先見情報が示す量は、学習によって更新される基準である。先見情報が示す量は、具体的には、撮影対象の画像の各画素についての統計的性質を示す量である。統計的性質とは、例えば離散コサイン変換を行ったときに、多くの係数が0となる性質である。離散コサイン変換を行ったときに、多くの係数が0となる性質は、スパース性と呼ばれる。先見情報が示す量との違いが小さい画像ほど、撮影対象の画像に近い。このように、正則化処理は、撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データ(すなわち第2暫定最適化ブロックテンソル)を生成する処理である。
以下の式(1)は忠実化処理を表現する数式の一例であり、式(2)は正則化処理を表現する数式の一例である。
式(1)及び(2)において、fは撮影対象の画像の画像データを示すベクトルである。また、fとhは添え字kを用いたときは、繰り返し計算の第k回目おける撮影対象の画像の暫定再構成画像データを表す。式(1)及び(2)において、uは、補助変数を表す。kは、自己無撞着処理の繰り返しの回数である。fは撮影対象の画像の画像データを示すベクトルである。gは電磁波情報を示す。Φはフィルタ状態情報を示すテンソルである。εは勾配法におけるステップサイズを示す。ηは罰則項の重みを示す。τは重みパラメータを示す。Iは単位行列を示す。Rは正則化項を示す。関数Hは、式(2)をf及びuを入力とした関数である。
上述したように忠実化処理では、入力されたブロックテンソルから得られた結果を用いて、入力されたブロックテンソルを推測し、推測の結果を入力されたブロックテンソルと比較する。忠実化処理ではその比較の結果、入力されたブロックテンソルに最も近いテンソルを解とするテンソルを第1暫定最適化ブロックテンソルとして出力する。したがって、忠実化処理は、入力されたブロックテンソルに基づきフィルタ状態情報を用いて結果を得る処理と、得た結果からフィルタ状態情報を用いて逆問題を解くことで入力されたブロックテンソルを推定する処理とを実行する。逆問題を解く際に用いられるフィルタ状態情報は、より具体的には、フィルタ状態情報を表現する写像Φの逆像である。フィルタ状態情報を表現する写像は要素が実数であるので、逆像は写像Φの転置行列に比例する行列である。したがって、入力されたテンソルからフィルタ状態情報を用いて得られた結果を用いて入力されたテンソルを推定する処理を実行する忠実化処理は、写像Φを表現するテンソルのサイズのべき乗の演算量を必要とする。
すなわち、忠実化処理では、入力された第k回目おける撮影対象の画像の暫定再構成画像データ(h(k))と観測した電磁波分布情報gとの整合性を評価し、入力された第k回目おける撮影対象の画像の暫定再構成画像データを観測した電磁波分布情報と整合するように変換して出力する。この問題をステップサイズεとして勾配法を用いて求める際に、フィルタ状態情報を表現する写像Φの転置行列とフィルタ状態情報を表現する写像Φの行列積が必要である。したがって、忠実化処理では、したがって、忠実化処理は、写像Φを表現するテンソルのサイズのべき乗の演算量を必要とする。
式(1)の第1項が示すように、忠実化処理ではフィルタ状態情報を示すΦについて、ΦとΦの転置行列との行列積を扱う。一方、関数Hが示すように、正則化処理では入力されたテンソルにK通りのフィルタを畳み込む処理が実行される。すなわち正則化処理では忠実化処理と異なり、演算量がべき乗では増加しない。
<分割処理と結合処理との奏する効果について>
上述したように忠実化処理ではブロックテンソルごとに処理が実行される。各ブロックテンソルに対する演算においてΦのサイズは演算対象のブロックテンソルのサイズと同じサイズだけが用いられればよい。なぜならR(L2×L2)に属するΦTΦとR(L2×1)に属するfとの積が、R(l2×l2)に属するΦ´TΦ´とR(l2×1)に属するf´とに分割されるからである。なお、Φは、フィルタ状態情報であり、分割可能な構造を持たせることが可能である。分割可能とは、Φとブロックテンソルの積を、それぞれ分割した後に演算しても結果が一致することを意味する。分割処理が実行されない場合、忠実化処理では入力されたテンソルのサイズNに応じたNの4乗の演算が必要であるが、分割処理によってp個のサイズMのブロックテンソルが生成された場合には、Mの4乗のp倍の演算量でよい。なお入力されたテンソルは処理対象のテンソルである。なお、非特許文献1と非特許文献2とは、分割可能な構造を持つΦの一例である。
上述したように忠実化処理ではブロックテンソルごとに処理が実行される。各ブロックテンソルに対する演算においてΦのサイズは演算対象のブロックテンソルのサイズと同じサイズだけが用いられればよい。なぜならR(L2×L2)に属するΦTΦとR(L2×1)に属するfとの積が、R(l2×l2)に属するΦ´TΦ´とR(l2×1)に属するf´とに分割されるからである。なお、Φは、フィルタ状態情報であり、分割可能な構造を持たせることが可能である。分割可能とは、Φとブロックテンソルの積を、それぞれ分割した後に演算しても結果が一致することを意味する。分割処理が実行されない場合、忠実化処理では入力されたテンソルのサイズNに応じたNの4乗の演算が必要であるが、分割処理によってp個のサイズMのブロックテンソルが生成された場合には、Mの4乗のp倍の演算量でよい。なお入力されたテンソルは処理対象のテンソルである。なお、非特許文献1と非特許文献2とは、分割可能な構造を持つΦの一例である。
上述したように正則化処理では結合処理が実行される。正則化処理では、画像全体が撮影対象の画像全体に近い画像の生成が重要である。したがって、ブロックテンソルそれぞれについての性質だけではなく、ブロックテンソル間の配置の情報が重要である。そのため忠実化処理の場合と異なり、正則化処理では結合処理で得られたテンソルが用いられる。また正則化処理では上述したように忠実化処理と異なり、演算量がべき乗では増加しない。したがって、ブロックテンソルを用いるよりも、結合処理で得られたテンソルを用いる方が良い。
このように画像再構成モデルは、処理対象のテンソルのべき乗に比例する演算を行う処理であって逆問題を解いた際に処理対象のテンソルに最も近いテンソルを解とするテンソルを学習データに基づき生成する処理である忠実化処理を実行する。さらに画像再構成モデルでは、処理対象のテンソルに比例する演算を行う処理であって撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを学習データに基づき生成する処理である正則化処理を実行する。
また、ブロックテンソルの結合が結合済みテンソルであることは次のことを意味する。すなわち、忠実化処理の処理対象のテンソルの数は、正則化処理の処理対象のテンソルの数より大きく、忠実化処理の処理対象の各テンソルのサイズは、正則化処理の処理対象のテンソルのサイズより小さい。
また画像再構成モデルの学習では、生成されるテンソルがより一層逆問題を解いた際に処理対象のテンソルに近いように忠実化ニューラルネットワークが更新される。また画像再構成モデルの学習では、生成されるテンソルがより一層撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを生成するように正則化ニューラルネットワークが更新される。
図3は、実施形態における制御装置1のハードウェア構成の一例を示す図である。制御装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。制御装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14、出力部15及びフィルタ制御回路16を備える装置として機能する。
より具体的には、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、制御装置1は、制御部11、入力部12、通信部13、記憶部14、出力部15及びフィルタ制御回路16を備える装置として機能する。
制御部11は、制御装置1が備える各種機能部の動作を制御する。制御部11は、例えばフィルタ状態変更処理を実行する。制御部11は、例えばフィルタ制御回路16の動作を制御することで、フィルタ3の状態を制御する。制御部11は、例えばフィルタ状態変更処理の実行により生じた各種情報を記憶部14に記録する。
入力部12は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を制御装置1に接続するインタフェースとして構成されてもよい。入力部12は、制御装置1に対する各種情報の入力を受け付ける。
通信部13は、制御装置1を外部装置に接続するための通信インタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば撮影装置2である。通信部13は、撮影装置2との通信によって、電磁波情報を取得する。
記憶部14は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は制御装置1に関する各種情報を記憶する。記憶部14は、例えば入力部12又は通信部13を介して入力された情報を記憶する。記憶部14は、例えばフィルタ状態変更処理の実行により生じた各種情報を記憶する。記憶部14は、例えばフィルタ状態情報を記憶する。
出力部15は、各種情報を出力する。出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を制御装置1に接続するインタフェースとして構成されてもよい。出力部15は、例えば入力部12に入力された情報を出力する。出力部15は、例えば最終画像データを出力する。
フィルタ制御回路16は、フィルタ3の状態を変化させる作用をフィルタ3に与える回路である。フィルタ制御回路16は、例えばフィルタ3に電圧を印加する回路である。
図4は、実施形態における制御部11の機能構成の一例を示す図である。制御部11は電磁波情報取得部111、フィルタ状態制御部112及び記憶制御部113を備える。電磁波情報取得部111は、撮影装置2が生成した電磁波情報を取得する。フィルタ状態制御部112は、フィルタ状態変更処理と、終了判定処理とを実行する。
終了判定処理は、フィルタ状態変更終了条件が満たされたか否かを判定する処理である。記憶制御部113は、各種情報を記憶部14に記録する。記憶制御部113は、例えばフィルタ状態制御部112がフィルタ3の状態を変更するたびに、制御の結果生じるフィルタ3の状態を示すフィルタ状態情報を記憶部14に記録する。
図5は、実施形態の画像生成システム100が実行する処理の流れの一例を示す図である。撮影装置2が電磁波情報を生成する(ステップS101)。次に電磁波情報取得部111がステップS101で生成された電磁波情報を、通信部13を介して取得する(ステップS102)。次に、フィルタ状態制御部112が、画像再構成処理を実行する(ステップS103)。再構成画像処理の実行により再構成画像データが生成される。
フィルタ状態制御部112が、終了判定処理を実行する(ステップS104)。フィルタ状態変更終了条件が満たされた場合(ステップS104:YES)、処理が終了する。処理が終了した時点の再構成画像データが、最終画像データである。
一方、フィルタ状態変更終了条件が満たされない場合(ステップS104:NO)、フィルタ状態制御部112が、フィルタ状態情報更新処理を実行する(ステップS105)。より具体的には、フィルタ状態制御部112が、記憶部14に記憶されたフィルタ状態情報とステップS103で取得された再構成画像データとに基づき、フィルタ状態情報を更新する。
次に、フィルタ状態制御部112が、更新情報適用処理を実行する(ステップS106)。更新情報適用処理の実行により、フィルタ状態制御部112は、フィルタ制御回路16の動作を制御して、フィルタ3の状態が、フィルタ状態情報更新処理によって更新された更新後のフィルタ状態情報が示す状態であるように、フィルタ3の状態を制御する。次にステップS101の処理に戻る。
画像再構成モデルは、例えば以下の図6に示す学習装置4によって生成される。図6は、実施形態における学習装置4のハードウェア構成の一例を示す図である。学習装置4は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部41を備え、プログラムを実行する。学習装置4は、プログラムの実行によって制御部41、入力部42、通信部43、記憶部44及び出力部45を備える装置として機能する。
より具体的には、プロセッサ93が記憶部44に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、学習装置4は、制御部41、入力部42、通信部43、記憶部44及び出力部45を備える装置として機能する。
制御部41は、学習装置4が備える各種機能部の動作を制御する。制御部41は、例えば画像再構成モデル学習処理を実行する。画像再構成モデル学習処理は、電磁波情報とフィルタ状態情報とに基づき画像再構成モデルを所定の終了条件(以下「学習終了条件」という。)が満たされるまで更新する処理である。
学習終了条件は、例えば所定の回数の学習が行われたという条件である。学習終了条件は、例えば、学習による画像再構成モデルの変化が所定の変化より小さいという条件であってもよい。学習終了条件が満たされた時点の画像再構成モデルが学習済みの画像再構成モデルである。
制御部41は、例えば画像再構成モデル学習処理の実行により生じた各種情報を記憶部44に記録する。
入力部42は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部42は、これらの入力装置を学習装置4に接続するインタフェースとして構成されてもよい。入力部42は、学習装置4に対する各種情報の入力を受け付ける。入力部42には、例えば電磁波情報とフィルタ状態情報との対が画像再構成モデル学習処理で用いられる学習データとして入力される。
通信部43は、学習装置4を外部装置に接続するための通信インタフェースを含んで構成される。通信部43は、有線又は無線を介して外部装置と通信する。
記憶部44は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部44は学習装置4に関する各種情報を記憶する。記憶部44は、例えば入力部42又は通信部43を介して入力された情報を記憶する。記憶部44は、例えば画像再構成モデル学習処理の実行により生じた各種情報を記憶する。記憶部44は、例えば電磁波情報とフィルタ状態情報との対を学習データとして記憶する。記憶部44は、予め更新対象の画像再構成モデルを記憶する。
出力部45は、各種情報を出力する。出力部45は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部45は、これらの表示装置を学習装置4に接続するインタフェースとして構成されてもよい。出力部45は、例えば入力部42に入力された情報を出力する。
図7は、実施形態における制御部41の機能構成の一例を示す図である。制御部41は、学習データ取得部411、学習部412、記憶制御部413を備える。学習データ取得部411は電磁波情報とフィルタ状態情報との対を学習データとして取得する。
学習部412は、画像再構成モデル学習処理を実行する。画像再構成モデル学習処理の実行により、学習部412は、学習データ取得部411の取得した学習データに基づいて、画像再構成モデルの学習を行う。学習に際しては、更新対象の画像再構成モデルが実行され、画像再構成モデルの実行の結果に基づいて画像再構成モデルが更新される。画像再構成モデルは、忠実化処理と正則化処理とを含むので、画像再構成モデルの実行は、忠実化処理と正則化処理との実行でもある。
記憶制御部413は、各種情報を記憶部44に記録する。
図8は、実施形態における学習装置4が実行する処理の流れの一例を示すフローチャートである。学習データ取得部411が電磁波情報とフィルタ状態情報との対を学習データとして取得する(ステップS201)。次に学習部412が、ステップS201で取得された学習データに基づき、画像再構成モデルを更新する(ステップS202)。次に学習部412は、学習終了条件が満たされたか否かを判定する(ステップS203)。学習終了条件が満たされた場合(ステップS203:YES)、処理が終了する。一方、学習終了条件が満たされない場合(ステップS203:NO)、ステップS201の処理に戻る。
このように構成された実施形態における制御装置1は、フィルタ3の制御により隠蔽条件を満たす像を写さない画像の画像データを生成する。すなわち、制御装置1は、光学系の制御により隠蔽条件を満たす像を写さない画像の画像データを生成する。制御装置1は、得られた画像を加工して隠蔽条件を満たす像を画像から削除し、削除の結果として隠蔽条件を満たす像を写さない画像を得るのではない。したがって、制御装置1は撮影による情報の流出を抑制することができる。
このように構成された実施形態における学習装置4は、忠実化処理と正則化処理とを実行する。忠実化処理は入力されたテンソルのべき乗に比例する演算を行う処理であって逆問題を解いた際に入力されたテンソルに最も近いテンソルを解とするテンソルを生成する処理である。
正則化処理は、入力されたテンソルに比例する演算を行う処理であって撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを生成する処理である。そして、忠実化処理の処理対象はブロックテンソルであり、正則化処理の処理対象は結合済みテンソルである。そのため、学習装置4は、画像の生成に要する演算量の増大と画像の生成の精度との両立が可能である。
(変形例)
なお画像再構成モデル学習処理は制御装置1が実行してもよい。すなわち制御部11は、学習データ取得部411と学習部412とを備えてもよい。
なお画像再構成モデル学習処理は制御装置1が実行してもよい。すなわち制御部11は、学習データ取得部411と学習部412とを備えてもよい。
なお、忠実化ニューラルネットワークと正則化ニューラルネットワークとは、入力されるデータの違いを除いて、以下の参考文献1に記載のニューラルネットワークであってもよい。
参考文献1:Yoko Sogabe, Shiori Sugimoto, Takayuki Kurozumi, and Hideaki Kimata “ADMM-INSPIRED RECONSTRUCTION NETWORK FOR COMPRESSIVE SPECTRAL IMAGING” ICIP 2020, 2865-2869
制御装置1は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、制御装置1が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
学習装置4は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、学習装置4が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。
なお、制御装置1は画像生成装置の一例である。なお、電磁波情報はフィルタ3を通して撮影された撮影対象の画像の画像データの一例である。制御装置1及び学習装置4の処理対象が画像に代えて信号である場合、制御装置1及び学習装置4は、電磁波情報に代えてフィルタ3を通した撮影対象の撮影により得られた信号を用いる。また、このような場合、正則化処理が生成するものは、撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データに代えて、撮影対象の撮影により得られた信号が満たす統計的性質に近い性質を有する信号である。なお、フィルタ3は取得部の一例である。なお、撮影装置2は、変換部の一例である。なお、フィルタ3を透過した信号、すなわち撮影装置2に入射する信号は、観測信号の一例である。なお、フォトダイオードの出力する電気信号は、部分画像信号の一例である。なお、所定の隠蔽条件を満たす像は所定の属性に属する被写体の一例である。撮影対象の画像は、画像を構成する領域の一例である。
なお、制御装置1及び学習装置4の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…画像生成システム、 1…制御装置、 2…撮影装置、 3…フィルタ、 4…学習装置、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 16…フィルタ制御回路、 111…電磁波情報取得部、 112…フィルタ状態制御部、 113…記憶制御部、 41…制御部、 42…入力部、 43…通信部、 44…記憶部、 45…出力部、 411…学習データ取得部、 412…学習部、 413…記憶制御部、 91…プロセッサ、 92…メモリ、 93…プロセッサ、 94…メモリ
Claims (5)
- フィルタを通して撮影された撮影対象の画像の画像データと、前記フィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得部と、
逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを前記学習データに基づいて生成する処理である忠実化処理と、前記撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを前記学習データに基づいて生成する処理である正則化処理と、を含む数理モデルである画像再構成モデルを実行する学習部と、
を備え、
前記忠実化処理の処理対象のテンソルの数は、前記正則化処理の処理対象のテンソルの数より大きく、前記忠実化処理の処理対象の各テンソルのサイズは、前記正則化処理の処理対象のテンソルのサイズより小さく、前記正則化処理の処理対象のテンソルは前記忠実化処理で生成された各テンソルが結合されたテンソルであり、
前記忠実化処理と前記正則化処理とは交互に実行される、
学習装置。 - 前記フィルタの状態は、前記フィルタの光学定数の空間分布である、
請求項1に記載の学習装置。 - フィルタを通した撮影対象の撮影により得られた信号と、前記フィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得部と、
逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを前記学習データに基づいて生成する処理である忠実化処理と、前記撮影対象の撮影により得られた信号が満たす統計的性質に近い性質を有する信号を前記学習データに基づいて生成する処理である正則化処理と、を含む数理モデルである画像再構成モデルを実行する学習部と、
を備え、
前記忠実化処理の処理対象のテンソルの数は、前記正則化処理の処理対象のテンソルの数より大きく、前記忠実化処理の処理対象の各テンソルのサイズは、前記正則化処理の処理対象のテンソルのサイズより小さく、前記正則化処理の処理対象のテンソルは前記忠実化処理で生成された各テンソルが結合されたテンソルであり、
前記忠実化処理と前記正則化処理とは交互に実行される、
学習装置。 - フィルタを通して撮影された撮影対象の画像の画像データと、前記フィルタの状態を示すフィルタ状態情報とを含む学習データを取得する学習データ取得ステップと、
逆問題を解くことで処理対象のテンソルに最も近いテンソルを解とするテンソルを前記学習データに基づいて生成する処理である忠実化処理と、前記撮影対象の画像が満たす統計的性質に近い性質を有する画像の画像データを前記学習データに基づいて生成する処理である正則化処理と、を含む数理モデルである画像再構成モデルを実行する学習ステップと、
を有し、
前記忠実化処理の処理対象のテンソルの数は、前記正則化処理の処理対象のテンソルの数より大きく、前記忠実化処理の処理対象の各テンソルのサイズは、前記正則化処理の処理対象のテンソルのサイズより小さく、前記正則化処理の処理対象のテンソルは前記忠実化処理で生成された各テンソルが結合されたテンソルであり、
前記忠実化処理と前記正則化処理とは交互に実行される、
学習方法。 - 請求項1から3のいずれか一項に記載の学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023531221A JPWO2023276022A1 (ja) | 2021-06-30 | 2021-06-30 | |
PCT/JP2021/024673 WO2023276022A1 (ja) | 2021-06-30 | 2021-06-30 | 学習装置、学習方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/024673 WO2023276022A1 (ja) | 2021-06-30 | 2021-06-30 | 学習装置、学習方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023276022A1 true WO2023276022A1 (ja) | 2023-01-05 |
Family
ID=84691630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/024673 WO2023276022A1 (ja) | 2021-06-30 | 2021-06-30 | 学習装置、学習方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2023276022A1 (ja) |
WO (1) | WO2023276022A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501548A (zh) * | 2023-05-06 | 2023-07-28 | 广西云数信息科技有限公司 | 应用于人工智能的互联网数据容灾备份方法及服务器 |
-
2021
- 2021-06-30 WO PCT/JP2021/024673 patent/WO2023276022A1/ja active Application Filing
- 2021-06-30 JP JP2023531221A patent/JPWO2023276022A1/ja active Pending
Non-Patent Citations (2)
Title |
---|
SOGABE YOKO; SUGIMOTO SHIORI; KUROZUMI TAKAYUKI; KIMATA HIDEAKI: "ADMM-Inspired Reconstruction Network for Compressive Spectral Imaging", 2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), IEEE, 25 October 2020 (2020-10-25), pages 2865 - 2869, XP033869549, DOI: 10.1109/ICIP40778.2020.9190998 * |
WANG, LIZHI ET AL.: "Hyperspectral Image Reconstruction Using a Deep Spatial-Spectral Prior", PROCEEDINGS OF 2019 IEEE /CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)., 20 June 2019 (2019-06-20), pages 8024 - 8033, XP033687126, ISBN: 978-1- 7281-3293-8, DOI: 10.1109/CVPR.2019.00822 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501548A (zh) * | 2023-05-06 | 2023-07-28 | 广西云数信息科技有限公司 | 应用于人工智能的互联网数据容灾备份方法及服务器 |
CN116501548B (zh) * | 2023-05-06 | 2024-03-19 | 深圳市时代经纬科技有限公司 | 应用于人工智能的互联网数据容灾备份方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023276022A1 (ja) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ongie et al. | Deep learning techniques for inverse problems in imaging | |
JP6957197B2 (ja) | 画像処理装置および画像処理方法 | |
Khan et al. | Flatnet: Towards photorealistic scene reconstruction from lensless measurements | |
KR101938945B1 (ko) | Cnn을 이용한 이미지 디헤이징 방법 및 그 시스템 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN109993707B (zh) | 图像去噪方法和装置 | |
US20220301114A1 (en) | Noise Reconstruction For Image Denoising | |
Wang et al. | Joint iterative color correction and dehazing for underwater image enhancement | |
CN106683174B (zh) | 双目视觉系统的三维重建方法、装置及双目视觉系统 | |
JP2018526743A (ja) | 検知された測定値を融合する方法及びシステム | |
Zeng et al. | Robust reconstruction with deep learning to handle model mismatch in lensless imaging | |
Xia et al. | A discrete-time learning algorithm for image restoration using a novel L2-norm noise constrained estimation | |
KR20230032717A (ko) | 열화 영상 복원기, 열화 영상을 복원하는 방법 및 장치 | |
WO2022100490A1 (en) | Methods and systems for deblurring blurry images | |
WO2023276022A1 (ja) | 学習装置、学習方法及びプログラム | |
Ma et al. | Extensions of compressed imaging: flying sensor, coded mask, and fast decoding | |
KR102319643B1 (ko) | 점 확산 함수 레이어를 가진 뉴럴 네트워크를 이용한 현미경 영상 처리 방법 및 그 장치 | |
WO2022207110A1 (en) | Noise reconstruction for image denoising | |
Ng et al. | Blind deconvolution and structured matrix computations with applications to array imaging | |
Gupta et al. | Motion blur removal via coupled autoencoder | |
WO2023276021A1 (ja) | 画像生成装置、画像生成方法及びプログラム | |
JP2012003454A (ja) | 画像処理装置、撮像装置および画像処理プログラム | |
WO2019171691A1 (ja) | 画像処理装置、および撮像装置、並びに画像処理方法 | |
KR20200031012A (ko) | 이미지 복원 방법 및 장치 | |
Garcia et al. | Multi-resolution reconstruction algorithm for compressive single pixel spectral imaging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21948329 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023531221 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21948329 Country of ref document: EP Kind code of ref document: A1 |