WO2024053046A1 - 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法 - Google Patents

情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法 Download PDF

Info

Publication number
WO2024053046A1
WO2024053046A1 PCT/JP2022/033706 JP2022033706W WO2024053046A1 WO 2024053046 A1 WO2024053046 A1 WO 2024053046A1 JP 2022033706 W JP2022033706 W JP 2022033706W WO 2024053046 A1 WO2024053046 A1 WO 2024053046A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
imaging system
information processing
learning
processing system
Prior art date
Application number
PCT/JP2022/033706
Other languages
English (en)
French (fr)
Inventor
哲大 岡
圭悟 松尾
有紀 浪井
奨太 中嶌
Original Assignee
オリンパスメディカルシステムズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパスメディカルシステムズ株式会社 filed Critical オリンパスメディカルシステムズ株式会社
Priority to PCT/JP2022/033706 priority Critical patent/WO2024053046A1/ja
Publication of WO2024053046A1 publication Critical patent/WO2024053046A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an information processing system, an endoscope system, a learned model, an information storage medium, an information processing method, and the like.
  • Patent Document 1 discloses a technique for correcting optical deterioration of an imaging system using deep learning.
  • Patent Document 1 a pre-photographed reference image with optical deterioration information added thereto is used as a learning image, but there is an infinite number of optical deterioration information to be learned depending on the object distance and image height. , since it requires a huge number of learning images and the network scale required for processing increases, there are concerns about a decrease in processing capacity and an increase in implementation cost.
  • One aspect of the present invention includes a storage unit that stores a learned model machine-learned using a dataset including a learning image group and a correct image, and an image captured by a first imaging system using the learned model.
  • an information processing system that corrects blur caused by defocusing of the first imaging system of an image to be processed, wherein the learning image group includes a predetermined subject imaged by an arbitrary imaging system;
  • the influence of blur due to defocus of the first imaging system is calculated based on the transfer function or point spread function of the first imaging system at a plurality of object distances.
  • the defocus simulation process is performed on the other regions based on the transfer function or the point spread function on the optical axis, and the correct image is determined at the object distance at which the first imaging system is focused.
  • an image generated by performing best focus simulation processing that simulates a focused state of the first imaging system for the predetermined subject image based on the transfer function or the point spread function; , the predetermined subject image itself, and the learned model is related to an information processing system in which machine learning is performed so that each of the learning images becomes the correct image.
  • Another aspect of the present invention relates to an endoscope system including a processor unit having the information processing system described above, and an endoscope scope connected to the processor unit and capturing the image to be processed. do.
  • Still another aspect of the present invention is a data set that is used in an information processing system that includes a storage unit that stores a trained model, an input unit, a processing unit, and an output unit, and that includes a learning image group and a correct image.
  • the training image group is a trained model that has been machine-learned by an arbitrary imaging system
  • the training image group is a predetermined subject image captured by an arbitrary imaging system and focused by the arbitrary imaging system, at a plurality of object distances.
  • a plurality of learning images generated by performing a defocus simulation process that simulates the effect of blurring due to defocus of the first imaging system based on the transfer function or point spread function of the first imaging system.
  • the defocus simulation process is performed based on the defocus simulation process, and the correct image is determined based on the transfer function or the point spread function at the object distance at which the first imaging system is focused.
  • the trained model is an image generated by performing a best focus simulation process that simulates a state in which each learning image matches the predetermined subject image, or the predetermined subject image itself, and the trained model is
  • the input unit inputs a processing target image, which is an image photographed by the first imaging system, to the learned model, and the processing unit uses the learned model to perform machine learning so as to become a correct image.
  • a correction process is performed to correct blur caused by defocusing of the first imaging system of the image to be processed, and the output unit is related to a learned model that outputs a corrected image resulting from the correction process.
  • Still another aspect of the present invention relates to an information storage medium that stores the trained model described above.
  • the first imaging system captures an image to be processed, which is an image captured by the first imaging system, using a trained model machine-learned using a dataset including a learning image group and a correct image.
  • An information processing method for correcting blur caused by defocusing wherein the learning image group includes a plurality of images of a predetermined subject captured by an arbitrary imaging system and focused by the arbitrary imaging system.
  • Generated by defocus simulation processing that simulates the effect of blurring due to defocus of the first imaging system based on the transfer function or point spread function of the first imaging system at the object distance.
  • the transfer function or the point on the optical axis includes a plurality of learning images, and for a region on the optical axis of the first imaging system and a region other than on the optical axis in each learning image of the plurality of learning images.
  • the defocus simulation process is performed based on an image distribution function, and the correct image is determined based on the transfer function or the point spread function at the object distance at which the first imaging system is focused.
  • the trained model is an image generated by performing a best focus simulation process that simulates a state in which the system is in focus on the predetermined subject image, or the predetermined subject image itself, and the trained model is It relates to an information processing method in which machine learning is performed so that a learning image becomes the correct image.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing system.
  • FIG. 2 is a block diagram illustrating a more detailed configuration example of the information processing system.
  • 5 is a flowchart illustrating a processing example of the information processing system.
  • FIG. 2 is a block diagram illustrating a configuration example of a learning device.
  • FIG. 3 is a diagram illustrating the relationship between depth of field and target depth of field.
  • FIG. 3 is a diagram illustrating an example of image data generation processing.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing system.
  • FIG. 2 is a block diagram illustrating a more detailed configuration example of the information processing system.
  • 5 is a flowchart
  • FIG. 3 is a diagram illustrating defocus simulation processing according to the present embodiment.
  • FIG. 1 is a block diagram illustrating an example of an endoscope system. The block diagram explaining another example of an endoscope system.
  • FIG. 6 is a diagram illustrating the relationship between object distance and MTF related to defocus simulation processing.
  • FIG. 7 is another diagram illustrating the relationship between object distance and MTF related to defocus simulation processing.
  • FIG. 3 is a diagram illustrating a specific calculation method of defocus simulation processing.
  • FIG. 7 is another diagram illustrating a specific calculation method of defocus simulation processing.
  • FIG. 7 is a diagram illustrating a specific calculation method of best focus simulation processing.
  • FIG. 7 is another diagram illustrating a specific calculation method of best focus simulation processing.
  • FIG. 7 is another diagram illustrating an example of the lens configuration of the first imaging system.
  • FIG. 3 is a diagram illustrating the amount of distortion.
  • FIG. 2 is a diagram illustrating a lens configuration including a phase modulation element.
  • FIG. 3 is a diagram illustrating an example of a change in MTF due to the inclusion of a phase modulation element.
  • FIG. 7 is a diagram illustrating another example of defocus simulation processing.
  • FIG. 7 is a diagram illustrating another example of defocus simulation processing.
  • FIG. 7 is a diagram illustrating another example of best focus simulation processing.
  • FIG. 7 is a diagram illustrating another example of image data generation processing.
  • FIG. 7 is a diagram illustrating another example of defocus simulation processing.
  • FIG. 3 is a diagram illustrating the relationship between mosaic processing and demosaic processing.
  • FIG. 7 is a diagram illustrating another example of best focus simulation processing. The figure explaining another example of composition of an information processing system.
  • 7 is a flowchart illustrating another processing example of the information processing system.
  • 5 is a flowchart illustrating the first learned model creation process.
  • 12 is a flowchart illustrating second learned model creation processing.
  • FIG. 7 is a diagram illustrating another example of defocus simulation processing.
  • FIG. 7 is a diagram illustrating another example of best focus simulation processing.
  • the information processing system is applied to a medical endoscope, but the present invention is not limited thereto, and the information processing system of the present invention can be applied to various imaging systems or video display systems.
  • the information processing system of the present invention can be applied to a still camera, a video camera, a television receiver, a microscope, or an industrial endoscope.
  • FIG. 1 is a block diagram illustrating a configuration example of an information processing system 100 of this embodiment.
  • the information processing system 100 includes a storage section 110 and a processing section 130.
  • the storage unit 110 stores a learned model 120 that has been subjected to machine learning.
  • the learned model 120 is a program module that outputs a corrected image in which blur caused by defocusing of the processing target image is corrected, and is generated or updated by performing machine learning, which will be described later.
  • the processing target image is, for example, image data photographed by the first imaging system 101 as shown in FIG. 1, but is not limited thereto, and details will be described later. Note that in this embodiment, image data that can be processed as digital data may be simply referred to as an image.
  • the learning image group 32G is a set of learning images 32 consisting of a first learning image 32-1, a second learning image 32-2, ..., an N-th learning image 32-N, and the details will be described later together with the correct image 36.
  • the processing unit 130 of the present embodiment uses the learned model 120 to correct blur caused by defocusing of the first imaging system 101 of the processing target image, which is an image photographed by the first imaging system 101.
  • the storage unit 110 and the processing unit 130 are also referred to as a storage device and a processing device, respectively.
  • Machine learning in this embodiment is, for example, supervised learning.
  • Training data in supervised learning is a data set in which input data and correct labels are associated with each other.
  • the trained model 120 of this embodiment is a data set in which input data consisting of learning images 32 simulating the effects of various blurs is associated with correct labels consisting of focused correct images 36. It is generated by supervised learning based on .
  • the processing unit 130 of this embodiment is composed of the following hardware.
  • the hardware can include at least one of a circuit that processes digital signals and a circuit that processes analog signals.
  • the hardware can be composed of one or more circuit devices mounted on a circuit board or one or more circuit elements.
  • the one or more circuit devices are, for example, ICs.
  • the one or more circuit elements are, for example, resistors, capacitors, etc.
  • the processing unit 130 may be realized by the following processor.
  • the processing unit 130 of this embodiment includes a memory that stores information and a processor that operates based on the information stored in the memory.
  • the memory is, for example, the storage unit 110.
  • the information includes, for example, programs and various data.
  • a processor includes hardware.
  • Various types of processors can be used as the processor, such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and a DSP (Digital Signal Processor).
  • the memory may be a semiconductor memory such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory), a register, or a magnetic storage device such as a hard disk drive. , an optical storage device such as an optical disk device.
  • the memory stores computer-readable instructions, and when the instructions are executed by the processor, the functions of each part of the processing unit 130 are realized as processing.
  • the instructions here may be instructions of an instruction set that constitutes a program, or instructions that instruct a hardware circuit of a processor to operate.
  • the trained model 120 of this embodiment may be used in the information processing system 100 shown in the configuration example of FIG. 2. That is, the trained model 120 of this embodiment is used in the information processing system 100 including the storage unit 110 that stores the trained model 120, the input unit 140, the processing unit 130, and the output unit 150, and is used in the learning image group. Machine learning is performed using a data set including 32G and the correct image 36.
  • the input unit 140 is an interface that receives images to be processed from the outside. Specifically, it is an image data interface that receives image data as a processing target image from the first imaging system 101, as shown in FIGS. 1 and 2, for example.
  • the input unit 140 functions as the input unit 140 by using the received image to be processed as input data to the trained model 120, and by having the processing unit 130 perform processing to be described later. That is, in the trained model 120 of this embodiment, the input unit 140 inputs the processing target image, which is an image photographed by the first imaging system 101, to the trained model 120.
  • the output unit 150 is an interface that transmits the above-mentioned corrected image to the outside. For example, by using output data from the learned model 120 as a corrected image transmitted by the output unit 150, the function of the output unit 150 is achieved.
  • the destination of the corrected image is, for example, a predetermined display device connected to the information processing system 100, and the corrected image is displayed on the display device by, for example, making the output unit 150 an interface connectable to the predetermined display device. , functions as the output section 150.
  • the output destination of the corrected image may be a storage device of an external device or the like.
  • FIG. 3 is a flowchart illustrating a method performed by the information processing system 100 of this embodiment.
  • the processing unit 130 performs correction processing (step S30) after reading the processing target image (step S10) and reading the learned model (step S20). Specifically, for example, the processing unit 130 performs a process of inputting the processing target image received via the input unit 140 into the trained model 120 read out from the storage unit 110. If the trained model 120 determines that the processing target image, which is input data, is common to the learning image 32, it estimates that the data to be output is the correct image 36. Therefore, when the processing target image is input, the trained model 120 determines that the processing target image is correct. Output image 36.
  • the correct image 36 is an image in which blur caused by defocusing of the first imaging system 101 in the processing target image has been corrected. That is, the processing unit 130 uses the trained model 120 to perform a correction process (step S30) to correct blur caused by defocusing of the first imaging system 101 of the image to be processed.
  • the processing unit 130 outputs the corrected image (step S40).
  • the output unit 150 functions as described above, so that the corrected image is output to a desired output destination. In other words, the output unit 150 outputs a corrected image by the correction process.
  • FIG. 4 is a block diagram showing a configuration example of the learning device 10. As shown in FIG.
  • the learning device 10 includes, for example, a communication section 12, a learning device processing section 16, and a learning device storage section 18.
  • the communication unit 12 is a communication interface that can communicate with the information processing system 100 using a predetermined communication method.
  • the predetermined communication method is, for example, a communication method compliant with a wireless communication standard such as Wi-Fi (registered trademark), but is not limited thereto, and may be a communication method compliant with a wired communication standard such as USB.
  • the learning device 10 can transmit the learned model 120 machine-trained by the method described later to the information processing system 100, and the information processing system 100 can update the learned model 120.
  • FIG. 4 shows an example in which the learning device 10 and the information processing system 100 are separated, this does not preclude a configuration example in which the information processing system 100 includes a learning server corresponding to the learning device 10.
  • the learning device processing section 16 performs data input/output control with each functional section such as the communication section 12 and the learning device storage section 18.
  • the learning device processing section 16 can be realized by a processor similar to the processing section 130 in FIG.
  • the learning device processing unit 16 executes various calculation processes based on a predetermined program read from the learning device storage unit 18, an operation input signal from an operation unit not shown in FIG. Controls data output operations, etc.
  • the predetermined program here includes a machine learning program. That is, the learning device processing unit 16 performs the machine learning function by reading out and executing the machine learning program and necessary data from the learning device storage unit 18.
  • the learning device storage unit 18 stores a training model 20, a predetermined subject image 30, and optical system information 40 in addition to a machine learning program (not shown).
  • the learning device storage section 18 can be realized by a semiconductor memory or the like similar to the storage section 110 described above. Note that the learning device storage unit 18 may further include other information. Other information is, for example, image sensor information 50, which will be described later.
  • the predetermined subject image 30 is an image of a subject related to the processing target image, and a learning image 32 and a correct image 36, which will be described later, are created based on the predetermined subject image 30. That is, the learning device storage unit 18 stores in advance as many predetermined subject images 30 as there are types of subjects that can be processed target images.
  • the information processing system 100 is used in an endoscope system 300 (described later)
  • an image of a lumen or the like captured by an endoscope 310 may be a predetermined subject image 30.
  • an imaging system that is not particularly concerned about the imaging system that captures the predetermined subject image 30 will be referred to as an arbitrary imaging system 104.
  • an imaging system that is not particularly concerned about the imaging system that captures the predetermined subject image 30 will be referred to as an arbitrary imaging system 104.
  • a case where the predetermined subject image 30 is captured with limited imaging systems will be described later.
  • the training model 20 is a model to be subjected to machine learning by the learning device processing unit 16.
  • the model here is information for deriving the correspondence between estimation target data and estimation result data. More specifically, it is information for deriving the output image 34, which is estimation result data, from the learning image 32, which is estimation target data.
  • the training model 20 of this embodiment at least a part of the model includes a neural network NN. Details of the neural network NN will be described later with reference to FIG. Note that, as described above, when the information processing system 100 and the learning device 10 are integrated, machine learning may be performed on the trained model 120.
  • the training model 20 when the first learning image 32-1 is input to the training model 20, the training model 20 outputs the first output image 34-1.
  • the training model 20 when the Nth learning image 32-N is input to the training model 20, the training model 20 outputs the Nth output image 34-N. That is, as shown in FIG. 5, in the learning device 10 of this embodiment, N images consisting of the first learning image 32-1 to the Nth learning image 32-N are input to the training model 20 as the learning image group 32G. be done.
  • FIG. 6 is a schematic diagram illustrating the neural network NN.
  • the neural network NN has an input layer into which data is input, an intermediate layer that performs calculations based on the output from the input layer, and an output layer that outputs data based on the output from the intermediate layer.
  • FIG. 6 illustrates a network having two intermediate layers, the intermediate layer may have one layer, or three or more layers.
  • the number of nodes included in each layer is not limited to the example shown in FIG. 6, and various modifications are possible.
  • nodes included in a given layer are combined with nodes in adjacent layers.
  • a weighting coefficient is set for each connection. Each node multiplies the output of the previous node by a weighting coefficient, and obtains a total value of the multiplication results.
  • each node adds a bias to the total value and applies an activation function to the addition result to obtain the output of the node.
  • an activation function By sequentially executing this process from the input layer to the output layer, the output of the neural network NN is obtained.
  • various functions such as a sigmoid function and a ReLU function are known as activation functions, and these can be widely applied in this embodiment.
  • the neural network NN may be a CNN (Convolutional Neural Network), an RNN (Recurrent Neural Network), or another model.
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • FIG. 7 is a flowchart illustrating an example of the learned model creation process (step S100).
  • the learned model creation process (step S100) is a process of creating or updating the learned model 120 by machine learning.
  • the learning device processing unit 16 performs image data generation processing (step S120) after reading a predetermined subject image (step S110). For example, the learning device processing unit 16 reads a predetermined subject image 30 from the learning device storage unit 18 and performs a predetermined process of generating a learning image 32 and a correct image 36 using the predetermined subject image 30.
  • the predetermined processing includes defocus simulation processing (step S200), best focus simulation processing (step S300), and the like, and details will be described later.
  • the learning device processing unit 16 performs a correction learning process (step S130). For example, the learning device processing unit 16 performs a process of reading out the training model 20 from the learning device storage unit 18, a process of inputting the learning image 32 generated in the image data generation process (step S120) into the training model 20, and a process of inputting the learning image 32 generated in the image data generation process (step S120) into the training model 20.
  • Machine learning processing is performed based on the output image 34 and correct image 36 that have been output.
  • the machine learning process based on the output image 34 and the correct image 36 is, for example, as shown in FIG.
  • This process changes network parameters.
  • the process of changing network parameters of the neural network NN is, for example, a process of updating appropriate weighting coefficients in the neural network NN.
  • the weighting coefficient here includes a bias.
  • an error backpropagation method in which the weighting coefficients are updated from the output layer to the input layer. That is, the learning device 10 inputs the input data of the learning data into the model, and calculates the output by performing forward calculation according to the model configuration using the weighting coefficient at that time. An error function is calculated based on the output and the correct label, and the weighting coefficients are updated so as to reduce the error function.
  • the learning device processing unit 16 inputs the first learning image 32-1 as input data to the neural network NN included in the training model 20, and performs forward-direction processing using the weighting coefficient at that time. By performing the calculation, a first output image 34-1, which is output data, is output. The learning device processing unit 16 calculates an error function based on the first output image 34-1 and the correct image 36 which is the correct label. Then, processing is performed to update the weighting coefficients so as to reduce the error function. Further, the learning device processing unit 16 repeatedly performs similar processing on the second output image 34-2 to the Nth output image 34-N. By doing so, the training model 20 is machine-learned so that one correct image 36 can be output for a plurality of types of learning images 32.
  • the learned model 120 stored in the storage unit 110 is updated.
  • the learning device 10 and the information processing system 100 are illustrated as being communicatively connected via the communication unit 12 in FIG. 4, the learning device 10 and the information processing system 100 do not need to be communicatively connected.
  • the user performs a process on the learning device 10 to temporarily store the training model 20 as the learned model 120 in the information storage medium, and carries the information storage medium to a location in the information processing system 100.
  • the learned model 120 can be updated by performing a process on the information processing system 100 to update the learned model 120 based on the information storage medium.
  • FIG. 9 is a diagram illustrating the relationship between the depth of focus and the depth of field when the optical axis is set as the horizontal axis for the first imaging system 101 of this embodiment.
  • FIG. 9 is a diagram for convenience and does not show a specific lens configuration of the first imaging system 101.
  • the range indicated by DP1 is the depth of field corresponding to the depth of focus in the optical design of the first imaging system 101. Therefore, for example, if the distance between the subject and the first imaging system 101 is the first object distance shown in D1, the subject is located outside the depth of field, so if the first imaging system 101 captures the image. , a processing target image including the effect of blur due to defocusing is obtained.
  • the distance between the subject and the first imaging system 101 is the second object distance shown in D2, the subject is located within the depth of field, so the image becomes a focused processing target image.
  • the distance between the subject and the first imaging system 101 is the object distance shown as D3, that is, the position shown on the optical axis as P1 in the depth of field is a position that satisfies the best focus condition.
  • the first object distance indicated by D1 and the second object distance indicated by D2 are shown from the position indicated by P1 toward the near point, but are not limited to the far point. It may be on the side.
  • the method of this embodiment will be explained while illustrating the object distance on the periapsis side, but the method of this embodiment cannot be applied even when using the object distance on the far point side. isn't it.
  • the depth of field becomes narrower, so it is desired to expand the depth of field.
  • the first imaging system 101 is used in an endoscope 310 of an endoscope system 300 described later, it may be difficult to align the endoscope 310 to the best focus position for a desired subject. Therefore, it is desired to expand the depth of field.
  • an image obtained by simulating the effect of blur on a predetermined subject image 30 captured in advance is used as a learning image 32, and an in-focus image is used as a correct image 36 as a data set as described above in FIG. 8 etc.
  • the trained model 120 that has undergone machine learning is incorporated into the information processing system 100.
  • the captured image to which the effect of blur due to defocus is added is set as the processing target image, and by performing the processing in FIG. 3, the information processing system 100 outputs the corrected image in focus.
  • the range of the depth of field of the first imaging system 101 can be substantially expanded.
  • the depth of field can be substantially expanded from the range shown in DP1 in FIG. 9 to the range shown in DP2.
  • Substantially enlarging means that the depth of field has not been optically enlarged, but the image processing performed by the information processing system 100 allows the subject, which is originally located outside the range of the depth of field, to be enlarged as if it were in the depth of field. This is to expand the apparent depth of field to a range that can be imaged as if it were located within the depth range.
  • a processing target image with added blur is output from the first imaging system 101, but the actual object distance indicated by DP2 is output from the first imaging system 101.
  • the image to be processed is corrected into a corrected image that is in focus, and is output from the information processing system 100. Furthermore, in the following description, the substantial depth of field shown in DP2 in FIG. 9, expanded using the learned model 120 of this embodiment, will be referred to as a target depth of field. Note that the corrected image that is in focus here does not need to be strictly focused for the entire image. For example, even if a part of the output corrected image is blurred, the user may determine that the function of the information processing system 100 is sufficient as long as a treatment using the endoscope 310 can be performed.
  • the distance of the target depth of field in this embodiment is wider than the distance of the optically determined depth of field, but it is a distance that can vary depending on the user's tolerance level and the like. Therefore, DP2 shown in FIG. 9 is only shown for convenience and does not indicate a fixed length. The same applies to the following explanation.
  • the trained model 120 of this embodiment has a blur obtained by imaging a subject located in the range shown in DP10 in FIG. 9 as the difference between the target depth of field shown in DP2 and the depth of field shown in DP1.
  • Machine learning is used to correct images to bring them into focus.
  • the distance shown in DP10 is the distance required for machine learning.
  • step S120 A method of image data generation processing (step S120) for generating the learning image 32 and correct image 36 necessary for the machine learning will be explained using FIG. 10. Note that the method of image data generation processing is not limited to that shown in FIG. 10, and various modifications can be implemented as described later. Therefore, the image data generation process shown in FIG. 10 can also be called step S120-1.
  • the predetermined subject image 30 of this embodiment is assumed to be captured at an object distance that allows the imaging system to focus.
  • the learning device processing unit 16 generates a learning image 32 by performing defocus simulation processing (step S200) on a predetermined subject image 30 captured by an arbitrary imaging system 104.
  • the defocus simulation process for generating the first learning image 32-1 can also be called step S200-1, and similarly the defocus simulation process for generating the Nth learning image 32-N
  • the defocus simulation process can be called step S200-N.
  • step S202, step S204, step S206, step S208, step S210, step S220, and step S230 which will be described later.
  • the learning device processing unit 16 selects information on the first object distance from the read optical system information 40 when generating the first learning image 32-1 through the defocus simulation process (step S200-1).
  • the learning device processing unit 16 selects second object distance information from the read optical system information 40 when generating the second learning image 32-2 in step S200-2. That is, in the present embodiment, the optical system information 40 corresponding to the Nth learning image 32-N is the Nth object distance, and the learning device processing unit 16 By selecting the corresponding Nth object distance information from the system information 40, it can be expanded and expressed.
  • the defocus simulation process will be exemplified with respect to the process for generating the first learning image 32-1, but will also be described with respect to the case of generating the second learning image 32-2 to the Nth learning image 32-N. The process is similar.
  • the learning device processing unit 16 generates the correct image 36 by performing the best focus simulation process (step S300) on the predetermined subject image 30.
  • the learning device processing unit 16 selects information on the object distance at which the first imaging system 101 is focused from the read optical system information 40.
  • the information on the object distance at which the first imaging system 101 is focused is, for example, as shown in D3, the designed distance from the first imaging system 101 to the point shown in P1 in FIG. 9, which corresponds to the so-called best focus condition. is the object distance.
  • image data generation process of this embodiment may be performed as shown in FIG. 11.
  • the image data generation process shown in FIG. 11 can also be called step S120-2.
  • descriptions of processes similar to those in FIG. 10 will be omitted as appropriate.
  • Step S120-2 in FIG. 11 differs from step S120-1 in FIG. 10 in that the best focus simulation process (step S300) is not performed and the correct image 36 is the predetermined subject image 30 itself. This is because if the predetermined subject image 30 is an image captured at an object distance that can be focused by an arbitrary imaging system 104, it can be used as the correct image 36.
  • the defocus simulation process (step S200) will be explained using FIGS. 12 and 13.
  • the optical system information 40 read when performing the defocus simulation process (step S200) includes information on a transfer function or a point spread function.
  • the transfer function or point spread function changes depending on the amount of defocus in the optical axis direction and the image height in a plane perpendicular to the optical axis. For example, at the first object distance, the areas perpendicular to the optical axis and the same size as the predetermined subject image 30 are set to area FC11-1, area FC12-1, area FC13-1, area FC21-1, and area FC22-1. , region FC23-1, region FC31-1, region FC32-1, and region FC33-1.
  • the transfer function or point spread function at the first object distance may exhibit different values for each divided region.
  • areas perpendicular to the optical axis and the same size as the predetermined subject image 30 are set to area FC11-N, area FC12-N, area FC13-N, area FC21-N, area Assume that the area is divided into FC22-N, area FC23-N, area FC31-N, area FC32-N, and area FC33-N.
  • the transfer function or point spread function at the Nth object distance may exhibit different values for each divided region.
  • the transfer function or point spread function of the area FC11-1 and the transfer function or point spread function of the area FC11-N may exhibit different values.
  • a transfer function or a point spread function on the optical axis is used to perform machine learning.
  • the region FC22-1 is assumed to be the region through which the optical axis of the first imaging system 101 passes. That is, the transfer function or point spread function in the region FC22-1 is the transfer function or point spread function on the optical axis of the first imaging system 101 at the first object distance.
  • the transfer function or point spread function of the region FC22-N at the Nth object distance is the transfer function or point spread function on the optical axis of the first imaging system 101. Note that although the transfer function or point spread function is divided into nine parts in FIG. 12, this is just an example, and the same applies to FIG.
  • areas FC22-1 to FC22-N in FIG. 12 are a set containing a predetermined number of images in each of the vertical and horizontal directions, but may be one pixel.
  • the transfer function or point spread function on the optical axis in this embodiment refers to the transfer function or point spread function in at least one of the area of one pixel passing through the optical axis or the area of a predetermined number of pixels including the pixel. It is a point spread function.
  • step S210 is performed for areas other than the optical axis of the predetermined subject image 30 based on the transfer function on the optical axis or the point spread function on the optical axis of the first imaging system 101.
  • step S210 is performed for areas other than the optical axis of the predetermined subject image 30 based on the transfer function on the optical axis or the point spread function on the optical axis of the first imaging system 101.
  • the predetermined subject image 30 is divided into nine regions AR11, AR12, AR13, AR21, AR22, AR23, AR31, AR32, and AR33, as in FIG.
  • the learning device processing unit 16 when generating the first learning image 32-1, the learning device processing unit 16 performs step S210 on the area AR11 using the transfer function or point spread function on the optical axis shown in FC22-1 in FIG. -1 calculation is performed. Note that in the following explanation and illustration in FIG. 13, this calculation will be simply expressed as AR11*FC22-1. The same applies to calculations such as step S210 using other areas. Furthermore, although the details will be described later, "*" here indicates convolution when, for example, PSF is used as the point spread function. Further, for example, when OTF is used as the transfer function, "*" indicates that the frequency characteristic obtained by Fourier transforming the region AR11 is multiplied by the OTF of the region FC22-1.
  • the learning device processing unit 16 also performs step S210-1 for the areas AR12 to AR33 using the transfer function or point spread function on the optical axis shown in FC22-1.
  • the learning device processing unit 16 includes AR12*FC22-1, AR13*FC22-1, AR21*FC22-1, AR22*FC22-1, AR23*FC22-1, We are conducting AR31*FC22-1, AR32*FC22-1, and AR33*FC22-1.
  • the learning device processing unit 16 divides the same area as the predetermined subject image 30 into a desired number of areas, uses the transfer function or point spread function of one of the divided areas, and performs step S210. I do.
  • the generated first learning image 32-1 is divided into areas BR11-1, BR12-1, BR13-1, BR21-1, BR22-1, BR23-1, BR31-1, Assume that the area is divided into nine areas, BR32-1 and BR33-1.
  • BR12-1 AR12*FC22-1
  • BR13-1 AR13*FC22-1
  • BR21-1 AR21*FC22-1
  • BR22-1 AR22*FC22-1
  • BR23-1 AR23*FC22 -1
  • BR31-1 AR31*FC22-1
  • BR32-1 AR32*FC22-1
  • BR33-1 AR33*FC22-1.
  • Defocus simulation processing is performed based on the transfer function or point spread function (FC22).
  • the transfer function of this embodiment can also be called an optical transfer function or OTF.
  • OTF is an abbreviation for Optical Transfer Function.
  • the point spread function of this embodiment can also be called a point spread function or PSF.
  • PSF is an abbreviation for Point Spread Function.
  • OTF is the result of Fourier transform of PSF.
  • the PSF is the result of inverse Fourier transform of the OTF.
  • OTF is a complex function, and the absolute value of OTF is called a modulation transfer function, amplitude transfer function, or MTF.
  • MTF is an abbreviation for Modulation Transfer Function.
  • the information processing system 100 of the present embodiment includes the storage unit 110 that stores the learned model 120 that has been machine-learned using the dataset including the learning image group 32G and the correct image 36, and the learned model 120. and a processing unit 130 that corrects blur caused by defocusing of the first imaging system 101 of an image to be processed, which is an image photographed by the first imaging system 101.
  • the learning image group 32G includes transfer functions or points of the first imaging system 101 at a plurality of object distances for a predetermined subject image 30 in which a predetermined subject captured by an arbitrary imaging system 104 is in focus.
  • It includes a plurality of learning images 32 that are generated by performing a defocus simulation process (step S200) that simulates the influence of blur due to defocus of the first imaging system 101 based on the image distribution function.
  • Defocusing is simulated for the area on the optical axis of the first imaging system 101 and the area other than on the optical axis in each of the plurality of learning images 32 based on the transfer function or point spread function on the optical axis.
  • Processing takes place.
  • the correct image 36 is a best focus image that simulates the focused state of the first imaging system 101 for the predetermined subject image 30 based on the transfer function or point spread function at the object distance at which the first imaging system 101 is focused. This is an image generated by performing the simulation process (step S300) or the predetermined subject image 30 itself.
  • the learned model 120 undergoes machine learning such that each learning image 32 becomes the correct image 36.
  • the information processing system 100 of the present embodiment includes the storage unit 110 that stores the trained model 120 and the processing unit 130, the processing target image captured by the first imaging system 101 is blurred due to defocus. Even if the image contains the influence of blur, it is possible to output a corrected image in which the influence of blur is corrected. Thereby, the depth of field of the first imaging system 101 can be substantially expanded. Furthermore, since the learning image group 32G and the correct image 36 are created in advance based on the predetermined subject image 30 captured by an arbitrary imaging system 104, the subject associated with the processing target image is captured for the first time by the first imaging system 101. In the case where the subject is a photographed subject, a learned model 120 that has been subjected to machine learning in advance can be used.
  • step S200 defocus simulation processing
  • step S200 the amount of information required for the defocus simulation process (step S200) can be reduced.
  • the learned model 120 can be easily implemented in the information processing system 100.
  • the method of this embodiment can also be realized as a trained model 120. That is, the trained model 120 of this embodiment is used in the information processing system 100 including the storage unit 110 that stores the trained model 120, the input unit 140, the processing unit 130, and the output unit 150, and is used in the learning image group.
  • Machine learning is performed using a data set including 32G and the correct image 36.
  • the learning image group 32G includes transfer functions or points of the first imaging system 101 at a plurality of object distances for a predetermined subject image 30 in which a predetermined subject captured by an arbitrary imaging system 104 is in focus. It includes a plurality of learning images 32 that are generated by performing a defocus simulation process that simulates the influence of blur due to defocus of the first imaging system 101 based on the image distribution function.
  • Defocusing is simulated for the area on the optical axis of the first imaging system 101 and the area other than on the optical axis in each of the plurality of learning images 32 based on the transfer function or point spread function on the optical axis. Processing takes place.
  • the correct image 36 is a best focus image that simulates the focused state of the first imaging system 101 for the predetermined subject image 30 based on the transfer function or point spread function at the object distance at which the first imaging system 101 is focused. This is an image generated by performing simulation processing, or the predetermined subject image 30 itself.
  • the learned model 120 undergoes machine learning such that each learning image 32 becomes the correct image 36.
  • the input unit 140 inputs a processing target image, which is an image captured by the first imaging system 101, to the learned model 120.
  • the processing unit 130 uses the trained model 120 to perform a correction process to correct blur caused by defocusing of the first imaging system 101 of the image to be processed.
  • the output unit 150 outputs a corrected image by the correction process. By doing so, effects similar to those described above can be obtained.
  • the technique of this embodiment can also be realized as an information processing method.
  • the information processing method of the present embodiment uses the trained model 120 machine-learned using the data set including the learning image group 32G and the correct image 36 to obtain the processing target image, which is an image photographed by the first imaging system 101. Blur caused by defocusing of the first imaging system 101 is corrected.
  • the learning image group 32G includes transfer functions or points of the first imaging system 101 at a plurality of object distances for a predetermined subject image 30 in which a predetermined subject captured by an arbitrary imaging system 104 is in focus. It includes a plurality of learning images 32 that are generated by performing a defocus simulation process that simulates the influence of blur due to defocus of the first imaging system 101 based on the image distribution function.
  • Defocusing is simulated for the area on the optical axis of the first imaging system 101 and the area other than on the optical axis in each of the plurality of learning images 32 based on the transfer function or point spread function on the optical axis. Processing takes place.
  • the correct image 36 is a best focus image that simulates the focused state of the first imaging system 101 for the predetermined subject image 30 based on the transfer function or point spread function at the object distance at which the first imaging system 101 is focused. This is an image generated by performing simulation processing, or the predetermined subject image 30 itself.
  • the learned model 120 undergoes machine learning such that each learning image 32 becomes the correct image 36. By doing so, effects similar to those described above can be obtained.
  • the method of this embodiment can also be realized as an information storage medium that stores the learned model 120.
  • the training model 20 machine-learned by the learning device 10 can be stored in the information storage medium.
  • the training model 20 can be updated as the latest learned model 120.
  • the predetermined circumstances include, for example, a situation where the location where the learning device 10 is located and a location where the information processing system 100 is located are far apart, a situation where data communication is not possible between the learning device 10 and the information processing system 100, and the like.
  • the method of this embodiment may be realized as an endoscope system 300.
  • the endoscope system 300 of this embodiment includes a processor unit 200 that includes the above-described information processing system 100, and an endoscope 310 that is connected to the processor unit 200 and captures images to be processed. By doing so, it is possible to construct an endoscope system 300 that includes the information processing system 100 that has the above effects.
  • the endoscope system 300 can have a configuration example as shown in FIG. 14, for example.
  • Endoscope system 300 includes an endoscope scope 310, an operation section 320, a display section 330, and a processor unit 200.
  • Processor unit 200 includes a storage section 210, a control section 220, and information processing system 100.
  • the information processing system 100 in FIG. 14 further includes a storage interface 160 in addition to the configuration described above in FIG. Note that descriptions of configurations similar to those in FIG. 2 will be omitted as appropriate.
  • the endoscope 310 includes an imaging device at its distal end (not shown).
  • the imaging device includes a first imaging system 101.
  • the distal end of the endoscope 310 is inserted into the body cavity, the imaging device takes an image of the abdominal cavity, and the imaging data is transmitted from the endoscope 310 to the processor unit 200.
  • the operation unit 320 is a device for a user to operate the endoscope system 300, and is, for example, a button, a dial, a foot switch, a touch panel, or the like.
  • the display unit 330 is a device that displays images captured by the endoscope 310, and is, for example, a liquid crystal display, but may also be hardware integrated with the operation unit 320, such as a touch panel.
  • the processor unit 200 performs various processes such as control and image processing in the endoscope system 300.
  • the control section 220 realizes the function of the processor unit 200 by performing mode switching, zoom operation, display switching, etc. of the endoscope system 300 based on information input from the operation section 320.
  • the storage unit 210 records images captured by the endoscope 310.
  • the storage unit 210 is, for example, a semiconductor memory, a hard disk drive, an optical drive, or the like.
  • the processor unit 200 may further include an interface circuit that receives image data.
  • the storage interface 160 is an interface for accessing the storage unit 210.
  • the storage interface 160 records the image data received by the input unit 140 in the storage unit 210.
  • the storage interface 160 reads the image data from the storage section 210 and sends the image data to the processing section 130.
  • the processing unit 130 performs the processing described above with reference to FIG. 3 using the image data from the input unit 140 or the storage interface 160 as a processing target image. As a result, the processing unit 130 outputs the corrected image via the output unit 150, and the corrected image in focus is displayed on the display unit 330.
  • the endoscope system 300 of this embodiment may have the configuration example shown in FIG. 15, for example.
  • the configuration example in FIG. 15 differs from the configuration example in FIG. 14 in that the information processing system 100 and the processor unit 200 are provided separately.
  • the information processing system 100 and the processor unit 200 may be connected by inter-device communication such as USB, or may be connected by network communication such as LAN or WAN.
  • the information processing system 100 is configured by one or more information processing devices.
  • the information processing system 100 may be a cloud system in which a plurality of PCs, a plurality of servers, etc. connected via a network perform parallel processing.
  • the storage unit 170 in FIG. 15 corresponds to the storage unit 210 in FIG. 14.
  • the processor unit 200 includes a control section 220, an imaging data receiving section 230, an input section 240, an output section 250, a processing section 260, and a display interface 270.
  • the imaging data receiving section 230 is configured with an interface circuit similar to the input section 140 in FIG. 14, and receives imaging data from the endoscope 310.
  • the processing unit 260 transmits the image data received by the imaging data receiving unit 230 to the information processing system 100 via the output unit 250.
  • the information processing system 100 performs the process shown in FIG. 3 using the received image data as a processing target image to generate a corrected image.
  • the input unit 240 receives the corrected image transmitted from the information processing system 100 via the output unit 150 and outputs the corrected image to the processing unit 260.
  • the processing unit 260 outputs the corrected image to the display unit 330 via the display interface 270. As a result, the corrected image is displayed on the display section 330.
  • the display interface 270 in FIG. 15 is configured with the same hardware as the output unit 150 in FIG. 14, and realizes the same functions as the output unit 150 in FIG. Note that in FIG. 15, the input section 140 and the output section 150 of the information processing system 100 may be configured with separate interfaces, but the functions of the input section 140 and the output section 150 may be realized with a single input/output interface. Good too. The same applies to the input section 240 and output section 250 of the processor unit 200.
  • each object distance included in the optical system information 40 may be determined based on the difference in corresponding MTF.
  • the learning image group 32G includes the first learning image 32-1 in which step S200-1 was performed based on the transfer function or point spread function of the first object distance, and the transfer function or point spread function of the second object distance. It is assumed that the image is composed of the second learning image 32-2 on which step S200-2 was performed based on the image data. Further, it is assumed that the first object distance is an object distance with a larger amount of defocus than the second object distance. In this case, qualitatively illustrating the spatial frequency dependence of MTF, the MTF based on the second object distance is as shown in A0 in FIG.
  • the MTF based on the first object distance is as shown in A1.
  • a predetermined spatial frequency shown as B0 is determined, the difference in MTF is determined as shown in C0. Therefore, the first object distance and the second object distance are determined so that the difference in MTF indicated by C0 is smaller than a predetermined value.
  • the difference in MTF is the difference in MTF between adjacent object distances.
  • the learning image group 32G includes a first learning image 32-1, a second learning image 32-2, and a third learning image 32-3.
  • the first object distance, the second object distance, and the third object distance are the object distances with the largest defocus amount in this order.
  • A10 in FIG. 17 shows the frequency characteristic of MTF at the third object distance
  • A11 shows the frequency characteristic of MTF at the second object distance
  • A12 shows the frequency characteristic of MTF at the first object distance.
  • both the difference between the MTF of A10 and the MTF of A11 indicated by C10 and the difference between the MTF of A11 and the MTF of A12 indicated by C11 are both lower than the predetermined value.
  • the difference between the MTF of A10 and the MTF of A12 is not considered as a predetermined value.
  • the trained model 120 subjected to machine learning performs a correction process (step S30) so that both the first learning image 32-1 and the second learning image 32-2 can be corrected to the correct image 36. Furthermore, in order to correct the processing target image captured at an object distance between the first object distance and the second object distance to the correct image 36 by the correction process (step S30), the first learning image 32-1 and the It is preferable that the difference in the influence of blur added to the two learning images 32-2 is within a certain range.
  • the object distance of each learning image is defined based on the MTF indicating the degree of influence of blur simulated on the predetermined subject image 30, so it is possible to A learning image group 32G can be generated. This allows the data set to be appropriate for machine learning.
  • the optical system information 40 may include the object distance under the best focus condition of the first imaging system 101.
  • the object distance under the best focus condition is, for example, the distance shown in D3 in FIG.
  • the learning device processing unit 16 performs best focus simulation processing (step S300) on the predetermined subject image 30 using a transfer function or a point spread function using the object distance under the best focus condition. 36 may be generated. That is, in the information processing system 100 of this embodiment, the object distance that is in focus is the object distance under the best focus condition. By doing so, an appropriate correct image 36 can be generated.
  • the transfer function or point spread function based on the object distance and the learning image 32 have a one-to-one correspondence. More specifically, for example, in the defocus simulation process (step S200), for one predetermined subject image 30, a transfer function or point spread function based on the first object distance, and a transfer function or point spread function based on the second object distance are determined. It is assumed that the process of generating the third learning image 32-3 using both point spread functions is not performed. In other words, in the information processing system 100 of the present embodiment, each learning image 32 is created for a predetermined subject image 30 based on a transfer function or a point spread function at any one of a plurality of object distances. This is an image generated by performing focus simulation processing (step S200). By doing so, the relationship between the learning images 32 in the learning image group 32G can be clarified.
  • the MTF of an object distance shorter than the object distance at the near point of the target expanded depth of field shown in P2 in FIG. 9 may be 0 at the spatial frequency shown in B0.
  • the spatial frequency lower than the lowest spatial frequency at which aliasing occurs is the spatial frequency shown in B0.
  • the processing unit 130 uses the learned model 120 to correct the blur caused by the defocus of the first imaging system 101 on the processing target image.
  • An image in which the depth of field of the first imaging system 101 is expanded to a target enlarged depth of field that is wider than the depth of field is estimated.
  • the predetermined spatial frequency is a spatial frequency lower than the lowest spatial frequency at which the MTF value at the near point of the target expanded depth of field becomes zero.
  • the predetermined spatial frequency indicated by B0 is, for example, 0.1 as a normalized frequency. That is, in the information processing system 100 of this embodiment, the predetermined spatial frequency is a spatial frequency that is 1/5 of the Nyquist frequency of the image sensor of the first imaging system 101. By doing so, it is possible to establish a one-to-one correspondence between the spatial frequency and the MTF for many optical systems. Thereby, the method of this embodiment can be applied to processing target images captured by many types of optical systems.
  • the optical system information 40 of this embodiment may be a combination of an object distance within the depth of field and an object distance outside the depth of field.
  • the optical system information 40 may include a first object distance outside the depth of field shown in D1 in FIG. 9 and a second object distance shown in D2.
  • the first object distance among the plurality of object distances is an object distance outside the depth of field
  • the second object distance among the plurality of object distances is an object distance outside the depth of field. This is the object distance within the field depth.
  • the defocus simulation process (step S200) produces a first learning image 32-1 in which the influence of blur is largely simulated, and a second learning image 32-2 in which the influence of blur is simulated to be small. can be combined with the correct image 36 to form a data set.
  • the trained model 120 that has been machine-trained using these data sets can correct the processing target image that has been affected by blur over a wide range by the correction process (step S30).
  • the predetermined value may be determined based on the number of learning images 32 that constitute the learning image group 32G.
  • the MTF indicated by A0 is the MTF at the object distance corresponding to the best focus condition
  • the MTF indicated by A1 is the MTF at the object distance corresponding to the near point of the target depth of field.
  • the spatial frequency is determined to be the spatial frequency indicated by B0
  • the MTF range having the maximum range indicated by C0 is uniquely determined.
  • a value obtained by dividing the range shown by C0 based on the desired number of learning images 32 is determined as a predetermined value. From the above, in the information processing system 100 of this embodiment, the predetermined value is determined based on the number of object distances that can be set to two or more. By doing this, the number of data sets required for machine learning can be determined by considering the load of machine learning.
  • a predetermined value may be determined in advance and the number of learning images 32 may be determined based on the predetermined value.
  • the machine learning policy can be determined depending on the circumstances.
  • the predetermined value is preferably 0.2 or less. That is, in the information processing system 100 of this embodiment, the predetermined value is set to be 0.2 or less.
  • the possible range of MTF is considered to be about 0.2. Therefore, for example, if the predetermined value is set to 0.2, the number of learning images 32 forming the learning image group 32G will be two.
  • the first object distance is considered to be an object distance outside the depth of field, and the second object distance is considered to be an object distance within the depth of field.
  • the predetermined value be 0.1 or less. That is, in the information processing system 100 of this embodiment, the predetermined value is set to be 0.1 or less. Furthermore, it is desirable that the predetermined value is 0.05 or less. That is, in the information processing system 100 of this embodiment, the predetermined value is set to be 0.05 or less.
  • the number of learning images 32 forming the learning image group 32G can be further increased.
  • the trained model 120 receives a processing target image captured at an object distance other than the object distance not used for machine learning, it is highly likely that the trained model 120 can output a corrected image that appropriately removes the effects of blur. Become. In other words, the accuracy of the correction process (step S30) for the learned model 120 can be further improved. Note that as the number of learning images 32 forming the learning image group 32G increases, the processing load of machine learning increases. Therefore, the appropriate number of learning images 32 constituting the learning image group 32G is determined as appropriate depending on the circumstances.
  • step S200 defocus simulation processing
  • step S200 defocus simulation processing
  • step S200 defocus simulation processing
  • step S200 a point spread function
  • the learning device processing unit 16 uses the PSF of the first object distance of the first imaging system 101 to Convolution calculation processing is performed on the subject image 30.
  • convolution can also be called convolution integral.
  • the PSF of the first object distance is a PSF consisting of the area shown in FC22-1 in FIG. 12.
  • the PSF convolution calculation process corresponds to step S210 in FIG. 13.
  • the learning device processing unit 16 uses the PSF of the Nth object distance of the first imaging system 101 to Performs convolution calculation processing.
  • the defocus simulation process based on the PSF convolution calculation process can be called step S200-A.
  • the defocus simulation process is a process of convolutionally calculating the PSF at each object distance of the first imaging system 101 with respect to the predetermined subject image 30. It is. By doing so, it is possible to generate a trained model 120 that has been subjected to machine learning using the data set of the learning image 32 and the correct image 36 using PSF.
  • step S200 a specific method in which the learning device processing unit 16 performs defocus simulation processing (step S200) using a transfer function will be described.
  • a process of multiplying the OTF of the first object distance of the first imaging system 101 and a process of inverse Fourier transforming the frequency characteristics subjected to the multiplication are performed.
  • the OTF of the first object distance here is an OTF consisting of the area shown in FC22-1 in FIG. 12.
  • the OTF multiplication corresponds to step S210 in FIG. 13.
  • the learning device processing unit 16 when generating the Nth learning image 32-N in step S200-N, the learning device processing unit 16 performs a Fourier transform process on the predetermined subject image 30, and performs a Fourier transform process on the frequency characteristic that is the result of the Fourier transform.
  • a process of multiplying the OTF of the Nth object distance of the first imaging system 101 and a process of inverse Fourier transform of the multiplied frequency characteristics are performed. Note that the defocus simulation process based on OTF multiplication can be called step S200-B.
  • the defocus simulation process performs Fourier transform on the predetermined subject image 30, and the frequency characteristics of the predetermined subject image 30, which is the result of the Fourier transform, are This is a process of multiplying by the OTF at each object distance of the first imaging system 101 and inverse Fourier transforming the multiplied frequency characteristics. By doing so, it is possible to generate a trained model 120 that has been subjected to machine learning using the data set of the learning image 32 and the correct image 36 using OTF.
  • step S200 the user may appropriately select whether to use PSF or OTF.
  • the learning device processing unit 16 may perform best focus simulation processing (step S300) using a point spread function. For example, as shown in FIG. 20, the learning device processing unit 16 uses the PSF of the object distance that the first imaging system 101 focuses on to perform convolution calculation processing on the predetermined subject image 30, thereby creating a correct image. Generate 36. Note that the best focus simulation process based on the PSF convolution calculation process can also be called step S300-A.
  • the learning device processing unit 16 may perform best focus simulation processing (step S300) using a transfer function. For example, as shown in FIG. 21, the learning device processing unit 16 performs a Fourier transform process on a predetermined subject image 30, and determines the object distance at which the first imaging system 101 is focused on the frequency characteristics that are the results of the Fourier transform. A correct image 36 is generated by performing a process of multiplying by OTF and a process of inverse Fourier transform of the frequency characteristics subjected to the multiplication. Note that the best focus simulation process based on OTF multiplication can also be called step S300-B.
  • the first imaging system 101 of this embodiment may have a retrofocus type lens configuration.
  • the retrofocus type is also called the reverse telephoto type.
  • a retrofocus type lens configuration can be realized by arranging a lens with negative bending power and a lens with positive bending power from the subject side.
  • the lens group on the object side will be referred to as the front lens group
  • the lens group on the image side will be referred to as the rear lens group.
  • the optical system shown in FIG. 22 includes, in order from the subject side, a front lens group shown at G1, an aperture stop shown at S1, a rear lens group shown at G2, and a cover glass shown at CG1.
  • the intervals between the lenses, etc. that constitute the optical system are not shown accurately.
  • the positive lens shown at L6 and the cover glass shown at CG1 are actually joined together, but are shown spaced apart for convenience. The same applies to FIGS. 23 and 25, which will be described later.
  • the front lens group indicated by G1 includes an object-side negative lens indicated by L1 and a positive lens indicated by L2, and has negative bending power as a whole.
  • the rear lens group indicated by G2 includes a positive lens indicated by L3, a lens obtained by cementing a positive lens indicated by L4 and a negative lens indicated by L5, and a positive lens indicated by L6, and has a positive bending power as a whole.
  • the front lens group or the rear lens group may be composed of a plurality of lens groups.
  • a lens group indicated by G11 functions as a front lens group
  • a lens group indicated by G12 and a lens group indicated by G13 function as a rear lens group.
  • the lens group indicated by G11 includes, in order from the subject side, a plano-concave lens with a concave surface facing the image side as indicated by L11, and a negative meniscus lens as indicated by L12, and has negative refractive power as a whole.
  • the lens group indicated by G12 includes a subject-side positive lens indicated by L13 and an image-side positive lens indicated by L14.
  • an aperture stop shown in S11 may be further arranged between the lens shown in L13 and the lens shown in L14.
  • the lens group shown in G13 has positive refractive power as a whole.
  • the lens group indicated by G13 may include a cemented lens composed of a positive lens indicated by L15 and a negative lens indicated by L16. Thereby, spherical aberration and comatic aberration can be favorably corrected.
  • the lens group indicated by G13 may further include a plano-convex lens indicated by L17. This makes it possible to secure a wide field of view.
  • the plano-convex lens shown at L17 and the cover glass shown at CG11 are shown separated from each other in FIG. 23, they are actually joined together.
  • a cover glass shown at CG11 is provided on an image sensor (not shown), and a plano-convex lens shown at L17 is used for positioning the image sensor.
  • the first imaging system 101 may further include a parallel plate.
  • Parallel plates are also called filters.
  • the parallel plates are arranged, for example, at the position F1 in FIG. 22 and the position F11 in FIG. 23, they can also be arranged at other positions.
  • the parallel plate is used, for example, for the purpose of adjusting the position of the image point.
  • the amount of distortion at the maximum angle of view is -30% or less.
  • the value of the amount of distortion (%) at the maximum angle of view is determined by (AD-PD)/PD using the length shown in PD of the subject shown in E1 and the length shown in AD of the image shown in E2. It can be expressed as x100. It is desirable that the value is more negative than -30.
  • the first imaging system 101 has a retrofocus type lens configuration, and the amount of distortion at the maximum angle of view is -30% or less.
  • the magnification at the periphery becomes smaller than that at the center of the image, so the transfer function or point spread function in areas other than on the optical axis can be made smaller.
  • the front lens group or the rear lens group may be composed of a single lens.
  • the first imaging system 101 shown in FIG. 25 includes a lens group shown in G21, a lens group shown in G22, an aperture stop shown in S21, a lens group shown in G23, and a cover glass shown in CG21.
  • the lens group indicated by G21 includes a single negative lens indicated by L21, and has negative refractive power.
  • the lens group indicated by G21 functions as part of the front lens group.
  • the lens group indicated by G23 includes a positive lens indicated by L23, a lens obtained by cementing a positive lens indicated by L24 and a negative lens indicated by L25, and a positive lens indicated by L26, and has a positive refractive power as a whole. That is, the lens group shown in G23 functions as a rear lens group.
  • the first imaging system 101 of this embodiment may further include a phase modulation element.
  • the second lens group G2 in FIG. 25 includes a positive lens indicated by L22, an aperture stop indicated by S21, and a phase modulation element indicated by PM.
  • a phase modulation element shown as PM is arranged at the pupil position of the first imaging system 101.
  • the phase modulation element shown in PM is an element to which wavefront coding (WFC) is applied, and has, for example, a phase modulation surface shown in PMS.
  • WFC wavefront coding
  • phase modulation surface shown by the PMS is shown as being represented by a predetermined cubic function using coordinates perpendicular to the optical axis, but the surface shape of the phase modulation surface is not limited to this. Instead, other surface shapes may be adopted. Further, although the phase modulation surface is shown on the image side in FIG. 25, the same effect can be obtained even if it is provided on the subject side. Further, the lens group indicated by G22 has positive refractive power as a whole, and also functions as part of a retrofocus type front lens group.
  • the MTF of the first imaging system 101 changes less with respect to defocus by including the phase modulation element shown in PM.
  • the MTF of the first imaging system 101 is made to match against changes in object distance. More specifically, for example, the difference between the MTF of the first object distance and the MTF of the second object distance in the first imaging system 101 including the phase modulation element is the difference between the MTF of the first object distance and the MTF of the second object distance in the first imaging system 101 including the phase modulation element. This is smaller than the difference between the MTF for the first object distance and the MTF for the second object distance.
  • A20 is the MTF of the first imaging system 101 at an in-focus object distance
  • A21 is the MTF at an object distance where the amount of defocus is larger than the object distance related to A20.
  • A22 is the MTF of an object distance with a larger defocus amount than the object distance related to A21.
  • A20 to A22 are MTFs of the first imaging system 101 that does not include a phase modulation element.
  • the MTF shown in A20 changes to the MTF shown in A30
  • the MTF shown in A21 changes to the MTF shown in A31
  • the MTF shown in A22 changes to the MTF shown in A31.
  • the MTF shown in changes to the MTF shown in A32.
  • the difference in MTF shown at C20 becomes small as shown in C30
  • the difference in MTF shown at C21 becomes small as shown in C31.
  • the first imaging system 101 further includes an optical wavefront modulation element that changes the transfer function or point spread function.
  • the predetermined subject image 30 is generated based on the optical information of the first imaging system 101 for the predetermined subject image 30 captured by an arbitrary imaging system 104.
  • the method of this embodiment is not limited to these.
  • the learning device processing unit 16 may perform defocus simulation processing to further include processing that simulates removal of the influence of imaging by an arbitrary imaging system 104 from the predetermined subject image 30.
  • FIG. 27 shows an image of a predetermined subject image 30-1 captured by the first imaging system 101 in a case where the process further includes simulating the removal of the influence of imaging by removing the influence of the first imaging system 101.
  • An example of data generation processing is shown below. Note that the image data generation process shown in FIG. 27 can also be called step S122. Comparing step S122 in FIG. 27 and step S120-2 in FIG. 11, the content of the defocus simulation processing is different. Note that FIG. 27 is similar to FIG. 11 in that the best focus simulation process (step S300) is not performed and the correct image 36 is the predetermined subject image 30-1 itself. This is because the predetermined subject image 30-1 is an image captured under the best focus condition of the first imaging system 101, and there is no need to perform the same process as step S202 in the first place.
  • FIG. 28 shows an example of the defocus simulation process (step S202-1) in the image data generation process (step S122).
  • the learning device processing unit 16 simulates, for the predetermined subject image 30-1, removal of the influence of the first imaging system 101 at the time of photographing the predetermined subject image 30-1. Then, the processing to load the data (step S220-1) is performed. Step S220-1 is performed based on the transfer function or point spread function at the focused object distance of the first imaging system 101 and the transfer function or point spread function at the first object distance of the first imaging system 101.
  • the learning device processing unit 16 performs calculation processing for deconvolving the PSF at an object distance at which the first imaging system 101 focuses on the predetermined subject image 30, and Arithmetic processing is performed by appropriately combining the arithmetic processing of convolving the PSF at the distance (step S200-A).
  • Arithmetic processing that is appropriately combined is arithmetic processing that combines part or all of one arithmetic processing and the other arithmetic processing in any order, but it also means that one arithmetic processing and the other arithmetic processing are performed separately. This does not preclude this, and will be determined as appropriate depending on the given circumstances. The same applies to the following explanation.
  • the predetermined circumstances include, for example, the processing time required for machine learning, the processing load on the processor, and the like. That is, by performing step S220-1, for example, the effect of the calculation process of deconvolving the PSF at the object distance at which the first imaging system 101 is focused on the predetermined subject image 30-1, and the It is possible to obtain an arithmetic processing result that reflects both the effects of the arithmetic processing of convolving the PSF at the first object distance (step S200-A).
  • the arbitrary imaging system 104 is the first imaging system 101.
  • the defocus simulation process (step S202) includes a transfer function or point spread function at a focused object distance of the first imaging system 101, and a transfer function or point spread function at a plurality of object distances of the first imaging system 101.
  • the process further includes a process of removing the influence of the first imaging system 101 from the predetermined subject image 30-1 based on (step S212). By doing so, a more accurate learning image 32 can be generated.
  • the learning image 32 and the correct image 36 obtained by the method shown in FIGS. 10 and 11 have both the influence of the arbitrary imaging system 104 and the influence of the first imaging system 101 on the predetermined subject, whereas FIGS.
  • the learning image 32 and the correct image 36 obtained by the method shown in 28 have only the influence of the first imaging system 101 on the predetermined subject. This allows machine learning to be performed using a more appropriate data set.
  • FIG. 29 shows an example of image data generation processing that includes processing that simulates removal of the influence of imaging by any imaging system 104.
  • the second imaging system 102 is illustrated as a representative of any imaging system 104.
  • the second imaging system 102 is an imaging system whose image sensor has a higher resolution than that of the first imaging system 101.
  • the image data generation process shown in FIG. 29 can also be called step S124, and the image that is the source of step S124 can also be called the predetermined subject image 30-2.
  • step S126 in FIG. 29 further reads the image sensor information 50 and then performs defocus simulation processing (step S204) and best focus simulation processing (step S304). They differ in some respects.
  • the image sensor information 50 is information related to the resolution of the image sensors included in the first image sensor 101 and any image sensor 104. That is, in the case of the example shown in FIG. 29, the learning device storage unit 18 further stores image sensor information 50, which is not shown in FIG. Note that the image sensor information 50 is also used for calculation processing of defocus simulation processing (step S204) and best focus simulation processing (step S304).
  • FIG. 30 shows an example of the defocus simulation process in the image data generation process (step S124) shown in FIG. 29.
  • the defocus simulation processing shown in FIGS. 29 and 30 can also be called step S204.
  • the learning device processing unit 16 when generating the first learning image 32-1, the learning device processing unit 16 performs a process (step S230 -1), the process of reducing the predetermined subject image 30 (step S240), and the arithmetic process based on the image sensor information 50 (not shown in FIG. 30) are appropriately combined.
  • Step S230-1 is performed based on the transfer function or point spread function at the focused object distance of the second imaging system 102 and the transfer function or point spread function at the first object distance of the first imaging system 101.
  • step S230-1 for example, the effect of the calculation process of deconvolving the PSF at the object distance at which the second imaging system 102 is focused on the predetermined subject image 30-2, and the It is possible to obtain an arithmetic processing result that reflects both the effects of the arithmetic processing of convolving the PSF at the first object distance (step S200-A). Furthermore, by performing step S204-1, the arithmetic processing result that reflects the effect of the arithmetic processing of step S230-1, the effect of the arithmetic processing of step S240, and the effect of the arithmetic processing based on the image sensor information 50 is obtained. Obtainable.
  • FIG. 31 shows an example of the best focus simulation process shown in FIG. 29.
  • the best focus simulation processing shown in FIGS. 29 and 31 can also be called step S304.
  • the learning device processing unit 16 performs a process of simulating the difference between the second imaging system 102 and the first imaging system 101 for the predetermined subject image 30-2 (step S330), and reduces the predetermined subject image 30-2.
  • the process (step S340) and the arithmetic process based on the image sensor information 50 (not shown in FIG. 31) are appropriately combined. Thereby, the learning device processing section 16 can generate the correct image 36.
  • step S330 for example, the effect of the calculation process of deconvolving the PSF at the object distance at which the second imaging system 102 is focused on the predetermined subject image 30-2, and the focus of the first imaging system 101 are improved. It is possible to obtain an arithmetic processing result that reflects both the effects of the arithmetic processing of convolving the PSF at matching distances (step S300-A). Further, step S340 in FIG. 31 is the same calculation process as step S240 in FIG. 30.
  • step S304 it is possible to obtain a calculation result that reflects the effect of the calculation process in step S330, the effect of the calculation process in step S340, and the effect of the calculation process based on the image sensor information 50.
  • the correct image 36 may be generated by a process in which step S330 is omitted from the best focus simulation process (step S304) in FIG. 31.
  • the correct image 36 may be generated by performing processing corresponding to step S340 on the predetermined subject image 30-2. If the predetermined subject image 30-2 is an image captured at an object distance that can be focused by any imaging system 104, the number of pixels of the predetermined subject image 30-2 is changed in step S340, and the correct image 36 is obtained. This is because there are cases where it can be done.
  • the defocus simulation process is the process of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101 (step S230), The process further includes a process of reducing the predetermined subject image 30-2 (step S240).
  • the correct image 36 is an image generated by performing the best focus simulation process (step S304) or an image generated by performing a process of reducing the predetermined subject image 30-2.
  • the processing (step S230) of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101 in the defocus simulation processing (step S204) is performed using a transfer function or a point at the object distance where the arbitrary imaging system 104 is in focus.
  • the best focus simulation process (step S304) includes a process of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101 (step S330), and a process of reducing the predetermined subject image 30-2 (step S340). , further including.
  • the process (step S330) of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101 in the best focus simulation process (step S304) is based on the transfer function or It is based on a point spread function and a transfer function or a point spread function at an object distance at which the first imaging system 101 is focused.
  • the method of this embodiment can be applied to a case where the imaging systems of the arbitrary imaging system 104 and the first imaging system 101 are different.
  • the first imaging system 101 includes a simultaneous imaging device 106.
  • any imaging system 104 includes a monochrome image sensor 108.
  • a method of image data generation processing in this case will be explained using FIG. 33. Note that the image data generation process in FIG. 33 can also be called step S126, and the image that is the source of step S126 can also be called the predetermined subject image 30-3.
  • FIG. 32 the first imaging system 101 includes a simultaneous imaging device 106.
  • any imaging system 104 includes a monochrome image sensor 108.
  • FIG. 33 the image data generation process in FIG. 33 can also be called step S126, and the image that is the source of step S126 can also be called the predetermined subject image 30-3.
  • FIG. 33 the image data generation process in FIG. 33 can also be called step S126, and the image that is the source of step S126 can also be called the predetermined subject image 30-3.
  • step S206 shows the contents of the defocus simulation process (step S206) and the best focus simulation process (step S306), and the fact that the color shift determination process (step S190) is performed before performing step S206 and step S306. , which is different from FIG.
  • the second imaging system 102 is exemplified as a representative of an arbitrary imaging system 104, as in the example of FIG. 29.
  • the color shift determination process (S190) is a process of comparing the amount of coloring, such as around the saturated portion of the predetermined subject image 30-3, with a predetermined threshold value. Note that color shift is a shift that occurs between an R image, a G image, and a B image due to differences in imaging timing, etc.
  • steps S206 and S306 in FIG. 33 use the predetermined subject image 30-3 in which the amount of coloring around the saturated portion is determined to be less than or equal to a predetermined threshold in step S190.
  • steps S206 and S306 in FIG. 33 use the predetermined subject image 30-3 in which the amount of coloring around the saturated portion is determined to be less than or equal to a predetermined threshold in step S190.
  • FIG. 34 shows an example of the defocus simulation process in the image data generation process (step S126) shown in FIG. 33.
  • the defocus simulation processing shown in FIGS. 33 and 34 can also be called step S206.
  • FIG. 34 differs from FIG. 30 in that it further includes a process of generating a mosaic image from the predetermined subject image 30-3 (step S250) and a process of demosaicing the mosaic image (step S252).
  • the learning device processing unit 16 when generating the first learning image 32-1, the learning device processing unit 16 performs the above-mentioned step S230-1, the above-mentioned step S240, step S250, and step S252 for the predetermined subject image 30-3.
  • step S206-1 performs arithmetic processing that is appropriately combined with arithmetic processing based on the image sensor information 50 (not shown in FIG. 34). That is, by performing step S206-1, the effect of the calculation process in step S230-1, the effect of the calculation process in step S240, the effect of the calculation process in step S250, and the effect of the calculation process in step S252, It is possible to obtain an arithmetic processing result that reflects the effect of the arithmetic processing based on the image sensor information 50.
  • Steps S250 and S252 will be specifically explained.
  • the predetermined subject image 30-3 is obtained by combining a plurality of images captured by the monochrome image sensor 108 at the timing when light of each wavelength band is irradiated when light of a plurality of wavelength bands is sequentially irradiated. This is a frame-sequential image obtained by processing.
  • a mosaic image is generated by the process including step S250.
  • processing including step S252 a frame sequential image is generated again from the mosaic image, thereby generating the first learning image 32-1. Note that in step S206-1 of FIG. 35, illustration of processes other than step S250 and step S252 is omitted.
  • FIG. 36 shows an example of the best focus simulation process in the image data generation process (step S126) shown in FIG. 33.
  • the best focus simulation processing shown in FIGS. 33 and 36 can also be called step S306.
  • FIG. 36 differs from FIG. 31 in that it further includes a process of generating a mosaic image from the predetermined subject image 30-3 (step S350) and a process of demosaicing the mosaic image (step S352). Further, step S350 in FIG. 36 is the same process as step S250 in FIG. 34, and step S352 in FIG. 36 is the same process as step S252 in FIG.
  • the learning device processing unit 16 performs arithmetic processing that appropriately combines the above-mentioned step S330-1, the above-mentioned step S340, step S350, step S352, and arithmetic processing based on the image sensor information 50 (not shown in FIG. 36). I do. Thereby, the learning device processing section 16 can generate the correct image 36. Thereby, by performing step S306, the effect of the arithmetic processing of step S330, the effect of the arithmetic processing of step S340, the effect of the arithmetic processing of step S350, the effect of the arithmetic processing of step S352, and the image sensor information It is possible to obtain a calculation result that reflects the effect of the calculation process based on 50.
  • the correct image 36 may be generated by a process in which steps S330, S350, and S352 are omitted from the best focus simulation process (step S306).
  • the correct image 36 may be generated by performing processing equivalent to step S340 on the predetermined subject image 30-3.
  • any imaging system 104 includes the monochrome imaging element 108.
  • the predetermined subject image 30-3 is obtained by combining a plurality of images captured by the monochrome image sensor 108 at the timing when light of each wavelength band is irradiated when light of a plurality of wavelength bands is sequentially irradiated. This is a frame-sequential image obtained by processing.
  • the first imaging system 101 includes a simultaneous imaging element 106 that has a plurality of pixels having different colors and one color is assigned to each pixel.
  • the defocus simulation process includes a process of generating a mosaic image in which each pixel is assigned one color from the predetermined subject image 30-3, a process of demosaicing the mosaic image, and a process of defocusing the mosaic image using the arbitrary imaging system 104. and the first imaging system 101; and processing to reduce the predetermined subject image 30-3.
  • the process of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101 in the defocus simulation process (step S206) is based on the transfer function or point spread function at the object distance at which the arbitrary imaging system 104 is in focus. , based on the transfer function or point spread function of the first imaging system 101 at a plurality of object distances.
  • the correct image 36 is an image generated by performing the best focus simulation process (step S306) or an image generated by performing a process of reducing the predetermined subject image 30-3.
  • the best focus simulation process (step S306) includes a process of generating a mosaic image, a process of demosaicing the mosaic image, a process of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101, and a process of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101. It further includes processing to reduce the image 30-3.
  • the process of simulating the difference between the arbitrary imaging system 104 and the first imaging system 101 in the best focus simulation process is based on the transfer function or point spread function at the object distance at which the arbitrary imaging system 104 is in focus. , based on the transfer function or point spread function at the object distance that the first imaging system 101 focuses on.
  • the trained models 120 may be used depending on the imaging method. That is, in the information processing system 100 of this embodiment, the storage unit 110 may store the first trained model 121 and the second trained model 122, as shown in FIG. 37, for example.
  • the flow shown in FIG. 3 may be changed to the flow shown in FIG. 38, for example.
  • the processing unit 130 After reading the image to be processed (step S10), the processing unit 130 performs a process of checking the imaging method of the first imaging system 101 (step S12).
  • the imaging method is a frame sequential method
  • reading of the first trained model (step S21), correction processing (step S31), and output of a corrected image (step S41) are performed.
  • the imaging method is the Bayer simultaneous method
  • reading of the second trained model (step S22), correction processing (step S32), and output of a corrected image (step S42) are performed.
  • steps S21 and S22 in FIG. 38 are processes corresponding to step S20 in FIG. 3.
  • steps S31 and S32 in FIG. 38 are processes corresponding to step S30 in FIG. 3
  • steps S41 and S42 in FIG. 38 are processes corresponding to step S40 in FIG.
  • step S100 in FIG. 7 may be replaced with step S101 in FIG. 39 and step S102 in FIG. 40.
  • the image data generation process may be performed in step S124 in FIG. 29, in contrast to step S100 in FIG.
  • the image data generation process may be performed in step S126 in FIG. 33, in contrast to step S100 in FIG.
  • the method of this embodiment can be applied to a case where the observation method is different between the arbitrary imaging system 104 and the first imaging system 101.
  • a method of image data generation processing when different observation methods are used will be described using FIG. 41.
  • the image data generation process in FIG. 41 can also be called step S128, and the image that is the source of step S128 can also be called the predetermined subject image 30-4.
  • Step S128 in FIG. 41 reads the contents of the defocus simulation process (step S208) and the best focus simulation process (step S308), and the observation method information 60 before performing steps S206 and S306. This is different from step S124 of No. 29.
  • the observation method information 60 is information regarding the observation method of the first imaging system 101, for example.
  • the learning device storage unit 18 further stores observation method information 60, which is not shown in FIG. 41.
  • the second imaging system 102 is exemplified as a representative of an arbitrary imaging system 104, as in the example of FIG. 29.
  • the observation method can also be called observation mode.
  • a case where the observation method is different is, for example, a case where the light source used for observation is different, and for example, image processing performed between the time when the user performs processing to image the subject and the time when the predetermined subject image 30-4 is obtained.
  • the method may be different.
  • Observation methods include, for example, a WLI (White Light Imaging) mode that uses white illumination light, and a special light observation mode that uses special light that is not white light.
  • the special light observation mode includes an NBI (Narrow Band Imaging) mode that uses two narrow band lights. The two narrowband lights are narrowband light included in the blue wavelength band and narrowband light included in the green wavelength band.
  • WLI and NBI differ in image processing when generating a color image from an image signal output by an image sensor.
  • the content of demosaic processing or the parameters in image processing are different.
  • an RDI (Red Dichromatic Imaging) mode can be adopted as the special light observation mode.
  • the RDI mode is an observation mode that uses narrowband light included in the amber wavelength band, narrowband light included in the green wavelength band, and narrowband light included in the red wavelength band. The technique disclosed in No. 9,775,497 B2 etc. is used.
  • FIG. 42 shows an example of defocus simulation processing (step S208-1) that generates the first learning image 32-1 from the predetermined subject image 30-4.
  • Step S208-1 in FIG. 42 is different from step S204-1 in FIG. The difference is that it further includes processing (step S268).
  • TXI is an abbreviation for Texture and Color Enhancement Imaging, and the details will be described later.
  • step S128 in FIG. 41 is an example in which the above-described different processing is added to S124 in FIG. Additional processing may be added.
  • the color misregistration determination process (step S190) in FIG. 33 is further performed before performing step S208 and step S308.
  • step S208 in FIG. 42 in this case further includes step S240, step S250, and step S252 in FIG.
  • step S308 in FIG. 43 in this case further includes step S340, step S350, and step S352 in FIG.
  • descriptions of points that overlap with step S124 in FIG. 29 and step S126 in FIG. 33 will be omitted as appropriate.
  • the learning device processing unit 16 reads the observation method information 60 and acquires the observation method used in the first imaging system 101. The learning device processing unit 16 then selects one of step S262, step S264, step S266, and step S268 as the process corresponding to the acquired observation method.
  • the learning device processing unit 16 when the first imaging system 101 is imaging in the TXI mode, information to that effect is stored in the learning device storage unit 18 as the observation method information 60. Then, by reading the observation method information 60, the learning device processing unit 16 performs defocus simulation processing (step S208) including TXI mode processing (step S368) on the predetermined subject image 30-4. Specifically, for example, the learning device processing unit 16 processes, for the predetermined subject image 30-4, a texture image portion that is an image portion related to the surface structure of the predetermined subject image 30-4, and a base image portion other than the texture image portion. Performs processing to decompose into parts.
  • the learning device processing unit 16 then performs a first process to emphasize the surface structure of the texture image part, a second process to optimize the brightness of the base image part, and a second process to the image related to the first process.
  • a third process is performed to optimize the tone of an image obtained by combining such images.
  • the learning device processing unit 16 reads the observation method information 60 and performs color complementation on the predetermined subject image 30-4 to correspond to the light source. Furthermore, color complementation may be performed together with step S252 in FIG. 34, for example.
  • the learning device processing unit 16 selects the WLI mode process (step S262)
  • the learning device processing unit 16 performs a process of interpolating the R image and the B image using the G image in step S252.
  • the learning device processing unit 16 selects the NBI mode processing (step S264)
  • the learning device processing unit 16 performs processing to independently interpolate the G image and the B image in step S252.
  • FIG. 43 shows an example of the best focus simulation process (step S308) that generates the correct image 36 from the predetermined subject image 30-4 in the image data generation process (step S128).
  • Step S308 in FIG. 43 is compared with step S304 in FIG. ).
  • Step S362 in FIG. 43 is the same process as step S262 in FIG. 42
  • step S364 in FIG. 43 is the same process as step S264 in FIG. 42
  • Step S368 in FIG. 43 is the same process as step S268 in FIG. 42.
  • the correct image 36 may be generated by a process in which steps S330 and the like are omitted from the best focus simulation process (step S308) in FIG. 43.
  • First learned model 122... Second learned model, 130, 260... Processing section, 140, 240... Input section , 150, 250... Output section, 160... Storage interface, 170, 210... Storage section, 200... Processor unit, 220... Control section, 230... Imaging data receiving section, 270... Display interface, 300... Endoscope system, 310 ...Endoscope scope, 320...Operation unit, 330...Display unit, NN...Neural network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

情報処理システム(100)は、学習画像群(32G)と正解画像(36)とを含むデータセットによって機械学習された学習済みモデル(120)を記憶する記憶部(110)と、学習済みモデル(120)を用いて、第1撮像系(101)によって撮影された画像である処理対象画像の第1撮像系(101)のデフォーカスによるボケを補正する処理部(130)と、を含む。複数の学習画像(32)の各学習画像(32)における第1撮像系(101)の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。学習済みモデル(120)は、各学習画像(32)が正解画像(36)になるように機械学習される。

Description

情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法
 本発明は、情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法等に関する。
 内視鏡観察等において、被写体により近接して拡大観察をすることが望まれている。しかし、光学的には画素の微細化による高解像化に伴って被写界深度が狭くなるため、画像処理技術を用いて被写界深度を拡大する技術が求められている。特許文献1には、深層学習によって撮像系の光学的劣化を補正する技術が開示されている。
国際公開第2018/037521号
 特許文献1では、予め撮影された参照画像に光学的劣化情報を付加したものを学習画像として用いているが、学習すべき光学的劣化情報は物体距離及び像高に応じて無数に存在するため、膨大な学習画像を要し、処理に必要なネットワーク規模が大きくなることから、処理能力の低下、実装コストの増加等が懸念される。
 本発明の一態様は、学習画像群と正解画像とを含むデータセットによって機械学習された学習済みモデルを記憶する記憶部と、前記学習済みモデルを用いて、第1撮像系によって撮影された画像である処理対象画像の前記第1撮像系のデフォーカスによるボケを補正する処理部と、を含む情報処理システムであって、前記学習画像群は、任意の撮像系で撮像された所定被写体に前記任意の撮像系のフォーカスが合った所定被写体画像に対し、複数の物体距離における前記第1撮像系の伝達関数または点像分布関数に基づいて、前記第1撮像系のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像を含み、前記複数の学習画像の各学習画像における前記第1撮像系の光軸上の領域及び前記光軸上以外の領域に対し、前記光軸上の前記伝達関数または前記点像分布関数に基づいて前記デフォーカスシミュレート処理が行われ、前記正解画像は、前記第1撮像系のフォーカスが合う物体距離における前記伝達関数または前記点像分布関数に基づいて、前記第1撮像系のフォーカスが合う状態を前記所定被写体画像に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像そのものであり、前記学習済みモデルは、前記各学習画像が前記正解画像になるように機械学習される情報処理システムに関係する。
 また本発明の他の態様は、上記に記載の情報処理システムを有するプロセッサユニットと、前記プロセッサユニットに接続され、前記処理対象画像を撮像する内視鏡スコープと、を含む内視鏡システムに関係する。
 また本発明の更に他の態様は、学習済みモデルを記憶する記憶部と、入力部と、処理部と、出力部を含む情報処理システムに用いられ、学習画像群と正解画像とを含むデータセットによって機械学習された学習済みモデルであって、前記学習画像群は、任意の撮像系で撮像された所定被写体に前記任意の撮像系のフォーカスが合った所定被写体画像に対し、複数の物体距離における第1撮像系の伝達関数または点像分布関数に基づいて、前記第1撮像系のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像を含み、前記複数の学習画像の各学習画像における前記第1撮像系の光軸上の領域及び前記光軸上以外の領域に対し、前記光軸上の前記伝達関数または前記点像分布関数に基づいて前記デフォーカスシミュレート処理が行われ、前記正解画像は、前記第1撮像系のフォーカスが合う物体距離における前記伝達関数または前記点像分布関数に基づいて、前記第1撮像系のフォーカスが合う状態を前記所定被写体画像に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像そのものであり、前記学習済みモデルは、前記各学習画像が前記正解画像になるように機械学習され、前記入力部は、前記第1撮像系によって撮影された画像である処理対象画像を前記学習済みモデルに入力し、前記処理部は、前記学習済みモデルを用いて、前記処理対象画像の前記第1撮像系のデフォーカスによるボケを補正する補正処理を行い、前記出力部は、前記補正処理による補正画像を出力する学習済みモデルに関係する。
 また本発明の更に他の態様は、上記に記載の学習済みモデルを記憶している情報記憶媒体に関係する。
 また本発明の更に他の態様は、学習画像群と正解画像を含むデータセットによって機械学習された学習済みモデルによって、第1撮像系によって撮影された画像である処理対象画像の前記第1撮像系のデフォーカスによるボケを補正する情報処理方法であって、前記学習画像群は、任意の撮像系で撮像された所定被写体に前記任意の撮像系のフォーカスが合った所定被写体画像に対し、複数の物体距離における前記第1撮像系の伝達関数または点像分布関数に基づいて、前記第1撮像系のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像を含み、前記複数の学習画像の各学習画像における前記第1撮像系の光軸上の領域及び前記光軸上以外の領域に対し、前記光軸上の前記伝達関数または前記点像分布関数に基づいて前記デフォーカスシミュレート処理が行われ、前記正解画像は、前記第1撮像系のフォーカスが合う物体距離における前記伝達関数または前記点像分布関数に基づいて、前記第1撮像系のフォーカスが合う状態を前記所定被写体画像に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像そのものであり、前記学習済みモデルは、前記各学習画像が前記正解画像になるように機械学習される情報処理方法に関係する。
情報処理システムの構成例を説明するブロック図。 情報処理システムのより詳細な構成例を説明するブロック図。 情報処理システムの処理例を説明するフローチャート。 学習装置の構成例を説明するブロック図。 訓練モデルを説明する図。 ニューラルネットワークを説明する図。 学習済みモデル作成処理を説明するフローチャート。 本実施形態の機械学習の例を説明する図。 被写界深度と目標被写界深度の関係を説明する図。 画像データ生成処理の例について説明する図。 画像データ生成処理の別の例を説明する図。 伝達関数または点像分布関数を説明する図。 本実施形態のデフォーカスシミュレート処理を説明する図。 内視鏡システムの例を説明するブロック図。 内視鏡システムの別の例を説明するブロック図。 デフォーカスシミュレート処理に係る物体距離とMTFの関係を説明する図。 デフォーカスシミュレート処理に係る物体距離とMTFの関係を説明する別の図。 デフォーカスシミュレート処理の具体的な演算手法を説明する図。 デフォーカスシミュレート処理の具体的な演算手法を説明する別の図。 ベストフォーカスシミュレート処理の具体的な演算手法を説明する図。 ベストフォーカスシミュレート処理の具体的な演算手法を説明する別の図。 第1撮像系のレンズ構成の例を説明する図。 第1撮像系のレンズ構成の例を説明する別の図。 ディストーション量を説明する図。 位相変調素子を含むレンズ構成を説明する図。 位相変調素子を含むことによるMTFの変化の例を説明する図。 画像データ生成処理の別の例を説明する図。 デフォーカスシミュレート処理の別の例を説明する図。 画像データ生成処理の別の例を説明する図。 デフォーカスシミュレート処理の別の例を説明する図。 ベストフォーカスシミュレート処理の別の例を説明する図。 情報処理システムの別の構成例を説明する図。 画像データ生成処理の別の例を説明する図。 デフォーカスシミュレート処理の別の例を説明する図。 モザイク処理とデモザイク処理の関係を説明する図。 ベストフォーカスシミュレート処理の別の例を説明する図。 情報処理システムの別の構成例を説明する図。 情報処理システムの別の処理例を説明するフローチャート。 第1学習済みモデル作成処理を説明するフローチャート。 第2学習済みモデル作成処理を説明するフローチャート。 画像データ生成処理の別の例を説明する図。 デフォーカスシミュレート処理の別の例を説明する図。 ベストフォーカスシミュレート処理の別の例を説明する図。
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。例えば、以下では情報処理システムを医療用内視鏡に適用する場合を例に説明するが、これに限定されず、本発明の情報処理システムを種々の撮影システム又は映像表示システムに適用できる。例えば、スチールカメラ、ビデオカメラ、テレビ受像機、顕微鏡、又は工業用内視鏡に、本発明の情報処理システムを適用できる。
 図1は、本実施形態の情報処理システム100の構成例を説明するブロック図である。本情報処理システム100は、記憶部110と、処理部130を含む。記憶部110は、機械学習された学習済みモデル120を記憶する。学習済みモデル120は、処理対象画像のデフォーカスによるボケを補正した補正画像を出力するプログラムモジュールであり、後述の機械学習が行われることにより生成または更新される。処理対象画像とは、例えば図1に示すように第1撮像系101によって撮影された画像データであるが、これに限らず、詳細は後述する。なお、本実施形態において、デジタルデータとして処理可能な画像データを単に画像と呼ぶことがある。学習画像群32Gとは、第1学習画像32-1、第2学習画像32-2、…、第N学習画像32-Nからなる学習画像32の集合であり、正解画像36とともに詳細は後述する。つまり、本実施形態の処理部130は、学習済みモデル120を用いて、第1撮像系101によって撮影された画像である処理対象画像の第1撮像系101のデフォーカスによるボケを補正する。なお、記憶部110、処理部130を、それぞれ記憶装置、処理装置とも呼ぶ。
 本実施形態における機械学習とは、例えば教師あり学習である。教師あり学習における訓練データは、入力データと正解ラベルとを対応付けたデータセットである。具体的には本実施形態の学習済みモデル120は、様々なボケの影響をシミュレートした学習画像32からなる入力データと、フォーカスが合った正解画像36からなる正解ラベルとを対応づけたデータセットに基づいた教師あり学習によって生成されている。
 本実施形態の処理部130は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC等である。1又は複数の回路素子は例えば抵抗、キャパシタ等である。
 また、処理部130は、下記のプロセッサにより実現されてもよい。本実施形態の処理部130は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。メモリは例えば記憶部110である。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピューターにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部130の各部の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
 また、本実施形態の学習済みモデル120は、図2の構成例に示す情報処理システム100に用いられてもよい。つまり、本実施形態の学習済みモデル120は、学習済みモデル120を記憶する記憶部110と、入力部140と、処理部130と、出力部150を含む情報処理システム100に用いられ、学習画像群32Gと正解画像36とを含むデータセットによって機械学習されている。
 入力部140は、外部から処理対象画像を受信するインターフェースである。具体的には、例えば図1、図2に示すように第1撮像系101から画像データを処理対象画像として受信する画像データインターフェースである。例えば入力部140は、受信した処理対象画像を、学習済みモデル120への入力データとし、処理部130が後述する処理を行うことで、入力部140としての機能が果たされる。つまり、本実施形態の学習済みモデル120において、入力部140は、第1撮像系101によって撮影された画像である処理対象画像を学習済みモデル120に入力する。
 出力部150は、前述の補正画像を外部に送信するインターフェースである。例えば学習済みモデル120からの出力データを、出力部150が送信した補正画像とすることで、出力部150としての機能を果たす。補正画像の送信先は、例えば情報処理システム100に接続された所定の表示装置であり、例えば出力部150を当該所定の表示装置と接続可能なインターフェースとすることで表示装置に補正画像が表示され、出力部150としての機能を果たす。なお、補正画像の出力先は外部機器の記憶装置等であってもよい。
 図3は、本実施形態の情報処理システム100によって行われる手法を説明するフローチャートである。処理部130は、処理対象画像読み込み(ステップS10)、学習済みモデル読み込み(ステップS20)を行った後に、補正処理(ステップS30)を行う。具体的には例えば処理部130は、入力部140を介して受信した処理対象画像を、記憶部110から読み出した学習済みモデル120に入力する処理を行う。学習済みモデル120は、入力データである処理対象画像が学習画像32と共通していると判断した場合、出力すべきデータは正解画像36と推定することから、処理対象画像が入力されると正解画像36を出力する。処理対象画像と正解画像36を比較すると、正解画像36は、処理対象画像における第1撮像系101のデフォーカスによるボケを補正した画像という関係が成り立つ。つまり、処理部130は、学習済みモデル120を用いて、処理対象画像の第1撮像系101のデフォーカスによるボケを補正する補正処理(ステップS30)を行う。
 その後、処理部130は、補正画像出力(ステップS40)を行う。具体的には、前述のように出力部150が機能することで、補正画像が所望の出力先に出力される。言い換えれば、出力部150は、補正処理による補正画像を出力する。
 次に、学習済みモデル120の機械学習について説明する。機械学習は例えば学習装置10によって行われる。図4は、学習装置10の構成例を示すブロック図である。学習装置10は、例えば通信部12と学習装置処理部16と学習装置記憶部18を含む。
 通信部12は情報処理システム100と所定の通信方式で通信可能な通信インターフェースである。所定の通信方式は例えばWi-Fi(登録商標)等の無線通信規格に準拠した通信方式であるが、これに限らずUSB等の有線通信規格に準拠した通信方式であってもよい。これにより、学習装置10は、後述する手法により機械学習した学習済みモデル120を情報処理システム100に送信し、情報処理システム100は学習済みモデル120を更新することができる。なお、図4は、学習装置10と情報処理システム100を別々にした例であるが、情報処理システム100が学習装置10に相当する学習サーバを含む構成例にすることを妨げるものではない。
 学習装置処理部16は、通信部12、学習装置記憶部18等の各機能部との間でデータの入出力制御を行う。学習装置処理部16は、図1の処理部130と同様のプロセッサにより実現できる。学習装置処理部16は、学習装置記憶部18から読みだした所定のプログラム、図4に不図示の操作部からの操作入力信号等に基づいて、各種の演算処理を実行し、情報処理システム100へのデータ出力動作等を制御する。ここでの所定のプログラムは、機械学習プログラムを含む。つまり、学習装置処理部16は、学習装置記憶部18から機械学習プログラムと必要なデータ等を読み出して実行することで、機械学習の機能を果たす。
 学習装置記憶部18は、不図示の機械学習プログラムのほか、訓練モデル20、所定被写体画像30、光学系情報40を記憶する。学習装置記憶部18は、前述の記憶部110と同様の半導体メモリ等により実現できる。なお、学習装置記憶部18は、さらに他の情報を含んでもよい。他の情報とは、例えば後述の撮像素子情報50等である。
 所定被写体画像30は、処理対象画像に係る被写体の画像であり、後述する学習画像32及び正解画像36は、所定被写体画像30に基づき作成される。つまり、学習装置記憶部18には、処理対象画像となり得る被写体の種類の数だけの所定被写体画像30が予め記憶されている。より具体的な例を挙げると、情報処理システム100が後述する内視鏡システム300に用いられる場合、後述する内視鏡スコープ310により撮像される内腔等の撮像画像が、所定被写体画像30となる。なお、以降の説明において、所定被写体画像30を撮像する撮像系について特に問わない場合における撮像系を便宜上、任意の撮像系104と呼ぶことにする。撮像系を限定した上で所定被写体画像30を撮像した場合については後述する。
 訓練モデル20は、学習装置処理部16による機械学習の対象となるモデルである。ここでのモデルとは、推定対象データと推定結果データとの対応関係を導出する情報である。より具体的には、推定対象データである学習画像32から、推定結果データである出力画像34を導出する情報である。本実施形態の訓練モデル20において、モデルの少なくとも一部にニューラルネットワークNNが含まれている。ニューラルネットワークNNの詳細については図6で後述する。なお、前述のように、情報処理システム100と学習装置10が一体化されている場合は、学習済みモデル120を対象に機械学習してもよい。
 例えば第1学習画像32-1が訓練モデル20に入力されると、訓練モデル20は、第1出力画像34-1を出力する。同様に、第N学習画像32-Nが訓練モデル20に入力されると、訓練モデル20は第N出力画像34-Nを出力する。つまり、図5に示すように、本実施形態の学習装置10において、第1学習画像32-1~第N学習画像32-NからなるN個の画像が学習画像群32Gとして訓練モデル20に入力される。
 図6は、ニューラルネットワークNNを説明する模式図である。ニューラルネットワークNNは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図6においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノードの数は図6の例に限定されず、種々の変形実施が可能である。図6に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークNNの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
 ニューラルネットワークNNには種々の構成のモデルが知られており、本実施形態ではそれらを広く適用可能である。例えばニューラルネットワークNNは、CNN(Convolutional Neural Network)であってもよいし、RNN(Recurrent Neural Network)であってもよいし、他のモデルであってもよい。
 図7は、学習済みモデル作成処理(ステップS100)の処理例を説明するフローチャートである。学習済みモデル作成処理(ステップS100)は機械学習により学習済みモデル120を作成または更新する処理である。学習装置処理部16は、所定被写体画像読み込み(ステップS110)を行った後、画像データ生成処理(ステップS120)を行う。例えば学習装置処理部16は、学習装置記憶部18から所定被写体画像30を読み出し、所定被写体画像30を用いて学習画像32と正解画像36を生成する所定の処理を行う。所定の処理とは、デフォーカスシミュレート処理(ステップS200)、ベストフォーカスシミュレート処理(ステップS300)等であり、詳細は後述する。
 その後、学習装置処理部16は、補正学習処理(ステップS130)を行う。例えば学習装置処理部16は、学習装置記憶部18から訓練モデル20を読み出す処理と、画像データ生成処理(ステップS120)で生成した学習画像32を訓練モデル20に入力する処理と、訓練モデル20から出力された出力画像34と正解画像36に基づいて機械学習処理を行う。
 出力画像34と正解画像36に基づく機械学習処理とは、例えば図8に示すように、第1出力画像34-1~第N出力画像34-Nを正解画像36になるようにニューラルネットワークNNのネットワークパラメータを変更する処理である。ニューラルネットワークNNのネットワークパラメータを変更する処理とは、具体的には例えばニューラルネットワークNNにおける適切な重み付け係数の更新を行う処理である。ここでの重み付け係数は、バイアスを含む。重み付け係数の更新においては、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用することができる。つまり、学習装置10は、学習データのうちの入力データをモデルに入力し、そのときの重み付け係数を用いてモデル構成に従った順方向演算を行うことによって出力を求める。当該出力と、正解ラベルとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、重み付け係数の更新が行われる。
 より具体的には、例えば学習装置処理部16は、訓練モデル20に含まれるニューラルネットワークNNに、第1学習画像32-1を入力データとして入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって、出力データである第1出力画像34-1を出力する。学習装置処理部16は、第1出力画像34-1と正解ラベルである正解画像36に基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する処理を行う。また、学習装置処理部16は、第2出力画像34-2~第N出力画像34-Nについても、同様の処理を繰り返し行う。このようにすることで、複数種類の学習画像32に対して一の正解画像36が出力できるように、訓練モデル20は機械学習される。これにより、機械学習された訓練モデル20を学習済みモデル120として情報処理システム100に出力することで、記憶部110に記憶された学習済みモデル120は更新される。なお、図4では学習装置10と情報処理システム100は通信部12を介して通信接続されているように図示しているが、学習装置10と情報処理システム100は通信接続されていなくてもよい。この場合、例えばユーザは、情報記憶媒体に訓練モデル20を学習済みモデル120として一時的に記憶させる処理を学習装置10に対して行い、当該情報記憶媒体を所持して情報処理システム100の有る位置まで移動し、当該情報記憶媒体に基づき学習済みモデル120を更新する処理を情報処理システム100に対して行うことで、学習済みモデル120の更新が実現できる。
 図9は、本実施形態の第1撮像系101について、光軸を横軸にした場合における焦点深度と被写界深度の関係を説明する図である。なお、図9は便宜的な図示であり、第1撮像系101の具体的なレンズの構成を示すものではない。例えば図9において、DP1に示す範囲が、第1撮像系101の光学設計上の焦点深度に対応する被写界深度である。そのため、例えば被写体と第1撮像系101の距離がD1に示す第1物体距離であった場合、被写体は被写界深度の範囲外に位置していることから、第1撮像系101により撮像すると、デフォーカスによるボケの影響を含む処理対象画像が得られる。また、例えば被写体と第1撮像系101の距離がD2に示す第2物体距離であった場合、当該被写体は被写界深度内に位置していることから、フォーカスが合った処理対象画像となる。なお、例えば被写体と第1撮像系101の距離がD3に示す物体距離であった場合、つまり被写界深度において光軸上のP1に示す位置はベストフォーカス条件を満たす位置である。なお、図9では、D1に示す第1物体距離及びD2に示す第2物体距離はP1に示す位置から近点側に図示しているが、近点側に限定されるものではなく、遠点側であってもよい。以下の説明及び図示において、近点側の物体距離等を例示しつつ本実施形態の手法を説明するが、本実施形態の手法は遠点側の物体距離等を用いても適用できることを妨げるものではない。
 例えば第1撮像系101を搭載するシステムにおいて、画素を微細化して高解像度化を図ると、被写界深度が狭くなるため、被写界深度の拡大が望まれる。また、例えば第1撮像系101を後述する内視鏡システム300の内視鏡スコープ310に用いる場合、所望の被写体に対して内視鏡スコープ310をベストフォーカスの位置に合わせる作業は困難を伴うことから、被写界深度の拡大が望まれている。
 そこで、本実施形態では、予め撮像した所定被写体画像30に対してボケの影響をシミュレートした画像を学習画像32とし、フォーカスが合った画像を正解画像36とするデータセットとして図8等で前述した機械学習を行った学習済みモデル120が情報処理システム100に組み込まれる。このようにすることで、デフォーカスによるボケの影響が付加された撮像画像を処理対象画像とし、図3の処理を行うことにより、フォーカスが合った補正画像として情報処理システム100から出力される。これにより、第1撮像系101の被写界深度の範囲を実質的に拡大することができる。
 より具体的には、被写界深度を図9のDP1に示す範囲から、DP2に示す範囲まで実質的に拡大することができる。実質的に拡大するとは、光学的には被写界深度が拡大されていないが、情報処理システム100が行う画像処理により、本来被写界深度の範囲外に位置する被写体を、あたかも被写界深度の範囲内に位置しているように撮像できる範囲まで、見かけ上被写界深度を拡大することである。つまり、第1撮像系101からD1に示す物体距離だけ離れた位置に被写体が位置すると、ボケが付加された処理対象画像が第1撮像系101から出力されるが、DP2に示す実質的な被写界深度の範囲内に、当該位置が位置しているため、当該処理対象画像は、フォーカスが合う補正画像に補正され、情報処理システム100から出力される。また、以降の説明において、本実施形態の学習済みモデル120を用いて拡大した、図9のDP2に示す実質的な被写界深度を目標被写界深度と呼ぶ。なお、ここでのフォーカスが合う補正画像とは、画像全体で厳密にフォーカスが合う必要は無い。例えば出力された補正画像の一部がボケていても、例えば内視鏡スコープ310を用いた処置等が実行可能であれば、情報処理システム100の機能として足りるとユーザは判断してもよい。つまり、本実施形態の目標被写界深度の距離は、光学的に定まる被写界深度の距離より広い距離ではあるが、ユーザの許容度合い等に応じて変動し得る距離である。したがって、図9に示すDP2は便宜的に示しているに過ぎず、一定の長さを示しているものではない。以降の説明においても同様である。
 本実施形態の学習済みモデル120は、DP2に示す目標被写界深度とDP1に示す被写界深度との差として、図9のDP10に示す範囲に位置した被写体を撮像して得られたボケ画像を、フォーカスが合う画像に補正できるよう機械学習されている。言い換えれば、DP10に示す距離が、機械学習に必要な距離である。
 当該機械学習に必要な学習画像32と正解画像36を生成するための画像データ生成処理(ステップS120)の手法について、図10を用いて説明する。なお、画像データ生成処理の手法は図10に限らず、後述するように種々の変形実施が可能である。そこで図10に示す画像データ生成処理は、ステップS120-1とも呼ぶことができるものとする。
 なお本実施形態の所定被写体画像30はいずれの例においても、撮像した撮像系のフォーカスが合う物体距離によって撮像されているものとする。
 学習装置処理部16は、任意の撮像系104によって撮像された所定被写体画像30に対してデフォーカスシミュレート処理(ステップS200)を行うことにより学習画像32を生成する。以降の説明において、例えば第1学習画像32-1を生成するためのデフォーカスシミュレート処理はステップS200-1とも呼ぶことができるものとし、同様に第N学習画像32-Nを生成するためのデフォーカスシミュレート処理はステップS200-Nと呼ぶことができるものとする。後述するステップS202、ステップS204、ステップS206、ステップS208、ステップS210、ステップS220、ステップS230も同様である。例えば学習装置処理部16は、デフォーカスシミュレート処理(ステップS200-1)によって第1学習画像32-1を生成するにあたり、読み込んだ光学系情報40から第1物体距離の情報を選択する。同様に、学習装置処理部16は、ステップS200-2によって第2学習画像32-2を生成するにあたり、読み込んだ光学系情報40から第2物体距離の情報を選択する。つまり、本実施形態において、第N学習画像32-Nに対応する光学系情報40は、第N物体距離であり、学習装置処理部16は、第N学習画像32-Nを生成するにあたり、光学系情報40から対応する第N物体距離の情報を選択すると拡張して表現できる。以降の説明において、デフォーカスシミュレート処理は、第1学習画像32-1を生成するための処理について例示するが、第2学習画像32-2~第N学習画像32-Nを生成する場合についても同様の処理となる。
 また、学習装置処理部16は、ベストフォーカスシミュレート処理(ステップS300)を所定被写体画像30に対して行うことにより正解画像36を生成する。例えば学習装置処理部16は、読み込んだ光学系情報40から第1撮像系101のフォーカスが合う物体距離の情報を選択する。第1撮像系101のフォーカスが合う物体距離の情報は、例えばD3に示すように、第1撮像系101から図9のP1に示す点までの設計上の距離であり、いわゆるベストフォーカス条件に相当する物体距離である。
 なお、本実施形態の画像データ生成処理は、図11のようにしてもよい。図11に示す画像データ生成処理は、ステップS120-2とも呼ぶことができるものとする。また、図10と同様の処理については、説明を適宜省略する。
 図11のステップS120-2においては、ベストフォーカスシミュレート処理(ステップS300)を行わず、正解画像36を所定被写体画像30そのものとする点で、図10のステップS120-1と異なる。所定被写体画像30が任意の撮像系104のフォーカスが合う物体距離で撮像されている画像であるならば、正解画像36として利用可能だからである。
 図12、図13を用いてデフォーカスシミュレート処理(ステップS200)について説明する。デフォーカスシミュレート処理(ステップS200)を行うにあたり読み込む光学系情報40は、伝達関数または点像分布関数の情報を含む。伝達関数または点像分布関数は光軸方向のデフォーカス量と、光軸に垂直な平面における像高に依存して変化する。例えば、第1物体距離において、光軸に垂直な方向かつ所定被写体画像30と同じサイズの領域を、領域FC11-1、領域FC12-1、領域FC13-1、領域FC21-1、領域FC22-1、領域FC23-1、領域FC31-1、領域FC32-1、領域FC33-1に分割したとする。この場合、第1物体距離における伝達関数または点像分布関数は分割した領域ごとに異なる値を示し得る。同様に、例えば、第N物体距離において、光軸に垂直な方向かつ所定被写体画像30と同じサイズの領域を、領域FC11-N、領域FC12-N、領域FC13-N、領域FC21-N、領域FC22-N、領域FC23-N、領域FC31-N、領域FC32-N、領域FC33-Nに分割したとする。この場合、第N物体距離における伝達関数または点像分布関数は分割した領域ごとに異なる値を示し得る。また、領域FC11-1の伝達関数または点像分布関数と領域FC11-Nの伝達関数または点像分布関数は異なる値を示し得る。領域FC12-1と領域FC12-N、…、領域FC33-1と領域FC33-Nの場合についても同様である。このように、学習画像群32GがN個からなる学習画像32の集合であるならば、図12に示すように、機械学習を行うにあたり伝達関数または点像分布関数の情報は膨大となる。
 その点、本実施形態においては、機械学習を行うにあたり、光軸上の伝達関数または点像分布関数を用いる。本実施形態において、領域FC22-1が第1撮像系101の光軸が通る領域とする。つまり、領域FC22-1における伝達関数または点像分布関数が、第1物体距離における第1撮像系101の光軸上の伝達関数または点像分布関数である。同様に、領域FC22-Nが第N物体距離における伝達関数または点像分布関数が、第1撮像系101の光軸上の伝達関数または点像分布関数である。なお、図12では伝達関数または点像分布関数を9分割しているが、あくまでも例示であり、図13においても同様である。例えば図12の領域FC22-1~FC22-Nは、縦方向と横方向にそれぞれ所定の画像数が含まれる集合であるが、1画素であってもよい。つまり、本実施形態における光軸上の伝達関数または点像分布関数とは、光軸を通る1画素分の面積または当該画素を含む所定の数の画素分の面積の少なくとも一方における、伝達関数または点像分布関数である。
 図13に示すように、デフォーカスシミュレート処理(ステップS200)において、所定被写体画像30に対して、第1撮像系101の光軸上の伝達関数または光軸上の点像分布関数に基づき、ボケの影響をシミュレートする処理(ステップS210)が行われる。なお、ステップS210の詳細は後述する。つまり、所定被写体画像30の光軸上の以外の領域に対しても、第1撮像系101の光軸上の伝達関数または光軸上の点像分布関数に基づき、ステップS210が行われる。例えば所定被写体画像30を図12と同様に、領域AR11、領域AR12、領域AR13、領域AR21、領域AR22、領域AR23、領域AR31、領域AR32、領域AR33に9分割したとする。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、図12のFC22-1に示す、光軸上の伝達関数または点像分布関数を用いて領域AR11に対してステップS210-1の演算を行う。なお、以降の説明及び図13の図示において、この演算をAR11*FC22-1と簡略して表記する。他の領域を用いるステップS210等の演算についても同様である。また、ここでの「*」は、詳細は後述するが、例えば点像分布関数としてPSFを用いる場合はコンボリューションを示す。また、例えば伝達関数としてOTFを用いる場合は、「*」は、領域AR11をフーリエ変換した周波数特性に、領域FC22-1のOTFを乗算することを示す。
 さらに、学習装置処理部16は、領域AR12~領域AR33に対しても、FC22-1に示す光軸上の伝達関数または点像分布関数を用いてステップS210-1を行う。つまり、図13では一部省略しているが、学習装置処理部16は、AR12*FC22-1、AR13*FC22-1、AR21*FC22-1、AR22*FC22-1、AR23*FC22-1、AR31*FC22-1、AR32*FC22-1、AR33*FC22-1を行っている。このように、学習装置処理部16は、所定被写体画像30と同一の領域を所望の数の領域に分割し、分割したうちの1つ領域の伝達関数または点像分布関数を用いて、ステップS210を行う。
 同様に、生成された第1学習画像32-1を、領域BR11-1、領域BR12-1、領域BR13-1、領域BR21-1、領域BR22-1、領域BR23-1、領域BR31-1、領域BR32-1、領域BR33-1に9分割したとする。領域BR11-1は、前述の領域AR11に対してステップS210-1を行った結果に対応する。つまり、図13に示すようにBR11-1=AR11*FC22-1となる。同様に、BR12-1=AR12*FC22-1、BR13-1=AR13*FC22-1、BR21-1=AR21*FC22-1、BR22-1=AR22*FC22-1、BR23-1=AR23*FC22-1、BR31-1=AR31*FC22-1、BR32-1=AR32*FC22-1、BR33-1=AR33*FC22-1となる。
 この手法は、第N学習画像32-Nを生成する場合においても同様である。つまり学習装置処理部16は、図示は省略するが、BR11-N=AR11*FC22-N、BR12-N=AR12*FC22-N、…、BR22-N=AR22*FC22-N、…、BR32-N=AR32*FC22-N、BR33-N=AR33*FC22-Nを行っている。以上のことから、各学習画像32における第1撮像系101の光軸上の領域(BR22)及び光軸上以外の領域(BR11、…、BR21、BR23、…FC33)に対し、光軸上の伝達関数または点像分布関数(FC22)に基づいてデフォーカスシミュレート処理(ステップS200)が行われる。
 本実施形態の伝達関数とは、光学伝達関数またはOTFとも言うことができる。OTFはOptical Transfer Functionの略である。また、本実施形態の点像分布関数は点広がり関数またはPSFとも言うことができる。PSFはPoint Spread Functionの略である。OTFはPSFをフーリエ変換した結果である。言い換えれば、PSFはOTFを逆フーリエ変換した結果である。また、OTFは複素関数であり、OTFの絶対値は変調伝達関数、振幅伝達関数またはMTFという。MTFはModulation Transfer Functionの略である。
 以上のことから、本実施形態の情報処理システム100は、学習画像群32Gと正解画像36とを含むデータセットによって機械学習された学習済みモデル120を記憶する記憶部110と、学習済みモデル120を用いて、第1撮像系101によって撮影された画像である処理対象画像の第1撮像系101のデフォーカスによるボケを補正する処理部130と、を含む。学習画像群32Gは、任意の撮像系104で撮像された所定被写体に任意の撮像系104のフォーカスが合った所定被写体画像30に対し、複数の物体距離における第1撮像系101の伝達関数または点像分布関数に基づいて、第1撮像系101のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理(ステップS200)が行われたことで生成される複数の学習画像32を含む。複数の学習画像32の各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。正解画像36は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づいて、第1撮像系101のフォーカスが合う状態を所定被写体画像30に対しシミュレートするベストフォーカスシミュレート処理(ステップS300)が行われたことで生成される画像、または、所定被写体画像30そのものである。学習済みモデル120は、各学習画像32が正解画像36になるように機械学習される。
 このように、本実施形態の情報処理システム100は、学習済みモデル120を記憶する記憶部110と処理部130を含むことから、第1撮像系101によって撮像された処理対象画像にデフォーカスによるボケの影響が含まれていても、ボケの影響を補正した補正画像を出力することができる。これにより、第1撮像系101の被写界深度を実質的に拡大することができる。また、学習画像群32Gと正解画像36を任意の撮像系104で撮像された所定被写体画像30に基づき予め作成していることから、処理対象画像に係る被写体が、第1撮像系101で初めて撮像する被写体である場合において、予め機械学習した学習済みモデル120を用いることができる。また、各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理(ステップS200)が行われていることから、デフォーカスシミュレート処理(ステップS200)に必要な情報量を少なくすることができる。これにより、機械学習に必要なニューラルネットワークNNの規模を適切にした学習済みモデル120を作成することが出来る。これにより、学習済みモデル120を情報処理システム100へ容易に実装することができる。
 また、本実施形態の手法は、学習済みモデル120として実現することもできる。つまり、本実施形態の学習済みモデル120は、学習済みモデル120を記憶する記憶部110と、入力部140と、処理部130と、出力部150を含む情報処理システム100に用いられ、学習画像群32Gと正解画像36とを含むデータセットによって機械学習されている。学習画像群32Gは、任意の撮像系104で撮像された所定被写体に任意の撮像系104のフォーカスが合った所定被写体画像30に対し、複数の物体距離における第1撮像系101の伝達関数または点像分布関数に基づいて、第1撮像系101のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像32を含む。複数の学習画像32の各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。正解画像36は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づいて、第1撮像系101のフォーカスが合う状態を所定被写体画像30に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、所定被写体画像30そのものである。学習済みモデル120は、各学習画像32が正解画像36になるように機械学習される。入力部140は、第1撮像系101によって撮影された画像である処理対象画像を学習済みモデル120に入力する。処理部130は、学習済みモデル120を用いて、処理対象画像の第1撮像系101のデフォーカスによるボケを補正する補正処理を行う。出力部150は、補正処理による補正画像を出力する。このようにすることで、上記と同様の効果を得ることができる。
 また、本実施形態の手法は、情報処理方法として実現することもできる。つまり、本実施形態の情報処理方法は、学習画像群32Gと正解画像36を含むデータセットによって機械学習された学習済みモデル120によって、第1撮像系101によって撮影された画像である処理対象画像の第1撮像系101のデフォーカスによるボケを補正する。学習画像群32Gは、任意の撮像系104で撮像された所定被写体に任意の撮像系104のフォーカスが合った所定被写体画像30に対し、複数の物体距離における第1撮像系101の伝達関数または点像分布関数に基づいて、第1撮像系101のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像32を含む。複数の学習画像32の各学習画像32における第1撮像系101の光軸上の領域及び光軸上以外の領域に対し、光軸上の伝達関数または点像分布関数に基づいてデフォーカスシミュレート処理が行われる。正解画像36は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づいて、第1撮像系101のフォーカスが合う状態を所定被写体画像30に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、所定被写体画像30そのものである。学習済みモデル120は、各学習画像32が正解画像36になるように機械学習される。このようにすることで、上記と同様の効果を得ることができる。
 また、本実施形態の手法は、学習済みモデル120記憶している情報記憶媒体として実現することもできる。このようにすることで、学習装置10で機械学習した訓練モデル20を当該情報記憶媒体に記憶させることができる。これにより、情報処理システム100に当該情報記憶媒体を接続することで当該訓練モデル20を最新の学習済みモデル120として更新することができる。これにより、所定の事情においても、上記と同様の効果を得る事ができる。所定の事情とは、例えば学習装置10が位置する位置と情報処理システム100が位置する位置が離れている事情、学習装置10と情報処理システム100間でデータの通信が出来ない事情等である。
 また、本実施形態の手法は、内視鏡システム300として実現してもよい。例えば本実施形態の内視鏡システム300は、上記した情報処理システム100を含むプロセッサユニット200と、プロセッサユニット200に接続され、処理対象画像を撮像する内視鏡スコープ310と、を含む。このようにすることで、上記の効果を有する情報処理システム100を含む内視鏡システム300を構築することができる。
 内視鏡システム300は、より詳細には例えば図14のような構成例にすることができる。内視鏡システム300は、内視鏡スコープ310と操作部320と表示部330とプロセッサユニット200を含む。プロセッサユニット200は、ストレージ部210と制御部220と情報処理システム100を含む。図14の情報処理システム100は、図2で前述した構成の他、ストレージインターフェース160をさらに含む。なお、図2と同様の構成については説明を適宜省略する。
 内視鏡スコープ310は、不図示の先端部に撮像装置を含む。当該撮像装置は、第1撮像系101を含む。内視鏡スコープ310の先端部は体腔内に挿入され、撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ310からプロセッサユニット200へ送信される。操作部320は、ユーザが内視鏡システム300を操作するための装置であり、例えばボタン、又はダイヤル、フットスイッチ、タッチパネル等である。表示部330は、内視鏡スコープ310が撮像した画像を表示する装置であり、例えば液晶ディスプレイであるが、例えばタッチパネルとして操作部320と一体的なハードウェアとしてもよい。
 プロセッサユニット200は、内視鏡システム300における制御、画像処理等の各処理を行う。例えば制御部220は、操作部320から入力された情報に基づいて、内視鏡システム300のモード切り替え、ズーム動作、表示切り替え等を行うことでプロセッサユニット200としての機能が実現される。ストレージ部210は、内視鏡スコープ310が撮像した画像を記録する。ストレージ部210は、例えば半導体メモリ、ハードディスクドライブ、又は光学ドライブ等である。
 なお、図14に示す構成例では、内視鏡スコープ310のケーブルが接続されるコネクター又は撮像データを受信するインターフェース回路等を、入力部140にすることで、内視鏡スコープ310からの撮像データを受信する機能を実現しているが、プロセッサユニット200にさらに撮像データを受信するインターフェース回路を設けてもよい。
 ストレージインターフェース160は、ストレージ部210にアクセスするためのインターフェースである。ストレージインターフェース160は、入力部140が受信した画像データをストレージ部210に記録する。記録した画像データを再生する際には、ストレージインターフェース160は、ストレージ部210から画像データを読み出し、その画像データを処理部130に送信する。処理部130は、入力部140又はストレージインターフェース160からの画像データを処理対象画像として、図3で前述した処理を行う。これにより処理部130は、出力部150を介して補正画像を出力し、表示部330にはフォーカスが合っている補正画像が表示される。
 なお、本実施形態の内視鏡システム300は、例えば図15に示す構成例にしてもよい。図15の構成例は、情報処理システム100とプロセッサユニット200が別々に設けられる点で、図14の構成例と異なる。情報処理システム100とプロセッサユニット200は、例えばUSB等の機器間通信により接続されてもよいし、或いはLAN又はWAN等のネットワーク通信により接続されてもよい。情報処理システム100は、1又は複数の情報処理装置によって構成される。情報処理システム100が複数の情報処理装置で構成される場合、情報処理システム100は、ネットワークを介して接続された複数のPC又は複数のサーバ等が並列処理を行うクラウドシステムであってもよい。図15のストレージ部170は、図14のストレージ部210に対応する。
 プロセッサユニット200は、制御部220と撮像データ受信部230と入力部240と出力部250と処理部260と表示インターフェース270を含む。撮像データ受信部230は、図14の入力部140と同様のインターフェース回路等で構成され、内視鏡スコープ310からの撮像データを受信する。処理部260は、撮像データ受信部230が受信した画像データを、出力部250を介して情報処理システム100に送信する。情報処理システム100は、受信した画像データを処理対象画像として図3の処理を行い、補正画像を生成する。入力部240は、情報処理システム100から出力部150を介して送信される補正画像を受信し、その補正画像を処理部260に出力する。処理部260は表示インターフェース270を介して補正画像を表示部330に出力する。これにより、表示部330に補正画像が表示される。図15の表示インターフェース270は、図14の出力部150と同様のハードウェアにより構成され、図14の出力部150と同様の機能を実現させている。なお、図15において、情報処理システム100の入力部140と出力部150を別々のインターフェースで構成してもよいが、入力部140と出力部150の機能を単一の入出力インターフェースで実現してもよい。プロセッサユニット200の入力部240と出力部250についても同様である。
 本実施形態の手法は上記に限らず、種々の変形実施が可能である。例えば、光学系情報40に含まれる各物体距離は、対応するMTFの差に基づいて決定してもよい。例えば学習画像群32Gは、第1物体距離の伝達関数または点像分布関数に基づきステップS200-1を行った第1学習画像32-1と、第2物体距離の伝達関数または点像分布関数に基づきステップS200-2を行った第2学習画像32-2から構成されているものとする。また、第1物体距離は第2物体距離と比べてデフォーカス量が大きい物体距離であるものとする。この場合において、MTFの空間周波数依存性を定性的に図示すると、第2物体距離に基づくMTFは図16のA0に示す通りとなり、第1物体距離に基づくMTFはA1に示す通りとなる。そして、例えばB0に示す所定空間周波数を決めると、C0に示すようにMTFの差が決まる。そこで、C0に示すMTFの差が所定値よりも小さくなるように、第1物体距離と第2物体距離が決定される。
 また、ここでのMTFの差とは、隣接する物体距離におけるMTFの差である。例えば学習画像群32Gとして、第1学習画像32-1と、第2学習画像32-2と、第3学習画像32-3があるとする。また、第1物体距離、第2物体距離、第3物体距離の順に、デフォーカス量が大きい物体距離であるものとする。この場合、図17のA10が第3物体距離におけるMTFの周波数特性を示し、A11が第2物体距離におけるMTFの周波数特性を示し、A12が第1物体距離におけるMTFの周波数特性を示す。そして、B0に示す所定周波数において、C10に示したA10のMTFとA11のMTFの差、C11に示したA11のMTFとA12のMTFの差の両方が、所定値よりも低いものとする。言い換えれば、B0に示す所定周波数において、A10のMTFとA12のMTFの差は、所定値として考慮していない。以上のことから、本実施形態の情報処理システム100において、物体距離は、第1撮像系101のMTFの所定空間周波数において、隣接する物体距離におけるMTFの値の差が所定値以下であるように設定される。このようにすることで、機械学習におけるデータセットの組み合わせを適切にすることができる。前述したように、機械学習された学習済みモデル120は、第1学習画像32-1と第2学習画像32-2のいずれも正解画像36に補正できるように補正処理(ステップS30)を行う。さらに、第1物体距離と第2物体距離の間の物体距離で撮像された処理対象画像も、補正処理(ステップS30)により正解画像36に補正するには、第1学習画像32-1と第2学習画像32-2に付加されたボケの影響の差が一定範囲内であることが好ましい。その点、本実施形態の手法を適用することで、所定被写体画像30に対してシミュレートするボケの影響度を示すMTFに基づいて、各学習画像の物体距離を規定していることから、適切な学習画像群32Gを生成することができる。これにより、機械学習において適切なデータセットとすることができる。
 また、光学系情報40は、第1撮像系101のベストフォーカス条件における物体距離を含んでもよい。ベストフォーカス条件における物体距離は、具体的には例えば図9のD3に示す距離である。例えば学習装置処理部16は、所定被写体画像30に対してベストフォーカス条件における物体距離を用いた伝達関数または点像分布関数を用いてベストフォーカスシミュレート処理(ステップS300)を行うことにより、正解画像36を生成してもよい。つまり本実施形態の情報処理システム100において、フォーカスが合う物体距離は、ベストフォーカス条件における物体距離である。このようにすることで、適切な正解画像36を生成することが出来る。
 本実施形態において、物体距離に基づく伝達関数または点像分布関数と、学習画像32は1対1に対応するようになっているものとする。より具体的には、例えばデフォーカスシミュレート処理(ステップS200)において、1の所定被写体画像30に対して、第1物体距離による伝達関数または点像分布関数と、第2物体距離による伝達関数または点像分布関数の両方を用いて、第3学習画像32-3を生成する処理は行われないものとする。つまり、本実施形態の情報処理システム100において、各学習画像32は、複数の物体距離のうちいずれか1つの物体距離における伝達関数または点像分布関数に基づいて、所定被写体画像30に対してデフォーカスシミュレート処理(ステップS200)が行われたことで生成される画像である。このようにすることで、学習画像群32Gにおける各学習画像32の関係を明確にすることができる。
 なお、一般的な光学系において、空間周波数が高くなるについてMTFは低下し、かつ周期性をもって変化するが、MTFは絶対値であることから、図17のB1に示す高空間周波数領域において、MTFは折り返されながら表示される。そのため、高空間周波数領域においては、1のMTFがどの物体距離に対応するかを一義的に決めることができない。なお、例えば図9のP2に示す、目標拡大被写界深度の近点における物体距離よりも短い物体距離のMTFは、B0に示す空間周波数において0になっても構わない。例えば図17のA12が目標拡大被写界深度の近点における物体距離におけるMTFであると仮定した場合、折り返しが発生している最も低い空間周波数より低い空間周波数が、B0に示す空間周波数であればよい。目標被写界深度外の物体距離の伝達関数または点像分布関数は、本実施形態の機械学習にそもそも使用しないからである。なお、ここでの目標拡大被写界深度は、前述と同様、一定の値を示すものではない。以上のことから、本実施形態の情報処理システム100において、処理部130は、学習済みモデル120を用いて、処理対象画像に対し第1撮像系101のデフォーカスによるボケを補正することで、第1撮像系101の被写界深度が、被写界深度より広い目標拡大被写界深度に拡大された画像を推定する。また、所定空間周波数は、目標拡大被写界深度の近点におけるMTFの値がゼロになる、最も低い空間周波数よりも低い空間周波数である。このようにすることで、空間周波数とMTFを1対1に対応づけるために必要な所定空間周波数の範囲を適切に決めることができる。
 より具体的には、B0に示す所定空間周波数は、例えば規格化周波数として0.1であることが望まれる。つまり、本実施形態の情報処理システム100において、所定空間周波数は、第1撮像系101の撮像素子のナイキスト周波数の1/5の空間周波数である。このようにすることで、多くの光学系について、空間周波数とMTFを1対1に対応づけることができる。これにより、多くの種類の光学系が撮像した処理対象画像に対して本実施形態の手法を適用させることができる。
 また、本実施形態の光学系情報40は、被写界深度内の物体距離と被写界深度外の物体距離による組み合わせとしてもよい。具体的には例えば光学系情報40は、図9のD1に示す被写界深度外の第1物体距離と、D2に示す第2物体距離を含んでもよい。言い換えれば、本実施形態の情報処理システム100において、複数の物体距離のうち第1物体距離は、被写界深度外の物体距離であり、複数の物体距離のうち第2物体距離は、被写界深度内の物体距離である。このようにすることで、デフォーカスシミュレート処理(ステップS200)により、ボケの影響を大きくシミュレートした第1学習画像32-1と、ボケの影響を小さくシミュレートした第2学習画像32-2を、正解画像36と組み合わせたデータセットとすることができる。これにより、これらのデータセットで機械学習した学習済みモデル120は、広い範囲でボケの影響を受けた処理対象画像を補正処理(ステップS30)によって補正することができる。
 また、所定値は、学習画像群32Gを構成する学習画像32の数に基づいて決めてもよい。例えば図16において、A0に示すMTFが、ベストフォーカス条件に対応する物体距離におけるMTFであり、A1に示すMTFが目標被写界深度の近点に対応する物体距離におけるMTFであるものとする。この場合、例えば空間周波数をB0に示す空間周波数に決定すると、C0に示す範囲を最大とするMTFの範囲が一義的に決定される。そして、C0に示す範囲を、所望の学習画像32の個数に基づき分割した値が所定値となって決定される。以上のことから、本実施形態の情報処理システム100において、所定値は、2以上に設定可能な物体距離の個数に基づいて決定される。このようにすることで、機械学習の負荷を考慮して機械学習に必要なデータセットの数を決めることができる。
 なお、前述のように空間周波数を固定するとMTFの範囲が一義的に決定されることから、所定値を予め決定し、当該所定値に基づき学習画像32の個数を決定してもよく、ユーザが事情に応じて機械学習の方針を決定すればよい。
 なお、所定値は0.2以下であることが望ましい。つまり、本実施形態の情報処理システム100において、所定値は、0.2以下であるように設定される。なお、一般的な光学系において、前述した空間周波数を望ましい範囲に決定すると、取り得るMTFの範囲は0.2程度と考えられる。そのため、例えば所定値を0.2として設定すると、学習画像群32Gを構成する学習画像32の個数は2となる。また、この場合において、第1物体距離は被写界深度外の物体距離となり、第2物体距離は被写界深度内の物体距離になると考えられる。
 また、所定値は0.1以下であることが望ましい。つまり、本実施形態の情報処理システム100において、所定値は、0.1以下であるように設定される。さらに、所定値は0.05以下であることが望ましい。つまり、本実施形態の情報処理システム100において、所定値は、0.05以下であるように設定される。このようにすることで、学習画像群32Gを構成する学習画像32の個数をより増やすことができる。これにより、学習済みモデル120は、機械学習に用いていない物体距離以外の物体距離で撮像された処理対象画像を入力した場合、ボケの影響を適切に除去した補正画像を出力できる可能性が高くなる。つまり、学習済みモデル120の補正処理(ステップS30)の精度をより向上させることができる。なお、学習画像群32Gを構成する学習画像32の個数が増えると、機械学習の処理負担が大きくなる。そのため、学習画像群32Gを構成する学習画像32の適切な個数は、事情に応じて適宜決定される。
 次に、学習装置処理部16が点像分布関数によってデフォーカスシミュレート処理(ステップS200)等を行う具体的な手法を説明する。例えばステップS200-1によって第1学習画像32-1を生成する場合において、図18に示すように、学習装置処理部16は、第1撮像系101の第1物体距離のPSFを用いて、所定被写体画像30に対してコンボリューション演算処理を行う。なおコンボリューションは、畳み込み積分とも呼ぶことができる。また、ここでの第1物体距離のPSFは、図12のFC22-1に示す領域からなるPSFである。つまり、図18の手法の場合、PSFのコンボリューション演算処理が図13のステップS210に対応する。同様に、ステップS200-Nによって第N学習画像32-Nを生成する場合において、学習装置処理部16は、第1撮像系101の第N物体距離のPSFを用いて、所定被写体画像30に対してコンボリューション演算する処理を行う。なお、PSFのコンボリューション演算処理に基づくデフォーカスシミュレート処理をステップS200-Aと呼ぶことができるものとする。以上のことから、本実施形態の情報処理システム100において、デフォーカスシミュレート処理(ステップS200)は、所定被写体画像30に対し、第1撮像系101それぞれの物体距離におけるPSFをコンボリューション演算する処理である。このようにすることで、PSFを用いた学習画像32及び正解画像36によるデータセットによって機械学習を行った学習済みモデル120を生成することができる。
 次に、学習装置処理部16は伝達関数によってデフォーカスシミュレート処理(ステップS200)を行う具体的な手法を説明する。例えば第1学習画像32-1を生成する場合において、図19に示すように、学習装置処理部16は、所定被写体画像30をフーリエ変換する処理と、当該フーリエ変換の結果である周波数特性に対して第1撮像系101の第1物体距離のOTFを乗算する処理と、当該乗算を行った周波数特性を逆フーリエ変換する処理を行う。また、ここでの第1物体距離のOTFは、図12のFC22-1に示す領域からなるOTFである。つまり、図19の手法の場合、OTFの乗算が図13のステップS210に対応する。同様に、ステップS200-Nによって第N学習画像32-Nを生成する場合において、学習装置処理部16は、所定被写体画像30をフーリエ変換する処理と、当該フーリエ変換の結果である周波数特性対して第1撮像系101の第N物体距離のOTFを乗算する処理と、当該乗算した周波数特性を逆フーリエ変換する処理を行う。なお、OTFの乗算に基づくデフォーカスシミュレート処理をステップS200-Bと呼ぶことができるものとする。以上のことから、本実施形態の情報処理システム100において、デフォーカスシミュレート処理(ステップS200)は、所定被写体画像30にフーリエ変換を行い、当該フーリエ変換の結果である所定被写体画像30の周波数特性に対し第1撮像系101のそれぞれの物体距離におけるOTFを乗算し、乗算された周波数特性を逆フーリエ変換する処理である。このようにすることで、OTFを用いた学習画像32及び正解画像36によるデータセットによって機械学習を行った学習済みモデル120を生成することができる。
 なお、PSFとOTFの関係は前述した通りであるから、図18の処理に関する演算処理結果と、図19の処理に関する演算処理結果は、数学的に等価である。デフォーカスシミュレート処理(ステップS200)において、PSFとOTFのいずれを用いるかは、ユーザが適宜選択すればよい。
 同様に、学習装置処理部16は、点像分布関数を用いてベストフォーカスシミュレート処理(ステップS300)を行ってもよい。例えば図20に示すように、学習装置処理部16は、第1撮像系101のフォーカスが合う物体距離のPSFを用いて、所定被写体画像30に対してコンボリューション演算処理を行うことにより、正解画像36を生成する。なお、PSFのコンボリューション演算処理に基づくベストフォーカスシミュレート処理をステップS300-Aとも呼ぶことができるものとする。
 また、学習装置処理部16は、伝達関数を用いてベストフォーカスシミュレート処理(ステップS300)を行ってもよい。例えば図21に示すように、学習装置処理部16は、所定被写体画像30をフーリエ変換する処理と、当該フーリエ変換の結果である周波数特性に対して第1撮像系101のフォーカスが合う物体距離のOTFを乗算する処理と、当該乗算を行った周波数特性を逆フーリエ変換する処理を行うことで、正解画像36を生成する。なお、OTFの乗算に基づくベストフォーカスシミュレート処理をステップS300-Bとも呼ぶことができるものとする。
 なお、以降の説明においては、PSFを用いた手法を適用して学習画像32及び正解画像36を生成する例を代表として例示するが、OTFを用いた手法が適用できることを妨げるものではない。
 また、例えば本実施形態の第1撮像系101は、レトロフォーカスタイプのレンズ構成であってもよい。レトロフォーカスタイプは、逆望遠タイプとも呼ばれる。例えば被写体側から負の屈曲力のレンズと、正の屈曲力のレンズを配置すること等により、レトロフォーカスタイプのレンズ構成は実現される。以降の説明において、被写体側のレンズ群を前レンズ群と呼び、像側のレンズ群を後レンズ群と呼ぶものとする。
 レトロフォーカスタイプの具体的なレンズ構成は、種々の公知な構成を採用することができる。例えば図22に示す光学系の場合、被写体側から順にG1に示す前レンズ群と、S1に示す明るさ絞りと、G2に示す後レンズ群と、CG1に示すカバーガラスで構成されている。なお、図22において、説明の便宜上、光学系を構成する各レンズ等の間隔は正確に図示していない。例えば図22において、L6に示す正レンズとCG1に示すカバーガラスは、実際は接合されているが、便宜上間隔を空けて図示している。後述する図23、図25も同様である。
 図22において、G1に示す前レンズ群は、L1に示す物体側負レンズと、L2に示す正レンズを含み、全体として負の屈曲力を有する。G2に示す後レンズ群は、L3に示す正レンズと、L4に示す正レンズとL5に示す負レンズを接合したレンズと、L6に示す正レンズを含み、全体として正の屈曲力を有する。
 なお、前レンズ群または後レンズ群は、複数のレンズ群から構成されてもよい。例えば図23に示す第1撮像系101は、G11に示すレンズ群が前レンズ群として機能し、G12に示すレンズ群とG13に示すレンズ群が、後レンズ群として機能する。例えばG11に示すレンズ群は、被写体側から順に、L11に示すような像側に凹面を向けた平凹レンズと、L12に示すような負メニスカスレンズを含み、全体として負の屈折力を有する。
 また、例えばG12に示すレンズ群は、L13に示す被写体側正レンズと、L14に示す像側正レンズを含む。なお、L13に示すレンズとL14に示すレンズまでの間に、S11に示す明るさ絞りをさらに配置してもよい。このようにすることで、当該明るさ絞りを挟んで屈折力が対称となるように光学系が構成されるため、コマ収差や非点収差を良好に補正することができる。
 G13に示すレンズ群は、全体として正の屈折力を有する。また、G13に示すレンズ群は、L15に示す正レンズとL16に示す負レンズから構成される接合レンズを含んでもよい。これにより、球面収差とコマ収差を良好に補正することができる。また、G13に示すレンズ群は、L17に示す平凸レンズをさらに含んでもよい。これにより、広い視野を確保することができる。なお、図23ではL17に示す平凸レンズとCG11に示すカバーガラスを離して図示しているが、実際は接合されている。CG11に示すカバーガラスは不図示の撮像素子に設けられ、L17に示す平凸レンズは、当該撮像素子の位置決めに利用される。
 また、例えば第1撮像系101は、平行平板をさらに含めてもよい。平行平板はフィルタとも呼ばれる。平行平板は例えば図22のF1の位置、図23のF11の位置に配置されているが、他の位置に配置することもできる。平行平板は例えば像点の位置を調整する目的等に利用される。
 また、上記したレトロフォーカスタイプのレンズ構成を含む第1撮像系101において、最大画角でのディストーション量は-30%以下になることが望ましい。具体的には例えば、図24のE1に示す被写体が、第1撮像系101によって図24のE2に示す画像として撮像されたとする。この場合において、最大画角でのディストーション量(%)の値は、E1に示す被写体のPDに示す長さと、E2に示す画像のADに示す長さを用いて、(AD-PD)/PD×100として表すことができる。そして当該値が-30より負の値であることが望ましい。以上のことから、本実施形態の情報処理システム100において、第1撮像系101は、レトロフォーカスタイプのレンズ構成であり、最大画角でのディストーション量が-30%以下である。このようにすることで、画像中心に比べて周辺の倍率が小さくなるため、光軸上以外の領域の伝達関数または点像分布関数を小さくすることができる。また、光軸上の領域の伝達関数または点像分布関数と、光軸上以外の領域の伝達関数または点像分布関数の差を小さくすることができる。これにより、ボケの影響のシミュレート結果がより正確な学習画像32を生成することができる。
 なお、前レンズ群または後レンズ群は、単一のレンズから構成されてもよい。例えば図25に示す第1撮像系101は、G21に示すレンズ群と、G22に示すレンズ群と、S21に示す明るさ絞りと、G23に示すレンズ群と、CG21に示すカバーガラスを含む。G21に示すレンズ群は、L21に示す単一の負レンズを含み、負の屈折力を有する。つまり、G21に示すレンズ群は、前レンズ群の一部として機能する。なお、G23に示すレンズ群は、L23に示す正レンズと、L24に示す正レンズとL25に示す負レンズを接合したレンズと、L26に示す正レンズを含み、全体として正の屈折力を有する。つまり、G23に示すレンズ群は、後レンズ群として機能する。
 また、本実施形態の第1撮像系101は、位相変調素子をさらに含んでもよい。例えば図25の第2レンズ群G2は、L22に示す正レンズと、S21に示す明るさ絞りとPMに示す位相変調素子を含む。PMに示す位相変調素子は第1撮像系101の瞳の位置に配置される。PMに示す位相変調素子は、波面符号化(Wavefront Coding:WFC)を適用した素子であり、例えばPMSに示す位相変調面を有する。なお波面符号化は被写界深度拡大技術(Extended Depth of Field:EDOF)に用いられる公知な手法であるため詳細な説明は省略する。
 なお、図25において、PMSが示す位相変調面は、光軸に直交する座標を用いて所定の3次関数で表されるように図示しているが、位相変調面の表面形状はこれに限られず、他の表面形状を採用してもよい。また、図25では位相変調面を像側に図示しているが、被写体側に有しても同様の効果を得ることができる。また、G22に示すレンズ群は、全体として正の屈折力を有し、レトロフォーカスタイプの前レンズ群の一部としても機能する。
 また、第1撮像系101のMTFは、PMに示す位相変調素子を含むことにより、デフォーカスに対する変化が鈍くなる。言い換えれば、当該位相変調素子を含むことにより、物体距離の変化に対して第1撮像系101のMTFが一致するように作用する。より具体的には、例えば当該位相変調素子を含む第1撮像系101における第1物体距離のMTFと第2物体距離のMTFの差は、当該位相変調素子を含まない第1撮像系101における第1物体距離のMTFと第2物体距離のMTFの差に比べて、小さくなる。
 例えば図26に示すMTFと空間周波数との関係において、A20はフォーカスが合う物体距離における第1撮像系101のMTFであり、A21は、A20に係る物体距離よりもデフォーカス量が大きい物体距離のMTFであり、A22は、A21に係る物体距離よりもデフォーカス量が大きい物体距離のMTFであるものとする。また、A20~A22は、位相変調素子を含まない第1撮像系101のMTFであるものとする。前述のB0に示す所定空間周波数を決定すると、A20のMTFとA21のMTFの差はC20に示す差となり、A21のMTFとA22のMTFの差はC21に示す差となる。なお、図26において、B0に示す空間周波数より高周波数側のMTFの図示を一部省略している。
 ここで、第1撮像系101に、PMに示す位相変調素子を含ませたことにより、A20に示すMTFはA30に示すMTFに変化し、A21に示すMTFはA31に示すMTFに変化し、A22に示すMTFはA32に示すMTFに変化する。また、C20に示すMTFの差は、C30に示すように小さくなり、C21に示すMTFの差はC31に示すように小さくなる。以上のことから、本実施形態の情報処理システム100において、第1撮像系101は、伝達関数または点像分布関数を変化させる光波面変調素子をさらに含む。このようにすることで、機械学習に必要な距離を短くすることができるため、機械学習に必要なデータセットの数を少なくすることができる。
 なお、上記のデフォーカスシミュレート処理等(ステップS200)の例は、任意の撮像系104で撮像された所定被写体画像30に対し第1撮像系101の光学情報を基づき所定被写体画像30が生成するための処理例であるが、本実施形態の手法はこれらに限られない。例えば、学習装置処理部16は、所定被写体画像30から任意の撮像系104による撮像の影響の除去をシミュレートした処理をさらに含むようにデフォーカスシミュレート処理を行ってもよい。
 図27に、第1撮像系101で撮像された所定被写体画像30-1に対して、第1撮像系101の影響の除去による撮像の影響の除去をシミュレートした処理をさらに含む場合における、画像データ生成処理の例を示す。なお、図27に示す画像データ生成処理はステップS122とも呼ぶことができるものとする。図27のステップS122と図11のステップS120-2を比較すると、デフォーカスシミュレート処理の内容が異なる。なお、図27において、ベストフォーカスシミュレート処理(ステップS300)を行わずに、正解画像36は所定被写体画像30-1そのものとする点で、図11と共通する。所定被写体画像30-1は第1撮像系101のベストフォーカス条件によって撮像された画像だからであり、ステップS202と同様の処理を行う必要がそもそも無いからである。
 図28に、画像データ生成処理(ステップS122)におけるデフォーカスシミュレート処理(ステップS202-1)の例を示す。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、所定被写体画像30-1に対し、所定被写体画像30-1の撮影時における第1撮像系101の影響の除去をシミュレートする処理(ステップS220-1)を行う。ステップS220-1は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の第1物体距離における伝達関数または点像分布関数に基づき行われる。
 より具体的には、学習装置処理部16は、例えば所定被写体画像30に対し第1撮像系101のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理と、第1撮像系101の第1物体距離におけるPSFをコンボリューションする演算処理(ステップS200-A)を、適宜組み合わせた演算処理を行う。適宜組み合わせた演算処理とは、一方の演算処理と他方の演算処理の一部または全部を、任意の順序で組み合わせた演算処理であるが、一方の演算処理と他方の演算処理を別々に行うことを妨げるものではなく、所定の事情に応じて適宜決定される。以降の説明においても同様である。なお、所定の事情とは、例えば機械学習に要する処理時間、プロセッサへの処理負担等である。つまり、ステップS220-1が行われることで、例えば所定被写体画像30-1に対し第1撮像系101のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理の効果と、第1撮像系101の第1物体距離におけるPSFをコンボリューションする演算処理(ステップS200-A)の効果の両方が反映された演算処理結果を得ることができる。
 以上のことから、本実施形態の情報処理システム100において、任意の撮像系104は第1撮像系101である。デフォーカスシミュレート処理(ステップS202)は、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の複数の物体距離における伝達関数または点像分布関数に基づいて、所定被写体画像30-1から第1撮像系101の影響を除く処理(ステップS212)をさらに含む。このようにすることで、より正確な学習画像32を生成することができる。図10、図11に示す手法による学習画像32及び正解画像36は、任意の撮像系104の影響と第1撮像系101の両方の影響を所定被写体に与えているのに対し、図27、図28に示す手法による学習画像32及び正解画像36は、第1撮像系101のみの影響を所定被写体に与えている。これにより、より適切なデータセットによる機械学習を行うことができる。
 同様に、任意の撮像系104の撮像の影響の除去をシミュレートした処理を含む、画像データ生成処理の例を図29に示す。なお、図29において、第2撮像系102を任意の撮像系104の代表として図示している。また、第2撮像系102は、第1撮像系101と比べて撮像素子の解像度が高い撮像系であるものとする。また、図29に示す画像データ生成処理はステップS124とも呼ぶことができるものとし、ステップS124の元となる画像は所定被写体画像30-2とも呼ぶことができるものとする。
 図29のステップS126は、図10のステップS120-1を比較すると、撮像素子情報50をさらに読み込んだ上で、デフォーカスシミュレート処理(ステップS204)とベストフォーカスシミュレート処理(ステップS304)を行う点で相違する。撮像素子情報50は、第1撮像系101及び任意の撮像系104が有する撮像素子の解像度に関係する情報である。つまり、図29の例の場合、学習装置記憶部18には、図4には図示していない撮像素子情報50がさらに記憶されている。なお、撮像素子情報50は、デフォーカスシミュレート処理(ステップS204)及びベストフォーカスシミュレート処理(ステップS304)の演算処理にも用いられる。
 図30に、図29に示す画像データ生成処理(ステップS124)におけるデフォーカスシミュレート処理の例を示す。図29、図30に示すデフォーカスシミュレート処理はステップS204とも呼ぶことができる。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、所定被写体画像30-2に対し、第2撮像系102と第1撮像系101の差をシミュレートする処理(ステップS230-1)と、所定被写体画像30を縮小する処理(ステップS240)と、図30に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた演算処理を行う。ステップS230-1は、第2撮像系102のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の第1物体距離における伝達関数または点像分布関数に基づき行われる。つまり、ステップS230-1が行われることで、例えば所定被写体画像30-2に対し第2撮像系102のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理の効果と、第1撮像系101の第1物体距離におけるPSFをコンボリューションする演算処理(ステップS200-A)の効果の両方が反映された演算処理結果を得ることができる。また、ステップS204-1が行われることで、ステップS230-1の演算処理の効果と、ステップS240の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。
 図31に、図29に示すベストフォーカスシミュレート処理の例を示す。図29、図31に示すベストフォーカスシミュレート処理はステップS304とも呼ぶことができる。例えば学習装置処理部16は、所定被写体画像30-2に対し、第2撮像系102と第1撮像系101の差をシミュレートする処理(ステップS330)と、所定被写体画像30-2を縮小する処理(ステップS340)と図31に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた処理を行う。これにより、学習装置処理部16は、正解画像36を生成することができる。図31のステップS330は、第2撮像系102のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づき行われる。つまり、ステップS330が行われることで、例えば所定被写体画像30-2に対し第2撮像系102のフォーカスが合う物体距離におけるPSFをデコンボリューションする演算処理の効果と、第1撮像系101のフォーカスが合う距離におけるPSFをコンボリューションする演算処理(ステップS300-A)の効果の両方が反映された演算処理結果を得ることができる。また、図31のステップS340は、図30のステップS240と同様の演算処理である。また、ステップS304が行われることで、ステップS330の演算処理の効果と、ステップS340の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。なお、図31のベストフォーカスシミュレート処理(ステップS304)からステップS330を省略した処理によって正解画像36を生成してもよい。言い換えれば、正解画像36は、所定被写体画像30-2に対し、ステップS340に相当する処理を行うことによって生成してもよい。所定被写体画像30-2が任意の撮像系104のフォーカスが合う物体距離で撮像されている画像であるならば、ステップS340により所定被写体画像30-2の画素数を変更することで、正解画像36にできる場合があるからである。
 以上のことから、本実施形態の情報処理システム100において、デフォーカスシミュレート処理(ステップS204)は、任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS230)と、所定被写体画像30-2を縮小する処理(ステップS240)をさらに含む。正解画像36は、ベストフォーカスシミュレート処理(ステップS304)が行われたことで生成される画像、または、所定被写体画像30-2を縮小した処理が行われたことで生成される画像である。デフォーカスシミュレート処理(ステップS204)における任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS230)は、任意の撮像系104のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の複数の物体距離における伝達関数または点像分布関数に基づく。ベストフォーカスシミュレート処理(ステップS304)は、任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS330)と、所定被写体画像30-2を縮小する処理(ステップS340)を、さらに含む。ベストフォーカスシミュレート処理(ステップS304)における任意の撮像系104と第1撮像系101の差をシミュレートする処理(ステップS330)は、任意の撮像系104のフォーカスが合う物体距離での伝達関数または点像分布関数と、第1撮像系101のフォーカスが合う物体距離での伝達関数または点像分布関数に基づく。
 また、本実施形態の手法は、任意の撮像系104と第1撮像系101で撮像方式が異なる場合についても適用できる。例えば図32に示すように、第1撮像系101は同時式撮像素子106を含むものとする。また、図33に示すように、任意の撮像系104はモノクロ撮像素子108を含むものとする。図33を用いて、この場合における画像データ生成処理の手法を説明する。なお、図33の画像データ生成処理はステップS126とも呼ぶことができるものとし、ステップS126の元となる画像は所定被写体画像30-3とも呼ぶことができるものとする。図33は、デフォーカスシミュレート処理(ステップS206)及びベストフォーカスシミュレート処理(ステップS306)の内容と、ステップS206及びステップS306を行う前に、色ずれ判定処理(ステップS190)が行われることが、図29と異なる。なお、図33において、第2撮像系102は、任意の撮像系104の代表としての例示であることは、図29の例と同じである。また、色ずれ判定処理(S190)は、例えば所定被写体画像30-3の飽和部周辺等の色付き量を所定の閾値と比較する処理である。なお、色ずれとは、モノクロ撮像素子108を用いて被写体を撮像した場合、撮像タイミングの相違等によってR画像、G画像及びB画像の間に生じるずれである。なお、同時式撮像素子106で撮像される処理対象画像には色ずれは生じない。また、所定被写体画像30-3の飽和部周辺等の色付き量とは、所定被写体画像30-3の白色として写るエリアの周辺において、色ずれによって発生する色付き量である。つまり図33のステップS206、ステップS306は、ステップS190によって、飽和部周辺等の色付き量が所定の閾値以下と判断された所定被写体画像30-3を使用している。これにより、ステップS206が行われることにより、色ずれの影響を少なくした学習画像32を生成することができる。同様に、ステップS306が行われることにより、色ずれの影響を少なくした正解画像36を生成することができる。これにより、任意の撮像系104と第1撮像系101で撮像方式が異なる場合について、適切な学習画像32と正解画像36からなるデータセットを生成することができる。
 図34に、図33に示す画像データ生成処理(ステップS126)におけるデフォーカスシミュレート処理の例を示す。図33、図34に示すデフォーカスシミュレート処理はステップS206とも呼ぶことができる。図34は、所定被写体画像30-3からモザイク画像を生成する処理(ステップS250)と、モザイク画像をデモザイキングする処理(ステップS252)をさらに含む点で、図30と異なる。例えば第1学習画像32-1を生成する場合、学習装置処理部16は、所定被写体画像30-3に対し、前述のステップS230-1と、前述のステップS240と、ステップS250と、ステップS252と、図34に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた演算処理を行う。つまり、ステップS206-1が行われることで、ステップS230-1の演算処理の効果と、ステップS240の演算処理の効果と、ステップS250の演算処理の効果と、ステップS252の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。
 ステップS250とステップS252について具体的に説明する。所定被写体画像30-3は、複数の波長帯域の光が順次に照射される場合において、それぞれの波長帯域の光が照射されるタイミングで、モノクロ撮像素子108により撮像された複数の画像を合成する処理によって得られる面順次式画像である。そして例えば図35に示すように、前述のステップS206-1において、ステップS250を含む処理によって、モザイク画像が生成される。そして、ステップS252を含む処理によって、モザイク画像から再度面順次式画像が生成されることにより、第1学習画像32-1が生成される。なお、図35のステップS206-1において、ステップS250とステップS252以外の処理の図示は省略している。
 図36に、図33に示す画像データ生成処理(ステップS126)におけるベストフォーカスシミュレート処理の例を示す。図33、図36に示すベストフォーカスシミュレート処理はステップS306とも呼ぶことができる。図36は、所定被写体画像30-3からモザイク画像を生成する処理(ステップS350)と、モザイク画像をデモザイキングする処理(ステップS352)をさらに含む点で、図31と異なる。また、図36のステップS350は、図34のステップS250と同様の処理であり、図36のステップS352は、図34のステップS252と同様の処理である。例えば学習装置処理部16は、前述のステップS330-1と、前述のステップS340と、ステップS350と、ステップS352と、図36に不図示の撮像素子情報50に基づく演算処理を適宜組み合わせた演算処理を行う。これにより、学習装置処理部16は、正解画像36を生成することができる。これにより、ステップS306が行われることで、ステップS330の演算処理の効果と、ステップS340の演算処理の効果と、ステップS350の演算処理の効果と、ステップS352の演算処理の効果と、撮像素子情報50に基づく演算処理の効果が反映された演算処理結果を得ることができる。なお、ベストフォーカスシミュレート処理(ステップS306)からステップS330、ステップS350及びステップS352を省略した処理によって正解画像36を生成してもよい。言い換えれば、正解画像36は、所定被写体画像30-3に対し、ステップS340に相当する処理を行うことによって生成してもよい。
 以上のことから、本実施形態の情報処理システム100において、任意の撮像系104は、モノクロ撮像素子108を含む。所定被写体画像30-3は、複数の波長帯域の光が順次に照射される場合において、それぞれの波長帯域の光が照射されるタイミングで、モノクロ撮像素子108により撮像された複数の画像を合成する処理によって得られる面順次式画像である。第1撮像系101は、互いに色が異なる複数の画素を有し、かつ、それぞれの画素に1色が割り当てられた同時式撮像素子106を含む。デフォーカスシミュレート処理(ステップS206)は、所定被写体画像30-3からそれぞれの画素に1色が割り当てられたモザイク画像を生成する処理と、モザイク画像をデモザイキングする処理と、任意の撮像系104と第1撮像系101の差をシミュレートする処理と、所定被写体画像30-3を縮小する処理と、をさらに含む。デフォーカスシミュレート処理(ステップS206)における任意の撮像系104と第1撮像系101の差をシミュレートする処理は、任意の撮像系104のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101の複数の物体距離における伝達関数または点像分布関数に基づく。正解画像36は、ベストフォーカスシミュレート処理(ステップS306)が行われたことで生成される画像、または、所定被写体画像30-3を縮小した処理が行われたことにより生成される画像である。ベストフォーカスシミュレート処理(ステップS306)は、モザイク画像を生成する処理と、モザイク画像をデモザイキングする処理と、任意の撮像系104と第1撮像系101の差をシミュレートする処理と、所定被写体画像30-3を縮小する処理を、さらに含む。ベストフォーカスシミュレート処理(ステップS306)における任意の撮像系104と第1撮像系101の差をシミュレートする処理は、任意の撮像系104のフォーカスが合う物体距離における伝達関数または点像分布関数と、第1撮像系101のフォーカスが合う物体距離における伝達関数または点像分布関数に基づく。このようにすることで、所定被写体画像30の撮像方式と処理対象画像の撮像方式が異なった場合において、より適切な学習画像32と正解画像36のデータセットを生成することができる。
 また、撮像方式によって、学習済みモデル120を使い分けるようにしてもよい。つまり、本実施形態の情報処理システム100は、例えば図37に示すように、記憶部110は、第1学習済みモデル121と、第2学習済みモデル122を記憶してもよい。
 記憶部110が第1学習済みモデル121と第2学習済みモデル122を記憶する場合、図3に示したフローは、例えば図38のフローにしてもよい。処理部130は、処理対象画像読み込み(ステップS10)を行った後、第1撮像系101の撮像方式を確認する処理(ステップS12)を行う。撮像方式が面順次式である場合、第1学習済みモデル読み込み(ステップS21)、補正処理(ステップS31)、補正画像出力(ステップS41)を行う。一方、撮像方式がベイヤー同時式である場合、第2学習済みモデル読み込み(ステップS22)、補正処理(ステップS32)、補正画像出力(ステップS42)を行う。なお、図38のステップS21及びステップS22は、図3のステップS20に対応する処理である。同様に、図38のステップS31及びステップS32は、図3のステップS30に対応する処理であり、図38のステップS41及びステップS42は、図3のステップS40に対応する処理である。
 また、この場合において、図7のステップS100は、図39のステップS101及び図40のステップS102のようにしてもよい。具体的には、図39の第1学習済みモデル作成処理(ステップS101)は、図7のステップS100に対して、画像データ生成処理を図29のステップS124とすればよい。同様に、図40の第2学習済みモデル作成処理(ステップS101)は、図7のステップS100に対して、画像データ生成処理を図33のステップS126とすればよい。
 また、本実施形態の手法は、任意の撮像系104と第1撮像系101で観察方式が異なる場合についても適用できる。図41を用いて、観察方式が異なる場合における画像データ生成処理の手法を説明する。なお、図41の画像データ生成処理はステップS128とも呼ぶことができるものとし、ステップS128の元となる画像は所定被写体画像30-4とも呼ぶことができるものとする。図41のステップS128は、デフォーカスシミュレート処理(ステップS208)及びベストフォーカスシミュレート処理(ステップS308)の内容と、ステップS206及びステップS306を行う前に、観察方式情報60を読み込む点で、図29のステップS124と異なる。観察方式情報60は、例えば第1撮像系101の観察方式に関する情報である。つまり、図41の例の場合、学習装置記憶部18には、図4には図示していない観察方式情報60がさらに記憶されている。なお、図41において、第2撮像系102は、任意の撮像系104の代表としての例示であることは、図29の例と同じである。
 観察方式とは観察モードとも呼ぶことができる。観察方式が異なる場合とは、例えば観察に用いる光源が異なる場合であるが、例えばユーザが被写体を撮像する処理を行ってから所定被写体画像30-4を取得するまでの間に行われた画像処理の手法が異なる場合であってもよい。観察方式としては、例えば白色照明光を用いるWLI(White Light Imaging)モードと、白色光ではない特殊光を用いる特殊光観察モード等がある。特殊光観察モードは、2つの狭帯域光を用いるNBI(Narrow Band Imaging)モードがある。2つの狭帯域光は、青色の波長帯域に含まれる狭帯域光と、緑色の波長帯域に含まれる狭帯域光である。WLIとNBIでは、撮像素子が出力する画像信号からカラー画像を生成する際の画像処理が異なる。例えば、デモザイク処理の内容、又は画像処理におけるパラメータが異なる。また、特殊光観察モードとして、例えばRDI(Red Dichromatic Imaging)モードを採用することもできる。RDIモードは、アンバー色の波長帯域に含まれる狭帯域光と、緑色の波長帯域に含まれる狭帯域光と、赤色の波長帯域に含まれる狭帯域光を用いる観察モードであり、例えば米国特許第9,775,497号B2等に開示されている技術が用いられる。
 図42に、所定被写体画像30-4から第1学習画像32-1を生成するデフォーカスシミュレート処理(ステップS208-1)の例を示す。図42のステップS208-1は、図30のステップS204-1と比較すると、WLIモード用処理(ステップS262)、NBIモード用処理(ステップS264)、RDIモード用処理(ステップS266)、TXIモード用処理(ステップS268)をさらに含む点で異なる。なお、TXIはTexture and Color Enhancement Imagingの略であり、詳細は後述する。
 なお、図41のステップS128は、図29のS124に対し、上記した相違点となる処理等を追加した例としているが、これに限らず、例えば図33のステップS126に対して上記相違点となる処理等を追加してもよい。この場合、図示は省略するが、ステップS208及びステップS308を行う前に、図33の色ずれ判定処理(ステップS190)がさらに行われる。また、この場合における図42のステップS208は、図34のステップS240、ステップS250、ステップS252をさらに含む。同様に、この場合における図43のステップS308は、図36のステップS340、ステップS350、ステップS352をさらに含む。以降において、図29のステップS124及び図33のステップS126と重複する点については説明を適宜省略する。
 例えば、フローチャートの図示は省略するが、学習装置処理部16は、観察方式情報60を読み込み、第1撮像系101に用いられた観察方式を取得する。そして学習装置処理部16は、取得した観察方式に対応する処理としてステップS262、ステップS264、ステップS266、ステップS268のいずれかを選択する。
 例えば、第1撮像系101がTXIモードで撮像されている場合、その旨の情報が観察方式情報60として、学習装置記憶部18に記憶されている。そして学習装置処理部16は、観察方式情報60を読み込むことにより、所定被写体画像30-4はTXIモード用処理(ステップS368)を含むデフォーカスシミュレート処理(ステップS208)を行う。具体的には例えば、学習装置処理部16は、所定被写体画像30-4に対し、所定被写体画像30-4の表面構造に係る画像部分であるテクスチャ画像部分と、テクスチャ画像部分以外のベース画像部分に分解する処理を行う。そして、学習装置処理部16は、テクスチャ画像部分に係る表面構造を強調する第1処理と、ベース画像部分の明るさを最適化する第2処理と、第1処理に係る画像と第2処理に係る画像を合成した画像の色調を最適化する第3処理を行う。このようにすることで、所定被写体画像30-4に対し、TXIモードによる撮像の効果をシミュレートした学習画像32を得ることができる。これにより、より正確な学習画像32を含むデータセットで機械学習を行うことができる。
 また、例えば、図示は省略するが、第1撮像系101がWLIモードまたはNBIモードで撮像されている場合、その旨の情報が観察方式情報60として、学習装置記憶部18に記憶されている。そして学習装置処理部16は、観察方式情報60を読み込むことにより、所定被写体画像30-4に対して光源に対応するよう色の補完を行う。また、色の補完は、例えば図34のステップS252とともに行ってもよい。例えば学習装置処理部16は、WLIモード用処理(ステップS262)を選択した場合、ステップS252とともにG画像を用いてR画像及びB画像を補間する処理を行う。また、例えば学習装置処理部16は、NBIモード用処理(ステップS264)を選択した場合、ステップS252とともG画像とB画像をそれぞれ独立に補間する処理を行う。
 図43に、画像データ生成処理(ステップS128)において所定被写体画像30-4から正解画像36を生成するベストフォーカスシミュレート処理(ステップS308)の例を示す。図43のステップS308は、図31のステップS304と比較すると、WLIモード用処理(ステップS362)、NBIモード用処理(ステップS364)、RDIモード用処理(ステップS366)、TXIモード用処理(ステップS368)をさらに含む点で異なる。図43のステップS362は、図42のステップS262と同様の処理であり、図43のステップS364は、図42のステップS264と同様の処理であり、図43のステップS366は、図42のステップS266と同様の処理であり、図43のステップS368は、図42のステップS268と同様の処理である。なお、図43のベストフォーカスシミュレート処理(ステップS308)からステップS330等を省略した処理によって、正解画像36を生成してもよい。
 なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
 10…学習装置、12…通信部、16…学習装置処理部、18…学習装置記憶部、20…訓練モデル、30…所定被写体画像、32…学習画像、32-1…第1学習画像、32-2…第2学習画像、32-N…第N学習画像、32G…学習画像群、34…出力画像、34-1…第1出力画像、34-N…第N出力画像、36…正解画像、40…光学系情報、50…撮像素子情報、60…観察方式情報、100…情報処理システム、101…第1撮像系、102…第2撮像系、104…任意の撮像系、106…同次式撮像素子、108…モノクロ撮像素子、110…記憶部、120…学習済みモデル、121…第1学習済みモデル、122…第2学習済みモデル、130,260…処理部、140,240…入力部、150,250…出力部、160…ストレージインターフェース、170,210…ストレージ部、200…プロセッサユニット、220…制御部、230…撮像データ受信部、270…表示インターフェース、300…内視鏡システム、310…内視鏡スコープ、320…操作部、330…表示部、NN…ニューラルネットワーク

Claims (22)

  1.  学習画像群と正解画像とを含むデータセットによって機械学習された学習済みモデルを記憶する記憶部と、
     前記学習済みモデルを用いて、第1撮像系によって撮影された画像である処理対象画像の前記第1撮像系のデフォーカスによるボケを補正する処理部と、
     を含む情報処理システムであって、
     前記学習画像群は、
     任意の撮像系で撮像された所定被写体に前記任意の撮像系のフォーカスが合った所定被写体画像に対し、複数の物体距離における前記第1撮像系の伝達関数または点像分布関数に基づいて、前記第1撮像系のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像を含み、
     前記複数の学習画像の各学習画像における前記第1撮像系の光軸上の領域及び前記光軸上以外の領域に対し、前記光軸上の前記伝達関数または前記点像分布関数に基づいて前記デフォーカスシミュレート処理が行われ、
     前記正解画像は、
     前記第1撮像系のフォーカスが合う物体距離における前記伝達関数または前記点像分布関数に基づいて、前記第1撮像系のフォーカスが合う状態を前記所定被写体画像に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像そのものであり、
     前記学習済みモデルは、
     前記各学習画像が前記正解画像になるように機械学習されることを特徴とする情報処理システム。
  2.  請求項1に記載の情報処理システムにおいて、
     前記各学習画像は、
     前記複数の物体距離のうちいずれか1つの前記物体距離における前記伝達関数または前記点像分布関数に基づいて、前記所定被写体画像に対して前記デフォーカスシミュレート処理が行われたことで生成される画像であることを特徴とする情報処理システム。
  3.  請求項1に記載の情報処理システムにおいて、
     前記第1撮像系は、
     レトロフォーカスタイプのレンズ構成であり、
     最大画角でのディストーション量が-30%以下であることを特徴とする情報処理システム。
  4.  請求項3に記載の情報処理システムにおいて、
     前記第1撮像系は、
     前記伝達関数または前記点像分布関数を変化させる光波面変調素子をさらに含むことを特徴とする情報処理システム。
  5.  請求項1に記載の情報処理システムにおいて、
     前記物体距離は、
     前記第1撮像系のMTFの所定空間周波数において、隣接する前記物体距離におけるMTFの値の差が所定値以下であるように設定されることを特徴とする情報処理システム。
  6.  請求項5に記載の情報処理システムにおいて、
     前記処理部は、
     前記学習済みモデルを用いて、前記処理対象画像に対し前記第1撮像系のデフォーカスによるボケを補正することで、前記第1撮像系の被写界深度が、前記被写界深度より広い目標拡大被写界深度に拡大された画像を推定し、
     前記所定空間周波数は、
     前記目標拡大被写界深度の近点における前記MTFの値がゼロになる、最も低い空間周波数よりも低い空間周波数であることを特徴とする情報処理システム。
  7.  請求項5に記載の情報処理システムにおいて、
     前記所定空間周波数は、
     前記第1撮像系の撮像素子のナイキスト周波数の1/5の空間周波数であることを特徴とする情報処理システム。
  8.  請求項5に記載の情報処理システムにおいて、
     前記所定値は、
     2以上に設定可能な前記物体距離の個数に基づいて決定されることを特徴とする情報処理システム。
  9.  請求項5に記載の情報処理システムにおいて、
     前記所定値は、
     0.2以下であるように設定されることを特徴とする情報処理システム。
  10.  請求項5に記載の情報処理システムにおいて、
     前記所定値は、
     0.1以下であるように設定されることを特徴とする情報処理システム。
  11.  請求項5に記載の情報処理システムにおいて、
     前記所定値は、
     0.05以下であるように設定されることを特徴とする情報処理システム。
  12.  請求項1に記載の情報処理システムにおいて、
     前記デフォーカスシミュレート処理は、
     前記所定被写体画像に対し、前記第1撮像系のそれぞれの前記物体距離におけるPSFをコンボリューション演算する処理であることを特徴とする情報処理システム。
  13.  請求項1に記載の情報処理システムにおいて、
     前記デフォーカスシミュレート処理は、
     前記所定被写体画像にフーリエ変換を行い、当該フーリエ変換の結果である前記所定被写体画像の周波数特性に対し前記第1撮像系のそれぞれの前記物体距離におけるOTFを乗算し、乗算された前記周波数特性を逆フーリエ変換する処理であることを特徴とする情報処理システム。
  14.  請求項1に記載の情報処理システムにおいて、
     前記任意の撮像系は、
     前記第1撮像系であり、
     前記デフォーカスシミュレート処理は、
     前記第1撮像系の前記フォーカスが合う物体距離における前記伝達関数または前記点像分布関数と、前記第1撮像系の前記複数の物体距離における前記伝達関数または前記点像分布関数に基づいて、前記所定被写体画像から前記第1撮像系の影響を除く処理を、
     さらに含むことを特徴とする情報処理システム。
  15.  請求項1に記載の情報処理システムにおいて、
     前記デフォーカスシミュレート処理は、
     前記任意の撮像系の前記フォーカスが合う物体距離における前記伝達関数または前記点像分布関数と、前記第1撮像系の前記複数の物体距離における前記伝達関数または前記点像分布関数に基づいて、前記任意の撮像系と前記第1撮像系の差をシミュレートする処理と、
     前記所定被写体画像を縮小する処理と、
     をさらに含み、
     前記正解画像は、
     前記ベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像を縮小した処理が行われたことで生成される画像であり、
     前記ベストフォーカスシミュレート処理は、
     前記任意の撮像系の前記フォーカスが合う物体距離での前記伝達関数または前記点像分布関数と、前記第1撮像系の前記フォーカスが合う物体距離での前記伝達関数または前記点像分布関数に基づいて、前記任意の撮像系と前記第1撮像系の差をシミュレートする処理と、
     前記所定被写体画像を縮小する処理を含む処理を、
     さらに含むことを特徴とする情報処理システム。
  16.  請求項1に記載の情報処理システムにおいて、
     前記任意の撮像系は、
     モノクロ撮像素子を含み、
     前記所定被写体画像は、
     複数の波長帯域の光が順次に照射される場合において、それぞれの前記波長帯域の光が照射されるタイミングで、前記モノクロ撮像素子により撮像された複数の画像を合成する処理によって得られる面順次式画像であり、
     前記第1撮像系は、
     互いに色が異なる複数の画素を有し、かつ、それぞれの前記画素に1色が割り当てられた同時式撮像素子を含み、
     前記デフォーカスシミュレート処理は、
     前記所定被写体画像からそれぞれの前記画素に1色が割り当てられたモザイク画像を生成する処理と、
     前記モザイク画像をデモザイキングする処理と、
     前記任意の撮像系の前記フォーカスが合う物体距離における前記伝達関数または前記点像分布関数と、前記第1撮像系の前記複数の物体距離における前記伝達関数または前記点像分布関数に基づいて、前記任意の撮像系と前記第1撮像系の差をシミュレートする処理と、
     前記所定被写体画像を縮小する処理を、
     さらに含み、
     前記正解画像は、
     前記ベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像を縮小した処理が行われたことにより生成される画像であり、
     前記ベストフォーカスシミュレート処理は、
     前記モザイク画像を生成する処理と、
     前記モザイク画像をデモザイキングする処理と、
     前記任意の撮像系の前記フォーカスが合う物体距離における前記伝達関数または前記点像分布関数と、前記第1撮像系のフォーカスが合う物体距離での物体距離における前記伝達関数または前記点像分布関数に基づいて、前記任意の撮像系と前記第1撮像系の差をシミュレートする処理と、
     前記所定被写体画像を縮小する処理を含む処理を、
     さらに含むことを特徴とする情報処理システム。
  17.  請求項1に記載の情報処理システムにおいて、
     前記フォーカスが合う物体距離は、
     ベストフォーカス条件における前記物体距離であることを特徴とする情報処理システム。
  18.  請求項1に記載の情報処理システムにおいて、
     前記複数の物体距離のうち第1物体距離は、被写界深度外の前記物体距離であり、
     前記複数の物体距離のうち第2物体距離は、被写界深度内の前記物体距離であることを特徴とする情報処理システム。
  19.  請求項1乃至18のいずれか一項に記載の情報処理システムを有するプロセッサユニットと、
     前記プロセッサユニットに接続され、前記処理対象画像を撮像する内視鏡スコープと、
     を含むことを特徴とする内視鏡システム。
  20.  学習済みモデルを記憶する記憶部と、入力部と、処理部と、出力部を含む情報処理システムに用いられ、学習画像群と正解画像とを含むデータセットによって機械学習された学習済みモデルであって、
     前記学習画像群は、
     任意の撮像系で撮像された所定被写体に前記任意の撮像系のフォーカスが合った所定被写体画像に対し、複数の物体距離における第1撮像系の伝達関数または点像分布関数に基づいて、前記第1撮像系のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像を含み、
     前記複数の学習画像の各学習画像における前記第1撮像系の光軸上の領域及び前記光軸上以外の領域に対し、前記光軸上の前記伝達関数または前記点像分布関数に基づいて前記デフォーカスシミュレート処理が行われ、
     前記正解画像は、
     前記第1撮像系のフォーカスが合う物体距離における前記伝達関数または前記点像分布関数に基づいて、前記第1撮像系のフォーカスが合う状態を前記所定被写体画像に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像そのものであり、
     前記学習済みモデルは、
     前記各学習画像が前記正解画像になるように機械学習され、
     前記入力部は、
     前記第1撮像系によって撮影された画像である処理対象画像を前記学習済みモデルに入力し、
     前記処理部は、
     前記学習済みモデルを用いて、前記処理対象画像の前記第1撮像系のデフォーカスによるボケを補正する補正処理を行い、
     前記出力部は、
     前記補正処理による補正画像を出力することを特徴とする学習済みモデル。
  21.  請求項20に記載の学習済みモデルを記憶していることを特徴とする情報記憶媒体。
  22.  学習画像群と正解画像を含むデータセットによって機械学習された学習済みモデルによって、第1撮像系によって撮影された画像である処理対象画像の前記第1撮像系のデフォーカスによるボケを補正する情報処理方法であって、
     前記学習画像群は、
     任意の撮像系で撮像された所定被写体に前記任意の撮像系のフォーカスが合った所定被写体画像に対し、複数の物体距離における前記第1撮像系の伝達関数または点像分布関数に基づいて、前記第1撮像系のデフォーカスによるボケの影響をシミュレートするデフォーカスシミュレート処理が行われたことで生成される複数の学習画像を含み、
     前記複数の学習画像の各学習画像における前記第1撮像系の光軸上の領域及び前記光軸上以外の領域に対し、前記光軸上の前記伝達関数または前記点像分布関数に基づいて前記デフォーカスシミュレート処理が行われ、
     前記正解画像は、
     前記第1撮像系のフォーカスが合う物体距離における前記伝達関数または前記点像分布関数に基づいて、前記第1撮像系のフォーカスが合う状態を前記所定被写体画像に対しシミュレートするベストフォーカスシミュレート処理が行われたことで生成される画像、または、前記所定被写体画像そのものであり、
     前記学習済みモデルは、
     前記各学習画像が前記正解画像になるように機械学習されることを特徴とする情報処理方法。
PCT/JP2022/033706 2022-09-08 2022-09-08 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法 WO2024053046A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/033706 WO2024053046A1 (ja) 2022-09-08 2022-09-08 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/033706 WO2024053046A1 (ja) 2022-09-08 2022-09-08 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2024053046A1 true WO2024053046A1 (ja) 2024-03-14

Family

ID=90192512

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/033706 WO2024053046A1 (ja) 2022-09-08 2022-09-08 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法

Country Status (1)

Country Link
WO (1) WO2024053046A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201540A (ja) * 2019-06-06 2020-12-17 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、学習済みウエイトの製造方法、および、プログラム
JP2021082118A (ja) * 2019-11-21 2021-05-27 キヤノン株式会社 学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法
JP2021140758A (ja) * 2020-03-09 2021-09-16 キヤノン株式会社 学習データの製造方法、学習方法、学習データ製造装置、学習装置、およびプログラム
JP2021168048A (ja) * 2020-04-10 2021-10-21 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、およびプログラム
JP2022514580A (ja) * 2018-12-18 2022-02-14 ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング 機械学習による光学補正
JP2022532206A (ja) * 2019-05-22 2022-07-13 エヌイーシー ラボラトリーズ アメリカ インク ぼけた画像/ビデオを用いたsfm/slamへの適用を有する畳み込みニューラルネットワークを使用した画像/ビデオのボケ除去

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022514580A (ja) * 2018-12-18 2022-02-14 ライカ マイクロシステムズ シーエムエス ゲゼルシャフト ミット ベシュレンクテル ハフツング 機械学習による光学補正
JP2022532206A (ja) * 2019-05-22 2022-07-13 エヌイーシー ラボラトリーズ アメリカ インク ぼけた画像/ビデオを用いたsfm/slamへの適用を有する畳み込みニューラルネットワークを使用した画像/ビデオのボケ除去
JP2020201540A (ja) * 2019-06-06 2020-12-17 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、学習済みウエイトの製造方法、および、プログラム
JP2021082118A (ja) * 2019-11-21 2021-05-27 キヤノン株式会社 学習方法、プログラム、学習装置、および、学習済みウエイトの製造方法
JP2021140758A (ja) * 2020-03-09 2021-09-16 キヤノン株式会社 学習データの製造方法、学習方法、学習データ製造装置、学習装置、およびプログラム
JP2021168048A (ja) * 2020-04-10 2021-10-21 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、およびプログラム

Similar Documents

Publication Publication Date Title
JP5414752B2 (ja) 画像処理方法、画像処理装置、撮像装置、および、画像処理プログラム
JP5147994B2 (ja) 画像処理装置およびそれを用いた撮像装置
JP5535053B2 (ja) 画像処理装置、及び画像処理方法
JP5709911B2 (ja) 画像処理方法、画像処理装置、画像処理プログラムおよび撮像装置
US8724008B2 (en) Image processing apparatus, image pickup apparatus, image processing method, and program for performing image restoration
JP2020201540A (ja) 画像処理方法、画像処理装置、画像処理システム、学習済みウエイトの製造方法、および、プログラム
CN107077722B (zh) 图像记录设备及用于记录图像的方法
JP5615393B2 (ja) 画像処理装置、撮像装置、画像処理方法、画像処理プログラム、および、記憶媒体
KR20090004428A (ko) 광학 설계 방법 및 시스템과 광학 수차를 갖는 광학 요소를이용한 촬상 소자
CN104956661A (zh) 图像拾取装置、图像处理装置、图像处理方法和非暂时性计算机可读存储介质
JP2016052104A (ja) 撮像装置、カメラシステム、画像処理装置および画像処理プログラム
CN111010504B (zh) 图像处理方法、装置和系统、摄像装置及存储介质
JP2011217087A (ja) 画像処理装置及びそれを用いた撮像装置
JP5730036B2 (ja) 画像処理装置、撮像装置、画像処理方法およびプログラム。
WO2024053046A1 (ja) 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法
JP5425135B2 (ja) 画像処理方法、画像処理装置、撮像装置および画像処理プログラム
WO2021090469A1 (ja) 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法
JP2020030569A (ja) 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体
JP5611439B2 (ja) 画像処理方法、画像処理装置、撮像装置、および、画像処理プログラム
JP5425136B2 (ja) 画像処理方法、画像処理装置、撮像装置および画像処理プログラム
JP5344647B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
JP6537228B2 (ja) 画像処理装置、撮像装置、画像処理方法、画像処理プログラム、および、記憶媒体
JP7414430B2 (ja) 画像処理方法、画像処理装置、撮像装置、画像処理システム、プログラム、および、記憶媒体
JP5197784B2 (ja) 撮像装置
JP2017050662A (ja) 画像処理装置、撮像装置および画像処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22958125

Country of ref document: EP

Kind code of ref document: A1