WO2021140602A1 - 画像処理システム、学習装置及び学習方法 - Google Patents

画像処理システム、学習装置及び学習方法 Download PDF

Info

Publication number
WO2021140602A1
WO2021140602A1 PCT/JP2020/000377 JP2020000377W WO2021140602A1 WO 2021140602 A1 WO2021140602 A1 WO 2021140602A1 JP 2020000377 W JP2020000377 W JP 2020000377W WO 2021140602 A1 WO2021140602 A1 WO 2021140602A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
region
observation method
detection
interest
Prior art date
Application number
PCT/JP2020/000377
Other languages
English (en)
French (fr)
Inventor
文行 白谷
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to JP2021569657A priority Critical patent/JP7346596B2/ja
Priority to PCT/JP2020/000377 priority patent/WO2021140602A1/ja
Publication of WO2021140602A1 publication Critical patent/WO2021140602A1/ja
Priority to US17/857,385 priority patent/US20220335610A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • G06T2207/30032Colon polyp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Definitions

  • the present invention relates to an image processing system, a learning device, a learning method, and the like.
  • a method of supporting diagnosis by a doctor by performing image processing on an in-vivo image is widely known.
  • attempts have been made to apply image recognition by deep learning to lesion detection and malignancy discrimination.
  • learning by deep learning cannot obtain high recognition accuracy in a situation where training data (learning data) is not abundant.
  • Non-Patent Document 1 a finer image is used after pre-training using ImageNet, which has a larger number of images, than a learner that has undergone full training using only a small number of endoscopic images. It is disclosed that the tuned learning device has higher lesion detection accuracy.
  • ImageNet is a data set consisting of general object images.
  • a special light image captured by irradiating special light may be used.
  • a method of using a dye-sprayed image captured in a state where the dye is sprayed on a subject The number of special light images and dye-sprayed images acquired is smaller than that of normal light images captured by irradiating normal light, and it is difficult to obtain high recognition accuracy even by performing machine learning such as deep learning. ..
  • Patent Document 1 and Non-Patent Document 1 there is no disclosure about learning using a special light image or a dye spray image.
  • One aspect of the present disclosure recognizes a region of interest in the processed image by operating according to a trained model and an image acquisition unit that acquires an in-vivo image captured by the endoscope imaging device as a processed image.
  • the trained model is pretrained using a first image group including an image captured in the first observation method, and includes a processing unit that performs a process of outputting a recognition result which is the result of the pretraining. Later, it is learned by fine tuning using the second image group including the image captured by the second observation method and the correct answer data regarding the area of interest included in the second image group.
  • the observation method is an observation method in which normal light is used as illumination light
  • the second observation method is an observation method in which special light is used as the illumination light or an observation method in which a dye is sprayed on a subject.
  • the second image group is related to an image processing system in which at least one image includes an image in which the region of interest is captured and the number of images is smaller than that of the first image group.
  • Another aspect of the present disclosure is an image acquisition unit that acquires a first image group including an image captured by the first observation method and a second image group including an image captured by the second observation method.
  • the processing target is performed by performing pretraining using the first image group, and after the pretraining, performing fine tuning using the correct answer data regarding the second image group and the region of interest included in the second image group.
  • the first observation method includes a learning unit that generates a trained model that outputs a recognition result of recognizing the region of interest in the image to be processed when an image is input, and the first observation method uses normal light as illumination light.
  • the second observation method is an observation method in which special light is used as the illumination light, or an observation method in which a dye is sprayed on a subject, and the second image group includes at least one.
  • the image includes an image in which the region of interest is captured, and relates to a learning device in which the number of images is smaller than that of the first image group.
  • a first image group including an image captured by the first observation method and a second image group including an image captured by the second observation method are acquired, and the first image group is obtained.
  • Pre-training is performed using the image group, and after the pre-training, the image to be processed is input by performing fine tuning using the second image group and the correct answer data regarding the region of interest included in the second image group.
  • a trained model is generated that outputs a recognition result of recognizing the region of interest in the image to be processed
  • the first observation method is an observation method using normal light as illumination light, and the second observation method.
  • the observation method is an observation method in which the special light is used as the illumination light, or an observation method in which the dye is sprayed on the subject.
  • the second image group at least one image of the area of interest is photographed. It is related to a learning method that includes images and has a smaller number of images than the first image group.
  • Configuration example of the learning device Configuration example of image processing system.
  • 5 (A) and 5 (B) are examples of neural network configurations.
  • the flowchart explaining the learning process in 1st Embodiment. A configuration example of the image processing system according to the first embodiment.
  • 13 (A) to 13 (C) are flowcharts illustrating the learning process in the second embodiment.
  • Observation methods include normal light observation, which is an observation method in which imaging is performed by irradiating normal light as illumination light, special light observation, which is an observation method in which imaging is performed by irradiating special light as illumination light, and dye as a subject. It is conceivable to observe dye spraying, which is an observation method in which imaging is performed while the light is sprayed.
  • the image captured in normal light observation is referred to as a normal light image
  • the image captured in special light observation is referred to as a special light image
  • the image captured in dye spray observation is referred to as a dye spray image. Notated as.
  • Normal light is light having intensity in a wide wavelength band among the wavelength bands corresponding to visible light, and is white light in a narrow sense.
  • the special light is light having different spectral characteristics from ordinary light, and is, for example, narrow band light having a narrower wavelength band than ordinary light.
  • NBI Near Band Imaging
  • the special light may include light in a wavelength band other than visible light such as infrared light.
  • Lights of various wavelength bands are known as special lights used for special light observation, and they can be widely applied in the present embodiment.
  • the dye in the dye application observation is, for example, indigo carmine. By spraying indigo carmine, it is possible to improve the visibility of polyps.
  • Various types of dyes and combinations of target regions of interest are also known, and they can be widely applied in the dye application observation of the present embodiment.
  • the diagnostic process by a doctor can be considered to be a process of searching for a lesion using normal light observation and a process of distinguishing the malignancy of the found lesion by using special light observation or dye spray observation. Since the special light image and the dye-sprayed image have higher visibility of the lesion than the normal light image, it is possible to accurately distinguish the malignancy.
  • Patent Document 1 a method of performing pre-training and fine tuning is known for lack of training data.
  • an image different from the endoscopic image is used for pretraining.
  • Patent Document 1 is a method in which an image of a specific subject is insufficient due to a low frame rate of a capsule endoscope.
  • Patent Document 1 does not consider the difference in the observation method between the special light image and the normal light image, and the difference in the observation method between the dye spray image and the normal light image.
  • test image here represents an image that is the target of inference processing using the learning result. That is, the conventional methods including Patent Document 1 and Non-Patent Document 1 do not disclose a method for improving the accuracy of recognition processing for special light images and dye-dispersed images.
  • learning is performed by performing pretraining using an image group including a normal light image, and after the pretraining, performing fine tuning using an image group including a special light image or a dye spray image.
  • the recognition process of the region of interest is performed using the trained model. In this way, it is possible to improve the recognition accuracy even when the special light image or the dye spray image is the target of the recognition process.
  • the region of interest in the present embodiment is an region in which the priority of observation for the user is relatively higher than that of other regions. If the user is a doctor performing diagnosis or treatment, the area of interest corresponds to, for example, the area where the lesion is imaged.
  • the region of interest may be a region that captures the foam portion or stool portion. That is, the object to be noticed by the user differs depending on the purpose of observation, but when observing the object, the area in which the priority of observation for the user is relatively higher than the other areas is the area of interest.
  • FIG. 1 is a configuration example of a system including the image processing system 200.
  • the system includes a learning device 100, an image processing system 200, and an endoscope system 300.
  • the system is not limited to the configuration shown in FIG. 1, and various modifications such as omitting some of these components or adding other components can be performed.
  • the learning device 100 generates a trained model by performing machine learning.
  • the endoscope system 300 captures an in-vivo image with an endoscope imaging device.
  • the image processing system 200 acquires an in-vivo image as a processing target image. Then, the image processing system 200 operates according to the trained model generated by the learning device 100 to perform recognition processing of the region of interest for the image to be processed.
  • the endoscope system 300 acquires and displays the recognition result. In this way, by using machine learning, it becomes possible to realize a system that supports diagnosis by a doctor or the like.
  • the learning device 100, the image processing system 200, and the endoscope system 300 may be provided as separate bodies, for example.
  • the learning device 100 and the image processing system 200 are information processing devices such as a PC (Personal Computer) and a server system, respectively.
  • the learning device 100 may be realized by distributed processing by a plurality of devices.
  • the learning device 100 may be realized by cloud computing using a plurality of servers.
  • the image processing system 200 may be realized by cloud computing or the like.
  • the endoscope system 300 is a device including an insertion unit 310, a system control device 330, and a display unit 340, for example, as will be described later with reference to FIG.
  • a part or all of the system control device 330 may be realized by a device such as a server system via a network.
  • a part or all of the system control device 330 is realized by cloud computing.
  • one of the image processing system 200 and the learning device 100 may include the other.
  • the image processing system 200 (learning device 100) is a system that executes both a process of generating a trained model by performing machine learning and a recognition process according to the trained model.
  • one of the image processing system 200 and the endoscope system 300 may include the other.
  • the system control device 330 of the endoscope system 300 includes an image processing system 200.
  • the system control device 330 executes both the control of each part of the endoscope system 300 and the recognition process according to the trained model.
  • a system including all of the learning device 100, the image processing system 200, and the system control device 330 may be realized.
  • a server system composed of one or a plurality of servers generates a trained model by performing machine learning, a recognition process according to the trained model, and control of each part of the endoscopic system 300. May be executed.
  • a server system composed of one or a plurality of servers generates a trained model by performing machine learning, a recognition process according to the trained model, and control of each part of the endoscopic system 300. May be executed.
  • the specific configuration of the system shown in FIG. 1 can be modified in various ways.
  • FIG. 2 is a configuration example of the learning device 100.
  • the learning device 100 includes an image acquisition unit 110 and a learning unit 120.
  • the image acquisition unit 110 acquires a learning image.
  • the image acquisition unit 110 is, for example, a communication interface for acquiring a learning image from another device.
  • the learning image is an image in which correct answer data is added as metadata to, for example, a normal light image, a special light image, a dye spray image, or the like.
  • the learning unit 120 generates a trained model by performing machine learning based on the acquired learning image. The details of the data used for machine learning and the specific flow of the learning process will be described later.
  • the learning unit 120 is composed of the following hardware.
  • the hardware can include at least one of a circuit that processes a digital signal and a circuit that processes an analog signal.
  • hardware can consist of one or more circuit devices mounted on a circuit board or one or more circuit elements.
  • One or more circuit devices are, for example, ICs (Integrated Circuits), FPGAs (field-programmable gate arrays), and the like.
  • One or more circuit elements are, for example, resistors, capacitors, and the like.
  • the learning unit 120 may be realized by the following processor.
  • the learning device 100 includes a memory that stores information and a processor that operates based on the information stored in the memory.
  • the information is, for example, a program and various data.
  • the processor includes hardware.
  • various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and a DSP (Digital Signal Processor) can be used.
  • the memory may be a semiconductor memory such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory), a register, or a magnetic storage device such as an HDD (Hard Disk Drive). It may be an optical storage device such as an optical disk device.
  • the memory stores instructions that can be read by a computer, and when the instructions are executed by the processor, the functions of each part of the learning unit 120 are realized as processing.
  • Each part of the learning unit 120 is, for example, each part described later with reference to FIGS. 7 and 12.
  • the instruction here may be an instruction of an instruction set constituting a program, or an instruction instructing an operation to a hardware circuit of a processor.
  • FIG. 3 is a configuration example of the image processing system 200.
  • the image processing system 200 includes an image acquisition unit 210, a processing unit 220, and a storage unit 230.
  • the image acquisition unit 210 acquires an in-vivo image captured by the imaging device of the endoscope system 300 as a processing target image.
  • the image acquisition unit 210 is realized as a communication interface for receiving an in-vivo image from the endoscope system 300 via a network.
  • the network here may be a private network such as an intranet or a public communication network such as the Internet.
  • the network may be wired or wireless.
  • the processing unit 220 performs recognition processing of the region of interest in the image to be processed by operating according to the trained model. Further, the processing unit 220 determines the information to be output based on the recognition result of the trained model.
  • the processing unit 220 is composed of hardware including at least one of a circuit for processing a digital signal and a circuit for processing an analog signal.
  • hardware can consist of one or more circuit devices mounted on a circuit board or one or more circuit elements.
  • the processing unit 220 may be realized by the following processor.
  • the image processing system 200 includes a memory that stores information such as a program and various data, and a processor that operates based on the information stored in the memory.
  • the memory here may be the storage unit 230 or may be a different memory.
  • various processors such as GPU can be used.
  • the memory can be realized by various aspects such as a semiconductor memory, a register, a magnetic storage device, and an optical storage device.
  • the memory stores instructions that can be read by a computer, and when the instructions are executed by the processor, the functions of each part of the processing unit 220 are realized as processing.
  • Each part of the processing unit 220 is, for example, each part described later with reference to FIGS. 9 and 14.
  • the storage unit 230 serves as a work area for the processing unit 220 and the like, and its function can be realized by a semiconductor memory, a register, a magnetic storage device, or the like.
  • the storage unit 230 stores the image to be processed acquired by the image acquisition unit 210. Further, the storage unit 230 stores the information of the trained model generated by the learning device 100.
  • FIG. 4 is a configuration example of the endoscope system 300.
  • the endoscope system 300 includes an insertion unit 310, an external I / F unit 320, a system control device 330, a display unit 340, and a light source device 350.
  • the insertion portion 310 is a portion whose tip side is inserted into the body.
  • the insertion unit 310 includes an objective optical system 311, an image sensor 312, an actuator 313, an illumination lens 314, a light guide 315, and an AF (Auto Focus) start / end button 316.
  • the light guide 315 guides the illumination light from the light source 352 to the tip of the insertion portion 310.
  • the illumination lens 314 irradiates the subject with the illumination light guided by the light guide 315.
  • the objective optical system 311 forms an image of the reflected light reflected from the subject as a subject image.
  • the objective optical system 311 includes a focus lens, and the position where the subject image is formed can be changed according to the position of the focus lens.
  • the actuator 313 drives the focus lens based on the instruction from the AF control unit 336.
  • AF is not indispensable, and the endoscope system 300 may be configured not to include the AF control unit 336.
  • the image sensor 312 receives light from the subject that has passed through the objective optical system 311.
  • the image pickup device 312 may be a monochrome sensor or an element provided with a color filter.
  • the color filter may be a widely known bayer filter, a complementary color filter, or another filter.
  • Complementary color filters are filters that include cyan, magenta, and yellow color filters.
  • the AF start / end button 316 is an operation interface for the user to operate the AF start / end.
  • the external I / F unit 320 is an interface for inputting from the user to the endoscope system 300.
  • the external I / F unit 320 includes, for example, an AF control mode setting button, an AF area setting button, an image processing parameter adjustment button, and the like.
  • the system control device 330 performs image processing and control of the entire system.
  • the system control device 330 includes an A / D conversion unit 331, a pre-processing unit 332, a detection processing unit 333, a post-processing unit 334, a system control unit 335, an AF control unit 336, and a storage unit 337.
  • the A / D conversion unit 331 converts the analog signals sequentially output from the image sensor 312 into a digital image, and sequentially outputs the analog signals to the preprocessing unit 332.
  • the pre-processing unit 332 performs various correction processes on the in-vivo images sequentially output from the A / D conversion unit 331, and sequentially outputs them to the detection processing unit 333 and the AF control unit 336.
  • the correction process includes, for example, a white balance process, a noise reduction process, and the like.
  • the detection processing unit 333 performs a process of transmitting, for example, an image after correction processing acquired from the preprocessing unit 332 to an image processing system 200 provided outside the endoscope system 300.
  • the endoscope system 300 includes a communication unit (not shown), and the detection processing unit 333 controls the communication of the communication unit.
  • the communication unit here is a communication interface for transmitting an in-vivo image to the image processing system 200 via a given network.
  • the detection processing unit 333 performs a process of receiving the recognition result from the image processing system 200 by controlling the communication of the communication unit.
  • the system control device 330 may include an image processing system 200.
  • the A / D conversion unit 331 corresponds to the image acquisition unit 210.
  • the storage unit 337 corresponds to the storage unit 230.
  • the pre-processing unit 332, the detection processing unit 333, the post-processing unit 334, and the like correspond to the processing unit 220.
  • the detection processing unit 333 operates according to the information of the learned model stored in the storage unit 337 to perform the recognition processing of the region of interest for the in-vivo image which is the processing target image.
  • the trained model is a neural network
  • the detection processing unit 333 performs forward arithmetic processing on the input processing target image using the weight determined by learning. Then, the recognition result is output based on the output of the output layer.
  • the post-processing unit 334 performs post-processing based on the recognition result in the detection processing unit 333, and outputs the image after the post-processing to the display unit 340.
  • various processes such as emphasizing the recognition target in the image and adding information representing the detection result can be considered.
  • the post-processing unit 334 performs post-processing to generate a display image by superimposing the detection frame detected by the detection processing unit 333 on the image output from the pre-processing unit 332.
  • the system control unit 335 is connected to the image sensor 312, the AF start / end button 316, the external I / F unit 320, and the AF control unit 336, and controls each unit. Specifically, the system control unit 335 inputs and outputs various control signals.
  • the AF control unit 336 performs AF control using images sequentially output from the preprocessing unit 332.
  • the display unit 340 sequentially displays the images output from the post-processing unit 334.
  • the display unit 340 is, for example, a liquid crystal display, an EL (Electro-Luminescence) display, or the like.
  • the light source device 350 includes a light source 352 that emits illumination light.
  • the light source 352 may be a xenon light source, an LED, or a laser light source. Further, the light source 352 may be another light source, and the light emitting method is not limited.
  • the light source device 350 can irradiate normal light and special light.
  • the light source device 350 includes a white light source and a rotation filter, and can switch between normal light and special light based on the rotation of the rotation filter.
  • the light source device 350 has a configuration capable of irradiating a plurality of lights having different wavelength bands by including a plurality of light sources such as a red LED, a green LED, a blue LED, a green narrow band light LED, and a blue narrow band light LED. You may.
  • the light source device 350 irradiates normal light by lighting a red LED, a green LED, and a blue LED, and irradiates special light by lighting a green narrow band light LED and a blue narrow band light LED.
  • various configurations of a light source device that irradiates normal light and special light are known, and they can be widely applied in the present embodiment.
  • FIG. 5A is a schematic diagram illustrating a neural network.
  • the neural network has an input layer into which data is input, an intermediate layer in which operations are performed based on the output from the input layer, and an output layer in which data is output based on the output from the intermediate layer.
  • a network in which the intermediate layer is two layers is illustrated, but the intermediate layer may be one layer or three or more layers.
  • the number of nodes (neurons) included in each layer is not limited to the example of FIG. 5 (A), and various modifications can be performed. Considering the accuracy, it is desirable to use deep learning using a multi-layer neural network for the learning of this embodiment.
  • the term "multilayer” here means four or more layers in a narrow sense.
  • the nodes included in a given layer are combined with the nodes in the adjacent layer.
  • a weighting coefficient is set for each bond.
  • Each node multiplies the output of the node in the previous stage by the weighting coefficient to obtain the total value of the multiplication results.
  • each node adds a bias to the total value and obtains the output of the node by applying an activation function to the addition result.
  • activation functions By sequentially executing this process from the input layer to the output layer, the output of the neural network is obtained.
  • Various functions such as a sigmoid function and a ReLU function are known as activation functions, and these can be widely applied in the present embodiment.
  • the weighting coefficient here includes a bias.
  • the learning device 100 inputs the input data of the training data to the neural network, and obtains the output by performing a forward calculation using the weighting coefficient at that time.
  • the learning unit 120 of the learning device 100 calculates an error function based on the output and the correct answer data of the training data. Then, the weighting coefficient is updated so as to reduce the error function.
  • an error backpropagation method in which the weighting coefficient is updated from the output layer to the input layer can be used.
  • FIG. 5B is a schematic diagram illustrating CNN.
  • the CNN includes a convolutional layer and a pooling layer that perform a convolutional operation.
  • the convolution layer is a layer to be filtered.
  • the pooling layer is a layer that performs a pooling operation that reduces the size in the vertical direction and the horizontal direction.
  • the example shown in FIG. 5B is a network in which the output is obtained by performing the calculation by the convolution layer and the pooling layer a plurality of times and then performing the calculation by the fully connected layer.
  • the fully connected layer is a layer that performs arithmetic processing when all the nodes of the previous layer are imaged with respect to the nodes of a given layer, and the arithmetic of each layer described above with reference to FIG. 5A is performed. Corresponds to. Note that in FIG. 5B, the arithmetic processing by the activation function is omitted.
  • Various configurations of CNNs are known, and they can be widely applied in the present embodiment.
  • the CNN of the present embodiment can use a known RPN (Region Proposal Network).
  • the processing procedure is the same as in FIG. 5 (A). That is, the learning device 100 inputs the input data of the training data to the CNN, and obtains an output by performing a filter process or a pooling operation using the filter characteristics at that time. An error function is calculated based on the output and the correct answer data, and the weighting coefficient including the filter characteristic is updated so as to reduce the error function.
  • the backpropagation method can be used.
  • the recognition process of the region of interest executed by the image processing system 200 includes a detection process for detecting at least one of the presence / absence, position, size, and shape of the region of interest, and a local classification process for discriminating the malignancy of the region of interest. Including.
  • the detection process is a process of obtaining information for specifying a rectangular frame area surrounding a region of interest and a detection score indicating the certainty of the frame area.
  • the frame area is referred to as a detection frame.
  • the information that identifies the detection frame is, for example, the coordinate value on the horizontal axis of the upper left end point of the detection frame, the coordinate value on the vertical axis of the end point, the length in the horizontal axis direction of the detection frame, and the length in the vertical axis direction of the detection frame. , And four numerical values. Since the aspect ratio of the detection frame changes as the shape of the region of interest changes, the detection frame corresponds to information representing the shape as well as the presence / absence, position, and size of the region of interest.
  • the area of interest which is a lesion, is classified into several types according to the malignancy.
  • the NICE classification that classifies polyps into three types, Type 1 (benign), Type 2 (slightly malignant), and Type 3 (malignant), is widely known.
  • the local classification process is a process for identifying which type of region of interest is. Further, the local classification process in the present embodiment is not limited to the process according to the NICE classification, and other classifications may be used.
  • FIG. 6 is a diagram showing a configuration of a neural network in this embodiment.
  • the neural network may include a feature amount extraction layer, a detection layer, and a local classification layer.
  • Each of the rectangular regions in FIG. 6 represents a layer that performs some calculation such as a convolution layer, a pooling layer, and a fully connected layer.
  • the configuration of the CNN of the present embodiment is not limited to FIG. 6, and various modifications can be performed.
  • the feature amount extraction layer accepts the image to be processed as an input and outputs the feature amount by performing an operation including a convolution operation and the like.
  • the detection layer takes the feature amount output from the feature amount extraction layer as an input, and outputs information representing the detection result.
  • the local classification layer receives the feature amount output from the feature amount extraction layer as an input, and outputs information representing the local classification result.
  • the learning device 100 executes a learning process for determining weighting coefficients in each of the feature amount extraction layer, the detection layer, and the local classification layer.
  • FIG. 7 is a configuration example of the learning device 100 according to the first embodiment.
  • the learning unit 120 of the learning device 100 includes a pre-training unit 121 and a fine tuning unit 122.
  • the pre-training unit 121 acquires the image group A1 as training data from the image acquisition unit 110, and performs pre-training based on the image group A1.
  • the fine tuning unit 122 acquires the image group A2 as training data from the image acquisition unit 110.
  • the fine tuning unit 122 performs fine tuning based on the image group A2 with the weighting coefficient after pretraining as an initial value.
  • the pre-training in this embodiment is a learning process using abundantly available normal optical images. That is, the image group A1 includes a plurality of learning images in which detection data, which is information related to at least one of the presence / absence, position, size, and shape of the region of interest, is added as correct answer data to the normal optical image. It is a group of images including.
  • the detection data is mask data in which the polyp region to be detected and the background region are painted in different colors.
  • the detection data may be information for identifying a detection frame surrounding the polyp.
  • the number of images included in the image group A1 is larger than that in the image group A2.
  • the number of images included in the image group A1 is about several hundred thousand, and the number of images included in the image group A2 is about tens of thousands.
  • the pre-training unit 121 performs pre-training using the image group A1. Specifically, in the neural network shown in FIG. 6, the pre-training unit 121 takes a normal optical image included in the image group A1 as an input and performs a forward calculation based on the current weighting coefficient. The pre-training unit 121 calculates the error between the output of the detection layer and the detection data which is the correct answer data as an error function, and updates the weighting coefficient so as to reduce the error function.
  • the above is the process based on one learning image, and the pre-training unit 121 executes the pre-training by repeating the above process.
  • the update of the weighting coefficient is not limited to the one performed in units of one sheet, and batch learning or the like may be used.
  • the output from the local classification layer can also be acquired in the forward calculation using the normal optical image as the input.
  • the correct answer data in the image group A1 is the detection data corresponding to the detection result, the error function cannot be obtained from the output of the local classification layer and the correct answer data. That is, in the pre-training, among the neural networks shown in FIG. 6, the weighting coefficient in the feature amount extraction layer and the weighting coefficient in the detection layer are learning targets.
  • the image group A2 is an image group including a plurality of learning images in which detection data and local classification data, which is information for distinguishing the malignancy of the region of interest, are added as correct answer data to the special light image.
  • the detection data is, for example, mask data as in the above-mentioned example.
  • the local classification data is, for example, label data representing any one of Type 1, Type 2, and Type 3 indicating the malignancy of the polyp.
  • the image group A2 may include a plurality of learning images to which the detection data and the local classification data are added as correct answer data to the normal optical image. That is, the image group A2 may be an image group including both a special light image and a normal light image. In this way, it becomes possible to generate a general-purpose learning model that can handle both a normal light image and a special light image. It is not easy to acquire abundant normal optical images to which local classification data is added, but since it is used for fine tuning here, it is not necessary to consider the decrease in accuracy due to insufficient number of images.
  • the method of the present embodiment improves the accuracy of the recognition process for a special optical image whose number of images tends to be insufficient. Therefore, it is not essential that the image group A2 includes a normal optical image.
  • the fine tuning unit 122 performs fine tuning using the image group A2. Specifically, in the neural network shown in FIG. 6, the fine tuning unit 122 takes a normal light image or a special light image included in the image group A2 as an input and performs a forward calculation based on the current weighting coefficient. The fine tuning unit 122 calculates the error between the result obtained by the forward calculation and the correct answer data as an error function, and updates the weighting coefficient so as to reduce the error function. For example, the fine tuning unit 122 obtains the weighted sum of the error between the output of the detection layer and the detection data and the error between the output of the local classification layer and the local classification data as an error function. That is, in fine tuning, among the neural networks shown in FIG. 6, all of the weighting coefficient in the feature amount extraction layer, the weighting coefficient in the detection layer, and the weighting coefficient in the local classification layer are learning targets.
  • FIG. 8 is a flowchart illustrating the learning process in the first embodiment.
  • the pre-training unit 121 pre-trains the CNN for the lesion detection task using normal optical images.
  • Pre-training for the lesion detection task is a learning process that updates the weighting coefficients of the feature sampling layer and the detection layer by using the detection data as correct answer data.
  • step S102 the fine tuning unit 122 fine-tunes the CNN for the lesion detection and local classification task using the special light image and the normal light image with the pre-training result as the initial value.
  • Fine-tuning for lesion detection and local classification tasks is a learning process that updates the weighting coefficients of the feature extraction layer, detection layer, and local classification layer by using both the detection data and the local classification data as correct answer data. ..
  • the learning device 100 sets the threshold value TH1 of the area occupancy rate related to the reliability of the local classification result of the detected lesion.
  • the method of setting the threshold value TH1 for example, validation data is prepared and set so that the misclassification rate is 10% or less.
  • the validation data is, for example, a learning image of the image group A2 that has not been used for fine tuning, and represents data to which detection data and local classification data are added to a normal light image or a special light image. Since the data is given the correct answer data, the misclassification rate of the trained model can be evaluated by using the validation data.
  • FIG. 9 is a configuration example of the image processing system 200 according to the first embodiment.
  • the processing unit 220 of the image processing system 200 includes a recognition processing unit 221 and an output processing unit 222.
  • the recognition processing unit 221 operates according to the trained model generated by the learning device 100.
  • the output processing unit 222 performs output processing based on the calculation result of the trained model.
  • FIG. 10 is a flowchart illustrating the processing of the image processing system 200 in the first embodiment.
  • the image acquisition unit 210 acquires an in-vivo image captured by the endoscope imaging device as a processing target image.
  • step S202 the recognition processing unit 221 performs a forward calculation using the image to be processed acquired by the image acquisition unit 210 as an input of the trained model.
  • the recognition processing unit 221 acquires the information representing the detection result from the detection layer and the information representing the local classification result from the local classification layer.
  • the recognition processing unit 221 acquires information on the positions and sizes of a predetermined number of detection frames in the image to be processed, and the detection score, the local classification label, and the local classification score associated with the detection frames.
  • the detection result in the present embodiment represents, for example, a detection frame, and the detection score represents the certainty of the detection result.
  • the detection score is numerical data representing the certainty that the detection frame is an area surrounding the region of interest.
  • the local classification result in the present embodiment represents, for example, a local classification label, and the local classification score is information indicating the certainty of the local classification result.
  • the output of the local classification layer has a numerical value indicating the certainty that the polyp corresponding to the detection frame is Type 1, a numerical value indicating the certainty that the polyp is Type 2, and a numerical value indicating the certainty that the polyp is Type 3.
  • the output layer of the local classification layer is a known softmax layer
  • the local classification layer outputs three probability data having a total of 1.
  • the local classification label is information that identifies the type that maximizes the probability data among Type 1 to Type 3.
  • the local classification score is, for example, the maximum value of the three probability data.
  • the output processing unit 222 generates output information based on the detection frame, the detection score, the local classification label, and the local classification score. For example, the output processing unit 222 may perform preprocessing (not shown) for comparing the detection score with the given detection threshold TH2. When the detection score of a given detection frame is less than the detection threshold TH2, the information about the detection frame is excluded from the output target because it is unreliable. Alternatively, the recognition processing unit 221 may be configured not to transmit a detection frame having a detection score of less than TH2 to the output processing unit 222.
  • step S203 the output processing unit 222 determines whether or not the area occupancy rate in the image of the region of interest is equal to or higher than the preset threshold value TH1. For example, the output processing unit 222 sets the ratio of the area of the detection frame to the area of the entire image to be processed as the area occupancy rate. If the determination result in step S203 is true, in step S204, the output processing unit 222 performs a process of outputting the detection frame and the local classification label. If the determination result in step S203 is false, in step S205, the output processing unit 222 performs a process of outputting only the detection frame.
  • the output processing unit 222 may add a detection score to the detection frame and output it, or may add a local classification score to the local classification label and output it. This makes it possible to present the reliability of the information to the user.
  • the process in step S204 or S205 is, for example, a process of generating a display image when the image processing system 200 is included in the endoscope system 300, and a process of displaying the display image on the display unit 340.
  • the process is, for example, a process of transmitting a displayed image to the endoscope system 300.
  • the above process may be a process of transmitting information representing a detection frame or a local classification label to the endoscope system 300.
  • the display image generation process and display control are executed in the endoscope system 300.
  • the image processing system 200 operates according to the trained model and the image acquisition unit 210 that acquires the in-vivo image captured by the endoscopic imaging device as the image to be processed. It includes a processing unit 220 that performs a process of outputting a recognition result which is a result of recognizing a region of interest in the image to be processed.
  • the endoscope image pickup device is an image pickup device provided in the endoscope system 300 and capable of outputting an imaging result of a subject image corresponding to a living body, and corresponds to an image pickup element 312 in a narrow sense.
  • the trained model of the present embodiment is pretrained using the first image group including the images captured by the first observation method, and after the pretraining, the second image group including the images captured by the second observation method. And, it is learned by fine tuning using the correct answer data about the region of interest included in the second image group.
  • the first image group corresponds to the image group A1 in FIG. 7, and the second image group corresponds to the image group A2.
  • the first observation method is an observation method in which normal light is used as illumination light.
  • the second observation method is an observation method in which special light is used as illumination light.
  • the second image group includes at least one image in which the region of interest is captured, and the number of images is smaller than that of the first image group.
  • machine learning pre-training is performed using the normal light image captured in the normal light observation in order to make up for the shortage of the number of learning images captured in the special light observation.
  • pre-training is a process of setting an initial value of a weighting coefficient when performing fine tuning. This makes it possible to improve the accuracy of the recognition process for the special light image as compared with the case where the pre-training is not performed.
  • the calculation in the processing unit 220 according to the trained model may be executed by software or hardware.
  • the multiply-accumulate operation executed at each node of FIG. 5A, the filter processing executed at the convolution layer of the CNN, and the like may be executed by software.
  • the above calculation may be executed by a circuit device such as FPGA.
  • the above calculation may be executed by a combination of software and hardware.
  • the operation of the processing unit 220 according to the command from the trained model can be realized by various aspects.
  • a trained model includes an inference algorithm and parameters used in the inference algorithm.
  • the inference algorithm is an algorithm that performs filter operations and the like based on input data.
  • the parameter is a parameter acquired by the learning process, and is, for example, a weighting coefficient.
  • both the inference algorithm and the parameters are stored in the storage unit 230, and the processing unit 220 may perform the inference processing by software by reading the inference algorithm and the parameters.
  • the inference algorithm may be realized by FPGA or the like, and the storage unit 230 may store the parameters.
  • an inference algorithm including parameters may be realized by FPGA or the like.
  • the storage unit 230 that stores the information of the trained model is, for example, the built-in memory of the FPGA.
  • FIG. 11 is a diagram illustrating the effect of the method of the present embodiment.
  • the horizontal axis of FIG. 11 represents the number of overdetections per image.
  • the over-detection number is the number of areas that are not polyps that are mistakenly detected as polyps.
  • the vertical axis represents sensitivity. Sensitivity represents the ratio of how many polyps were appropriately detected and appropriate local classification results were obtained among the polyps captured in the image used for verification.
  • B1 in FIG. 11 represents a sensitivity graph when only an image group to which detection data (mask data) and local classification data (classification label) are added to a special light image is trained as training data.
  • B2 is a case where pre-training is performed using an image group in which mask data is added to a normal light image, and then fine tuning is performed using an image group in which mask data and a classification label are added to a special light image. Represents a sensitivity graph.
  • B2 has improved detection and local classification sensitivity as compared with B1. That is, the method of the present embodiment makes it possible to improve the accuracy of object recognition in a special optical image. Further, in the method of the present embodiment, since both pre-training and fine-tuning are performed using in-vivo images, domain adaptation during transfer learning by fine-tuning is performed rather than pre-training with images of general objects such as ImageNet. Works well.
  • FIG. 11 illustrates the result of inputting a special light image into a fine-tuned CNN using a special light image.
  • one CNN model may be fine-tuned by mixing a normal light image and a special light image. In this case, it is possible to construct a system capable of differential diagnosis support regardless of whether a normal optical image or a special optical image is input.
  • the second observation method is an observation method using special light as illumination light
  • the second observation method may be an observation method in which the dye is sprayed on the subject.
  • the specific processing is the same as the example of the special light image, and it is possible to replace the special light image in the above description with the dye-dispersed image.
  • the area of interest in this embodiment may be a polyp.
  • the detection process for the polyp and the local classification process with high accuracy.
  • special light observation such as NBI and dye spray observation are widely used. Therefore, the method of the present embodiment, which can improve the accuracy of the process using the special light image or the dye spray image, and the polyp recognition process have a high affinity.
  • the correct answer data given to the second image group in the present embodiment includes detection data related to at least one of the presence / absence, position, size, and shape of the region of interest in the image, and malignancy of the region of interest in the image. It is data including at least one of the local classification data which shows degree.
  • the recognition results obtained by the processing unit 220 of the image processing system 200 are the detection results related to at least one of the presence / absence, position, size, and shape of the region of interest in the image, and the malignancy of the region of interest in the image. Includes at least one of the local classification results associated with.
  • the detection process and the local classification process can be performed as the recognition process.
  • the recognition process is both a detection process and a local classification process.
  • the trained model of the present embodiment may output only the detection result or may output only the local classification result. For example, when a special optical image is used for screening, it is sufficient if the detection result can be obtained. Further, if the position of the region of interest is known in the screening performed in advance, it is sufficient if the local classification result can be obtained in the observation using the special optical image.
  • the processing unit 220 of the present embodiment does not output the detection result and the local classification result acquired by the trained model as they are, but outputs only the results satisfying a given condition.
  • the output recognition result may be limited to those whose detection score is equal to or higher than a given threshold value TH2. By doing so, it is possible to suppress the output of information having low reliability, and it is possible to appropriately support the diagnosis by the user.
  • the output of the local classification label may be limited to those in which the area of the region of interest is greater than or equal to a given threshold TH1. Although a polyp having a small size on an image can be detected, it is not suitable for differentiating the malignancy of the polyp because sufficient information on the fine structure is not obtained. As shown in FIG.
  • the local classification label is acquired by performing a forward calculation with the image to be processed as an input, but when the area of the region of interest is small, the local classification is concerned.
  • the label is unreliable. In that respect, by determining whether or not the area of the region of interest is equal to or greater than a given threshold value TH1, it is possible to suppress the output of information having low reliability.
  • the process of determining the information to be output is not limited to the one using the area of the region of interest, and various modifications can be performed.
  • the processing unit 220 obtains a detection score indicating the certainty of the detection result and a local classification score indicating the certainty of the local classification result based on the trained model. Then, the processing unit 220 may output the detection result when the detection score is larger than the given detection threshold value, and may output the local classification result when the local classification score is larger than the given classification threshold value.
  • the local classification score is, for example, the maximum value of the probability data corresponding to each of Type 1 to Type 3 as described above. For example, consider a case where the probability data of Type 1 is 0.4, the probability data of Type 2 is 0.3, and the probability data of Type 3 is 0.3. In this case, since the maximum probability data is Type 1, the local classification label is "Type 1". However, the local classification score, which is the probability of Type 1, is as small as 0.4, and the difference between the probability of Type 2 and the probability of Type 3 is also small. Therefore, the reliability of the local classification label "Type 1" is low. Therefore, the output processing unit 222 does not output the local classification result when the local classification score is less than the classification threshold value.
  • the classification threshold can be set in various ways, but is, for example, a value larger than 0.5. By doing so, it is possible to suppress the output of unreliable information based on the local classification score.
  • the processing unit 220 may determine whether or not the conditions relating to at least one of the size of the region of interest, blurring, and blurring are satisfied based on the detection result. Then, when the condition is satisfied, the detection result and the local classification result are output, and when the condition is not satisfied, the detection result is output and the local classification result is not output.
  • the condition regarding the size of the region of interest is, for example, the condition that the area occupancy rate is equal to or higher than the threshold value TH1 as described above. In this way, when the region of interest is so small that it is inappropriate for discrimination, the output of the local classification result is suppressed.
  • the condition related to blur is, for example, a condition that the amount of blur is equal to or less than the blur threshold.
  • the condition regarding blur is, for example, a condition that the amount of blur is equal to or less than the blur threshold.
  • the amount of blur is an index showing the degree of blur.
  • Blurring means that the image is blurred due to the subject being out of focus.
  • the output processing unit 222 performs image processing for imparting a predetermined amount of blur to the image to be processed, and then performs a process of comparing the processed image with the original image.
  • the amount of blurring of the original image is small, the difference in the degree of blurring between the images is large, whereas when the amount of blurring of the original image is large in the first place, the change due to image processing is small and the difference in the degree of blurring between the images is small.
  • the output processing unit 222 can calculate the amount of blur based on the comparison of the two images.
  • the amount of blur is an index showing the degree of blur.
  • Blur means that the image is blurred due to the movement of the subject relative to the image pickup apparatus.
  • the bright spot is imaged by the regular reflection of the illumination light on the subject.
  • the bright spot is a region where the brightness is relatively high, and corresponds to, for example, an overexposed region.
  • the blur is small, the bright spot has a circular shape or a similar shape.
  • the output processing unit 222 can calculate the amount of blur based on the shape of the bright spot.
  • the conditions relating to size, blurring, and blurring may be determined for any one of them, or may be determined by combining two or more conditions.
  • the detection result and the local classification result are output when all the conditions are satisfied, and only the detection result is output when at least one condition is not satisfied.
  • various modifications can be made by combining a plurality of conditions.
  • the trained model of this embodiment consists of a convolutional neural network. In this way, the recognition process using the image as an input can be executed efficiently and with high accuracy.
  • CNN for object recognition, various methods such as YOLO (You only Look Once) and SSD (Single Shot Detector) are known in addition to R-CNN and a method developed from the R-CNN. Then they are widely applicable.
  • the trained model of the present embodiment has a feature amount sampling layer that outputs a feature amount based on the image to be processed, a detection layer that outputs a detection result based on the feature amount, and a feature. It may include a local classification layer that outputs a local classification result based on the quantity.
  • the weighting coefficient in the feature amount extraction layer and the detection layer is learned. Further, the weighting coefficients in the feature amount extraction layer, the detection layer, and the local classification layer are learned by fine tuning using the second image group including the image to which the detection data and the local classification data are given as correct answer data.
  • the method of this embodiment can be applied to the learning device 100.
  • the learning device 100 includes an image acquisition unit 110 and a learning unit 120.
  • the image acquisition unit 110 acquires a first image group including the image captured by the first observation method and a second image group including the image captured by the second observation method.
  • the learning unit 120 learns by performing pre-training using the first image group, and after pre-training, performing fine tuning using the correct answer data regarding the second image group and the region of interest included in the second image group. Generate a finished model.
  • the trained model is a model that outputs a recognition result of recognizing a region of interest in the processed image when the processed image is input.
  • the first observation method is an observation method in which normal light is used as illumination light
  • the second observation method is an observation method in which special light is used as illumination light or an observation method in which dye is sprayed on a subject. is there.
  • the second image group includes at least one image in which the region of interest is captured, and the number of images is smaller than that of the first image group.
  • the process performed by the learning device 100 of the present embodiment may be realized as a learning method.
  • the learning method of the present embodiment acquires a first image group including an image captured by the first observation method and a second image group including an image captured by the second observation method, and obtains a first image group. After pre-training, fine tuning is performed using the second image group and the correct answer data for the region of interest included in the second image group, so that when the image to be processed is input, This is a method of generating a trained model that outputs the recognition result of recognizing the region of interest in the image to be processed.
  • the first observation method is an observation method in which normal light is used as illumination light
  • the second observation method is an observation method in which special light is used as illumination light or an observation method in which dye is sprayed on a subject. ..
  • the learning device 100 generates one trained model, and the image processing system 200 is based on at least one trained model, and at least special light.
  • a method of recognizing a region of interest for an image or a dye-sprayed image has been described. However, the recognition process of this embodiment may be performed using a plurality of trained models.
  • the second observation method is special light observation will be described, but the second observation method may be dye spray observation. That is, the notation of special light observation or special light image in the following description can be appropriately read as dye spray observation and dye spray image.
  • FIG. 12 is a configuration example of the learning device 100 in the second embodiment.
  • the learning unit 120 of the learning device 100 includes a pre-training unit 121, an observation method mixed fine tuning unit 123, an observation method-specific fine tuning unit 124, and an observation method classification learning unit 125.
  • the pre-training unit 121 acquires the image group C1 from the image acquisition unit 110 and performs pre-training based on the image group C1.
  • the mixed fine tuning unit 123 acquires the image group C2 from the image acquisition unit 110. Observation method The mixed fine tuning unit 123 performs fine tuning based on the image group C2 with the weighting coefficient after pretraining as an initial value.
  • the fine tuning unit 124 for each observation method acquires image groups C3 and C4 from the image acquisition unit 110.
  • the fine tuning unit 124 for each observation method performs fine tuning based on the image group C3 with the weighting coefficient after pretraining as an initial value. Further, the fine tuning unit 124 for each observation method performs fine tuning based on the image group C4 with the weighting coefficient after pretraining as an initial value. That is, the fine tuning unit 124 for each observation method generates a plurality of trained models based on a plurality of different image groups.
  • the observation method classification learning unit 125 acquires the image group C5 from the image acquisition unit 110 and performs machine learning based on the image group C5.
  • the machine learning in the observation method classification learning unit 125 is, for example, full training that is not classified into pre-training and fine tuning.
  • the pre-training in this embodiment is the same as in the first embodiment. That is, the image group C1 is an image group including a plurality of learning images in which detection data is added as correct answer data to a normal optical image, similarly to the image group A1. Similar to the first embodiment, the pre-training unit 121 learns the weighting coefficient in the feature amount extraction layer and the weighting coefficient in the detection layer in the neural network of FIG.
  • the fine tuning executed by the mixed fine tuning unit 123 is a learning process for generating a highly versatile trained model that can be applied to both a normal light image and a special light image. That is, the image group C2 includes a learning image in which detection data and local classification data are added to a normal light image, and a learning image in which detection data and local classification data are added to a special light image. .. Observation method
  • the mixed fine tuning unit 123 targets all of the weighting coefficient in the feature amount extraction layer, the weighting coefficient in the detection layer, and the weighting coefficient in the local classification layer as learning targets.
  • the observation method mixing fine tuning unit 123 outputs the observation method mixing CNN as a trained model.
  • the observation method mixed CNN will be referred to as CNN_AB.
  • the fine tuning executed by the fine tuning unit 124 for each observation method is a learning process for generating a trained model specialized for either a normal light image or a special light image. That is, the image group C3 includes a learning image in which detection data and local classification data are added to a normal optical image. The image group C3 does not include the learning image to which the detection data and the local classification data are added to the special optical image, or even if it is included, the number of images is sufficiently smaller than that of the normal optical image.
  • the fine tuning unit 124 for each observation method uses the image group C3 to learn all of the weighting coefficient in the feature amount extraction layer, the weighting coefficient in the detection layer, and the weighting coefficient in the local classification layer in the neural network shown in FIG. ..
  • the fine tuning unit 124 for each observation method outputs a CNN for each observation method suitable for normal light observation as a trained model.
  • the CNN according to the observation method suitable for normal light observation is referred to as CNN_A.
  • the image group C4 includes a learning image in which detection data and local classification data are added to the special light image.
  • the image group C4 does not include the learning image to which the detection data and the local classification data are added to the normal optical image, or even if the image group C4 contains the detection data and the local classification data, the number of the learning images is sufficiently smaller than that of the special optical image.
  • the fine tuning unit 124 for each observation method uses the image group C4 to learn all of the weighting coefficient in the feature amount extraction layer, the weighting coefficient in the detection layer, and the weighting coefficient in the local classification layer in the neural network shown in FIG. ..
  • the fine tuning unit 124 for each observation method outputs a CNN for each observation method suitable for special light observation as a learned model.
  • the CNN according to the observation method suitable for special light observation is referred to as CNN_B.
  • three CNNs having the structure shown in FIG. 6 are used, and the weighting coefficient of each CNN is learned by individual fine tuning using different image groups. That is, three trained models CNN_A, CNN_B, and CNN_AB having different weighting coefficients are generated.
  • the image group C5 is a learning image in which observation method data, which is information for specifying an observation method, is added as correct answer data to a normal light image, and a learning image in which observation method data is added to a special optical image. It is a group of images including and.
  • the observation method classification learning unit 125 performs machine learning of a model including an input layer into which an image is input and an output layer in which an observation method classification result is output. Various modifications can be made to the structure of the intermediate layer of the model.
  • the observation method classification results are, for example, data representing the certainty that the input image is a normal light image captured in normal light observation and the certainty that the input image is a special light image captured in special light observation. Contains data representing.
  • the observation method classification learning unit 125 performs forward calculation based on the current weighting coefficient by inputting a normal light image or a special light image included in the image group C5.
  • the observation method classification learning unit 125 calculates the error between the observation method classification result obtained by the forward calculation and the observation method data which is the correct answer data as an error function, and sets the weighting coefficient so as to reduce the error function. Perform update processing.
  • the observation method classification learning unit 125 generates a trained model for specifying the observation method of the input image.
  • the trained model for specifying the observation method is hereinafter referred to as an observation method classification CNN.
  • observation method classification learning unit 125 can be omitted.
  • FIG. 13A is a flowchart illustrating a process of generating CNN_AB.
  • the pre-training unit 121 pre-trains CNN_AB for the lesion detection task using normal optical images.
  • the observation method mixed fine tuning unit 123 fine-tunes CNN_AB for the lesion detection and local classification task using the special light image and the normal light image with the pre-training result as the initial value.
  • FIG. 13B is a flowchart illustrating a process of generating CNN_A.
  • the pre-training unit 121 pre-trains CNN_A for the lesion detection task using a normal optical image.
  • the observation method-specific fine-tuning unit 124 fine-tunes CNN_A for the lesion detection and local classification task using only the normal optical image with the pre-training result as the initial value.
  • FIG. 13C is a flowchart illustrating a process of generating CNN_B.
  • the pre-training unit 121 pre-trains CNN_B for the lesion detection task using a normal optical image.
  • the observation method-specific fine-tuning unit 124 fine-tunes CNN_B for the lesion detection and local classification task using only the special optical image with the pre-training result as the initial value.
  • FIG. 14 is a configuration example of the image processing system 200 according to the second embodiment.
  • the processing unit 220 of the image processing system 200 includes an observation method mixed recognition processing unit 223, an observation method-specific recognition processing unit 224, an observation method classification unit 225, an integrated processing unit 226, and an output processing unit 227.
  • Observation method The mixed recognition processing unit 223 operates according to the CNN_AB generated by the learning device 100.
  • the observation method-specific recognition processing unit 224 operates according to at least one of CNN_A and CNN_B generated by the learning device 100.
  • the observation method classification unit 225 operates according to the observation method classification CNN generated by the learning device 100.
  • the integrated processing unit 226 performs integrated processing of the recognition result by the observation method mixed recognition processing unit 223 and the recognition result by the observation method-specific recognition processing unit 224.
  • the output processing unit 227 performs output processing based on the integrated processing result.
  • FIG. 15 is a flowchart illustrating the processing of the image processing system 200 in the second embodiment.
  • the image acquisition unit 210 acquires an in-vivo image captured by the endoscope imaging device as a processing target image.
  • step S402 the observation method mixing recognition processing unit 223 performs a forward calculation using the processing target image acquired by the image acquisition unit 210 as an input of CNN_AB.
  • the recognition processing unit 221 acquires the information representing the detection result from the detection layer and the information representing the local classification result from the local classification layer.
  • the observation method classification unit 225 performs an observation method classification process for determining whether the image to be processed is a normal light image or a special light image. For example, the observation method classification unit 225 inputs the processing target image acquired by the image acquisition unit 210 into the observation method classification CNN, so that the probability data indicating the probability that the processing target image is a normal optical image and the processing target image are Acquire probability data representing the probability of being a special light image. The observation method classification unit 225 performs the observation method classification process based on the magnitude relationship between the two probability data.
  • the observation method classification unit 225 may perform the observation method classification process without using the trained model. For example, the observation method classification unit 225 may perform the observation method classification process of which lighting state is in the state by acquiring the signal from the changeover switch between the normal light illumination and the special light illumination. Alternatively, the observation method classification unit 225 may perform the observation method classification process based on the color distribution or the like of the image to be processed. For example, since the special light image which is an NBI image is a pseudo color image, there is a large difference in color distribution from the normal light image.
  • the observation method classification unit 225 may perform the observation method classification process using the trained model, or observe without using the trained model.
  • Method classification processing may be performed.
  • the observation method classification unit 225 may perform the observation method classification process based on the color distribution of the image to be processed and the like. For example, when indigo carmine is sprayed, the dye sprayed image has a stronger blue color than the normal light image.
  • the observation method classification process may be performed by having the user input whether or not the dye has been sprayed.
  • step S404 the observation method-specific recognition processing unit 224 determines whether the observation method is normal light observation or special light observation based on the result of the observation method classification process.
  • step S405 the observation method-specific recognition processing unit 224 performs a forward calculation using the processing target image acquired by the image acquisition unit 210 as an input of CNN_A.
  • the observation method-specific recognition processing unit 224 acquires information representing the detection result from the detection layer and information representing the local classification result from the local classification layer.
  • step S406 the integrated processing unit 226 performs integrated processing of the recognition result by CNN_AB and the recognition result by CNN_A. Even if the detection results of the same region of interest are obtained, the position and size of the detection frame output by CNN_AB and the position and size of the detection frame output by CNN_A do not always match. In addition, the local classification label associated with the detection frame may be different. At that time, if both the recognition result by CNN_AB and the recognition result by CNN_A are output, a plurality of different information will be displayed for one attention area, which will confuse the user.
  • the integrated processing unit 226 determines whether the detection frame detected by CNN_AB and the detection frame detected by CNN_A are regions corresponding to the same region of interest. For example, the integrated processing unit 226 calculates an IOU (Intersection Over Union) indicating the degree of overlap between the detection frames, and determines that the two detection frames correspond to the same region of interest when the IOU is equal to or greater than the threshold value. Since the IOU is known, detailed description thereof will be omitted. Further, the threshold value of the IOU is, for example, about 0.5, but various modifications can be made to the specific numerical values.
  • IOU Intersection Over Union
  • the integrated processing unit 226 determines whether or not the local classification labels match for the two detection frames determined to correspond to the same region of interest. For example, when the NICE classification is used, the integrated processing unit 226 determines whether or not the type having the largest value of the probability data among Types 1 to 3 matches. When the local classification labels are different, for example, the integrated processing unit 226 selects the local classification label having the larger local classification score and performs the integrated processing to erase the local classification label having the smaller local classification score. When the local classification labels match, the integrated processing unit 226 selects the larger value of the local classification score output from CNN_AB and the local classification score output from CNN_A, or two. The local classification score is updated by the process of finding the average value of the values.
  • step S407 the observation method-specific recognition processing unit 224 performs a forward calculation using the processing target image acquired by the image acquisition unit 210 as an input of CNN_B. ..
  • the observation method-specific recognition processing unit 224 acquires the information representing the detection result from the detection layer and the information representing the local classification result from the local classification layer.
  • step S408 the integrated processing unit 226 performs integrated processing of the recognition result by CNN_AB and the recognition result by CNN_B.
  • the flow of the integrated process is the same as in step S406.
  • the output of the integrated processing is information representing a number of detection frames corresponding to the number of areas of interest in the image to be processed, a detection score in each detection frame, a local classification label, and a local classification score. Therefore, the output processing unit 227 performs the same output processing as the output processing unit 222 in the first embodiment. For example, the output processing unit 227 selects the information to be output by performing comparison processing between the area occupancy rate and TH1 and comparison processing between the detection score and TH2.
  • the processing unit 220 of the present embodiment has the first recognition result obtained by operating according to the first trained model and the second recognition result obtained by operating according to the second trained model. Performs integrated processing and outputs the result of integrated processing as a recognition result.
  • the first trained model is, for example, CNN_AB.
  • the second trained model is, for example, CNN_A or CNN_B.
  • the training model CNN_A or CNN_B for each observation method has higher accuracy
  • the observation methods are mixed.
  • the trained model, CNN_AB has higher accuracy.
  • the data balance represents the ratio of the number of images in the image group used for learning.
  • the data balance of the observation method changes depending on various factors such as the operating status of the endoscope system that is the data collection source and the status of assigning correct answer data. In addition, when collecting continuously, it is expected that the data balance will change over time. In the learning device 100, it is possible to adjust the data balance and change the learning process according to the data balance, but the load of the learning process becomes large. Further, although it is possible to change the inference processing in the image processing system 200 in consideration of the data balance in the learning stage, it is necessary to acquire information on the data balance or to branch the processing according to the data balance. Yes, the load is heavy. In that respect, by performing the integrated processing as described above, it is possible to present complementary and highly accurate results regardless of the data balance without increasing the processing load.
  • the processing unit 220 obtains a first region as a detection result, which is a region corresponding to the region of interest by operating according to the first trained model, and operates according to the second trained model in the region corresponding to the region of interest. A certain second region is obtained as a detection result. Then, the processing unit 220 determines whether or not the first region and the second region correspond to the same region of interest based on the degree of overlap between the first region and the second region.
  • the two regions output from the two trained models are information targeting the same region of interest. Therefore, for example, it is possible to suppress the presentation of a plurality of different information for the same region of interest.
  • the first region and the second region may be detection frames that are frames surrounding the region of interest in the image.
  • the processing unit 220 calculates the IOU, which is the degree of overlap between the detection frame corresponding to the first region and the detection frame corresponding to the second region, and when the IOU is equal to or higher than a predetermined threshold value, the first region and the second region It is determined that the region corresponds to the same region of interest.
  • the two detection frames are information targeting the same attention region based on the IOUs of the two detection frames. Therefore, it is possible to suppress the presentation of a plurality of different information for the same attention area.
  • the processing unit 220 determines that the first region and the second region correspond to the same region of interest, and the local classification result corresponding to the first region and the local classification result corresponding to the second region are different. In some cases, a process of selecting a local classification result having a large local classification score indicating the certainty of the local classification result may be performed.
  • the local classification result here specifically represents a local classification label. In this way, even if the local classification results for the same region of interest are different, it is possible to output a more probable local classification result.
  • the trained model of the present embodiment includes a trained model for the second observation method trained by pretraining using the first image group and fine tuning using the second image group, and a first image. Includes a trained model for the first observation method that has been pretrained with the group and trained by fine tuning with a third image group that includes the images captured in the first observation method.
  • the first image group corresponds to C1 in FIG. 12, and is an image group composed of images to which detection data is added to a normal optical image.
  • the second image group corresponds to C4 and is an image group composed of images to which detection data and local classification data are added to a special light image.
  • the third image group corresponds to C3 and consists of an image in which detection data and local classification data are added to a normal light image and an image in which detection data and local classification data are added to a special light image. It is a group.
  • the trained model for the second observation method corresponds to CNN_B
  • the trained model for the first observation method corresponds to CNN_A.
  • the processing unit 220 determines that the image to be processed is an image captured by the first observation method
  • the processing unit 220 outputs a recognition result based on the trained model for the first observation method
  • the image to be processed is the image captured by the second observation method.
  • the recognition result based on the trained model for the second observation method is output.
  • the processing unit 220 switches between operating according to the trained model for the first observation method and operating according to the trained model for the second observation method based on the result of the imaging classification process.
  • the observation method-specific recognition processing unit 224 performs both the recognition processing based on CNN_A and the recognition processing based on CNN_B, and outputs either one to the integrated processing unit 226 based on the observation method classification result. It may be configured.
  • the first image group is an image in which detection data related to at least one of the presence / absence, position, size, and shape of the region of interest is added as correct answer data to the image captured by the first observation method.
  • the third image group includes an image in which the detection data and the local classification data indicating the malignancy of the region of interest are added as correct answer data to the image captured by the first observation method.
  • the recognition process of this embodiment performs a local classification process in addition to the detection process. Since ordinary optical images are often used for lesion detection, abundant ordinary optical images to which detection data are attached can be obtained. That is, the number of the first image group is relatively large. However, since there is no local classification data, it is not possible to generate a trained model that performs local classification processing from the first image group. In addition, abundant normal optical images to which local classification data are added cannot be obtained, and the number of third image groups is relatively small. Therefore, even if full training is performed using only the third image group, the accuracy of the recognition process cannot be improved due to the insufficient number of images. In that respect, by performing pretraining using the first image group and fine tuning using the third image group, a trained model capable of performing detection processing and local classification processing on a normal optical image with high accuracy can be obtained. Can be generated.
  • the second observation method is either special light observation or dye spray observation.
  • the special light observation and the dye spray observation are not limited to one of which is the treatment target, and both of them may be the treatment target. That is, the observation method in the third embodiment includes three observation methods: normal light observation, special light observation, and dye spray observation.
  • the configuration of the pre-training unit 121 of the learning device 100 is the same as that of the first embodiment and the second embodiment.
  • the image group used for fine tuning includes an image group A consisting of an image in which detection data and local classification data are added to a normal light image, and an image group B consisting of an image in which detection data and local classification data are added to a special light image.
  • Image group C consisting of images to which detection data and local classification data are added to dye-sprayed images
  • image group AB in which normal light images and special light images are mixed
  • image group BC in which special light images and dye-sprayed images are mixed
  • Seven types are conceivable: an image group CA in which a dye-sprayed image and a normal light image are mixed, and an image group ABC in which a normal light image, a special light image, and a dye-sprayed image are mixed.
  • the observation method mixed fine tuning unit 123 has fine tuning that generates CNN_ABC based on the image group ABC, fine tuning that generates CNN_AB based on the image group AB, and fine tuning that generates CNN_BC based on the image group BC. Tuning and fine tuning to generate CNN_CA based on the image group CA are performed.
  • the fine tuning unit 124 for each observation method includes fine tuning that generates CNN_A based on the image group A, fine tuning that generates CNN_B based on the image group B, and fine tuning that generates CNN_C based on the image group C. ,I do.
  • the observation method classification unit 225 performs an observation method classification process for determining whether the observation method in which the image to be processed is captured is normal light observation, special light observation, or dye spray observation.
  • the observation method classification process may be performed using the trained model or may be performed using the color distribution of the image to be processed, as in the second embodiment.
  • the observation method mixed recognition processing unit 223 acquires three recognition results using CNN_AB, CNN_CA, and CNN_ABC.
  • the recognition processing unit 224 for each observation method acquires one recognition result using CNN_A.
  • the integrated processing unit 226 performs integrated processing of the four acquired recognition results. The number of integration targets is increased to four, but the specific flow of integration processing is the same as that of the second embodiment. That is, the integrated processing unit 226 determines whether or not the plurality of detection frames correspond to the same region of interest based on the degree of overlap of the detection frames. If it is determined that they correspond to the same region of interest, the local classification labels of each detection frame are compared. When the local classification labels are different, for example, the process of selecting the local classification label having the maximum local classification score is performed. If the local classification labels match, the local classification score is updated using the maximum or average value of the local classification score.
  • the observation method mixed recognition processing unit 223 acquires three recognition results using CNN_AB, CNN_BC, and CNN_ABC.
  • the recognition processing unit 224 for each observation method acquires one recognition result using CNN_B.
  • the integrated processing unit 226 performs integrated processing of the four acquired recognition results.
  • the observation method mixed recognition processing unit 223 acquires three recognition results using CNN_BC, CNN_CA, and CNN_ABC.
  • the recognition processing unit 224 for each observation method acquires one recognition result using CNN_C.
  • the integrated processing unit 226 performs integrated processing of the four acquired recognition results.
  • the method of the present disclosure can be extended even when there are three or more observation methods. By integrating a plurality of recognition results, it is possible to present a more accurate recognition result.
  • Objective optical system 312 ... Imaging element, 313 ... Actuator, 314 ... Illumination lens, 315 ... Light guide, 316 ... AF start / end button, 320 ... External I / F unit, 330 ... System control device, 331 ... A / D conversion unit, 332 ... Preprocessing unit, 333 ... Detection processing unit, 334 ... Post-processing unit, 335 ... System control unit, 336 ... Control unit, 337 ... Storage unit, 340 ... Display unit, 350 ... Light source device, 352 ... Light source

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Evolutionary Computation (AREA)
  • Surgery (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)

Abstract

画像処理システム(200)は、生体内画像を処理対象画像として取得する画像取得部(210)と、学習済モデルに従って動作することによって、処理対象画像において注目領域を認識した結果である認識結果を出力する処理部(220)を含む。学習済モデルは、第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、プレトレーニング後に、第2観察方法において撮像された画像を含む第2画像群と、第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングされる。第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、特殊光を照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法である。

Description

画像処理システム、学習装置及び学習方法
 本発明は、画像処理システム、学習装置及び学習方法等に関する。
 生体内画像を対象とした画像処理を行うことによって、医師による診断をサポートする手法が広く知られている。特に、ディープラーニングによる画像認識を病変検出や悪性度鑑別に応用する試みがなされている。ただしディープラーニングによる学習は、訓練データ(学習データ)が豊富にない状況では、高い認識精度が得られない。
 例えば非特許文献1には、枚数の少ない内視鏡画像のみでフルトレーニングを行った学習器よりも、枚数の多いImage Netを用いてプレトレーニングを行った後、内視鏡画像を用いてファインチューニングを行った学習器の方が病変検出精度が高い旨が開示されている。Image Netとは、一般物体画像からなるデータセットである。
 また特許文献1には、フレームレートが低いカプセル内視鏡画像に対し、フレームレートが高い内視鏡画像をプレトレーニングに用いることによって、胃の幽門や大腸の回盲弁等のランドマークが写っている学習用画像の不足等を補う手法が開示されている。
国際公開第2017/175282号
Nima Tajbakhsh et al., "Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning?", lEEE TRANSACTlONS ON MEDICAL IMAGlNG. 2016.05.NO.5 , p.1229-1312
 内視鏡撮像装置を用いた観察においては、特殊光を照射することによって撮像される特殊光画像が用いられる場合がある。また、被写体に対して色素散布を行った状態で撮像される色素散布画像を用いる手法も知られている。特殊光画像や色素散布画像は、通常光を照射することによって撮像される通常光画像に比べて取得される枚数が少なく、ディープラーニング等の機械学習を行っても高い認識精度を得ることが難しい。特許文献1や非特許文献1等の従来手法においては、特殊光画像や色素散布画像を用いた学習について開示がない。
 本開示のいくつかの態様によれば、特殊光観察や色素散布観察等の観察方法における学習用画像が不足する場合であっても、注目領域を高い精度で認識するための画像処理システム、学習装置及び学習方法等を提供できる。
 本開示の一態様は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する画像取得部と、学習済モデルに従って動作することによって、前記処理対象画像において注目領域を認識した結果である認識結果を出力する処理を行う処理部と、を含み、前記学習済モデルは、第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、前記プレトレーニング後に、第2観察方法において撮像された画像を含む第2画像群と、前記第2画像群に含まれる前記注目領域に関する正解データを用いてファインチューニングされることによって学習されており、前記第1観察方法は、通常光を照明光とする観察方法であり、前記第2観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、前記第2画像群は、少なくとも1枚は前記注目領域が撮影されている画像を含み、且つ、前記第1画像群よりも枚数が少ない画像処理システムに関係する。
 本開示の他の態様は、第1観察方法において撮像された画像を含む第1画像群と、第2観察方法において撮像された画像を含む第2画像群と、を取得する画像取得部と、前記第1画像群を用いてプレトレーニングを行い、前記プレトレーニング後に、前記第2画像群と、前記第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成する学習部と、を含み、前記第1観察方法は、通常光を照明光とする観察方法であり、前記第2観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、前記第2画像群は、少なくとも1枚は前記注目領域が撮影されている画像を含み、且つ、前記第1画像群よりも枚数が少ない学習装置に関係する。
 本開示のさらに他の態様は、第1観察方法において撮像された画像を含む第1画像群と、第2観察方法において撮像された画像を含む第2画像群と、を取得し、前記第1画像群を用いてプレトレーニングを行い、前記プレトレーニング後に、前記第2画像群と、前記第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成し、前記第1観察方法は、通常光を照明光とする観察方法であり、前記第2観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、前記第2画像群は、少なくとも1枚は前記注目領域が撮影されている画像を含み、且つ、前記第1画像群よりも枚数が少ない学習方法に関係する。
画像処理システムを含むシステムの概略構成例。 学習装置の構成例。 画像処理システムの構成例。 内視鏡システムの構成例。 図5(A)、図5(B)はニューラルネットワークの構成例。 本実施形態におけるCNNの構成例。 第1の実施形態における学習装置の構成例。 第1の実施形態における学習処理を説明するフローチャート。 第1の実施形態における画像処理システムの構成例。 第1の実施形態における認識処理を説明するフローチャート。 本実施形態の手法による効果を説明する図。 第2の実施形態における学習装置の構成例。 図13(A)~図13(C)は第2の実施形態における学習処理を説明するフローチャート。 第2の実施形態における画像処理システムの構成例。 第2の実施形態における認識処理を説明するフローチャート。
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
1.概要
 医師が内視鏡システムを用いて診断等を行う際、種々の観察方法が用いられる。ここでの観察とは、具体的には撮像画像を用いて被写体の状態を見ることである。撮像画像とは、具体的には生体内画像である。内視鏡装置の照明光の種類や、被写体の状態に応じて、観察方法が変化する。観察方法としては、通常光を照明光として照射することによって撮像を行う観察方法である通常光観察、特殊光を照明光として照射することによって撮像を行う観察方法である特殊光観察、染料を被写体に散布した状態で撮像を行う観察方法である色素散布観察等が考えられる。以下の説明においては、通常光観察において撮像される画像を通常光画像と表記し、特殊光観察において撮像される画像を特殊光画像と表記し、色素散布観察において撮像される画像を色素散布画像と表記する。
 通常光とは、可視光に対応する波長帯域のうち、広い波長帯域において強度を有する光であって、狭義には白色光である。特殊光とは、通常光とは分光特性が異なる光であり、例えば通常光に比べて波長帯域が狭い狭帯域光である。特殊光を用いた観察手法としては、例えば390~445nmに対応する狭帯域光と、530~550nmに対応する狭帯域光を用いたNBI(Narrow Band Imaging)が考えられる。また特殊光は、赤外光等の可視光以外の波長帯域の光を含んでもよい。特殊光観察に用いられる特殊光は種々の波長帯域の光が知られており、本実施形態においてはそれらを広く適用可能である。色素散布観察における染料は、例えばインジゴカルミンである。インジゴカルミンを散布することによって、ポリープの視認性を向上させることが可能である。染料の種類や対象となる注目領域の組み合わせも種々知られており、本実施形態の色素散布観察においてはそれらを広く適用可能である。
 例えば医師による診断工程は、通常光観察を用いて病変を探す工程と、特殊光観察や色素散布観察を用いて、見つかった病変の悪性度の鑑別を行う工程とが考えられる。特殊光画像や色素散布画像は、通常光画像に比べて病変の視認性が高いため、悪性度の鑑別を精度よく行うことが可能になる。
 上述したように、医師による診断をサポートする目的で、ディープラーニングによる画像認識を病変検出や悪性度鑑別に応用する試みがなされている。ディープラーニングによる学習は、訓練データが豊富にない状況では、高い認識精度が得られない。特殊光画像や色素散布画像は、通常光画像のように豊富に得られるとは限らないので、訓練データが豊富にない状況に該当する。
 訓練データの不足に対して、特許文献1や非特許文献1に示すように、プレトレーニングとファインチューニングを行う手法が知られている。しかし非特許文献1は、プレトレーニングに内視鏡画像とは異なる画像が用いられている。プレトレーニングとファインチューニングにおけるカテゴリの違いが大きく、内視鏡画像を対象とした認識精度の向上効果が十分でない可能性がある。また特許文献1は、カプセル内視鏡のフレームレートの低さに起因して、特定の被写体を撮像した画像が不足することを考慮した手法である。特許文献1においては、特殊光画像と通常光画像の間の観察方法の違い、及び色素散布画像と通常光画像の間の観察方法の違いが考慮されていない。ディープラーニングでは、学習に用いた画像群と異なる条件で撮影されたテスト画像に対する認識性能が低下する。ここでのテスト画像とは、学習結果を用いた推論処理の対象となる画像を表す。即ち、特許文献1及び非特許文献1を含む従来手法は、特殊光画像や色素散布画像を対象とした認識処理の精度を向上させる手法を開示していない。
 本実施形態の手法においては、通常光画像を含む画像群を用いてプレトレーニングを行い、当該プレトレーニング後に、特殊光画像又は色素散布画像を含む画像群を用いてファインチューニングを行うことによって学習された学習済モデルを用いて、注目領域の認識処理が行われる。このようにすれば、特殊光画像や色素散布画像を認識処理の対象とする場合であっても、認識精度を高くすることが可能になる。なお、本実施形態における注目領域とは、使用者にとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。
 以下、まず図1~図4を用いて本実施形態に係る画像処理システム200を含むシステムの概略構成を説明する。その後、第1~第3の実施形態において、具体的な手法や処理の流れについて説明する。
 図1は、画像処理システム200を含むシステムの構成例である。システムは、学習装置100と、画像処理システム200と、内視鏡システム300を含む。ただしシステムは図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。
 学習装置100は、機械学習を行うことによって学習済モデルを生成する。内視鏡システム300は、内視鏡撮像装置によって生体内画像を撮像する。画像処理システム200は、生体内画像を処理対象画像として取得する。そして画像処理システム200は、学習装置100が生成した学習済モデルに従って動作することによって、処理対象画像を対象とした注目領域の認識処理を行う。内視鏡システム300は、認識結果を取得、表示する。このようにすれば、機械学習を用いることによって、医師による診断等をサポートするシステムを実現することが可能になる。
 学習装置100、画像処理システム200、内視鏡システム300は、例えばそれぞれが別体として設けられてもよい。学習装置100及び画像処理システム200は、それぞれが例えばPC(Personal Computer)やサーバシステム等の情報処理装置である。なお学習装置100は、複数の装置による分散処理によって実現されてもよい。例えば学習装置100は複数のサーバを用いたクラウドコンピューティングによって実現されてもよい。画像処理システム200も同様に、クラウドコンピューティング等によって実現されてもよい。内視鏡システム300は、例えば図4を用いて後述するように、挿入部310と、システム制御装置330と、表示部340とを含む装置である。ただし、システム制御装置330の一部又は全部が、サーバシステム等のネットワークを介した機器によって実現されてもよい。例えばシステム制御装置330の一部又は全部は、クラウドコンピューティングによって実現される。
 また、画像処理システム200及び学習装置100の一方が他方を含んでもよい。この場合、画像処理システム200(学習装置100)は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った認識処理の両方を実行するシステムである。また画像処理システム200及び内視鏡システム300の一方が、他方を含んでもよい。例えば、内視鏡システム300のシステム制御装置330が画像処理システム200を含む。この場合、システム制御装置330は、内視鏡システム300の各部の制御と、学習済モデルに従った認識処理の両方を実行する。或いは、学習装置100、画像処理システム200、システム制御装置330の全てを含むシステムが実現されてもよい。例えば、1又は複数のサーバからなるサーバシステムが、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った認識処理と、内視鏡システム300の各部の制御と、を実行してもよい。以上のように、図1に示すシステムの具体的な構成は種々の変形実施が可能である。
 図2は、学習装置100の構成例である。学習装置100は、画像取得部110と、学習部120を含む。画像取得部110は、学習用画像を取得する。画像取得部110は、例えば他の装置から学習用画像を取得するための通信インターフェースである。学習用画像とは、例えば通常光画像、特殊光画像、色素散布画像等に対して、正解データがメタデータとして付与された画像である。学習部120は、取得した学習用画像に基づいて機械学習を行うことによって学習済モデルを生成する。機械学習に用いられるデータの詳細、及び学習処理の具体的な流れについては後述する。
 学習部120は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
 また学習部120は、下記のプロセッサにより実現されてもよい。学習装置100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、学習部120の各部の機能が処理として実現されることになる。学習部120の各部とは、例えば図7及び図12を用いて後述する各部である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
 図3は、画像処理システム200の構成例である。画像処理システム200は、画像取得部210と、処理部220と、記憶部230を含む。
 画像取得部210は、内視鏡システム300の撮像装置によって撮像された生体内画像を、処理対象画像として取得する。例えば画像取得部210は、内視鏡システム300からネットワークを介して生体内画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。
 処理部220は、学習済モデルに従って動作することによって、処理対象画像における注目領域の認識処理を行う。また処理部220は、学習済モデルの認識結果に基づいて、出力する情報を決定する。処理部220は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成される。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。
 また処理部220は、下記のプロセッサにより実現されてもよい。画像処理システム200は、プログラムと各種のデータ等の情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部230であってもよいし、異なるメモリであってもよい。プロセッサは、GPU等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリ、レジスタ、磁気記憶装置、光学式記憶装置等、種々の態様により実現可能である。メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部220の各部の機能が処理として実現される。処理部220の各部とは、例えば図9及び図14を用いて後述する各部である。
 記憶部230は、処理部220等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。記憶部230は、画像取得部210が取得した処理対象画像を記憶する。また記憶部230は、学習装置100によって生成された学習済モデルの情報を記憶する。
 図4は、内視鏡システム300の構成例である。内視鏡システム300は、挿入部310と、外部I/F部320と、システム制御装置330と、表示部340と、光源装置350を含む。
 挿入部310は、その先端側が体内へ挿入される部分である。挿入部310は、対物光学系311、撮像素子312、アクチュエータ313、照明レンズ314、ライトガイド315、AF(Auto Focus)開始/終了ボタン316を含む。
 ライトガイド315は、光源352からの照明光を、挿入部310の先端まで導光する。照明レンズ314は、ライトガイド315によって導光された照明光を被写体に照射する。対物光学系311は、被写体から反射した反射光を、被写体像として結像する。対物光学系311は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ313は、AF制御部336からの指示に基づいて、フォーカスレンズを駆動する。なお、AFは必須ではなく、内視鏡システム300はAF制御部336を含まない構成であってもよい。
 撮像素子312は、対物光学系311を経由した被写体からの光を受光する。撮像素子312はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
 AF開始/終了ボタン316は、ユーザがAFの開始/終了を操作するための操作インターフェースである。外部I/F部320は、内視鏡システム300に対するユーザからの入力を行うためのインターフェースである。外部I/F部320は、例えばAF制御モードの設定ボタン、AF領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。
 システム制御装置330は、画像処理やシステム全体の制御を行う。システム制御装置330は、A/D変換部331、前処理部332、検出処理部333、後処理部334、システム制御部335、AF制御部336、記憶部337を含む。
 A/D変換部331は、撮像素子312から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部332に順次出力する。前処理部332は、A/D変換部331から順次出力される生体内画像に対して、各種補正処理を行い、検出処理部333、AF制御部336に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。
 検出処理部333は、例えば前処理部332から取得した補正処理後の画像を、内視鏡システム300の外部に設けられる画像処理システム200に送信する処理を行う。内視鏡システム300は不図示の通信部を含み、検出処理部333は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体内画像を画像処理システム200に送信するための通信インターフェースである。また検出処理部333は、通信部の通信制御を行うことによって、画像処理システム200から認識結果を受信する処理を行う。
 或いは、システム制御装置330は、画像処理システム200を含んでもよい。この場合、A/D変換部331が、画像取得部210に対応する。記憶部337が、記憶部230に対応する。前処理部332、検出処理部333、後処理部334等が、処理部220に対応する。この場合、検出処理部333は、記憶部337に記憶される学習済モデルの情報に従って動作することによって、処理対象画像である生体内画像を対象として、注目領域の認識処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部333は、入力である処理対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、認識結果を出力する。
 後処理部334は、検出処理部333における認識結果に基づく後処理を行い、後処理後の画像を表示部340に出力する。ここでの後処理は、画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部334は、前処理部332から出力された画像に対して、検出処理部333において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。
 システム制御部335は、撮像素子312、AF開始/終了ボタン316、外部I/F部320、AF制御部336と互いに接続され、各部を制御する。具体的には、システム制御部335は、各種制御信号の入出力を行う。AF制御部336は、前処理部332から順次出力される画像を用いてAF制御を行う。
 表示部340は、後処理部334から出力される画像を順次表示する。表示部340は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。光源装置350は、照明光を発光する光源352を含む。光源352は、キセノン光源であってもよいし、LEDであってもよいし、レーザー光源であってもよい。また光源352は他の光源であってもよく、発光方式は限定されない。
 なお、光源装置350は、通常光と特殊光を照射可能である。例えば光源装置350は、白色光源と回転フィルタを含み、回転フィルタの回転に基づいて、通常光と特殊光を切り替え可能である。或いは光源装置350は、赤色LED、緑色LED、青色LED、緑色狭帯域光LED、青色狭帯域光LED等の複数の光源を含むことによって、波長帯域の異なる複数の光を照射可能な構成であってもよい。光源装置350は、赤色LED、緑色LED、青色LEDを点灯させることによって通常光を照射し、緑色狭帯域光LED、青色狭帯域光LEDを点灯させることによって特殊光を照射する。ただし、通常光及び特殊光を照射する光源装置の構成は種々知られており、本実施形態においてはそれらを広く適用可能である。
2.第1の実施形態
2.1 学習処理
 まず機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
 図5(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図5(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は図5(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には4層以上である。
 図5(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
 ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置100は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置100の学習部120は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
 またニューラルネットワークは例えばCNN(Convolutional Neural Network)であってもよい。図5(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図5(B)に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結像される場合の演算処理を行う層であり、図5(A)を用いて上述した各層の演算に対応する。なお、図5(B)では活性化関数による演算処理を省略している。CNNは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態のCNNは、公知のRPN(Region Proposal Network)を利用できる。
 CNNを用いる場合も、処理の手順は図5(A)と同様である。即ち、学習装置100は、訓練データのうちの入力データをCNNに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。CNNの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
 次に、本実施形態における機械学習について説明する。画像処理システム200が実行する注目領域の認識処理とは、注目領域の有無、位置、大きさ、形状のうち少なくとも1つを検出する検出処理と、注目領域の悪性度を鑑別する局所分類処理を含む。
 例えば検出処理は、注目領域を囲む矩形の枠領域を特定する情報と、当該枠領域の確からしさを表す検出スコアを求める処理である。以下、枠領域を検出枠と表記する。検出枠を特定する情報とは、例えば検出枠の左上端点の横軸における座標値、当該端点の縦軸における座標値、検出枠の横軸方向の長さ、検出枠の縦軸方向の長さ、の4つの数値である。注目領域の形状が変化することによって、検出枠の縦横比が変化するため、当該検出枠は注目領域の有無、位置、大きさだけでなく、形状を表す情報に該当する。ただし本実施形態の検出処理では、広く知られているセグメンテーションが用いられてもよい。この場合、画像中の各画素について、当該画素が注目領域であるか否かを表す情報、例えばポリープであるか否かを表す情報が出力される。この場合、注目領域の形状をより詳細に特定することが可能である。
 病変である注目領域は、悪性度に応じていくつかのタイプに分類される。例えばポリープをType1(良性)、Type2(やや悪性)、Type3(悪性)の3つに分類するNICE分類が広く知られている。局所分類処理とは、注目領域がいずれのタイプであるかを特定する処理である。また本実施形態における局所分類処理はNICE分類に従った処理に限定されず、他の分類が用いられてもよい。
 図6は、本実施形態におけるニューラルネットワークの構成を示す図である。図6に示すように、ニューラルネットワークは、特徴量抽出層と、検出層と、局所分類層と、を含んでもよい。図6における矩形領域は、それぞれが畳み込み層、プーリング層、全結合層等の何らかの演算を行う層を表す。ただし、本実施形態のCNNの構成は図6に限定されず、種々の変形実施が可能である。
 特徴量抽出層は、処理対象画像を入力として受け付け、畳み込み演算等を含む演算を行うことによって特徴量を出力する。検出層は、特徴量抽出層から出力された特徴量を入力とし、検出結果を表す情報を出力する。局所分類層は、特徴量抽出層から出力された特徴量を入力とし、局所分類結果を表す情報を出力する。学習装置100は、特徴量抽出層、検出層、局所分類層の各層における重み付け係数を決定する学習処理を実行する。
 図7は、第1の実施形態における学習装置100の構成例である。学習装置100の学習部120は、プレトレーニング部121と、ファインチューニング部122を含む。プレトレーニング部121は、画像取得部110から画像群A1を訓練データとして取得し、当該画像群A1に基づくプレトレーニングを行う。ファインチューニング部122は、画像取得部110から画像群A2を訓練データとして取得する。ファインチューニング部122は、プレトレーニング後の重み付け係数を初期値として、画像群A2に基づくファインチューニングを行う。
 本実施形態におけるプレトレーニングは、豊富に取得可能な通常光画像を用いた学習処理である。即ち、画像群A1は、通常光画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する情報である検出データが正解データとして付与された学習用画像を複数含む画像群である。例えば、検出データは、検出対象であるポリープ領域と背景領域が異なる色で塗り分けられたマスクデータである。或いは検出データは、ポリープを囲む検出枠を特定するための情報であってもよい。
 上述したように、通常光観察は注目領域を探す工程において広く利用される。そのため、検出データが付与された通常光画像は豊富に取得可能であり、画像群A1に含まれる画像の枚数は、画像群A2に比べて多い。例えば画像群A1に含まれる画像は数十万枚程度であり、画像群A2に含まれる画像は数万枚程度である。
 プレトレーニング部121は、画像群A1を用いたプレトレーニングを行う。具体的には、プレトレーニング部121は、図6に示すニューラルネットワークにおいて、画像群A1に含まれる通常光画像を入力として現在の重み付け係数に基づく順方向の演算を行う。プレトレーニング部121は、検出層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。以上が1枚の学習用画像に基づく処理であり、プレトレーニング部121は、上記処理を繰り返すことによってプレトレーニングを実行する。なお、重み付け係数の更新は1枚単位で行うものに限定されず、バッチ学習等が用いられてもよい。
 なお、通常光画像を入力とする順方向の演算においては、局所分類層からの出力も取得可能である。ただし、画像群A1における正解データは検出結果に相当する検出データであるため、局所分類層の出力と正解データから誤差関数を求めることはできない。即ちプレトレーニングにおいては、図6に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数と、検出層における重み付け係数が学習対象となる。
 本実施形態におけるファインチューニングは、豊富に取得することが難しい特殊光画像を用いた学習処理である。即ち、画像群A2は、特殊光画像に対して検出データ、及び、注目領域の悪性度を鑑別する情報である局所分類データが正解データとして付与された学習用画像を複数含む画像群である。検出データは、例えば上述した例と同様にマスクデータである。局所分類データは、例えばポリープの悪性度を示すType1、Type2、Type3のいずれかを表すラベルデータである。
 ただし、特殊光画像を用いてファインチューニングを行った学習済モデルに、観察方法の異なる通常光画像が入力された場合、認識処理の精度が低下するおそれがある。よって画像群A2は、通常光画像に対して、検出データ及び局所分類データが正解データとして付与された学習用画像を複数含んでもよい。即ち、画像群A2は、特殊光画像と通常光画像の両方を含む画像群であってもよい。このようにすれば、通常光画像と特殊光画像の両方に対応可能な汎用学習モデルを生成することが可能になる。局所分類データが付与された通常光画像を豊富に取得することは容易でないが、ここではファインチューニングに用いられるため、画像枚数の不足による精度低下を考慮する必要はない。なお、本実施形態の手法は、枚数が不足しやすい特殊光画像を対象とした認識処理の精度を向上させるものである。そのため、画像群A2が通常光画像を含む構成は必須ではない。
 ファインチューニング部122は、画像群A2を用いたファインチューニングを行う。具体的には、ファインチューニング部122は、図6に示すニューラルネットワークにおいて、画像群A2に含まれる通常光画像又は特殊光画像を入力として、現在の重み付け係数に基づく順方向の演算を行う。ファインチューニング部122は、順方向の演算によって求められた結果と、正解データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。例えばファインチューニング部122は、検出層の出力と検出データの間の誤差と、局所分類層の出力と局所分類データの間の誤差と、の重み付け和を誤差関数として求める。即ちファインチューニングにおいては、図6に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てが学習対象となる。
 図8は、第1の実施形態における学習処理を説明するフローチャートである。この処理が開始されると、まずステップS101において、プレトレーニング部121は、通常光画像を用いて病変検出タスク向けにCNNをプレトレーニングする。病変検出タスク向けのプレトレーニングとは、検出データを正解データとして用いることによって、特徴量抽出層及び検出層の重み付け係数を更新する学習処理である。
 ステップS102において、ファインチューニング部122は、プレトレーニング結果を初期値として、特殊光画像及び通常光画像を用いて病変検出及び局所分類タスク向けにCNNをファインチューニングする。病変検出及び局所分類タスク向けのファインチューニングとは、検出データ及び局所分類データの両方を正解データとして用いることによって、特徴量抽出層、検出層、局所分類層の重み付け係数を更新する学習処理である。
 ステップS103において、学習装置100は、検出病変の局所分類結果の信頼性に関わる面積占有率の閾値TH1を設定する。閾値TH1の設定方法については、例えば、バリデーションデータを用意しておき、その誤分類率が10%以下となるように設定する。バリデーションデータとは、例えば画像群A2のうち、ファインチューニングに用いられなかった学習用画像であり、通常光画像又は特殊光画像に対して、検出データ及び局所分類データが付与されたデータを表す。正解データが付与されたデータであるため、バリデーションデータを用いることによって学習済モデルの誤分類率を評価できる。
2.2 認識処理
 図9は、第1の実施形態における画像処理システム200の構成例である。画像処理システム200の処理部220は、認識処理部221と、出力処理部222を含む。認識処理部221は、学習装置100によって生成された学習済モデルに従って動作する。出力処理部222は、学習済モデルの演算結果に基づいて出力処理を行う。
 図10は、第1の実施形態における画像処理システム200の処理を説明するフローチャートである。まずステップS201において、画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
 ステップS202において、認識処理部221は、画像取得部210が取得した処理対象画像を学習済モデルの入力として順方向の演算を行う。ステップS202の処理において、認識処理部221は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。
 例えば認識処理部221は、処理対象画像中の所定数の検出枠の位置及び大きさに関する情報と、当該検出枠に対応付けられた検出スコア、局所分類ラベル、及び局所分類スコアを取得する。本実施形態における検出結果とは例えば検出枠を表し、検出スコアは当該検出結果の確からしさを表す。具体的には検出スコアは、当該検出枠が注目領域を囲む領域である確からしさを表す数値データである。また本実施形態における局所分類結果とは例えば局所分類ラベルを表し、局所分類スコアは当該局所分類結果の確からしさを表す情報である。NICE分類を用いる場合、局所分類層の出力は、検出枠に対応するポリープがType1である確からしさを表す数値と、Type2である確からしさを表す数値と、Type3である確からしさを表す数値とを含む。例えば局所分類層の出力層が公知のソフトマックス層である場合、局所分類層は合計が1となる3つの確率データを出力する。局所分類ラベルとは、Type1~Type3のうち、確率データが最大となるタイプを特定する情報である。局所分類スコアとは、例えば3つの確率データのうちの最大値である。
 次に出力処理部222は、検出枠、検出スコア、局所分類ラベル、局所分類スコアに基づいて出力情報を生成する。例えば出力処理部222は、検出スコアと所与の検出閾値TH2を比較する不図示の前処理を行ってもよい。所与の検出枠の検出スコアが検出閾値TH2未満である場合、当該検出枠に関する情報は信頼性が低いため出力対象から除外する。或いは認識処理部221は、検出スコアがTH2未満の検出枠を出力処理部222に送信しないように構成されていてもよい。
 またステップS203において、出力処理部222は、注目領域の画像中の面積占有率が、予め設定しておいた閾値TH1以上かどうかを判定する。例えば出力処理部222は、処理対象画像全体の面積に対する、検出枠の面積の割合を面積占有率とする。ステップS203における判定結果が真であれば、ステップS204において、出力処理部222は、検出枠及び局所分類ラベルを出力する処理を行う。ステップS203における判定結果が偽であれば、ステップS205において、出力処理部222は、検出枠のみを出力する処理を行う。なお出力処理部222は、検出枠に検出スコアを付加して出力してもよいし、局所分類ラベルに局所分類スコアを付加して出力してもよい。これにより、情報の信頼性をユーザに提示することが可能である。
 ステップS204又はS205における処理は、例えば画像処理システム200が内視鏡システム300に含まれる場合、表示画像を生成する処理、及び、当該表示画像を表示部340に表示する処理である。また画像処理システム200と内視鏡システム300が別体として設けられる場合、上記処理は、例えば表示画像の内視鏡システム300への送信処理である。或いは上記処理は、検出枠や局所分類ラベルを表す情報を内視鏡システム300へ送信する処理であってもよい。この場合、表示画像の生成処理及び表示制御は内視鏡システム300において実行される。
 以上のように、本実施形態に係る画像処理システム200は、内視鏡撮像装置によって撮像された生体内画像を処理対象画像として取得する画像取得部210と、学習済モデルに従って動作することによって、処理対象画像において注目領域を認識した結果である認識結果を出力する処理を行う処理部220を含む。ここで、内視鏡撮像装置とは、内視鏡システム300に設けられ、生体に対応する被写体像の結像結果を出力可能な撮像装置であって、狭義には撮像素子312に対応する。
 本実施形態の学習済モデルは、第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、プレトレーニング後に、第2観察方法において撮像された画像を含む第2画像群と、第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングされることによって学習されている。第1画像群は、図7における画像群A1に対応し、第2画像群は画像群A2に対応する。
 ここで、第1観察方法は、通常光を照明光とする観察方法である。第2観察方法は、特殊光を照明光とする観察方法である。第2画像群は、少なくとも1枚は注目領域が撮影されている画像を含み、且つ、第1画像群よりも枚数が少ない。
 本実施形態の手法によれば、特殊光観察において撮像される学習用画像の枚数不足を補うために、通常光観察において撮像される通常光画像を用いて機械学習のプレトレーニングが行われる。ニューラルネットワークを用いる場合、プレトレーニングとはファインチューニングを行う際の重み付け係数の初期値を設定する処理である。これにより、プレトレーニングを行わない場合に比べて、特殊光画像を対象とした認識処理の精度向上が可能になる。
 なお、学習済モデルに従った処理部220おける演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図5(A)の各ノードにおいて実行される積和演算や、CNNの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部220の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が記憶部230に記憶され、処理部220は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはFPGA等によって実現され、記憶部230はパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがFPGA等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部230は、例えばFPGAの内蔵メモリである。
 図11は、本実施形態の手法による効果を説明する図である。図11の横軸は画像1枚当たりの過検出数を表す。過検出数とは、ポリープでない領域を誤ってポリープとして検出した数である。縦軸は、感度を表す。感度とは、検証に用いた画像に撮像されたポリープのうち、どれだけのポリープが適切に検出され、且つ適切な局所分類結果が得られたかの割合を表す。
 図11のB1は、特殊光画像に検出データ(マスクデータ)及び局所分類データ(分類ラベル)が付与された画像群のみを訓練データとして学習した場合の感度グラフを表す。B2は、通常光画像にマスクデータが付与された画像群を用いてプレトレーニングを行った後、特殊光画像にマスクデータ及び分類ラベルが付与された画像群を用いてファインチューニングを行った場合の感度グラフを表す。
 図11からわかるように、B2はB1に比べて、検出及び局所分類の感度が向上している。即ち、本実施形態の手法により、特殊光画像における物体認識の精度向上が可能になる。また本実施形態の手法は、プレトレーニングとファインチューニングがいずれも生体内画像を用いて行われるため、ImageNet等の一般物体の画像群でプレトレーニングするよりも、ファインチューニングによる転移学習時のドメイン適応が上手くいく。
 なお図11においては、特殊光画像を用いてファインチューニング済みのCNNに、特殊光画像を入力した結果を例示した。しかし上述したように、通常光画像と特殊光画像を混合して1つのCNNモデルをファインチューニングしてもよい。この場合、通常光画像、特殊光画像のどちらが入力されても、鑑別診断支援が可能なシステムを構築することが可能になる。
 また以上では、第2観察方法が特殊光を照明光として用いた観察方法である例について説明した。ただし、第2観察方法は被写体に色素散布を行った観察方法であってもよい。具体的な処理は特殊光画像の例と同様であり、以上の説明における特殊光画像を色素散布画像に置き換えて考えることが可能である。
 また本実施形態における注目領域は、ポリープであってもよい。このようにすれば、ポリープを対象とした検出処理、及び局所分類処理を高い精度で実行することが可能になる。ポリープの悪性度を鑑別する際には、NBI等の特殊光観察や、色素散布観察が広く用いられる。そのため、特殊光画像や色素散布画像を用いた処理の精度向上が可能である本実施形態の手法と、ポリープの認識処理は親和性が高い。
 また本実施形態において第2画像群に付与される正解データは、画像内の注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データと、画像内の注目領域の悪性度を示す局所分類データのうち少なくとも1つを含むデータである。そして画像処理システム200の処理部220において求められる認識結果は、画像内の注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出結果と、画像内の注目領域の悪性度に関連する局所分類結果のうち少なくとも1つを含む。
 このようにすれば、認識処理として検出処理及び局所分類処理(鑑別処理)の少なくとも一方を行うことが可能になる。以上の説明においては、認識処理が、検出処理と局所分類処理の両方である例について説明した。このようにすれば、ポリープ等の注目領域の位置や大きさ等に加えて、悪性度の鑑別を行うことが可能になる。画像中のどの位置に、どのような悪性度のポリープが存在するかを提示できるため、ユーザによる診断等を適切にサポートすることが可能になる。
 ただし、本実施形態の学習済モデルは、検出結果のみを出力するものであってもよいし、局所分類結果のみを出力するものであってもよい。例えば、スクリーニング用途に特殊光画像を用いる場合であれば、検出結果が取得できれば足りる。また、事前に行ったスクリーニングにおいて注目領域の位置等が既知であれば、特殊光画像を用いた観察においては局所分類結果が取得できれば足りる。
 また本実施形態の処理部220は、学習済モデルによって取得される検出結果及び局所分類結果をそのまま出力するのではなく、所与の条件を満たした結果に限定して出力する。例えば上述したように、出力される認識結果は、検出スコアが所与の閾値TH2以上であるものに限定されてもよい。このようにすれば、信頼度の低い情報が出力されることを抑制できるため、ユーザによる診断等を適切にサポートすることが可能になる。さらに、局所分類ラベルの出力は、注目領域の面積が所与の閾値TH1以上であるものに限定されてもよい。画像上における大きさが小さいポリープは、検出自体は可能であっても、微細な構造に関する情報が十分取得されないため、当該ポリープの悪性度鑑別には適していない。図6に示したように、本実施形態のニューラルネットワークは処理対象画像を入力とする順方向の演算を行うことによって局所分類ラベルが取得されるものの、注目領域の面積が小さい場合、当該局所分類ラベルの信頼性が低い。その点、注目領域の面積が所与の閾値TH1以上であるか否かを判定することによって、信頼度の低い情報が出力されることを抑制できる。
 なお、出力する情報を決定する処理は、注目領域の面積を用いるものに限定されず、種々の変形実施が可能である。例えば処理部220は、学習済モデルに基づいて、検出結果の確からしさを示す検出スコアと、局所分類結果の確からしさを示す局所分類スコアと、を求める。そして処理部220は、検出スコアが所与の検出閾値より大きい場合に、検出結果を出力し、局所分類スコアが所与の分類閾値より大きい場合に局所分類結果を出力してもよい。
 局所分類スコアは、例えば上述したようにType1~Type3のそれぞれに対応する確率データのうちの最大値である。例えばType1の確率データが0.4であり、Type2の確率データが0.3であり、Type3の確率データが0.3である場合を考える。この場合、確率データが最大となるのはType1であるため局所分類ラベルは「Type1」となる。しかしType1の確率である局所分類スコアは0.4と小さく、Type2である確率及びType3である確率との差も小さい。そのため、「Type1」という局所分類ラベルの信頼性は低い。よって出力処理部222は、局所分類スコアが分類閾値未満である場合、局所分類結果の出力を行わない。分類閾値は種々の設定が可能であるが、例えば0.5よりも大きい値である。このようにすれば、局所分類スコアに基づいて信頼性の低い情報が出力されることを抑制できる。
 或いは処理部220は、検出結果に基づいて、注目領域の大きさ、ボケ、ブレの少なくとも1つに関する条件が満たされるか否かの判定を行ってもよい。そして条件が満たされた場合に、検出結果及び局所分類結果を出力し、条件が満たされない場合に、検出結果を出力し、且つ、局所分類結果を出力しない。
 ここで注目領域の大きさに関する条件とは、例えば上述したように面積占有率が閾値TH1以上であるという条件である。このようにすれば、注目領域が鑑別に不適切な程度に小さい場合、局所分類結果の出力が抑制される。
 ボケに関する条件とは、例えばボケ量がボケ閾値以下であるという条件である。ブレに関する条件とは、例えばブレ量がブレ閾値以下であるという条件である。ボケ量やブレ量が大きい場合、例えばエッジ等の注目領域の微細構造等に関する情報が失われるため、当該注目領域は鑑別に適さない。このように、ボケ、ブレに関する条件を判定することによっても、信頼度の低い情報の出力を抑制可能である。
 ここでボケ量とは、ボケの度合いを表す指標である。ボケとは、被写体にピントが合わないことによって画像がぼやけることを表す。例えば出力処理部222は、処理対象画像に対して所定量のボケを付与する画像処理を行った後、処理後の画像と元画像を比較する処理を行う。元画像のボケ量が小さい場合、画像間のボケ度合いの差が大きくなるのに対して、元画像のボケ量がそもそも大きい場合、画像処理による変化が小さく、画像間のボケ度合いの差が小さくなる。出力処理部222は、2つの画像の比較に基づいて、ボケ量を算出することが可能である。
 またブレ量とは、ブレの度合いを表す指標である。ブレとは、被写体が撮像装置に対して相対的に移動することによって、画像がぼやけることを表す。内視鏡システム300において撮像される生体内画像では、照明光が被写体において正反射することによって、輝点が撮像される。輝点とは、輝度が相対的に高い領域であり、例えば白飛びした領域に対応する。ブレが小さい場合、輝点は円形状、或いはそれに類する形状となる。一方、ブレが大きくなると、被写体と撮像装置の相対的な移動に起因して、輝点が移動方向に沿って伸びた形状となる。出力処理部222は、輝点の形状に基づいて、ブレ量を算出することが可能である。
 なお、大きさ、ボケ、ブレに関する条件は、いずれか1つについて判定が行われてもよいし、2以上の条件を組み合わせて判定が行われてもよい。2以上の条件を組み合わせる場合、例えば全ての条件が満たされる場合に検出結果及び局所分類結果が出力され、少なくとも1つの条件が満たされない場合に検出結果のみが出力される。ただし、複数の条件の組み合わせ方は種々の変形実施が可能である。
 また本実施形態の学習済モデルは、コンボリューショナルニューラルネットワーク(Convolutional Neural Network)からなる。このようにすれば、画像を入力とする認識処理を効率的に、且つ高い精度で実行することが可能になる。なお、物体認識を行うCNNは、R-CNN及びそれを発展させた手法の他、YOLO(You only Look Once)、SSD(Single Shot Detector)等の種々の手法が知られており、本実施形態ではそれらを広く適用可能である。
 また本実施形態の学習済モデルは、図6に示したように、処理対象画像に基づいて特徴量を出力する特徴量抽出層と、特徴量に基づいて検出結果を出力する検出層と、特徴量に基づいて局所分類結果を出力する局所分類層と、を含んでもよい。検出データが正解データとして付与された画像を含む第1画像群を用いたプレトレーニングによって、特徴量抽出層及び検出層における重み付け係数が学習される。また、検出データ及び局所分類データが正解データとして付与された画像を含む第2画像群を用いたファインチューニングによって、特徴量抽出層及び検出層及び局所分類層における重み付け係数が学習される。
 図6に示す構成を用いることによって、検出処理における特徴量抽出と、局所分類処理における特徴量抽出を共通化することが可能になる。そのため、特徴量抽出層をそれぞれ設ける場合に比べて、学習済モデルのサイズを小さくすることが可能になる。例えば、画像処理システム200の記憶部230が学習済モデルの重み付け係数を記憶する場合に、当該記憶部230の容量を小さくすることが可能である。或いは、学習済モデルに従った推論処理アルゴリズムをFPGA等を用いて構成する場合において、当該FPGAのサイズ低減が可能になる。
 また本実施形態の手法は、学習装置100に適用可能である。学習装置100は、画像取得部110と、学習部120を含む。画像取得部110は、第1観察方法において撮像された画像を含む第1画像群と、第2観察方法において撮像された画像を含む第2画像群と、を取得する。学習部120は、第1画像群を用いてプレトレーニングを行い、プレトレーニング後に、第2画像群と、第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、学習済モデルを生成する。学習済モデルは、処理対象画像が入力された際に、処理対象画像において注目領域を認識した認識結果を出力するモデルである。また第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、特殊光を照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法である。第2画像群は、少なくとも1枚は注目領域が撮影されている画像を含み、且つ、第1画像群よりも枚数が少ない。
 このようにすれば、特殊光画像又は色素散布画像を対象とする注目領域の認識処理を、高い精度で実行可能な学習済モデルを生成することが可能になる。
 また、本実施形態の学習装置100が行う処理は、学習方法として実現されてもよい。本実施形態の学習方法は、第1観察方法において撮像された画像を含む第1画像群と、第2観察方法において撮像された画像を含む第2画像群と、を取得し、第1画像群を用いてプレトレーニングを行い、プレトレーニング後に、第2画像群と、第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、処理対象画像において注目領域を認識した認識結果を出力する学習済モデルを生成する方法である。第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、特殊光を照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法である。
3.第2の実施形態
3.1 学習処理
 第1の実施形態においては、学習装置100が1つの学習済モデルを生成し、画像処理システム200は、当該1つの学習済モデルに基づいて、少なくとも特殊光画像又は色素散布画像を対象とした注目領域の認識処理を行う手法について説明した。ただし、本実施形態の認識処理は、複数の学習済モデルを用いて行われてもよい。なお、第2の実施形態においても、第2の観察方法が特殊光観察である例について説明するが、第2の観察方法は色素散布観察であってもよい。即ち、以下の説明における、特殊光観察又は特殊光画像との表記を、適宜、色素散布観察及び色素散布画像と読み替えることが可能である。
 図12は、第2の実施形態における学習装置100の構成例である。学習装置100の学習部120は、プレトレーニング部121と、観察方法混合ファインチューニング部123と、観察方法別ファインチューニング部124と、観察方法分類学習部125を含む。
 プレトレーニング部121は、画像取得部110から画像群C1を取得し、当該画像群C1に基づくプレトレーニングを行う。
 観察方法混合ファインチューニング部123は、画像取得部110から画像群C2を取得する。観察方法混合ファインチューニング部123は、プレトレーニング後の重み付け係数を初期値として、画像群C2に基づくファインチューニングを行う。
 観察方法別ファインチューニング部124は、画像取得部110から画像群C3及びC4を取得する。観察方法別ファインチューニング部124は、プレトレーニング後の重み付け係数を初期値として、画像群C3に基づくファインチューニングを行う。また観察方法別ファインチューニング部124は、プレトレーニング後の重み付け係数を初期値として、画像群C4に基づくファインチューニングを行う。即ち、観察方法別ファインチューニング部124は、異なる複数の画像群に基づいて、複数の学習済モデルを生成する。
 観察方法分類学習部125は、画像取得部110から画像群C5を取得し、当該画像群C5に基づく機械学習を行う。観察方法分類学習部125における機械学習は、例えばプレトレーニングとファインチューニングに区分されないフルトレーニングである。
 本実施形態におけるプレトレーニングは、第1の実施形態と同様である。即ち、画像群C1は画像群A1と同様に、通常光画像に対して検出データが正解データとして付与された学習用画像を複数含む画像群である。プレトレーニング部121は、第1の実施形態と同様に、図6のニューラルネットワークにおいて、特徴量抽出層における重み付け係数と、検出層における重み付け係数を学習する。
 観察方法混合ファインチューニング部123において実行されるファインチューニングは、通常光画像と特殊光画像の両方に適用可能な、汎用性の高い学習済モデルを生成するための学習処理である。即ち、画像群C2は、通常光画像に対して検出データ及び局所分類データが付与された学習用画像、及び、特殊光画像に対して検出データ及び局所分類データが付与された学習用画像を含む。観察方法混合ファインチューニング部123は、図6に示すニューラルネットワークにおいて、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てを学習対象とする。観察方法混合ファインチューニング部123は、学習済モデルとして観察方法混合CNNを出力する。以下、観察方法混合CNNをCNN_ABと表記する。
 観察方法別ファインチューニング部124において実行されるファインチューニングは、通常光画像と特殊光画像のいずれか一方に特化した学習済モデルを生成するための学習処理である。即ち、画像群C3は、通常光画像に対して検出データ及び局所分類データが付与された学習用画像を含む。画像群C3は、特殊光画像に対して検出データ及び局所分類データが付与された学習用画像を含まない、又は、含むとしてもその枚数が通常光画像に比べて十分少ない。観察方法別ファインチューニング部124は、画像群C3を用いて、図6に示すニューラルネットワークにおける、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てを学習する。観察方法別ファインチューニング部124は、学習済モデルとして通常光観察に適した観察方法別CNNを出力する。以下、通常光観察に適した観察方法別CNNをCNN_Aと表記する。
 同様に画像群C4は、特殊光画像に対して検出データ及び局所分類データが付与された学習用画像を含む。画像群C4は、通常光画像に対して検出データ及び局所分類データが付与された学習用画像を含まない、又は、含むとしてもその枚数が特殊光画像に比べて十分少ない。観察方法別ファインチューニング部124は、画像群C4を用いて、図6に示すニューラルネットワークにおける、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てを学習する。観察方法別ファインチューニング部124は、学習済モデルとして特殊光観察に適した観察方法別CNNを出力する。以下、特殊光観察に適した観察方法別CNNをCNN_Bと表記する。
 以上のように、第2の実施形態においては、図6に示した構造のCNNが3つ用いられ、各CNNの重み付け係数は異なる画像群を用いた個別のファインチューニングによって学習される。即ち、重み付け係数の異なる3つの学習済モデルCNN_A、CNN_B、CNN_ABが生成される。
 画像群C5は、通常光画像に対して、観察方法を特定する情報である観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して観察方法データが付与された学習画像とを含む画像群である。観察方法分類学習部125は、画像が入力される入力層と、観察方法分類結果を出力する出力層を含むモデルの機械学習を行う。当該モデルの中間層の構成については、種々の変形実施が可能である。
 観察方法分類結果は、例えば入力された画像が通常光観察において撮像された通常光画像である確からしさを表すデータと、入力された画像が特殊光観察において撮像された特殊光画像である確からしさを表すデータを含む。観察方法分類学習部125は、画像群C5に含まれる通常光画像又は特殊光画像を入力として現在の重み付け係数に基づく順方向の演算を行う。観察方法分類学習部125は、順方向の演算によって求められた観察方法分類結果と、正解データである観察方法データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。これにより、観察方法分類学習部125は、入力画像の観察方法を特定するための学習済モデルを生成する。観察方法を特定するための学習済モデルを、以下では観察方法分類用CNNと表記する。
 なお後述するように、画像処理システム200における観察方法分類処理において、学習済モデルを用いなくてもよい。その場合、観察方法分類学習部125を省略することが可能である。
 図13(A)~図13(C)は、第2の実施形態における学習処理を説明するフローチャートである。図13(A)は、CNN_ABを生成する処理を説明するフローチャートである。この処理が開始されると、まずステップS301-1において、プレトレーニング部121は、通常光画像を用いて病変検出タスク向けにCNN_ABをプレトレーニングする。ステップS302-1において、観察方法混合ファインチューニング部123は、プレトレーニング結果を初期値として、特殊光画像及び通常光画像を用いて病変検出及び局所分類タスク向けにCNN_ABをファインチューニングする。
 図13(B)は、CNN_Aを生成する処理を説明するフローチャートである。この処理が開始されると、まずステップS301-2において、プレトレーニング部121は、通常光画像を用いて病変検出タスク向けにCNN_Aをプレトレーニングする。ステップS302-2において、観察方法別ファインチューニング部124は、プレトレーニング結果を初期値として、通常光画像のみを用いて病変検出及び局所分類タスク向けにCNN_Aをファインチューニングする。
 図13(C)は、CNN_Bを生成する処理を説明するフローチャートである。この処理が開始されると、まずステップS301-3において、プレトレーニング部121は、通常光画像を用いて病変検出タスク向けにCNN_Bをプレトレーニングする。ステップS302-3において、観察方法別ファインチューニング部124は、プレトレーニング結果を初期値として、特殊光画像のみを用いて病変検出及び局所分類タスク向けにCNN_Bをファインチューニングする。
3.2 認識処理
 図14は、第2の実施形態における画像処理システム200の構成例である。画像処理システム200の処理部220は、観察方法混合認識処理部223と、観察方法別認識処理部224と、観察方法分類部225と、統合処理部226と、出力処理部227を含む。観察方法混合認識処理部223は、学習装置100によって生成されたCNN_ABに従って動作する。観察方法別認識処理部224は、学習装置100によって生成されたCNN_A、CNN_Bの少なくとも一方に従って動作する。観察方法分類部225は、学習装置100によって生成された観察方法分類用CNNに従って動作する。統合処理部226は、観察方法混合認識処理部223による認識結果と、観察方法別認識処理部224による認識結果の統合処理を行う。出力処理部227は、統合処理結果に基づいて出力処理を行う。
 図15は、第2の実施形態における画像処理システム200の処理を説明するフローチャートである。まずステップS401において、画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
 ステップS402において、観察方法混合認識処理部223は、画像取得部210が取得した処理対象画像をCNN_ABの入力として順方向の演算を行う。ステップS402の処理において、認識処理部221は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。
 ステップS403において、観察方法分類部225は、処理対象画像が通常光画像であるか特殊光画像であるかを判定する観察方法分類処理を行う。例えば観察方法分類部225は、画像取得部210が取得した処理対象画像を観察方法分類用CNNに入力することによって、処理対象画像が通常光画像である確率を表す確率データと、処理対象画像が特殊光画像である確率を表す確率データとを取得する。観察方法分類部225は、2つの確率データの大小関係に基づいて、観察方法分類処理を行う。
 或いは、観察方法分類部225は、学習済モデルを用いずに観察方法分類処理を行ってもよい。例えば観察方法分類部225は、通常光照明と特殊光照明との切り替えスイッチからの信号を取得することによって、どちらの照明状態にあるかの観察方法分類処理を行ってもよい。或いは観察方法分類部225は、処理対象画像の色分布等に基づいて観察方法分類処理を行ってもよい。例えばNBI画像である特殊光画像は擬似カラー画像となるため、通常光画像との色分布の違いが大きい。
 また特殊光画像に代えて色素散布画像を用いる場合も同様であり、観察方法分類部225は、学習済モデルを用いて観察方法分類処理を行ってもよいし、学習済モデルを用いずに観察方法分類処理を行ってもよい。学習済モデルを用いずに通常光画像と色素散布画像を分類する場合、切り替えスイッチからの信号を取得することはできない。例えば観察方法分類部225は、処理対象画像の色分布等に基づいて観察方法分類処理を行ってもよい。例えばインジゴカルミンを散布した場合、色素散布画像は通常光画像に比べて青色が強い画像になる。或いは、色素散布を行ったか否かに関する入力をユーザに行わせることによって、観察方法分類処理を行ってもよい。
 ステップS404において、観察方法別認識処理部224は、観察方法分類処理の結果に基づいて、観察方法が通常光観察であるか特殊光観察であるかを判定する。ステップS404において通常光観察であると判定された場合、ステップS405において、観察方法別認識処理部224は、画像取得部210が取得した処理対象画像をCNN_Aの入力として順方向の演算を行う。ステップS405の処理が行われることによって、観察方法別認識処理部224は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。
 ステップS406において、統合処理部226は、CNN_ABによる認識結果と、CNN_Aによる認識結果の統合処理を行う。同じ注目領域の検出結果であっても、CNN_ABによって出力される検出枠の位置や大きさと、CNN_Aによって出力される検出枠の位置や大きさが一致するとは限らない。また当該検出枠に対応付けられた局所分類ラベルが異なる場合がある。その際、CNN_ABによる認識結果とCNN_Aによる認識結果を両方出力してしまうと、1つの注目領域に対して異なる複数の情報が表示されることになりユーザを混乱させてしまう。
 よって統合処理部226は、CNN_ABによって検出された検出枠と、CNN_Aによって検出された検出枠が、同一の注目領域に対応する領域であるかを判定する。例えば、統合処理部226は検出枠どうしの重なり度合いを表すIOU(Intersection Over Union)を算出し、IOUが閾値以上である場合に、2つの検出枠が同一の注目領域に対応すると判定する。IOUについては公知であるため詳細な説明は省略する。またIOUの閾値は例えば0.5程度であるが、具体的な数値は種々の変形実施が可能である。
 また統合処理部226は、同一の注目領域に対応すると判定された2つの検出枠について、局所分類ラベルが一致するか否かを判定する。例えばNICE分類を用いる場合、統合処理部226は、Type1~3のうち、確率データの値が最も大きいタイプが一致するか否かを判定する。局所分類ラベルが異なる場合、例えば統合処理部226は、局所分類スコアの大きな方の局所分類ラベルを選択し、局所分類スコアの小さい方の局所分類ラベルを消去する統合処理を行う。局所分類ラベルが一致する場合には、統合処理部226は、CNN_ABから出力された局所分類スコアと、CNN_Aから出力された局所分類スコアのうち、値の大きな方を選択する処理、又は、2つの値の平均値を求める処理によって局所分類スコアを更新する。
 一方、ステップS404において特殊光観察であると判定された場合、ステップS407において、観察方法別認識処理部224は、画像取得部210が取得した処理対象画像をCNN_Bの入力として順方向の演算を行う。ステップS406の処理が行われることによって、観察方法別認識処理部224は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。
 ステップS408において、統合処理部226は、CNN_ABによる認識結果と、CNN_Bによる認識結果の統合処理を行う。統合処理の流れについてはステップS406と同様である。
 ステップS406又はステップS408の統合処理の結果として、1つの注目領域について1つの認識結果が取得される。即ち、統合処理の出力は、処理対象画像中の注目領域の数に応じた数の検出枠と、各検出枠における検出スコア、局所分類ラベル及び局所分類スコアを表す情報である。よって出力処理部227は、第1の実施形態における出力処理部222と同様の出力処理を行う。例えば出力処理部227は、面積占有率とTH1の比較処理や、検出スコアとTH2の比較処理等を行うことによって、出力する情報を選択する。
 以上のように、本実施形態の処理部220は、第1学習済モデルに従って動作することによって求めた第1認識結果と、第2学習済モデルに従って動作することによって求めた第2認識結果との統合処理を行い、統合処理の結果を認識結果として出力する。
 第1学習済モデルとは、例えばCNN_ABである。第2学習済モデルとは、例えばCNN_A又はCNN_Bである。
 このように、複数の認識結果を統合することによって、より精度の高い認識結果を取得することが可能となる。例えば、2つの観察方法のデータバランスが悪い場合には、観察方法別学習済モデルであるCNN_A又はCNN_Bの方がより高い精度となり、2つの観察方法のデータバランスが良い場合には、観察方法混合学習済モデルであるCNN_ABの方がより高い精度になる。データバランスとは、学習に用いる画像群における画像枚数の比率を表す。
 観察方法のデータバランスは、データ収集元となる内視鏡システムの稼働状況や、正解データの付与状況等、種々の要因によって変化する。また収集を継続的に行う場合、データバランスが時間経過とともに変化していくことも想定される。学習装置100において、データバランスの調整を行ったり、データバランスに応じて学習処理を変更することは可能であるが、学習処理の負荷が大きくなってしまう。また、学習段階におけるデータバランスを考慮して、画像処理システム200における推論処理を変更することも可能であるが、データバランスに関する情報を取得したり、当該データバランスに応じて処理を分岐させる必要があり、負荷が大きい。その点、上記のように統合処理を行うことによって、処理負荷を増大させることなく、データバランスによらず相補的に高精度な結果を提示することが可能となる。
 また処理部220は、第1学習済モデルに従って動作することによって注目領域に対応する領域である第1領域を検出結果として求め、第2学習済モデルに従って動作することによって注目領域に対応する領域である第2領域を検出結果として求める。そして処理部220は、第1領域と第2領域の重なり度合いに基づいて、第1領域及び第2領域が同一の注目領域に対応する領域であるか否かを判定する。
 このようにすれば、2つの学習済モデルからそれぞれ出力された2つの領域が、同じ注目領域を対象とした情報であるか否かを判定できる。そのため、例えば同じ注目領域に対して異なる複数の情報を提示することを抑制できる。
 また上記第1領域及び第2領域は、画像内の注目領域を囲う枠である検出枠であってもよい。処理部220は、第1領域に対応する検出枠と、第2領域に対応する検出枠の重なり度合いであるIOUを算出し、IOUが所定の閾値以上である場合に、第1領域及び第2領域が同一の注目領域に対応する領域であると判定する。
 このようにすれば、2つの検出枠のIOUに基づいて、当該2つの検出枠が同じ注目領域を対象とした情報であるか否かを判定できる。そのため、同じ注目領域に対して異なる複数の情報を提示することを抑制できる。
 また処理部220は、第1領域と第2領域が同一の注目領域に対応する領域と判定され、且つ、第1領域に対応する局所分類結果と、第2領域に対応する局所分類結果が異なる場合に、局所分類結果の確からしさを表す局所分類スコアの大きな局所分類結果を選択する処理を行ってもよい。
 ここでの局所分類結果とは、具体的には局所分類ラベルを表す。このようにすれば、同一の注目領域に対する局所分類結果が相違した場合であっても、より確からしい局所分類結果を出力することが可能になる。
 また本実施形態の学習済モデルは、第1画像群を用いてプレトレーニングされ、第2画像群を用いてファインチューニングされることによって学習された第2観察方法用学習済モデルと、第1画像群を用いてプレトレーニングされ、第1観察方法において撮像された画像を含む第3画像群を用いてファインチューニングされることによって学習された第1観察方法用学習済モデルと、を含む。
 ここで第1画像群は、図12のC1に対応し、通常光画像に対して検出データが付与された画像からなる画像群である。第2画像群はC4に対応し、特殊光画像に対して検出データ及び局所分類データが付与された画像からなる画像群である。第3画像群はC3に対応し、通常光画像に対して検出データ及び局所分類データが付与された画像、及び、特殊光画像に対して検出データ及び局所分類データが付与された画像からなる画像群である。第2観察方法用学習済モデルはCNN_Bに対応し、第1観察方法用学習済モデルはCNN_Aに対応する。
 このようにすれば、第1観察方法において撮像された画像に適した学習済モデルと、第2観察方法において撮像された画像に適した学習済モデルとを認識処理に用いることが可能になる。そのため、処理対象画像の観察方法によらず、精度の高い認識処理を行うことが可能になる。
 処理部220は、処理対象画像が第1観察方法において撮像された画像であると判定した場合、第1観察方法用学習済モデルに基づく認識結果を出力し、処理対象画像が第2観察方法において撮像された画像であると判定した場合、第2観察方法用学習済モデルに基づく認識結果を出力する。例えば処理部220は、撮像分類処理の結果に基づいて、第1観察方法用学習済モデルに従って動作するか、第2観察方法用学習済モデルに従って動作するかを切り替える。
 このように、処理対象画像が撮像された観察方法の判定結果に基づいて、適切な学習済モデルを選択することによって、精度の高い認識処理を行うことが可能になる。なお、図15に示した例においては、CNN_Aに基づく認識処理と、CNN_Bに基づく認識処理のいずれか一方が行われる例を示したが、処理の流れはこれに限定されない。例えば観察方法別認識処理部224は、CNN_Aに基づく認識処理と、CNN_Bに基づく認識処理の両方を行っておき、観察方法分類結果に基づいて、いずれか一方を統合処理部226に出力するように構成されてもよい。
 また第1画像群は、第1観察方法において撮像された画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データが正解データとして付与された画像を含み、第3画像群は、第1観察方法において撮像された画像に対して、検出データ、及び、注目領域の悪性度を示す局所分類データが正解データとして付与された画像を含む。
 上述したように、本実施形態の認識処理は、検出処理に加えて、局所分類処理を行うことが想定される。通常光画像は病変検出に使用されるケースが多いため、検出データが付与された通常光画像は豊富に取得可能である。即ち第1画像群の枚数は相対的に多い。しかし、局所分類データがないため、第1画像群から局所分類処理を行う学習済モデルを生成することはできない。また、局所分類データが付与された通常光画像は豊富に取得できず、第3画像群の枚数は相対的に少ない。そのため、第3画像群のみを用いてフルトレーニングを行っても、画像枚数が不足することによって認識処理の精度を高くできない。その点、第1画像群を用いてプレトレーニングを行い、第3画像群を用いてファインチューニングを行うことによって、通常光画像に対する検出処理及び局所分類処理を高い精度で実行可能な学習済モデルを生成できる。
4.第3の実施形態
 第2の実施形態では、第2の観察方法が特殊光観察又は色素散布観察のいずれか一方である例を示した。しかし特殊光観察と色素散布観察はいずれか一方を処理対象とするものに限定されず、その両方を処理対象としてもよい。即ち、第3の実施形態における観察方法は、通常光観察と、特殊光観察と、色素散布観察の3つを含む。
 学習装置100のプレトレーニング部121の構成は第1の実施形態及び第2の実施形態と同様である。ファインチューニングに用いる画像群としては、通常光画像に検出データ及び局所分類データが付与された画像からなる画像群A、特殊光画像に検出データ及び局所分類データが付与された画像からなる画像群B、色素散布画像に検出データ及び局所分類データが付与された画像からなる画像群C、通常光画像及び特殊光画像を混合した画像群AB、特殊光画像及び色素散布画像を混合した画像群BC、色素散布画像及び通常光画像を混合した画像群CA、通常光画像及び特殊光画像及び色素散布画像を混合した画像群ABC、の7通りが考えられる。
 例えば、観察方法混合ファインチューニング部123は、画像群ABCに基づいてCNN_ABCを生成するファインチューニングと、画像群ABに基づいてCNN_ABを生成するファインチューニングと、画像群BCに基づいてCNN_BCを生成するファインチューニングと、画像群CAに基づいてCNN_CAを生成するファインチューニングと、を行う。観察方法別ファインチューニング部124は、画像群Aに基づいてCNN_Aを生成するファインチューニングと、画像群Bに基づいてCNN_Bを生成するファインチューニングと、画像群Cに基づいてCNN_Cを生成するファインチューニングと、を行う。
 観察方法分類部225は、処理対象画像が撮像された観察方法が、通常光観察、特殊光観察、色素散布観察のいずれであるかを判定する観察方法分類処理を行う。観察方法分類処理は、第2の実施形態と同様に、学習済モデルを用いて行われてもよいし、処理対象画像の色分布を用いて行われてもよい。
 観察方法分類処理の結果が通常光観察である場合、観察方法混合認識処理部223は、CNN_AB、CNN_CA、CNN_ABCを用いて3つの認識結果を取得する。観察方法別認識処理部224は、CNN_Aを用いて1つの認識結果を取得する。統合処理部226は、取得された4つの認識結果の統合処理を行う。統合対象が4つに増えるが、具体的な統合処理の流れは第2の実施形態と同様である。即ち、統合処理部226は、検出枠の重なり度合いに基づいて、複数の検出枠が同一の注目領域に対応するか否かを判定する。同一の注目領域に対応すると判定された場合、各検出枠の局所分類ラベルを比較する。局所分類ラベルが異なる場合、例えば局所分類スコアが最大となる局所分類ラベルを選択する処理を行う。局所分類ラベルが一致する場合、局所分類スコアの最大値や平均値を用いて局所分類スコアを更新する。
 観察方法分類処理の結果が特殊光観察である場合、観察方法混合認識処理部223は、CNN_AB、CNN_BC、CNN_ABCを用いて3つの認識結果を取得する。観察方法別認識処理部224は、CNN_Bを用いて1つの認識結果を取得する。統合処理部226は、取得された4つの認識結果の統合処理を行う。
 観察方法分類処理の結果が色素散布観察である場合、観察方法混合認識処理部223は、CNN_BC、CNN_CA、CNN_ABCを用いて3つの認識結果を取得する。観察方法別認識処理部224は、CNN_Cを用いて1つの認識結果を取得する。統合処理部226は、取得された4つの認識結果の統合処理を行う。
 以上のように、本開示の手法は、観察方法が3つ以上の場合にも拡張可能である。複数の認識結果を統合することによって、より精度の高い認識結果を提示することが可能となる。
 なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理システム、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
100…学習装置、110…画像取得部、120…学習部、121…プレトレーニング部、122…ファインチューニング部、123…観察方法混合ファインチューニング部、124…観察方法別ファインチューニング部、125…観察方法分類学習部、200…画像処理システム、210…画像取得部、220…処理部、221…認識処理部、222…出力処理部、223…観察方法混合認識処理部、224…観察方法別認識処理部、225…観察方法分類部、226…統合処理部、227…出力処理部、230…記憶部、300…内視鏡システム、310…挿入部、311…対物光学系、312…撮像素子、313…アクチュエータ、314…照明レンズ、315…ライトガイド、316…AF開始/終了ボタン、320…外部I/F部、330…システム制御装置、331…A/D変換部、332…前処理部、333…検出処理部、334…後処理部、335…システム制御部、336…制御部、337…記憶部、340…表示部、350…光源装置、352…光源

Claims (15)

  1.  内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する画像取得部と、
     学習済モデルに従って動作することによって、前記処理対象画像において注目領域を認識した結果である認識結果を出力する処理を行う処理部と、
     を含み、
     前記学習済モデルは、
     第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、前記プレトレーニング後に、第2観察方法において撮像された画像を含む第2画像群と、前記第2画像群に含まれる前記注目領域に関する正解データを用いてファインチューニングされることによって学習されており、
     前記第1観察方法は、通常光を照明光とする観察方法であり、
     前記第2観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、
     前記第2画像群は、少なくとも1枚は前記注目領域が撮影されている画像を含み、且つ、前記第1画像群よりも枚数が少ないことを特徴とする画像処理システム。
  2.  請求項1において、
     前記注目領域は、ポリープであることを特徴とする画像処理システム。
  3.  請求項1において、
     前記正解データは、画像内の前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データと、画像内の前記注目領域の悪性度を示す局所分類データのうち少なくとも1つを含むデータであって、
     前記認識結果は、画像内の前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出結果と、画像内の前記注目領域の前記悪性度に関連する局所分類結果のうち少なくとも1つを含む結果であることを特徴とする画像処理システム。
  4.  請求項3において、
     前記処理部は、
     前記学習済モデルに基づいて、前記検出結果の確からしさを示す検出スコアと、前記局所分類結果の確からしさを示す局所分類スコアと、を求め、
     前記検出スコアが所与の検出閾値より大きい場合に、前記検出結果を出力し、前記局所分類スコアが所与の分類閾値より大きい場合に前記局所分類結果を出力することを特徴とする画像処理システム。
  5.  請求項3において、
     前記処理部は、
     前記検出結果に基づいて、前記注目領域の大きさ、ボケ、ブレの少なくとも1つに関する条件が満たされるか否かの判定を行い、
     前記条件が満たされた場合に、前記検出結果及び前記局所分類結果を出力し、
     前記条件が満たされない場合に、前記検出結果を出力し、且つ、前記局所分類結果を出力しない、
     ことを特徴とする画像処理システム。
  6.  請求項1において、
     前記処理部は、
     第1学習済モデルに従って動作することによって求めた第1認識結果と、第2学習済モデルに従って動作することによって求めた第2認識結果との統合処理を行い、前記統合処理の結果を前記認識結果として出力することを特徴とする画像処理システム。
  7.  請求項3において、
     前記処理部は、
     第1学習済モデルに従って動作することによって前記注目領域に対応する領域である第1領域を前記検出結果として求め、第2学習済モデルに従って動作することによって前記注目領域に対応する領域である第2領域を前記検出結果として求め、
     前記第1領域と前記第2領域の重なり度合いに基づいて、前記第1領域及び前記第2領域が同一の前記注目領域に対応する領域であるか否かを判定することを特徴とする画像処理システム。
  8.  請求項7において、
     前記第1領域及び前記第2領域は、画像内の前記注目領域を囲う枠である検出枠であり、
     前記処理部は、
     前記第1領域に対応する前記検出枠と、前記第2領域に対応する前記検出枠の前記重なり度合いであるIOU(Intersection over Union)を算出し、前記IOUが所定の閾値以上である場合に、前記第1領域及び前記第2領域が同一の前記注目領域に対応すると判定することを特徴とする画像処理システム。
  9.  請求項7において、
     前記処理部は、
     前記第1領域と前記第2領域が同一の前記注目領域に対応すると判定され、且つ、前記第1領域に対応する前記局所分類結果と、前記第2領域に対応する前記局所分類結果が異なる場合に、前記局所分類結果の確からしさを表す局所分類スコアの大きな前記局所分類結果を選択する処理を行うことを特徴とする画像処理システム。
  10.  請求項1において、
     前記学習済モデルは、コンボリューショナルニューラルネットワーク(Convolutional Neural Network)からなることを特徴とする画像処理システム。
  11.  請求項1において、
     前記学習済モデルは、
     前記第1画像群を用いてプレトレーニングされ、前記第2画像群を用いてファインチューニングされることによって学習された第2観察方法用学習済モデルと、
     前記第1画像群を用いてプレトレーニングされ、前記第1観察方法において撮像された画像を含む第3画像群を用いてファインチューニングされることによって学習された第1観察方法用学習済モデルと、を含むことを特徴とする画像処理システム。
  12.  請求項11において、
     前記第1画像群は、前記第1観察方法において撮像された画像に対して、前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データが前記正解データとして付与された画像を含み、
     前記第3画像群は、前記第1観察方法において撮像された画像に対して、前記検出データ、及び、前記注目領域の悪性度を示す局所分類データが前記正解データとして付与された画像を含むことを特徴とする画像処理システム。
  13.  請求項3において、
     前記学習済モデルは、
     前記処理対象画像に基づいて特徴量を出力する特徴量抽出層と、前記特徴量に基づいて前記検出結果を表す情報を出力する検出層と、前記特徴量に基づいて前記局所分類結果を表す情報を出力する局所分類層と、を含み、
     前記検出データが前記正解データとして付与された画像を含む前記第1画像群を用いた前記プレトレーニングによって、前記特徴量抽出層及び前記検出層における重み付け係数が学習され、
     前記検出データ及び前記局所分類データが前記正解データとして付与された画像を含む前記第2画像群を用いた前記ファインチューニングによって、前記特徴量抽出層及び前記検出層及び前記局所分類層における前記重み付け係数が学習されることを特徴とする画像処理システム。
  14.  第1観察方法において撮像された画像を含む第1画像群と、第2観察方法において撮像された画像を含む第2画像群と、を取得する画像取得部と、
     前記第1画像群を用いてプレトレーニングを行い、前記プレトレーニング後に、前記第2画像群と、前記第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成する学習部と、
     を含み、
     前記第1観察方法は、通常光を照明光とする観察方法であり、
     前記第2観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、
     前記第2画像群は、少なくとも1枚は前記注目領域が撮影されている画像を含み、且つ、前記第1画像群よりも枚数が少ないことを特徴とする学習装置。
  15.  第1観察方法において撮像された画像を含む第1画像群と、第2観察方法において撮像された画像を含む第2画像群と、を取得し、
     前記第1画像群を用いてプレトレーニングを行い、
     前記プレトレーニング後に、前記第2画像群と、前記第2画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成し、
     前記第1観察方法は、通常光を照明光とする観察方法であり、
     前記第2観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、
     前記第2画像群は、少なくとも1枚は前記注目領域が撮影されている画像を含み、且つ、前記第1画像群よりも枚数が少ないことを特徴とする学習方法。
PCT/JP2020/000377 2020-01-09 2020-01-09 画像処理システム、学習装置及び学習方法 WO2021140602A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021569657A JP7346596B2 (ja) 2020-01-09 2020-01-09 画像処理システム及びプログラム
PCT/JP2020/000377 WO2021140602A1 (ja) 2020-01-09 2020-01-09 画像処理システム、学習装置及び学習方法
US17/857,385 US20220335610A1 (en) 2020-01-09 2022-07-05 Image processing system, training method for training device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/000377 WO2021140602A1 (ja) 2020-01-09 2020-01-09 画像処理システム、学習装置及び学習方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/857,385 Continuation US20220335610A1 (en) 2020-01-09 2022-07-05 Image processing system, training method for training device, and storage medium

Publications (1)

Publication Number Publication Date
WO2021140602A1 true WO2021140602A1 (ja) 2021-07-15

Family

ID=76787910

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/000377 WO2021140602A1 (ja) 2020-01-09 2020-01-09 画像処理システム、学習装置及び学習方法

Country Status (3)

Country Link
US (1) US20220335610A1 (ja)
JP (1) JP7346596B2 (ja)
WO (1) WO2021140602A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024084838A1 (ja) * 2022-10-18 2024-04-25 日本電気株式会社 画像処理装置、画像処理方法及び記憶媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019092A (zh) * 2022-06-02 2022-09-06 深圳市华汉伟业科技有限公司 一种基于伪彩色图的分类网络辅助分析方法及装置
CN116862868A (zh) * 2023-07-05 2023-10-10 重庆大学 低光度混凝土桥梁表观病害智能检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225820A1 (en) * 2015-08-07 2018-08-09 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for simultaneously monitoring colonoscopic video quality and detecting polyps in colonoscopy
CN109523532A (zh) * 2018-11-13 2019-03-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读介质及电子设备
WO2020003991A1 (ja) * 2018-06-28 2020-01-02 富士フイルム株式会社 医療画像学習装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225820A1 (en) * 2015-08-07 2018-08-09 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for simultaneously monitoring colonoscopic video quality and detecting polyps in colonoscopy
WO2020003991A1 (ja) * 2018-06-28 2020-01-02 富士フイルム株式会社 医療画像学習装置、方法及びプログラム
CN109523532A (zh) * 2018-11-13 2019-03-26 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIU, XIAOQI ET AL.: "Fine-tuning Pre-trained Convolutional Neural Networks for Gastric Precancerous Disease Classification on Magnification Narrow-band Imaging Images", NEUROCOMPUTING, 2019, XP055840175, ISSN: 0925-2312, DOI: 10.1016/ j, neucom. 2018.10.10 0 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024084838A1 (ja) * 2022-10-18 2024-04-25 日本電気株式会社 画像処理装置、画像処理方法及び記憶媒体

Also Published As

Publication number Publication date
JPWO2021140602A1 (ja) 2021-07-15
JP7346596B2 (ja) 2023-09-19
US20220335610A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
WO2021140602A1 (ja) 画像処理システム、学習装置及び学習方法
US11721086B2 (en) Image processing system and image processing method
EP3829416B1 (en) Method and system for augmented imaging in open treatment using multispectral information
US20220012874A1 (en) Method and system for augmented imaging using multispectral information
JP7231762B2 (ja) 画像処理方法、学習装置、画像処理装置及びプログラム
US20220351483A1 (en) Image processing system, endoscope system, image processing method, and storage medium
JP2020509455A (ja) プログラム可能光源を使用する画像のマルチクラス分類のシステムおよび方法
Iqbal et al. Recent trends and advances in fundus image analysis: A review
JP7005767B2 (ja) 内視鏡画像認識装置、内視鏡画像学習装置、内視鏡画像学習方法及びプログラム
JP7278202B2 (ja) 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置
JP7304951B2 (ja) コンピュータプログラム、内視鏡用プロセッサの作動方法及び内視鏡用プロセッサ
WO2020008834A1 (ja) 画像処理装置、方法及び内視鏡システム
US20230005247A1 (en) Processing system, image processing method, learning method, and processing device
CN111080639A (zh) 基于人工智能的多场景消化道内镜图像识别方法及系统
WO2021229684A1 (ja) 画像処理システム、内視鏡システム、画像処理方法及び学習方法
WO2021220822A1 (ja) 画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル
US20240127446A1 (en) Semi-supervised fundus image quality assessment method using ir tracking
WO2022029824A1 (ja) 診断支援システム、診断支援方法及び診断支援プログラム
WO2021140601A1 (ja) 画像処理システム、内視鏡システム及び画像処理方法
Kiefer et al. A Survey of Glaucoma Detection Algorithms using Fundus and OCT Images
US11978199B2 (en) Optical imaging system and related apparatus, method and computer program
KR20230059244A (ko) 인공지능 기반의 내시경 진단 보조 시스템 및 이의 제어방법
CN115245312A (zh) 内窥镜多光谱图像处理系统及处理和训练方法
Issa et al. Unsupervised segmentation of human placenta tissues using hyperspectral image analysis
Sivaswamy A solution to overcome the sparsity issue of annotated data in medical domain

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20911915

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021569657

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20911915

Country of ref document: EP

Kind code of ref document: A1