WO2024084578A1 - 画像処理装置、画像処理方法及び記憶媒体 - Google Patents

画像処理装置、画像処理方法及び記憶媒体 Download PDF

Info

Publication number
WO2024084578A1
WO2024084578A1 PCT/JP2022/038743 JP2022038743W WO2024084578A1 WO 2024084578 A1 WO2024084578 A1 WO 2024084578A1 JP 2022038743 W JP2022038743 W JP 2022038743W WO 2024084578 A1 WO2024084578 A1 WO 2024084578A1
Authority
WO
WIPO (PCT)
Prior art keywords
inference
image
lesion
processing device
image processing
Prior art date
Application number
PCT/JP2022/038743
Other languages
English (en)
French (fr)
Inventor
雅弘 西光
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/038743 priority Critical patent/WO2024084578A1/ja
Priority to PCT/JP2023/031838 priority patent/WO2024084838A1/ja
Priority to US18/410,187 priority patent/US20240161283A1/en
Publication of WO2024084578A1 publication Critical patent/WO2024084578A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000094Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope extracting biological structures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000096Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Definitions

  • This disclosure relates to the technical fields of image processing devices, image processing methods, and storage media that process images acquired during endoscopic examinations.
  • Patent Document 1 discloses an endoscopic examination system that detects an area of interest based on an endoscopic image and an area of interest detection threshold, and determines whether the area of interest is a flat lesion or a raised lesion.
  • endoscopic images may contain a wide variety of lesions, and the environments in which endoscopic images are taken are also diverse, making it very difficult to accurately detect the lesion area. Therefore, even doctors may not agree on the lesion area that is a candidate for biopsy.
  • one of the objectives of the present disclosure is to provide an image processing device, an image processing method, and a storage medium that are capable of accurately detecting an area of interest contained in an endoscopic image.
  • One aspect of the image processing device is An acquisition means for acquiring an endoscopic image of a subject; an inference means for generating a plurality of inference results related to the region of interest of the subject in the endoscopic image based on the endoscopic image; An integration means for integrating the plurality of inference results;
  • the image processing device has the following features.
  • One aspect of the image processing method includes: The computer An endoscopic image of the subject is acquired, generating a plurality of inference results regarding a region of interest of the subject in the endoscopic image based on the endoscopic image; Integrating the multiple inference results; An image processing method.
  • One aspect of the storage medium is An endoscopic image of the subject is acquired, generating a plurality of inference results regarding a region of interest of the subject in the endoscopic image based on the endoscopic image;
  • a storage medium storing a program for causing a computer to execute a process for integrating the multiple inference results.
  • FIG. 1 shows a schematic configuration of an endoscopic examination system.
  • 2 shows the hardware configuration of an image processing device.
  • 3 is a diagram showing an overview of a lesion detection process executed by the image processing device in the first embodiment.
  • FIG. 4 is an example of a functional block of a lesion detection process in the first embodiment.
  • 13A shows an example of calculating the similarity between a model input image and a representative image
  • FIG. 13B shows an example of calculating the similarity between a lesion confidence map of a model input image and a representative image.
  • 4 shows an example of a display screen displayed by a display device during an endoscopic examination.
  • 4 is an example of a flowchart illustrating an overview of a process executed by an image processing device during an endoscopic examination in the first embodiment.
  • FIG. 1 shows a schematic configuration of an endoscopic examination system.
  • 2 shows the hardware configuration of an image processing device.
  • 3 is a diagram showing an overview of a lesion detection process executed by the image processing device in the first
  • FIG. 11 is a diagram showing an overview of a lesion detection process executed by an image processing device in a second embodiment.
  • FIG. 11 is a functional block diagram of an image processing device related to lesion detection processing in a second embodiment.
  • 13 is an example of a flowchart illustrating an overview of a process executed by an image processing device during an endoscopic examination in the second embodiment.
  • FIG. 13 is a diagram showing an overview of a lesion detection process executed by an image processing device in a third embodiment.
  • 13 is an example of a flowchart illustrating an overview of a process executed by an image processing device during an endoscopic examination in the third embodiment.
  • FIG. 13 is a block diagram of an image processing device according to a fourth embodiment. 13 is an example of a flowchart executed by the image processing apparatus in the fourth embodiment.
  • FIG. 1 shows a schematic configuration of an endoscopic examination system 100.
  • the endoscopic examination system 100 is a system that detects a part of a subject suspected of having a lesion (also called a "lesion site") to an examiner such as a doctor who performs an examination or treatment using an endoscope, and presents the part as a candidate site for cell sampling (biopsy), etc.
  • the endoscopic examination system 100 mainly includes an image processing device 1, a display device 2, and an endoscope scope 3 connected to the image processing device 1.
  • the image processing device 1 acquires images (also called “endoscopic images Ia") captured by the endoscope 3 in a time series from the endoscope 3, and displays a screen based on the endoscopic images Ia on the display device 2.
  • the endoscopic images Ia are images captured at a predetermined frame rate during at least one of the processes of inserting or ejecting the endoscope 3 into the subject.
  • the image processing device 1 analyzes the endoscopic images Ia to detect the area of the lesion site (also called the "lesion area”) in the endoscopic images Ia, and displays information related to the detection results on the display device 2.
  • the lesion area is an example of a "region of interest”.
  • the display device 2 is a display or the like that performs a predetermined display based on a display signal supplied from the image processing device 1.
  • the endoscope 3 mainly comprises an operation section 36 that allows the examiner to perform predetermined inputs, a flexible shaft 37 that is inserted into the subject's organ to be imaged, a tip section 38 that incorporates an imaging section such as a miniature image sensor, and a connection section 39 for connecting to the image processing device 1.
  • the configuration of the endoscopic examination system 100 shown in FIG. 1 is an example, and various modifications may be made.
  • the image processing device 1 may be configured integrally with the display device 2.
  • the image processing device 1 may be configured from multiple devices.
  • the subject of the endoscopic examination in the present disclosure may be any organ that can be examined endoscopically, such as the large intestine, esophagus, stomach, or pancreas.
  • endoscopes that are the subject of the present disclosure include pharyngeal endoscopes, bronchoscopes, upper gastrointestinal endoscopes, duodenoscopes, small intestinal endoscopes, colonoscopes, capsule endoscopes, thoracoscopes, laparoscopes, cystoscopes, cholangioscopes, arthroscopes, spinal endoscopes, vascular endoscopes, and epidural endoscopes.
  • Examples of the pathology of the lesion site that is the subject of the endoscopic examination include (a) to (f) below.
  • FIG. 2 shows the hardware configuration of the image processing device 1.
  • the image processing device 1 mainly includes a processor 11, a memory 12, an interface 13, an input unit 14, a light source unit 15, and a sound output unit 16. These elements are connected via a data bus 19.
  • the processor 11 executes predetermined processing by executing programs stored in the memory 12.
  • the processor 11 is a processor such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or a TPU (Tensor Processing Unit).
  • the processor 11 may be composed of multiple processors.
  • the processor 11 is an example of a computer.
  • the memory 12 is composed of various volatile memories used as working memories, such as RAM (Random Access Memory) and ROM (Read Only Memory), and non-volatile memories that store information necessary for the processing of the image processing device 1.
  • the memory 12 may include an external storage device such as a hard disk connected to or built into the image processing device 1, or may include a removable storage medium such as a flash memory.
  • the memory 12 stores programs that enable the image processing device 1 to execute each process in this embodiment.
  • Memory 12 also stores lesion area inference model information D1, which is information related to the lesion area inference model.
  • the lesion area inference model is a machine learning model that generates an inference result related to a lesion area corresponding to a disease to be detected in an endoscopic examination, and parameters required for the model are stored in lesion area inference model information D1. For example, when an endoscopic image is input, the lesion area inference model outputs an inference result indicating a lesion area in the input endoscopic image.
  • the lesion area inference model may be a model (including a statistical model, the same applies below) including an architecture adopted in any machine learning such as a neural network or a support vector machine.
  • the lesion area inference model information D1 includes various parameters such as the layer structure, the neuron structure of each layer, the number of filters and filter size in each layer, and the weights of each element of each filter.
  • the inference result output by the lesion area inference model is, for example, a map of scores (also called “lesion confidence scores") representing the confidence that each unit area of the input endoscopic image is a lesion area.
  • the above map will also be called a "lesion confidence map.”
  • the lesion confidence map is an image showing the lesion confidence scores for each unit pixel (which may include subpixels) or pixel group.
  • the lesion confidence score indicates that the higher the lesion confidence score of an area, the higher the confidence that the area is a lesion area.
  • the lesion confidence map may be a mask image that shows the lesion area using binary values. In this way, the lesion area inference model is a model that has learned the relationship between the image input to the lesion area inference model and the lesion area in that image.
  • the lesion area inference model is trained in advance based on a pair of an input image conforming to the input format of the lesion area inference model and correct answer data (in this embodiment, a correct lesion reliability map) indicating the correct inference result that the lesion area inference model should output when the input image is input. Then, the parameters of each model obtained by training are stored in memory 12 as lesion area inference model information D1.
  • the memory 12 may optionally include other information necessary for the image processing device 1 to execute each process in this embodiment.
  • the lesion area inference model information D1 may be stored in a storage device separate from the image processing device 1. In this case, the image processing device 1 receives the lesion area inference model information D1 from the above-mentioned storage device.
  • the interface 13 performs interface operations between the image processing device 1 and an external device. For example, the interface 13 supplies the display information "Ib" generated by the processor 11 to the display device 2. The interface 13 also supplies light generated by the light source unit 15 to the endoscope scope 3. The interface 13 also supplies an electrical signal indicating the endoscopic image Ia supplied from the endoscope scope 3 to the processor 11.
  • the interface 13 may be a communication interface such as a network adapter for communicating with an external device by wire or wirelessly, or may be a hardware interface compliant with USB (Universal Serial Bus), SATA (Serial AT Attachment), etc.
  • the input unit 14 generates an input signal based on the operation by the examiner.
  • the input unit 14 is, for example, a button, a touch panel, a remote controller, a voice input device, etc.
  • the light source unit 15 generates light to be supplied to the tip 38 of the endoscope 3.
  • the light source unit 15 may also incorporate a pump or the like for sending water or air to be supplied to the endoscope 3.
  • the sound output unit 16 outputs sound based on the control of the processor 11.
  • Lesion detection processing which is processing related to detection of a lesion area, will be described.
  • the image processing device 1 increases the endoscopic image Ia to "N" images (N is an integer equal to or greater than 2) by data expansion (i.e., data augmentation), and integrates the inference results obtained by inputting each of the N images into a lesion area inference model. In this way, the image processing device 1 accurately detects lesion areas that are candidate sites for biopsy.
  • FIG. 3 is a diagram showing an overview of the lesion detection process executed by the image processing device 1 in the first embodiment.
  • the image processing device 1 uses data expansion to generate N images from each endoscopic image Ia obtained from the endoscope 3 at a predetermined frame cycle as images to be input to the lesion area inference model (also called "model input images").
  • any operation such as an image size change operation, a brightness change operation (including specification of whether or not to normalize brightness), a color change operation (including adjustment of the intensity of redness), or a combination of these, may be adopted as a data expansion method.
  • the image processing device 1 inputs each model input image to a lesion area inference model, and obtains a lesion confidence map, which is an inference result regarding the lesion area output by the lesion area inference model.
  • the lesion confidence map is a mask image that indicates whether or not the area is a lesion area using a binary value (here, white indicates a lesion area).
  • the image processing device 1 performs rotation operations in the reverse direction (counterclockwise) of 0 degrees, 90 degrees, 180 degrees, and 270 degrees for each lesion confidence map (i.e., a rotation operation that reverses the rotation operation performed when the model input image was generated), and performs integration by weighted averaging on the images obtained.
  • the image processing device 1 regards, as a lesion area, pixels in the integrated image that have pixel values that indicate a certain degree of certainty that the pixel is a lesion area or higher, and generates an image showing the final lesion detection result (here, a mask image representing the lesion area).
  • the image processing device 1 displays this mask image together with the endoscopic image Ia.
  • the endoscopic image Ia used for lesion detection may contain a wide variety of lesions, and the shooting environment of the endoscopic image Ia is also diverse, so accurate detection of the lesion area may be very difficult.
  • lesions contained in the endoscopic image Ia may be of various types, such as raised, flat, and depressed, and their shapes change successively.
  • the shooting environment differs depending on the lesion position, lighting conditions, the presence or absence of water splashes, and the presence or absence of blurring or blurring. Therefore, even doctors may not agree on the lesion area that is a candidate site for biopsy.
  • the image processing device 1 generates multiple inference results and integrates the inference results to ultimately identify the lesion area. This makes it possible to present the lesion area that is a candidate for a biopsy site to the examiner in an appropriate manner.
  • Fig. 4 shows an example of functional blocks for lesion detection processing in the first embodiment.
  • the processor 11 of the image processing device 1 functionally has an endoscopic image acquisition unit 30, a conversion unit 31, an inference unit 32, an integration unit 33, a lesion detection unit 34, and a display control unit 35. Note that in Fig. 4, blocks between which data is exchanged are connected by solid lines, but the combination of blocks between which data is exchanged is not limited to this. The same applies to other functional block diagrams described later.
  • the endoscopic image acquisition unit 30 acquires the endoscopic image Ia captured by the endoscopic scope 3 via the interface 13 at predetermined intervals.
  • the endoscopic image acquisition unit 30 then supplies the acquired endoscopic image Ia to the conversion unit 31 and the display control unit 35, respectively.
  • Each downstream processing unit then performs the processing described below, with the time interval at which the endoscopic image acquisition unit 30 acquires the endoscopic image Ia being set as a period.
  • the time for each frame period will also be referred to as the "processing time.”
  • the conversion unit 31 generates N model input images from the endoscopic image Ia by data expansion.
  • the conversion unit 31 generates N model input images that are different from each other by performing, for example, a rotation operation, an image size change operation, a brightness change operation, a color change operation, or any combination of these operations on the endoscopic image Ia.
  • the method of data expansion is not limited to the various operations exemplified above, and may be any operation used for data expansion.
  • the conversion unit 31 supplies the generated N model input images to the inference unit 32.
  • the inference unit 32 obtains N lesion confidence maps, which are inference results regarding the lesion area, based on the N model input images and the lesion area inference model constructed by referencing the lesion area inference model information D1. In this case, the inference unit 32 inputs each of the N model input images to the lesion area inference model and obtains N lesion confidence maps output by the lesion area inference model. The inference unit 32 supplies the N lesion confidence maps to the integration unit 33.
  • the integration unit 33 generates an integrated image by integrating N lesion confidence maps by weighted averaging.
  • the weighting factor wi is determined, for example, based on the similarity between the corresponding model input image or lesion confidence map and the input image or image representing the correct answer data used in learning the lesion region inference model (also called the "representative image"). In another example, the weighting factor wi is set to the same value (i.e., "1/N") regardless of the index i so that the weights are uniform. The method of determining the weighting factor wi will be described later.
  • the integration unit 33 supplies the generated integrated image to the lesion detection unit 34.
  • Lesion detection unit 34 determines whether or not a lesion area exists based on the integrated image, and identifies the lesion area if a lesion area exists. In this case, for example, lesion detection unit 34 determines that a lesion area exists when there are a predetermined number or more pixels in the integrated image having a lesion confidence score equal to or greater than a predetermined threshold, and identifies the pixels in the integrated image having a lesion confidence score equal to or greater than the predetermined threshold as a lesion area.
  • lesion detection unit 34 may perform clustering for pixels having a lesion confidence score equal to or greater than a predetermined threshold, in which adjacent pixels are grouped into the same cluster, and may consider a cluster having a predetermined number or more pixels to be a lesion area.
  • Lesion detection unit 34 supplies the determination result of the presence or absence of a lesion area and information indicating the identified lesion area to display control unit 35 as a lesion detection result.
  • the display control unit 35 generates display information Ib based on the latest endoscopic image Ia supplied from the endoscopic image acquisition unit 30 and the lesion detection result supplied from the lesion detection unit 34, and supplies the generated display information Ib to the display device 2, thereby causing the display device 2 to display the latest endoscopic image Ia and the lesion detection result, etc.
  • the display control unit 35 may control the sound output of the sound output unit 16 so as to output a warning sound or voice guidance, etc., to notify the user that a lesion area has been detected, based on the lesion detection result.
  • each of the components of the endoscopic image acquisition unit 30, conversion unit 31, inference unit 32, integration unit 33, lesion detection unit 34, and display control unit 35 can be realized, for example, by the processor 11 executing a program. Also, each component may be realized by recording the necessary programs in any non-volatile storage medium and installing them as needed. Note that at least a portion of each of these components may not be realized by software using a program, but may be realized by any combination of hardware, firmware, and software. Also, at least a portion of each of these components may be realized using a user-programmable integrated circuit, such as an FPGA (Field-Programmable Gate Array) or a microcontroller. In this case, the integrated circuit may be used to realize a program composed of each of the above components.
  • FPGA Field-Programmable Gate Array
  • each component may be configured by an ASSP (Application Specific Standard Production), an ASIC (Application Specific Integrated Circuit), or a quantum processor (quantum computer control chip).
  • ASSP Application Specific Standard Production
  • ASIC Application Specific Integrated Circuit
  • quantum processor quantum computer control chip
  • FIG. 5(A) shows an example of calculating the similarity between a model input image of index i and a representative image.
  • the integration unit 33 uses a training endoscopic image (also called a "training lesion image”) that is used to train the lesion area inference model and contains a lesion area as the representative image, and calculates the similarity with the model input image for each index i.
  • a training endoscopic image also called a "training lesion image”
  • one arbitrary training lesion image is defined as the representative image, but this is not limiting.
  • the integrating unit 33 may define an average image of multiple training lesion images or an image integrated using any statistical method other than the average as the representative image.
  • the integrating unit 33 may define each of multiple training lesion images as a representative image, and define the average of the similarities between each training lesion image and the model input image of index i as the similarity used to determine the weighting coefficient wi.
  • any similarity index based on a comparison between images may be calculated as the similarity between the model input image and the representative image.
  • the similarity index may be, for example, a correlation coefficient, a Structural SIMilarity (SSIM) index, a Peak Signal-to-Noise Ratio (PSNR) index, or a squared error between corresponding pixels.
  • the integration unit 33 may vectorize the model input image and the representative image after normalizing their sizes, and calculate the cosine similarity of these vectors as the similarity.
  • FIG. 5(B) shows an example of calculating the similarity between the lesion confidence map (here, a mask image) of the model input image of index i and the representative image.
  • the integration unit 33 uses, as the representative image, the correct lesion confidence map (here, a mask image indicating a lesion area) that should be output by the lesion area inference model annotated to the learning lesion image.
  • the integration unit 33 then calculates, for each index i, the similarity between the correct lesion confidence map used for learning and the lesion confidence map generated by the lesion area inference model from the model input image.
  • the correct lesion reliability map for any one learning lesion image is defined as the representative image, but this is not limited thereto.
  • the representative image may be an average image of the correct lesion reliability maps for multiple learning lesion images or an image obtained by integrating lesion reliability maps using any statistical method other than the average.
  • the integration unit 33 calculates an arbitrary similarity index based on a comparison between the images as the similarity between the lesion confidence map of the learning lesion image and the lesion confidence map of the model input image.
  • the integration unit 33 sets the weighting coefficient wi so that the total value ⁇ wi for all indexes i is 1 and the higher the corresponding similarity, the higher the value becomes.
  • a specific example of the method of calculating the similarity and the method of setting the weighting coefficient wi based on the similarity is the same as the example shown in FIG. 5(A).
  • Display Example Fig. 6 shows an example of a display screen displayed by the display device 2 during an endoscopic examination.
  • the display control unit 35 of the image processing device 1 outputs display information Ib generated based on the endoscopic image Ia acquired by the endoscopic image acquisition unit 30 and the lesion detection result by the lesion detection unit 34, etc., to the display device 2.
  • the display control unit 35 transmits the endoscopic image Ia and the display information Ib to the display device 2, thereby causing the display device 2 to display the above-mentioned display screen.
  • the display control unit 35 of the image processing device 1 provides a real-time image display area 70 and a lesion detection result display area 71 on the display screen.
  • the display control unit 35 displays a moving image representing the latest endoscopic image Ia in the real-time image display area 70. Furthermore, in the lesion detection result display area 71, the display control unit 35 displays the lesion detection result by the lesion detection unit 34. Note that since the lesion detection unit 34 has determined that a lesion site exists at the time of displaying the display screen shown in FIG. 6, the display control unit 35 displays a text message indicating that a lesion is highly likely to exist and a mask image indicating the lesion area in the lesion detection result display area 71 based on the lesion detection result.
  • the display control unit 35 may output a sound (including voice) notifying that a lesion is highly likely to exist by the sound output unit 16.
  • FIG. 7 is an example of a flowchart showing an overview of the processing executed by the image processing device 1 during endoscopic examination in the first embodiment.
  • the image processing device 1 acquires an endoscopic image Ia (step S11).
  • the endoscopic image acquisition unit 30 of the image processing device 1 receives the endoscopic image Ia from the endoscopic scope 3 via the interface 13.
  • the image processing device 1 generates N different model input images by data expansion from the endoscopic image Ia acquired in step S11 (step S12). Then, the image processing device 1 generates a lesion confidence map from each model input image using a lesion area inference model configured with reference to the lesion area inference model information D1 (step S13). In this case, the image processing device 1 inputs each model input image to the lesion area inference model to obtain a lesion confidence map output from the lesion area inference model.
  • the image processing device 1 calculates a weighting factor wi for each lesion confidence map (step S14).
  • the image processing device 1 performs a conversion operation on the angle and size of each lesion confidence map so as to reverse the conversion operation due to data expansion in step S12.
  • the image processing device 1 generates an integrated image by integrating the lesion reliability map using the weighting coefficient wi (step S15). Then, the image processing device 1 generates a lesion detection result based on the integrated image (step S16). Then, the image processing device 1 displays information based on the endoscopic image Ia obtained in step S11 and the lesion detection result generated in step S16 on the display device 2 (step S17).
  • step S18 the image processing device 1 determines whether or not the endoscopic examination has ended. For example, when the image processing device 1 detects a predetermined input to the input unit 14 or the operation unit 36, it determines that the endoscopic examination has ended. When the image processing device 1 determines that the endoscopic examination has ended (step S18; Yes), it ends the processing of the flowchart. On the other hand, when the image processing device 1 determines that the endoscopic examination has not ended (step S18; No), it returns the processing to step S11. Then, the image processing device 1 performs the processing of steps S11 to S17 on the endoscopic image Ia newly generated by the endoscope 3.
  • the image processing device 1 may process the video composed of the endoscopic images Ia generated during the endoscopic examination after the examination.
  • the image processing device 1 sequentially performs the processing of the flowchart in FIG. 7 on the time-series endoscopic images Ia that constitute the specified image. Then, when the image processing device 1 determines in step S18 that the target image has ended, it ends the processing of the flowchart, and when the target image has not ended, it returns to step S11 and performs the processing of the flowchart on the next endoscopic image Ia in the time series.
  • the detection target is not limited to the lesion area, but may be an area in the endoscopic image Ia that represents any area of interest that the examiner needs to focus on (also called the "area of interest”).
  • areas of interest may be lesion areas, areas of inflammation, areas of surgical scars or other cuts, areas of folds or protrusions, areas where the tip 38 of the endoscope 3 is likely to come into contact (be easily pinched) with the wall surface inside the lumen, etc.
  • the image processing device 1 according to the second embodiment differs from the first embodiment in that, instead of generating N lesion reliability maps from N model input images generated from an endoscopic image Ia, N lesion reliability maps are generated from an endoscopic image Ia using different N lesion area inference models.
  • N lesion reliability maps are generated from an endoscopic image Ia using different N lesion area inference models.
  • components similar to those in the first embodiment are appropriately designated by the same reference numerals, and their description will be omitted.
  • the hardware configuration of the image processing device 1 according to the second embodiment is the same as the configuration shown in FIG. 2 described in the first embodiment.
  • FIG. 8 is a diagram showing an overview of the lesion detection process executed by the image processing device 1 in the second embodiment.
  • the image processing device 1 inputs each endoscopic image Ia obtained from the endoscope 3 at a predetermined frame cycle into N lesion area inference models (here, models A to D). As a result, the image processing device 1 obtains a total of N lesion reliability maps from the N lesion area inference models.
  • the N lesion region inference models differ from the other lesion region inference models in at least one of the architecture or the learning data used for learning. As a result, even when the same endoscopic image Ia is input, the N lesion region inference models each generate a different inference result.
  • N lesion region inference models may include a model other than a deep learning model (e.g., a model based on a support vector machine) or a combination of a deep learning model and a model other than a deep learning model.
  • a set of training data i.e., a set of training data corresponding to N vendors
  • N lesion area inference models are trained using the set of training data for each vendor.
  • a set of training data i.e., a set of training data corresponding to N lesion types
  • each lesion type e.g., elevated, flat, depressed, etc.
  • the image processing device 1 generates an integrated image by weighting and integrating the N lesion reliability maps using the weighting coefficient wi.
  • the image processing device 1 determines the lesion reliability score for each pixel of the integrated image by adding values obtained by multiplying the lesion reliability score for each pixel of the N lesion reliability maps by the corresponding weighting coefficient.
  • the image processing device 1 regards pixels in the integrated image that have a lesion confidence score indicating that the degree of certainty that they are a lesion area is equal to or greater than a predetermined level as a lesion area, and generates an image showing the final lesion detection result (here, a mask image representing the lesion area).
  • the image processing device 1 displays this mask image together with the endoscopic image Ia.
  • the image processing device 1 in the second embodiment generates multiple inference results and integrates the inference results to identify the final lesion area. This makes it possible to appropriately present the lesion area that is a candidate for a biopsy site to the examiner.
  • FIG. 9 is a functional block diagram of the image processing device 1 related to the lesion detection process in the second embodiment.
  • the processor 11 of the image processing device 1 according to the second embodiment functionally has an endoscopic image acquisition unit 30A, an inference unit 32A, an integration unit 33A, a lesion detection unit 34A, and a display control unit 35A.
  • the memory 12 stores lesion area inference model information D1 including at least the learned parameters of the N lesion area inference models.
  • the endoscopic image acquisition unit 30A acquires the endoscopic image Ia captured by the endoscope 3 at a predetermined interval via the interface 13. The endoscopic image acquisition unit 30A then supplies the acquired endoscopic image Ia to the inference unit 32A and the display control unit 35A, respectively.
  • the inference unit 32A obtains N lesion reliability maps, which are inference results regarding the lesion area, based on the endoscopic image Ia and N lesion area inference models constructed by referencing the lesion area inference model information D1. In this case, the inference unit 32A inputs the endoscopic image Ia to each of the N lesion area inference models and obtains the N lesion reliability maps output by the lesion area inference models. The inference unit 32A supplies the N lesion reliability maps to the integration unit 33A.
  • the integration unit 33A generates an integrated image by integrating N lesion confidence maps by weighted averaging.
  • the integration unit 33A sets the weight coefficient wi to the same value (i.e., "1/N") regardless of the index i.
  • the integration unit 33A sets the weight coefficient wi based on the similarity between the lesion confidence map for each index i and the representative image.
  • the representative image is, for example, the correct lesion confidence map used in training the lesion area inference model corresponding to index i.
  • the "correct lesion confidence map" includes an average image of the lesion confidence maps indicated by the correct data corresponding to multiple training lesion images, or an image obtained by integrating the lesion confidence maps using any statistical method other than the average. In this way, the representative image may be prepared in advance according to the training data used in the lesion area inference model corresponding to index i.
  • Lesion detection unit 34A determines whether or not a lesion area exists and identifies the lesion area if a lesion area exists based on the integrated image generated by integration unit 33A, and supplies the determination result of the presence or absence of a lesion area and information indicating the identified lesion area as a lesion detection result to display control unit 35A. Note that the processing performed by lesion detection unit 34A is the same as the processing performed by lesion detection unit 34.
  • the display control unit 35A generates display information Ib based on the latest endoscopic image Ia supplied from the endoscopic image acquisition unit 30A and the lesion detection result supplied from the lesion detection unit 34A, and supplies the generated display information Ib to the display device 2, thereby causing the display device 2 to display the latest endoscopic image Ia and the lesion detection result, etc. Note that the processing executed by the display control unit 35A is the same as the processing executed by the display control unit 35.
  • FIG. 10 is an example of a flowchart showing an overview of the processing executed by the image processing device 1 during endoscopic examination in the second embodiment.
  • the image processing device 1 acquires an endoscopic image Ia (step S21).
  • the image processing device 1 generates N lesion reliability maps from the endoscopic image Ia acquired in step S11 using N lesion area inference models configured with reference to the lesion area inference model information D1 (step S22).
  • the image processing device 1 acquires lesion reliability maps output from each lesion area inference model by inputting the endoscopic image Ia to each lesion area inference model.
  • the image processing device 1 calculates a weighting factor wi for each lesion reliability map (step S23).
  • the image processing device 1 generates an integrated image by integrating the lesion reliability map using the weighting coefficient wi (step S24). Then, the image processing device 1 generates a lesion detection result based on the integrated image (step S25). Then, the image processing device 1 displays information based on the endoscopic image Ia obtained in step S11 and the lesion detection result generated in step S25 on the display device 2 (step S26).
  • step S26 the image processing device 1 determines whether or not the endoscopic examination has ended (step S27). If the image processing device 1 determines that the endoscopic examination has ended (step S27; Yes), it ends the processing of the flowchart. On the other hand, if the image processing device 1 determines that the endoscopic examination has not ended (step S27; No), it returns the processing to step S21. Then, the image processing device 1 executes the processing of steps S21 to S26 on the endoscopic image Ia newly generated by the endoscope 3.
  • the image processing device 1 according to the third embodiment differs from the first or second embodiment in that it applies setting conditions of N different patterns (N patterns) to one lesion area inference model to generate N lesion reliability maps from an endoscopic image Ia.
  • N patterns N different patterns
  • the hardware configuration of the image processing device 1 according to the third embodiment is the same as the configuration shown in FIG. 2 described in the first embodiment.
  • the functional blocks of the image processing device 1 related to the lesion detection process in the third embodiment are the same as the configuration shown in FIG. 9 described in the second embodiment, for example.
  • FIG. 11 is a diagram showing an overview of the lesion detection process executed by the image processing device 1 in the third embodiment.
  • the image processing device 1 inputs each endoscopic image Ia obtained from the endoscope 3 at a predetermined frame cycle to a lesion area inference model (here, model A) to which N patterns of setting conditions (here, setting conditions a to d) have been applied.
  • a lesion area inference model here, model A
  • N patterns of setting conditions here, setting conditions a to d
  • the image processing device 1 obtains a total of N lesion confidence maps from the lesion area inference model to which the N patterns of setting conditions have been applied.
  • the image processing device 1 obtains N inference results output from the lesion area inference model by inputting the endoscopic image Ia obtained at each processing time to the lesion area inference model N times while changing the setting conditions of the lesion area inference model.
  • the setting condition may be, for example, a setting parameter of the lesion area inference model that can be adjusted by a user's input, and may be a threshold parameter that determines whether or not a pixel is a lesion area according to the lesion confidence score of each pixel.
  • the lesion confidence score is set to a value between 0 and 1 (when it is 1, the pixel is deemed to be the most likely to be a lesion), and when the lesion confidence score of a pixel is smaller than the threshold parameter, the lesion confidence score of the pixel is set to 0, so that the pixel is deemed to be a non-lesion area.
  • the threshold parameter when the threshold parameter is set to a value close to 1, only the area that the inference model infers to be more likely to be a lesion becomes a lesion area, and the other areas become non-lesion areas. Conversely, when the threshold parameter is set to a value close to 0, the area that the inference model infers to be not a lesion also becomes a lesion area.
  • the former is a setting that emphasizes that the estimated lesion area is correctly a lesion area and is intended to not erroneously estimate a non-lesion area as a lesion area (emphasis on precision)
  • the latter is a setting that allows non-lesion areas to be included as lesion areas and is intended to not allow lesion areas to be missed (emphasis on recall). In this way, it is possible to generate confidence maps for multiple lesion area inference models with different settings (e.g., whether to prioritize recall or precision).
  • the image processing device 1 generates an integrated image by weighting and integrating the N lesion reliability maps using the weighting coefficient wi.
  • the image processing device 1 determines the pixel value of the integrated image by adding values obtained by multiplying the lesion reliability scores of each pixel of the N lesion reliability maps by the corresponding weighting coefficients.
  • the image processing device 1 regards pixels in the integrated image that have a lesion confidence score indicating that the degree of certainty that they are a lesion area is equal to or greater than a predetermined level as a lesion area, and generates an image showing the final lesion detection result (here, a mask image representing the lesion area).
  • the image processing device 1 displays this mask image together with the endoscopic image Ia.
  • the image processing device 1 in the third embodiment generates multiple inference results and integrates the inference results to identify the final lesion area. This makes it possible to present the lesion area that is a candidate for a biopsy site to the examiner in an appropriate manner.
  • FIG. 12 is an example of a flowchart showing an overview of the processing executed by the image processing device 1 during endoscopic examination in the third embodiment.
  • the image processing device 1 acquires an endoscopic image Ia (step S31).
  • the image processing device 1 applies N patterns of setting conditions to one lesion area inference model constructed by referring to the lesion area inference model information D1, and generates N lesion reliability maps from the endoscopic image Ia acquired in step S11 (step S32).
  • the image processing device 1 inputs the endoscopic image Ia obtained at each processing time to the lesion area inference model N times while changing the setting conditions of the lesion area inference model, thereby acquiring N lesion reliability maps (i.e., inference results) output from the lesion area inference model.
  • the image processing device 1 calculates a weighting factor wi for each lesion reliability map (step S33).
  • the image processing device 1 sets the weighting factor wi based on the similarity between a representative image common to all indexes i and the lesion reliability map corresponding to index i.
  • the image processing device 1 generates an integrated image by integrating the lesion reliability map using the weighting coefficient wi (step S34). Then, the image processing device 1 generates a lesion detection result based on the integrated image (step S35). Then, the image processing device 1 displays information based on the endoscopic image Ia obtained in step S11 and the lesion detection result generated in step S25 on the display device 2 (step S36).
  • step S36 the image processing device 1 determines whether or not the endoscopic examination has ended (step S37). If the image processing device 1 determines that the endoscopic examination has ended (step S37; Yes), it ends the processing of the flowchart. On the other hand, if the image processing device 1 determines that the endoscopic examination has not ended (step S37; No), it returns the processing to step S31. Then, the image processing device 1 executes the processing of steps S31 to S36 on the endoscopic image Ia newly generated by the endoscope 3.
  • the fourth Embodiment 13 is a block diagram of an image processing device 1X according to the fourth embodiment.
  • the image processing device 1X includes an acquisition unit 30X, an inference unit 32X, and an integration unit 33X.
  • the image processing device 1X may be composed of a plurality of devices.
  • the acquisition means 30X acquires an endoscopic image of the subject.
  • the acquisition means 30X can be the endoscopic image acquisition section 30 in the first embodiment, or the endoscopic image acquisition section 30A in the second or third embodiment.
  • the acquisition means 30X may instantly acquire an endoscopic image generated by the imaging section, or may acquire an endoscopic image generated in advance by the imaging section and stored in a storage device at a predetermined timing.
  • the inference means 32X generates multiple inference results regarding the region of interest of the subject in the endoscopic image based on the endoscopic image.
  • the inference means 32X can be the inference unit 32 in the first embodiment, or the inference unit 32A in the second or third embodiment.
  • the integration means 33X integrates multiple inference results.
  • the integration means 33X can be the integration unit 33 in the first embodiment, or the integration unit 33A in the second or third embodiment.
  • FIG. 14 is an example of a flowchart showing the processing procedure in the fourth embodiment.
  • the acquisition means 30X acquires an endoscopic image of a subject.
  • the acquisition means 30X acquires an endoscopic image of a subject (step S41).
  • the inference means 32X generates multiple inference results related to the region of interest of the subject in the endoscopic image based on the endoscopic image (step S42).
  • the integration means 33X integrates the multiple inference results (step S43).
  • the image processing device 1X can accurately detect the area of interest from an endoscopic image of a subject.
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic storage media (e.g., flexible disks, magnetic tapes, hard disk drives), optical storage media (e.g., optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R/Ws, semiconductor memories (e.g., mask ROMs, PROMs (Programmable ROMs), EPROMs (Erasable PROMs), flash ROMs, and RAMs (Random Access Memory).
  • Programs may also be supplied to computers by various types of transient computer-readable media.
  • Examples of transient computer-readable media include electrical signals, optical signals, and electromagnetic waves.
  • Transient computer-readable media can supply programs to computers via wired communication paths such as electric wires and optical fibers, or wireless communication paths.
  • the inference means inputs each of the plurality of images into an inference model to obtain the inference result output from the inference model;
  • An image processing device as described in Appendix 2, wherein the inference model is a model that learns the relationship between an image input to the inference model and the area of interest in the image.
  • the inference means inputs the endoscopic image into a plurality of inference models to obtain the plurality of inference results output from the plurality of inference models;
  • [Appendix 5] The image processing device described in Appendix 4, wherein the multiple inference models are models that differ from each other in at least one of the model architecture or the learning data used for learning.
  • the inference means inputs the endoscopic image into an inference model a plurality of times while changing a setting condition of the inference model, thereby obtaining the plurality of inference results output from the inference model;
  • the setting condition is a threshold parameter that determines whether or not the region is a region of interest.
  • [Appendix 8] The image processing device described in Appendix 7, wherein the inference means at least acquires the inference result obtained when the threshold parameter that emphasizes recall and the threshold parameter that emphasizes precision are respectively set in the inference model.
  • [Appendix 9] The image processing device described in Appendix 3, wherein the integration means weights and integrates each of the multiple inference results based on the similarity between each of the multiple images and a learning image including the area of interest used to train the inference model.
  • [Appendix 10] An image processing device described in any one of Appendix 3 to 8, wherein the integration means weights and integrates each of the multiple inference results based on the similarity between each of the multiple inference results and correct answer data used to train the inference model. [Appendix 11] 2.
  • the image processing device further comprising a detection means for detecting the region of interest based on an image obtained by integrating the multiple inference results.
  • a detection means for detecting the region of interest based on an image obtained by integrating the multiple inference results.
  • an output control means for displaying or outputting information related to the result of the detection.
  • the computer An endoscopic image of the subject is acquired, generating a plurality of inference results regarding a region of interest of the subject in the endoscopic image based on the endoscopic image; Integrating the multiple inference results; Image processing methods.
  • An endoscopic image of the subject is acquired, generating a plurality of inference results regarding a region of interest of the subject in the endoscopic image based on the endoscopic image;
  • a storage medium storing a program for causing a computer to execute a process of integrating the multiple inference results.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Endoscopes (AREA)

Abstract

画像処理装置(1X)は、取得手段(30X)と、推論手段(32X)と、統合手段(33X)と、を備える。取得手段(30X)は、被検体を撮影した内視鏡画像を取得する。推論手段(32X)は、内視鏡画像に基づき、内視鏡画像における被検体の注目領域に関する複数の推論結果を生成する。統合手段(33X)は、複数の推論結果を統合する。

Description

画像処理装置、画像処理方法及び記憶媒体
 本開示は、内視鏡検査において取得される画像の処理を行う画像処理装置、画像処理方法及び記憶媒体の技術分野に関する。
 従来から、臓器の管腔内を撮影した画像を表示する内視鏡検査システムが知られている。例えば、特許文献1には、内視鏡画像と注目領域検出閾値とに基づいて注目領域を検出し、注目領域が平坦病変又は隆起病変のいずれであるかを判定する内視鏡検査システムが開示されている。
国際公開WO2019/146077
 一般的に、内視鏡画像には多種多様な病変が含まれている可能性があり、かつ、内視鏡画像の撮影環境も多種多様であり、病変領域の正確な検知が非常に困難である場合がある。従って、生検を行う候補箇所となる病変領域は、医師の間でも一致しないことがある。
 本開示は、上述した課題を鑑み、内視鏡画像に含まれる注目領域を的確に検知することが可能な画像処理装置、画像処理方法及び記憶媒体を提供することを目的の一つとする。
 画像処理装置の一の態様は、
 被検体を撮影した内視鏡画像を取得する取得手段と、
 前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成する推論手段と、
 前記複数の推論結果を統合する統合手段と、
を有する画像処理装置である。
 画像処理方法の一の態様は、
 コンピュータが、
 被検体を撮影した内視鏡画像を取得し、
 前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
 前記複数の推論結果を統合する、
画像処理方法である。
 記憶媒体の一の態様は、
 被検体を撮影した内視鏡画像を取得し、
 前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
 前記複数の推論結果を統合する処理をコンピュータに実行させるプログラムを格納した記憶媒体である。
 本開示の1つの効果の例として、内視鏡画像に含まれる注目領域を的確に検知することが可能となる。
内視鏡検査システムの概略構成を示す。 画像処理装置のハードウェア構成を示す。 第1実施形態における画像処理装置が実行する病変検知処理の概要を示す図である。 第1実施形態における病変検知処理の機能ブロックの一例である。 (A)モデル入力画像と代表画像との類似度を算出する例を示す。(B)モデル入力画像の病変信頼度マップと代表画像との類似度を算出する例を示す。 内視鏡検査において表示装置が表示する表示画面例を示す。 第1実施形態において内視鏡検査時に画像処理装置が実行する処理の概要を示すフローチャートの一例である。 第2実施形態における画像処理装置が実行する病変検知処理の概要を示す図である。 第2実施形態での病変検知処理に関する画像処理装置の機能ブロック図である。 第2実施形態において内視鏡検査時に画像処理装置が実行する処理の概要を示すフローチャートの一例である。 第3実施形態における画像処理装置が実行する病変検知処理の概要を示す図である。 第3実施形態において内視鏡検査時に画像処理装置が実行する処理の概要を示すフローチャートの一例である。 第4実施形態における画像処理装置のブロック図である。 第4実施形態において画像処理装置が実行するフローチャートの一例である。
 以下、図面を参照しながら、画像処理装置、画像処理方法及び記憶媒体の実施形態について説明する。
 <第1実施形態>
 (1)システム構成
 図1は、内視鏡検査システム100の概略構成を示す。図1に示すように、内視鏡検査システム100は、内視鏡を利用した検査又は治療を行う医師等の検査者に対して病変の疑いがある被検体の部位(「病変部位」とも呼ぶ。)を検知し、細胞採取(生検)を行う候補箇所等として提示するシステムである。内視鏡検査システム100は、主に、画像処理装置1と、表示装置2と、画像処理装置1に接続された内視鏡スコープ3と、を備える。
 画像処理装置1は、内視鏡スコープ3が時系列により撮影する画像(「内視鏡画像Ia」とも呼ぶ。)を内視鏡スコープ3から取得し、内視鏡画像Iaに基づく画面を表示装置2に表示させる。内視鏡画像Iaは、被検者への内視鏡スコープ3の挿入工程又は排出工程の少なくとも一方において所定のフレーム周期により撮影された画像である。本実施形態においては、画像処理装置1は、内視鏡画像Iaを解析することで、内視鏡画像Iaにおける病変部位の領域(「病変領域」とも呼ぶ。)を検知し、その検知結果に関する情報を表示装置2に表示させる。病変領域は「注目領域」の一例である。
 表示装置2は、画像処理装置1から供給される表示信号に基づき所定の表示を行うディスプレイ等である。
 内視鏡スコープ3は、主に、検査者が所定の入力を行うための操作部36と、被検者の撮影対象となる臓器内に挿入され、柔軟性を有するシャフト37と、超小型撮像素子などの撮影部を内蔵した先端部38と、画像処理装置1と接続するための接続部39とを有する。
 図1に示される内視鏡検査システム100の構成は一例であり、種々の変更が行われてもよい。例えば、画像処理装置1は、表示装置2と一体に構成されてもよい。他の例では、画像処理装置1は、複数の装置から構成されてもよい。
 なお、本開示における内視鏡検査の被検体は、大腸、食道、胃、膵臓などの内視鏡検査が可能な任意の臓器であってもよい。例えば、本開示において対象となる内視鏡は、咽頭内視鏡、気管支鏡、上部消化管内視鏡、十二指腸内視鏡、小腸内視鏡、大腸内視鏡、カプセル内視鏡、胸腔鏡、腹腔鏡、膀胱鏡、胆道鏡、関節鏡、脊椎内視鏡、血管内視鏡、硬膜外腔内視鏡などが挙げられる。また、内視鏡検査において検知対象となる病変部位の病状は、以下の(a)~(f)ように例示される。
 (a)頭頚部:咽頭ガン、悪性リンパ腫、乳頭腫
 (b)食道:食道ガン、食道炎、食道裂孔ヘルニア、食道静脈瘤、食道アカラシア、食道粘膜下腫瘍、食道良性腫瘍
 (c)胃:胃ガン、胃炎、胃潰瘍、胃ポリープ、胃腫瘍
 (d)十二指腸:十二指腸ガン、十二指腸潰瘍、十二指腸炎、十二指腸腫瘍、十二指腸リンパ腫
 (e)小腸:小腸ガン、小腸腫瘍性疾患、小腸炎症性疾患、小腸血管性疾患
 (f)大腸:大腸ガン、大腸腫瘍性疾患、大腸炎症性疾患、大腸ポリープ、大腸ポリポーシス、クローン病、大腸炎、腸結核、痔
 (2)ハードウェア構成
 図2は、画像処理装置1のハードウェア構成を示す。画像処理装置1は、主に、プロセッサ11と、メモリ12と、インターフェース13と、入力部14と、光源部15と、音出力部16と、を含む。これらの各要素は、データバス19を介して接続されている。
 プロセッサ11は、メモリ12に記憶されているプログラム等を実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)などのプロセッサである。プロセッサ11は、複数のプロセッサから構成されてもよい。プロセッサ11は、コンピュータの一例である。
 メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの、作業メモリとして使用される各種の揮発性メモリ及び画像処理装置1の処理に必要な情報を記憶する不揮発性メモリにより構成される。なお、メモリ12は、画像処理装置1に接続又は内蔵されたハードディスクなどの外部記憶装置を含んでもよく、着脱自在なフラッシュメモリなどの記憶媒体を含んでもよい。メモリ12には、画像処理装置1が本実施形態における各処理を実行するためのプログラムが記憶される。
 また、メモリ12は、病変領域推論モデルに関する情報である病変領域推論モデル情報D1を記憶している。病変領域推論モデルは、内視鏡検査において検知対象となる疾患に該当する病変領域に関する推論結果を生成する機械学習モデルであり、当該モデルに必要なパラメータが病変領域推論モデル情報D1に記憶されている。病変領域推論モデルは、例えば、内視鏡画像が入力された場合に、入力された内視鏡画像における病変領域を示す推論結果を出力する。病変領域推論モデルは、ニューラルネットワークやサポートベクターマシーンなどの任意の機械学習において採用されるアーキテクチャを含むモデル(統計モデルを含む、以下同じ。)であってもよい。このようなニューラルネットワークの代表モデルとして、例えば、Fully Convolutional Network、SegNet、U-Net、V-Net、Feature Pyramid Network、Mask R-CNN、DeepLabなどが存在する。病変領域推論モデルがニューラルネットワークにより構成される場合、病変領域推論モデル情報D1は、例えば、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。
 ここで、病変領域推論モデルが出力する推論結果は、例えば、入力された内視鏡画像の単位領域ごとに、病変領域であることの信頼度を表すスコア(「病変信頼度スコア」とも呼ぶ。)のマップである。上述のマップを、以後では、「病変信頼度マップ」とも呼ぶ。例えば、病変信頼度マップは、病変信頼度スコアを単位画素(サブピクセルを含んでもよい)又は画素群ごとに示した画像である。なお、病変信頼度スコアは、病変信頼度スコアが高い領域ほど、病変領域である信頼度が高いことを表すものとする。なお、病変信頼度マップは、病変領域を2値により示したマスク画像であってもよい。このように、病変領域推論モデルは、病変領域推論モデルに入力される画像と、当該画像における病変領域との関係を学習したモデルである。
 なお、病変領域推論モデルは、病変領域推論モデルの入力形式に即した入力画像と当該入力画像が入力された場合に病変領域推論モデルが出力すべき推論結果の正解を示す正解データ(本実施形態では正解の病変信頼度マップ)との組に基づき予め学習される。そして、学習により得られた各モデルのパラメータ等が病変領域推論モデル情報D1としてメモリ12に記憶される。
 また、メモリ12には、画像処理装置1が本実施形態における各処理を実行するために必要なその他の情報を任意に含んでもよい。
 なお、病変領域推論モデル情報D1は、画像処理装置1とは別の記憶装置に記憶されてもよい。この場合、画像処理装置1は、上述の記憶装置から病変領域推論モデル情報D1を受信する。
 インターフェース13は、画像処理装置1と外部装置とのインターフェース動作を行う。例えば、インターフェース13は、プロセッサ11が生成した表示情報「Ib」を表示装置2に供給する。また、インターフェース13は、光源部15が生成する光等を内視鏡スコープ3に供給する。また、インターフェース13は、内視鏡スコープ3から供給される内視鏡画像Iaを示す電気信号をプロセッサ11に供給する。インターフェース13は、外部装置と有線又は無線により通信を行うためのネットワークアダプタなどの通信インターフェースであってもよく、USB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したハードウェアインターフェースであってもよい。
 入力部14は、検査者による操作に基づく入力信号を生成する。入力部14は、例えば、ボタン、タッチパネル、リモートコントローラ、音声入力装置等である。光源部15は、内視鏡スコープ3の先端部38に供給するための光を生成する。また、光源部15は、内視鏡スコープ3に供給する水や空気を送り出すためのポンプ等も内蔵してもよい。音出力部16は、プロセッサ11の制御に基づき音を出力する。
 (3)病変検知処理
 病変領域の検知に関する処理である病変検知処理について説明する。概略的には、画像処理装置1は、内視鏡画像Iaをデータ拡張(即ちデータオーグメンテーション)により「N」枚(Nは2以上の整数)の画像に増やし、N枚の画像の夫々を病変領域推論モデルに入力して得られる推論結果を統合する。これにより、画像処理装置1は、生検を行う候補箇所となる病変領域を的確に検知する。
 (3-1)概要説明
 図3は、第1実施形態における画像処理装置1が実行する病変検知処理の概要を示す図である。
 まず、画像処理装置1は、内視鏡スコープ3から所定のフレーム周期により得られる各内視鏡画像Iaから、データ拡張により、N枚の画像を、病変領域推論モデルに入力する画像(「モデル入力画像」とも呼ぶ。)として生成する。図3の例では、一例として、画像処理装置1は、内視鏡画像Iaに対して0度、90度、180度、270度の時計回りへの回転操作を行うことで、4枚(即ちN=4)のモデル入力画像を生成している。なお、回転操作の他、画像サイズの変更操作、輝度の変更操作(輝度の正規化の有無の指定を含む)、色の変更操作(赤みの強弱の調整を含む)、又はこれらの組み合わせなどの任意の操作をデータ拡張の手法として採用してもよい。
 次に、画像処理装置1は、各モデル入力画像を病変領域推論モデルに入力し、当該病変領域推論モデルが出力する病変領域に関する推論結果である病変信頼度マップを取得する。図3では、一例として、病変信頼度マップは、病変領域であるか否かを2値(ここでは、白が病変領域)により示したマスク画像であるものとする。
 そして、画像処理装置1は、N枚(N=4)の病変信頼度マップを重み付け平均により統合した画像(「統合画像」とも呼ぶ。)を生成する。ここでは、合計値が1となる重み係数「wi」(iは推論結果のインデックスであり、i=1,…,N)が用いられており、N枚の病変信頼度マップの画素ごとの病変信頼度スコアを重み係数を用いて平均化することで、統合画像の画素ごとの病変信頼度スコアを決定する。図3では、統合画像において、白に近づくほど、病変信頼度スコアが高い(即ち病変領域である確信度が高い)箇所を示すものとする。なお、データ拡張において画像の回転やサイズの拡大縮小などの幾何学的画像変換を行った場合は、原画像の角度や画像サイズに戻したうえで統合する。従って、図3の例では、画像処理装置1は、病変信頼度マップの各々に対し、0度、90度、180度、270度の逆方向(反時計回り)への回転操作(即ち、モデル入力画像の生成時の回転操作を戻す回転操作)を行うことで得られる画像に対し、重み付け平均による統合を行う。
 そして、画像処理装置1は、統合画像において、病変領域である確信度が所定度合い以上であることを示す画素値を有する画素を病変領域とみなし、最終的な病変検知結果を示す画像(ここでは病変領域を表すマスク画像)を生成する。画像処理装置1は、このマスク画像を内視鏡画像Iaと共に表示する。
 ここで、一般的に、病変検知に用いる内視鏡画像Iaは多種多様な病変を含んでいる可能性があり、かつ、内視鏡画像Iaの撮影環境も多種多様であり、病変領域の正確な検知は非常に困難である場合がある。例えば、内視鏡画像Iaに含まれる病変には、隆起型、平坦型、陥凹型などのタイプが存在し、形状は逐次変化する。また、撮影環境は、病変位置、照明条件、水しぶきの有無、ブレ・ボケの有無によって異なる。従って、生検を行う候補箇所となる病変領域は、医師の間でも一致しないことがある。
 以上を勘案し、画像処理装置1は、複数の推論結果を生成し、その推論結果を統合することで最終的な病変領域を特定する。これにより、生検箇所の候補となる病変領域を好適に検査者に提示することが可能となる。
 (3-2)機能ブロック
 図4は、第1実施形態における病変検知処理の機能ブロックの一例である。画像処理装置1のプロセッサ11は、機能的には、内視鏡画像取得部30と、変換部31と、推論部32と、統合部33と、病変検知部34と、表示制御部35と、を有する。なお、図4では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せはこれに限定されない。後述する他の機能ブロックの図においても同様である。
 内視鏡画像取得部30は、インターフェース13を介して内視鏡スコープ3が撮影した内視鏡画像Iaを所定間隔により取得する。そして、内視鏡画像取得部30は、取得した内視鏡画像Iaを、変換部31及び表示制御部35に夫々供給する。そして、内視鏡画像取得部30が内視鏡画像Iaを取得する時間間隔を周期として、後段の各処理部が後述の処理を行う。以後では、このフレーム周期ごとの時刻を「処理時刻」とも呼ぶ。
 変換部31は、データ拡張により、内視鏡画像IaからN枚のモデル入力画像を生成する。この場合、変換部31は、例えば、内視鏡画像Iaに対して、回転操作、画像サイズの変更操作、輝度の変更操作、または色の変更操作、又はこれらの任意の組み合わせの操作を行うことで、互いに異なるN枚のモデル入力画像を生成する。なお、データ拡張の手法は、例示した各種操作に限定されず、データ拡張に用いられる任意の操作であってもよい。変換部31は、生成したN枚のモデル入力画像を推論部32に供給する。
 推論部32は、N枚のモデル入力画像と、病変領域推論モデル情報D1を参照することで構成した病変領域推論モデルと、に基づき、病変領域に関する推論結果であるN個の病変信頼度マップを取得する。この場合、推論部32は、N枚のモデル入力画像の各々を病変領域推論モデルに入力し、当該病変領域推論モデルが出力するN個の病変信頼度マップを取得する。推論部32は、N個の病変信頼度マップを統合部33に供給する。
 統合部33は、N枚の病変信頼度マップを重み付け平均により統合した統合画像を生成する。この場合、推論部32は、変換部31での変換操作を戻すように各病変信頼度マップの角度や画像サイズを変換した後、合計値が1となる重み係数wi(i=1,…,N)を各病変信頼度マップに設定し、N枚の病変信頼度マップの画素ごとの病変信頼度スコアに、対応する重み係数wiを乗じた値を足し合わせることで、統合画像の画素ごとの値である病変信頼度スコアを決定する。重み係数wiは、例えば、対応するモデル入力画像又は病変信頼度マップと、病変領域推論モデルの学習に用いる入力画像又は正解データを代表する画像(「代表画像」とも呼ぶ。)との類似度に基づき決定される。他の例では、重み係数wiは、重みが均等となるように、インデックスiによらずに全て等しい値(即ち、「1/N」)に設定される。重み係数wiの決定方法については後述する。統合部33は、生成した統合画像を病変検知部34に供給する。
 病変検知部34は、統合画像に基づき、病変領域の存否の判定及び病変領域が存在する場合の病変領域の特定を行う。この場合、例えば、病変検知部34は、所定の閾値以上となる病変信頼度スコアを有する統合画像の画素が所定個数以上存在する場合に、病変領域が存在すると判定し、所定の閾値以上となる病変信頼度スコアを有する統合画像の画素を病変領域として特定する。なお、病変検知部34は、所定の閾値以上となる病変信頼度スコアを有する画素について隣接画素同士を同一のクラスタとするクラスタリングを行い、所定個数以上の画素を有するクラスタを病変領域とみなしてもよい。病変検知部34は、病変領域の存否の判定結果及び特定した病変領域を示す情報を、病変検知結果として表示制御部35に供給する。
 表示制御部35は、内視鏡画像取得部30から供給される最新の内視鏡画像Iaと、病変検知部34から供給される病変検知結果とに基づき、表示情報Ibを生成し、生成した表示情報Ibを表示装置2に供給することで、最新の内視鏡画像Ia及び病変検知結果等を表示装置2に表示させる。なお、表示制御部35は、病変検知結果に基づき、病変部位が検知されたことをユーザに通知する警告音又は音声案内等を出力するように、音出力部16の音出力制御を行ってもよい。
 なお、内視鏡画像取得部30、変換部31、推論部32、統合部33、病変検知部34、及び表示制御部35の各構成要素は、例えば、プロセッサ11がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばFPGA(Field-Programmable Gate Array)又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ASSP(Application Specific Standard Produce)、ASIC(Application Specific Integrated Circuit)又は量子プロセッサ(量子コンピュータ制御チップ)により構成されてもよい。このように、各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。さらに、これらの各構成要素は、例えば、クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。
 (3-3)重み係数の設定例
 次に、重み係数wiをインデックスiごとに設定する場合の統合部33による重み係数wiの設定例について説明する。この場合、統合部33は、各モデル入力画像又はその病変信頼度マップと、検知対象となる病変領域を含んだ画像を代表する代表画像との類似度に基づき、重み係数wiを決定する。
 図5(A)は、インデックスiのモデル入力画像と代表画像との類似度を算出する例を示す。この例では、統合部33は、代表画像として、病変領域推論モデルの学習に用いられ、病変領域を含む学習用の内視鏡画像(「学習用病変画像」とも呼ぶ。)を用い、モデル入力画像との類似度をインデックスiごとに算出する。
 なお、図5(A)の例では、任意の1枚の学習用病変画像を代表画像として定めているが、これに限らず、例えば、統合部33は、複数枚の学習用病変画像の平均画像又は平均以外の任意の統計的手法により統合した画像を、代表画像として定めてもよい。他の例では、統合部33は、複数枚の学習用病変画像を代表画像として夫々定め、各学習用病変画像とインデックスiのモデル入力画像との類似度の平均を、重み係数wiの決定に用いる類似度として定めてもよい。
 なお、モデル入力画像と代表画像との類似度として、画像間の比較(即ち画像同士の比較)に基づく任意の類似度の指標を算出してもよい。この場合の類似度の指標は、例えば、相関係数、SSIM(Structural SIMilarity)指標、PSNR(Peak Signal-to-Noise Ratio)指標、対応する画素同士の二乗誤差などが挙げられる。また、統合部33は、モデル入力画像と代表画像とを、夫々サイズを正規化した上でベクトル化し、これらのベクトルのコサイン類似度を、類似度として算出してもよい。
 そして、統合部33は、インデックスiごとに上述する類似度を算出し、類似度が高いインデックスiほど、重み係数wiを大きい値に設定する。例えば、インデックスiの類似度を「Si」とすると、統合部33は、重み係数wiを、類似度Siの合計値を表す「ΣSi」を用いた以下の式により設定する。
 wi=Si/ΣSi
 この例によれば、全てのインデックスiの合計値Σwiが1となり、かつ、対応する類似度Siが高いほど高い値となる重み係数wiを設定することができる。
 図5(B)は、インデックスiのモデル入力画像の病変信頼度マップ(ここではマスク画像)と代表画像との類似度を算出する例を示す。この例では、統合部33は、代表画像として、学習用病変画像に対してアノテーションされた病変領域推論モデルが出力すべき正解の病変信頼度マップ(ここでは病変領域を示すマスク画像)を用いる。そして、統合部33は、学習に用いられた正解の病変信頼度マップと、モデル入力画像から病変領域推論モデルが生成した病変信頼度マップとの類似度をインデックスiごとに算出する。
 なお、図5(B)の例では、任意の1枚の学習用病変画像に対する正解の病変信頼度マップを代表画像として定めているが、これに限らず、複数枚の学習用病変画像に対する正解の病変信頼度マップの平均画像又は平均以外の任意の統計的手法により病変信頼度マップを統合した画像を、代表画像として定めてもよい。
 そして、統合部33は、学習用病変画像の病変信頼度マップと、モデル入力画像の病変信頼度マップとの類似度として、画像間の比較に基づく任意の類似度の指標を算出する。そして、統合部33は、全てのインデックスiでの合計値Σwiが1となり、かつ、対応する類似度が高いほど高い値となるように、重み係数wiを設定する。類似度の算出方法及び類似度に基づく重み係数wiの設定方法の具体例については、図5(A)の例において示した例と同一である。
 (3-4)表示例
 図6は、内視鏡検査において表示装置2が表示する表示画面例を示す。画像処理装置1の表示制御部35は、内視鏡画像取得部30が取得する内視鏡画像Iaと病変検知部34による病変検知結果等とに基づき生成した表示情報Ibを表示装置2に出力する。表示制御部35は、内視鏡画像Ia及び表示情報Ibを表示装置2に送信することで、上述の表示画面を表示装置2に表示させている。図6に示す表示画面例では、画像処理装置1の表示制御部35は、リアルタイム画像表示領域70と、病変検知結果表示領域71と、を表示画面上に設けている。
 ここで、表示制御部35は、リアルタイム画像表示領域70において、最新の内視鏡画像Iaを表す動画像を表示する。さらに、病変検知結果表示領域71において、表示制御部35は、病変検知部34による病変検知結果を表示する。なお、図6に示す表示画面の表示時点において、病変部位が存在すると病変検知部34が判定したことから、表示制御部35は、病変検知結果に基づき、病変が存在する可能性が高い旨のテキストメッセージと、病変領域を示すマスク画像とを、病変検知結果表示領域71に表示している。なお、表示制御部35は、病変が存在する可能性が高い旨のテキストメッセージを病変検知結果表示領域71に表示することに代えて、又はこれに加えて、病変が存在する可能性が高い旨を通知する音(音声を含む)を、音出力部16により出力してもよい。
 (3-5)処理フロー
 図7は、第1実施形態において内視鏡検査時に画像処理装置1が実行する処理の概要を示すフローチャートの一例である。
 まず、画像処理装置1は、内視鏡画像Iaを取得する(ステップS11)。この場合、画像処理装置1の内視鏡画像取得部30は、インターフェース13を介して内視鏡スコープ3から内視鏡画像Iaを受信する。
 次に、画像処理装置1は、ステップS11で取得された内視鏡画像Iaからデータ拡張により、夫々異なるN枚のモデル入力画像を生成する(ステップS12)。そして、画像処理装置1は、病変領域推論モデル情報D1を参照して構成される病変領域推論モデルにより、各モデル入力画像から病変信頼度マップを生成する(ステップS13)。この場合、画像処理装置1は、各モデル入力画像を病変領域推論モデルに入力することで病変領域推論モデルから出力される病変信頼度マップを取得する。
 そして、画像処理装置1は、病変信頼度マップごとに重み係数wiを算出する(ステップS14)。この場合、例えば、画像処理装置1は、インデックスi(i=1,…,N)ごとに、モデル入力画像又は病変信頼度マップと対応する代表画像との類似度に基づき、重み係数wiを設定する。また、画像処理装置1は、ステップS12でのデータ拡張による変換操作を戻すように、各病変信頼度マップの角度やサイズの変換操作を行う。
 次に、画像処理装置1は、病変信頼度マップを重み係数wiを用いて統合した統合画像を生成する(ステップS15)。そして、画像処理装置1は、統合画像に基づき、病変検知結果を生成する(ステップS16)。そして、画像処理装置1は、ステップS11で得られた内視鏡画像Iaと、ステップS16で生成した病変検知結果とに基づく情報を表示装置2に表示する(ステップS17)。
 そして、画像処理装置1は、ステップS17の後、内視鏡検査が終了したか否か判定する(ステップS18)。例えば、画像処理装置1は、入力部14又は操作部36への所定の入力等を検知した場合に、内視鏡検査が終了したと判定する。そして、画像処理装置1は、内視鏡検査が終了したと判定した場合(ステップS18;Yes)、フローチャートの処理を終了する。一方、画像処理装置1は、内視鏡検査が終了していないと判定した場合(ステップS18;No)、ステップS11へ処理を戻す。そして、画像処理装置1は、内視鏡スコープ3が新たに生成する内視鏡画像Iaに対してステップS11~ステップS17の処理を実行する。
 (4)変形例
 画像処理装置1は、内視鏡検査時に生成された内視鏡画像Iaから構成された映像を、検査後において処理してもよい。
 例えば、画像処理装置1は、検査後の任意のタイミングにおいて、入力部14によるユーザ入力等に基づき、処理を行う対象となる映像が指定された場合に、当該映像を構成する時系列の内視鏡画像Iaに対して逐次的に図7のフローチャートの処理を行う。そして、画像処理装置1は、ステップS18において対象の映像が終了したと判定した場合に、フローチャートの処理を終了し、対象の映像が終了していない場合にはステップS11に戻り、時系列において次の内視鏡画像Iaを対象としてフローチャートの処理を行う。
 また、検知対象は病変領域に限らず、検査者が注目する必要がある任意の注目箇所を表す内視鏡画像Ia内の領域(「注目領域」とも呼ぶ。)であってもよい。このような注目箇所は、病変領域、炎症が生じている箇所、手術痕その他の切り傷が生じている箇所、ひだや突起が生じている箇所、内視鏡スコープ3の先端部38が管腔内の壁面において接触しやすい(閊えやすい)箇所などであってもよい。
 なお、本変形例は、後述する第2実施形態及び第3実施形態にも同様に適用される。
 <第2実施形態>
 第2実施形態に係る画像処理装置1は、内視鏡画像Iaから生成したN枚のモデル入力画像からN個の病変信頼度マップを生成する代わりに、異なるN個の病変領域推論モデルを用いて内視鏡画像IaからN個の病変信頼度マップを生成する点において、第1実施形態と異なる。以後では、第1実施形態と同様の構成要素については適宜同一符号を付し、その説明を省略する。なお、第2実施形態に係る画像処理装置1のハードウェア構成は、第1実施形態において説明した図2に示す構成と同一であるものとする。
 図8は、第2実施形態における画像処理装置1が実行する病変検知処理の概要を示す図である。
 まず、画像処理装置1は、内視鏡スコープ3から所定のフレーム周期により得られる各内視鏡画像Iaを、N個の病変領域推論モデル(ここではモデルA~モデルD)に夫々入力する。これにより、画像処理装置1は、N個の病変領域推論モデルから計N個の病変信頼度マップを取得する。
 ここで、N個の病変領域推論モデルは、アーキテクチャ又は学習に用いた学習データの少なくとも一方が他の病変領域推論モデルと異なっている。これにより、N個の病変領域推論モデルは、同一の内視鏡画像Iaが入力された場合であっても、夫々異なる推論結果を生成する。
 アーキテクチャが異なる例は、例えば、深層学習モデルの場合、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みの少なくともいずれかが異なる場合が挙げられる。また、N個の病変領域推論モデルには、深層学習モデル以外のモデル(例えばサポートベクターマシーンに基づくモデル)又は深層学習モデルと深層学習モデル以外のモデルとの組み合わせが含まれていてもよい。
 また、学習データが異なる例では、内視鏡スコープのベンダーごとに、内視鏡画像及び病変領域の正解データの組となる学習データのセット(即ちN社分のベンダーに対応する学習データのセット)が用意され、ベンダーごとの学習データのセットによりN個の病変領域推論モデルが学習される。学習データが異なる他の例では、病変タイプ(隆起型、平坦型、陥凹型など)ごとに、内視鏡画像及び病変領域の正解データの組となる学習データのセット(即ちN個分の病変タイプに対応する学習データのセット)が用意され、病変タイプごとの学習データのセットによりN個の病変領域推論モデルが学習される。
 そして、画像処理装置1は、N個の病変信頼度マップを重み係数wiにより重み付けして統合した統合画像を生成する。この場合、画像処理装置1は、N枚の病変信頼度マップの画素ごとの病変信頼度スコアに、対応する重み係数を乗じた値を足し合わせることで、統合画像の画素ごとの病変信頼度スコアを決定する。
 そして、画像処理装置1は、統合画像において、病変領域である確信度が所定度合い以上であることを示す病変信頼度スコアを有する画素を病変領域とみなし、最終的な病変検知結果を示す画像(ここでは病変領域を表すマスク画像)を生成する。画像処理装置1は、このマスク画像を内視鏡画像Iaと共に表示する。
 このように、第2実施形態における画像処理装置1は、複数の推論結果を生成し、その推論結果を統合することで最終的な病変領域を特定する。これにより、生検箇所の候補となる病変領域を好適に検査者に提示することが可能となる。
 図9は、第2実施形態での病変検知処理に関する画像処理装置1の機能ブロック図である。第2実施形態に係る画像処理装置1のプロセッサ11は、機能的には、内視鏡画像取得部30Aと、推論部32Aと、統合部33Aと、病変検知部34Aと、表示制御部35Aと、を有する。また、メモリ12には、N個の病変領域推論モデルの学習済みのパラメータを少なくとも含んだ病変領域推論モデル情報D1が記憶されている。
 内視鏡画像取得部30Aは、インターフェース13を介して内視鏡スコープ3が撮影した内視鏡画像Iaを所定間隔により取得する。そして、内視鏡画像取得部30Aは、取得した内視鏡画像Iaを、推論部32A及び表示制御部35Aに夫々供給する。
 推論部32Aは、内視鏡画像Iaと、病変領域推論モデル情報D1を参照することで構成したN個の病変領域推論モデルと、に基づき、病変領域に関する推論結果であるN個の病変信頼度マップを取得する。この場合、推論部32Aは、内視鏡画像IaをN個の病変領域推論モデルに夫々入力し、当該病変領域推論モデルが出力するN個の病変信頼度マップを取得する。推論部32Aは、N個の病変信頼度マップを統合部33Aに供給する。
 統合部33Aは、N枚の病変信頼度マップを重み付け平均により統合した統合画像を生成する。この場合、例えば、統合部33Aは、重み係数wiを、インデックスiによらずに全て等しい値(即ち、「1/N」)に設定する。他の例では、統合部33Aは、重み係数wiを、インデックスiごとの病変信頼度マップと、代表画像との類似度に基づき設定する。この場合、代表画像は、例えば、インデックスiに対応する病変領域推論モデルの学習に用いられた正解の病変信頼度マップとなる。なお、「正解の病変信頼度マップ」には、複数枚の学習用病変画像に対応する正解データが示す病変信頼度マップの平均画像又は平均以外の任意の統計的手法により当該病変信頼度マップを統合した画像が含まれる。このように、代表画像は、インデックスiごとに対応する病変領域推論モデルに用いられた学習データに応じて予め用意されてもよい。
 病変検知部34Aは、統合部33Aが生成した統合画像に基づき、病変領域の存否の判定及び病変領域が存在する場合の病変領域の特定を行い、病変領域の存否の判定結果及び特定した病変領域を示す情報を、病変検知結果として表示制御部35Aに供給する。なお、病変検知部34Aが実行する処理は、病変検知部34が実行する処理と同一である。
 表示制御部35Aは、内視鏡画像取得部30Aから供給される最新の内視鏡画像Iaと、病変検知部34Aから供給される病変検知結果とに基づき、表示情報Ibを生成し、生成した表示情報Ibを表示装置2に供給することで、最新の内視鏡画像Ia及び病変検知結果等を表示装置2に表示させる。なお、表示制御部35Aが実行する処理は、表示制御部35が実行する処理と同一である。
 図10は、第2実施形態において内視鏡検査時に画像処理装置1が実行する処理の概要を示すフローチャートの一例である。
 まず、画像処理装置1は、内視鏡画像Iaを取得する(ステップS21)。次に、画像処理装置1は、病変領域推論モデル情報D1を参照して構成されるN個の病変領域推論モデルにより、ステップS11で取得された内視鏡画像IaからN個の病変信頼度マップを生成する(ステップS22)。この場合、画像処理装置1は、内視鏡画像Iaを各病変領域推論モデルに入力することで各病変領域推論モデルから出力される病変信頼度マップを取得する。
 そして、画像処理装置1は、病変信頼度マップごとに重み係数wiを算出する(ステップS23)。この場合、例えば、画像処理装置1は、インデックスi(i=1,…,N)ごとに用意された代表画像と、インデックスiに対応する病変信頼度マップとの類似度に基づき、重み係数wiを設定する。
 次に、画像処理装置1は、病変信頼度マップを重み係数wiを用いて統合した統合画像を生成する(ステップS24)。そして、画像処理装置1は、統合画像に基づき、病変検知結果を生成する(ステップS25)。そして、画像処理装置1は、ステップS11で得られた内視鏡画像Iaと、ステップS25で生成した病変検知結果とに基づく情報を表示装置2に表示する(ステップS26)。
 そして、画像処理装置1は、ステップS26の後、内視鏡検査が終了したか否か判定する(ステップS27)。そして、画像処理装置1は、内視鏡検査が終了したと判定した場合(ステップS27;Yes)、フローチャートの処理を終了する。一方、画像処理装置1は、内視鏡検査が終了していないと判定した場合(ステップS27;No)、ステップS21へ処理を戻す。そして、画像処理装置1は、内視鏡スコープ3が新たに生成する内視鏡画像Iaに対してステップS21~ステップS26の処理を実行する。
 <第3実施形態>
 第3実施形態に係る画像処理装置1は、1つの病変領域推論モデルに対して異なるN個のパターン(Nパターン)の設定条件を適用して内視鏡画像IaからN個の病変信頼度マップを生成する点において、第1実施形態又は第2実施形態と異なる。以後では、第1実施形態又は第2実施形態と同様の構成要素については適宜同一符号を付し、その説明を省略する。
 なお、第3実施形態に係る画像処理装置1のハードウェア構成は、第1実施形態において説明した図2に示す構成と同一であるものとする。また、第3実施形態での病変検知処理に関する画像処理装置1の機能ブロックは、例えば、第2実施形態において説明した図9に示される構成と同一である。
 図11は、第3実施形態における画像処理装置1が実行する病変検知処理の概要を示す図である。
 まず、画像処理装置1は、内視鏡スコープ3から所定のフレーム周期により得られる各内視鏡画像Iaを、Nパターンの設定条件(ここでは設定条件a~d)を適用した病変領域推論モデル(ここではモデルA)に入力する。これにより、画像処理装置1は、Nパターンの設定条件が適用された病変領域推論モデルから計N個の病変信頼度マップを取得する。言い換えると、画像処理装置1は、処理時刻ごとに得られる内視鏡画像Iaを、病変領域推論モデルに、病変領域推論モデルの設定条件を変えながらN回入力することで、当該病変領域推論モデルから出力されるN個の推論結果を取得する。
 ここで、設定条件は、例えば、ユーザが入力により調整可能な病変領域推論モデルの設定パラメータであり、各画素の病変信頼度スコアに応じて、当該画素が病変領域であるか否かを決定する閾値パラメータであってもよい。具体的には、病変信頼度スコアは0~1の値(1の時、当該画素がもっとも病変らしいとする)をとることとし、ある画素の病変信頼度スコアが閾値パラメータより小さいとき、当該画素の病変信頼度スコアを0とすることで、当該画素を非病変領域とすることができる。このとき、例えば閾値パラメータを1に近い値に設定したとき、推論モデルがより病変らしいと推論する領域のみが病変領域となり、それ以外の領域は非病変領域となる。逆に、閾値パラメータを0に近い値に設定したとき、推論モデルが病変ではないと推論する領域も病変領域となる。これは、前者が推定された病変領域が正しく病変領域であることを重視し、非病変領域を誤って病変領域と推定しないことを意図した(適合率を重視した)設定であり、後者が非病変領域を病変領域として含むことを許容した上で、病変領域の検知漏れを許さないことを意図した(再現率を重視した)設定となる。このように意図の異なる(例えば、再現率を重視するか又は適合率を重視するかで異なる)複数の病変領域推論モデルの設定パラメータで各々の信頼度マップを生成することができる。
 そして、画像処理装置1は、N個の病変信頼度マップを重み係数wiにより重み付けして統合した統合画像を生成する。この場合、画像処理装置1は、N枚の病変信頼度マップの画素ごとの病変信頼度スコアに、対応する重み係数を乗じた値を足し合わせることで、統合画像の画素値を決定する。
 そして、画像処理装置1は、統合画像において、病変領域である確信度が所定度合い以上であることを示す病変信頼度スコアを有する画素を病変領域とみなし、最終的な病変検知結果を示す画像(ここでは病変領域を表すマスク画像)を生成する。画像処理装置1は、このマスク画像を内視鏡画像Iaと共に表示する。
 このように、第3実施形態における画像処理装置1は、複数の推論結果を生成し、その推論結果を統合することで最終的な病変領域を特定する。これにより、生検箇所の候補となる病変領域を好適に検査者に提示することが可能となる。
 図12は、第3実施形態において内視鏡検査時に画像処理装置1が実行する処理の概要を示すフローチャートの一例である。
 まず、画像処理装置1は、内視鏡画像Iaを取得する(ステップS31)。次に、画像処理装置1は、病変領域推論モデル情報D1を参照して構成される1個の病変領域推論モデルに対し、Nパターンの設定条件を適用し、ステップS11で取得された内視鏡画像IaからN個の病変信頼度マップを生成する(ステップS32)。この場合、画像処理装置1は、処理時刻ごとに得られる内視鏡画像Iaを、病変領域推論モデルに、病変領域推論モデルの設定条件を変えながらN回入力することで、当該病変領域推論モデルから出力されるN個の病変信頼度マップ(即ち推論結果)を取得する。
 そして、画像処理装置1は、病変信頼度マップごとに重み係数wiを算出する(ステップS33)。この場合、例えば、画像処理装置1は、全てのインデックスiにおいて共通の代表画像と、インデックスiに対応する病変信頼度マップとの類似度に基づき、重み係数wiを設定する。
 次に、画像処理装置1は、病変信頼度マップを重み係数wiを用いて統合した統合画像を生成する(ステップS34)。そして、画像処理装置1は、統合画像に基づき、病変検知結果を生成する(ステップS35)。そして、画像処理装置1は、ステップS11で得られた内視鏡画像Iaと、ステップS25で生成した病変検知結果とに基づく情報を表示装置2に表示する(ステップS36)。
 そして、画像処理装置1は、ステップS36の後、内視鏡検査が終了したか否か判定する(ステップS37)。そして、画像処理装置1は、内視鏡検査が終了したと判定した場合(ステップS37;Yes)、フローチャートの処理を終了する。一方、画像処理装置1は、内視鏡検査が終了していないと判定した場合(ステップS37;No)、ステップS31へ処理を戻す。そして、画像処理装置1は、内視鏡スコープ3が新たに生成する内視鏡画像Iaに対してステップS31~ステップS36の処理を実行する。
 <第4実施形態>
 図13は、第4実施形態における画像処理装置1Xのブロック図である。画像処理装置1Xは、取得手段30Xと、推論手段32Xと、統合手段33Xと、を備える。画像処理装置1Xは、複数の装置から構成されてもよい。
 取得手段30Xは、被検体を撮影した内視鏡画像を取得する。取得手段30Xは、第1実施形態における内視鏡画像取得部30、又は、第2実施形態若しくは第3実施形態における内視鏡画像取得部30Aとすることができる。なお、取得手段30Xは、撮影部が生成した内視鏡画像を即時に取得してもよく、予め撮影部が生成して記憶装置に記憶された内視鏡画像を、所定のタイミングにおいて取得してもよい。
 推論手段32Xは、内視鏡画像に基づき、内視鏡画像における被検体の注目領域に関する複数の推論結果を生成する。推論手段32Xは、第1実施形態における推論部32、又は、第2実施形態若しくは第3実施形態における推論部32Aとすることができる。
 統合手段33Xは、複数の推論結果を統合する。統合手段33Xは、第1実施形態における統合部33、又は、第2実施形態若しくは第3実施形態における統合部33Aとすることができる。
 図14は、第4実施形態における処理手順を示すフローチャートの一例である。取得手段30Xは、被検体を撮影した内視鏡画像を取得する。取得手段30Xは、被検体を撮影した内視鏡画像を取得する(ステップS41)。次に、推論手段32Xは、内視鏡画像に基づき、内視鏡画像における被検体の注目領域に関する複数の推論結果を生成する(ステップS42)。そして、統合手段33Xは、複数の推論結果を統合する(ステップS43)。
 第4実施形態によれば、画像処理装置1Xは、被検体を撮影した内視鏡画像から注目箇所の領域を的確に検知することができる。
 なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(Non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(Tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(Transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 その他、上記の各実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
 [付記1]
 被検体を撮影した内視鏡画像を取得する取得手段と、
 前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成する推論手段と、
 前記複数の推論結果を統合する統合手段と、
を有する画像処理装置。
 [付記2]
 前記内視鏡画像をデータ拡張により複数の画像に変換する変換手段をさらに有し、
 前記推論手段は、前記複数の画像の各々から前記注目領域に関する推論結果を生成する、付記1に記載の画像処理装置。
 [付記3]
 前記推論手段は、前記複数の画像の各々を推論モデルに入力することで当該推論モデルから出力される前記推論結果を取得し、
 前記推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、付記2に記載の画像処理装置。
 [付記4]
 前記推論手段は、前記内視鏡画像を複数の推論モデルに入力することで当該複数の推論モデルから出力される前記複数の推論結果を取得し、
 前記複数の推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、付記1に記載の画像処理装置。
 [付記5]
 前記複数の推論モデルは、モデルのアーキテクチャ又は学習に用いた学習データの少なくとも一方が互いに異なるモデルである、付記4に記載の画像処理装置。
 [付記6]
 前記推論手段は、前記内視鏡画像を、推論モデルに当該推論モデルの設定条件を変えながら複数回入力することで当該推論モデルから出力される前記複数の推論結果を取得し、
 前記複数の推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、付記1に記載の画像処理装置。
 [付記7]
 前記設定条件は、前記注目領域であるか否かを決定する閾値パラメータである、付記6に記載の画像処理装置。
 [付記8]
 前記推論手段は、再現率を重視した前記閾値パラメータと、適合率を重視した前記閾値パラメータとを夫々前記推論モデルに設定した場合に得られる前記推論結果を少なくとも取得する、付記7に記載の画像処理装置。
 [付記9]
 前記統合手段は、前記複数の画像の各々と、前記推論モデルの学習に用いる前記注目領域を含む学習用画像との類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、付記3に記載の画像処理装置。
 [付記10]
 前記統合手段は、前記複数の推論結果の各々と、前記推論モデルの学習に用いる正解データとの類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、付記3~8のいずれか一項に記載の画像処理装置。
 [付記11]
 前記複数の推論結果を統合した画像に基づき、前記注目領域の検知を行う検知手段をさらに有する、付記1に記載の画像処理装置。
 [付記12]
 前記検知の結果に関する情報を表示又は音声出力する出力制御手段をさらに有する、付記9に記載の画像処理装置。
 [付記13]
 コンピュータが、
 被検体を撮影した内視鏡画像を取得し、
 前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
 前記複数の推論結果を統合する、
画像処理方法。
 [付記14]
 被検体を撮影した内視鏡画像を取得し、
 前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
 前記複数の推論結果を統合する処理をコンピュータに実行させるプログラムを格納した記憶媒体。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献及び非特許文献の各開示は、本書に引用をもって繰り込むものとする。
 1、1X 画像処理装置
 2 表示装置
 3 内視鏡スコープ
 11 プロセッサ
 12 メモリ
 13 インターフェース
 14 入力部
 15 光源部
 16 音出力部
 100 内視鏡検査システム

Claims (14)

  1.  被検体を撮影した内視鏡画像を取得する取得手段と、
     前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成する推論手段と、
     前記複数の推論結果を統合する統合手段と、
    を有する画像処理装置。
  2.  前記内視鏡画像をデータ拡張により複数の画像に変換する変換手段をさらに有し、
     前記推論手段は、前記複数の画像の各々から前記注目領域に関する推論結果を生成する、請求項1に記載の画像処理装置。
  3.  前記推論手段は、前記複数の画像の各々を推論モデルに入力することで当該推論モデルから出力される前記推論結果を取得し、
     前記推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、請求項2に記載の画像処理装置。
  4.  前記推論手段は、前記内視鏡画像を複数の推論モデルに入力することで当該複数の推論モデルから出力される前記複数の推論結果を取得し、
     前記複数の推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、請求項1に記載の画像処理装置。
  5.  前記複数の推論モデルは、モデルのアーキテクチャ又は学習に用いた学習データの少なくとも一方が互いに異なるモデルである、請求項4に記載の画像処理装置。
  6.  前記推論手段は、前記内視鏡画像を、推論モデルに当該推論モデルの設定条件を変えながら複数回入力することで当該推論モデルから出力される前記複数の推論結果を取得し、
     前記推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、請求項1に記載の画像処理装置。
  7.  前記設定条件は、前記注目領域であるか否かを決定する閾値パラメータである、請求項6に記載の画像処理装置。
  8.  前記推論手段は、再現率を重視した前記閾値パラメータと、適合率を重視した前記閾値パラメータとを夫々前記推論モデルに設定した場合に得られる前記推論結果を少なくとも取得する、請求項7に記載の画像処理装置。
  9.  前記統合手段は、前記複数の画像の各々と、前記推論モデルの学習に用いる前記注目領域を含む学習用画像との類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、請求項3に記載の画像処理装置。
  10.  前記統合手段は、前記複数の推論結果の各々と、前記推論モデルの学習に用いる正解データとの類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、請求項3~8のいずれか一項に記載の画像処理装置。
  11.  前記複数の推論結果を統合した画像に基づき、前記注目領域の検知を行う検知手段をさらに有する、請求項1に記載の画像処理装置。
  12.  前記検知の結果に関する情報を表示又は音声出力する出力制御手段をさらに有する、請求項9に記載の画像処理装置。
  13.  コンピュータが、
     被検体を撮影した内視鏡画像を取得し、
     前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
     前記複数の推論結果を統合する、
    画像処理方法。
  14.  被検体を撮影した内視鏡画像を取得し、
     前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
     前記複数の推論結果を統合する処理をコンピュータに実行させるプログラムを格納した記憶媒体。
PCT/JP2022/038743 2022-10-18 2022-10-18 画像処理装置、画像処理方法及び記憶媒体 WO2024084578A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2022/038743 WO2024084578A1 (ja) 2022-10-18 2022-10-18 画像処理装置、画像処理方法及び記憶媒体
PCT/JP2023/031838 WO2024084838A1 (ja) 2022-10-18 2023-08-31 画像処理装置、画像処理方法及び記憶媒体
US18/410,187 US20240161283A1 (en) 2022-10-18 2024-01-11 Image processing device, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038743 WO2024084578A1 (ja) 2022-10-18 2022-10-18 画像処理装置、画像処理方法及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2024084578A1 true WO2024084578A1 (ja) 2024-04-25

Family

ID=90737152

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2022/038743 WO2024084578A1 (ja) 2022-10-18 2022-10-18 画像処理装置、画像処理方法及び記憶媒体
PCT/JP2023/031838 WO2024084838A1 (ja) 2022-10-18 2023-08-31 画像処理装置、画像処理方法及び記憶媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/031838 WO2024084838A1 (ja) 2022-10-18 2023-08-31 画像処理装置、画像処理方法及び記憶媒体

Country Status (2)

Country Link
US (1) US20240161283A1 (ja)
WO (2) WO2024084578A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026349A1 (ja) * 2018-07-31 2020-02-06 オリンパス株式会社 画像診断支援システムおよび画像診断支援装置
WO2021010225A1 (ja) * 2019-07-18 2021-01-21 Hoya株式会社 コンピュータプログラム、情報処理方法、及び内視鏡用プロセッサ
JP2021074404A (ja) * 2019-11-12 2021-05-20 Hoya株式会社 プログラム、情報処理方法及び情報処理装置
WO2021240656A1 (ja) * 2020-05-26 2021-12-02 日本電気株式会社 画像処理装置、制御方法及び記憶媒体
WO2022029824A1 (ja) * 2020-08-03 2022-02-10 オリンパス株式会社 診断支援システム、診断支援方法及び診断支援プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016185617A1 (ja) * 2015-05-21 2016-11-24 オリンパス株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2021140600A1 (ja) * 2020-01-09 2021-07-15 オリンパス株式会社 画像処理システム、内視鏡システム及び画像処理方法
WO2021140602A1 (ja) * 2020-01-09 2021-07-15 オリンパス株式会社 画像処理システム、学習装置及び学習方法
EP4298986A4 (en) * 2021-02-26 2024-03-13 Nec Corporation IMAGE PROCESSING DEVICE AND METHOD, AND STORAGE MEDIUM

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020026349A1 (ja) * 2018-07-31 2020-02-06 オリンパス株式会社 画像診断支援システムおよび画像診断支援装置
WO2021010225A1 (ja) * 2019-07-18 2021-01-21 Hoya株式会社 コンピュータプログラム、情報処理方法、及び内視鏡用プロセッサ
JP2021074404A (ja) * 2019-11-12 2021-05-20 Hoya株式会社 プログラム、情報処理方法及び情報処理装置
WO2021240656A1 (ja) * 2020-05-26 2021-12-02 日本電気株式会社 画像処理装置、制御方法及び記憶媒体
WO2022029824A1 (ja) * 2020-08-03 2022-02-10 オリンパス株式会社 診断支援システム、診断支援方法及び診断支援プログラム

Also Published As

Publication number Publication date
US20240161283A1 (en) 2024-05-16
WO2024084838A1 (ja) 2024-04-25

Similar Documents

Publication Publication Date Title
JP7335552B2 (ja) 画像診断支援装置、学習済みモデル、画像診断支援装置の作動方法および画像診断支援プログラム
CN110049709B (zh) 图像处理装置
JP6150583B2 (ja) 画像処理装置、内視鏡装置、プログラム及び画像処理装置の作動方法
US20180263568A1 (en) Systems and Methods for Clinical Image Classification
JP5444511B1 (ja) 画像処理装置
JP4994737B2 (ja) 医療用画像処理装置及び医療用画像処理方法
JP7313512B2 (ja) 内視鏡用プロセッサ、プログラム、情報処理方法及び情報処理装置
WO2007119297A1 (ja) 医療用画像処理装置及び医療用画像処理方法
JP2011206251A (ja) 画像処理装置、画像処理方法及びプログラム
WO2012153568A1 (ja) 医用画像処理装置及び医用画像処理方法
WO2020194785A1 (ja) 内視鏡用プロセッサ、情報処理装置、内視鏡システム、プログラム及び情報処理方法
WO2019138772A1 (ja) 画像処理装置、プロセッサ装置、画像処理方法、及びプログラム
WO2023042273A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2024084578A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
JP7162744B2 (ja) 内視鏡用プロセッサ、内視鏡システム、情報処理装置、プログラム及び情報処理方法
JP7485193B2 (ja) 画像処理装置、画像処理方法及びプログラム
WO2023126999A1 (ja) 画像処理装置、画像処理方法、及び、記憶媒体
WO2022224446A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2023187886A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2023181353A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2023234071A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2024075242A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2024075240A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2023162216A1 (ja) 画像処理装置、画像処理方法及び記憶媒体
WO2024013848A1 (ja) 画像処理装置、画像処理方法及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22962690

Country of ref document: EP

Kind code of ref document: A1