WO2021171444A1 - 教師データ生成装置、教師データ生成方法、記録装置及び記録方法 - Google Patents

教師データ生成装置、教師データ生成方法、記録装置及び記録方法 Download PDF

Info

Publication number
WO2021171444A1
WO2021171444A1 PCT/JP2020/007868 JP2020007868W WO2021171444A1 WO 2021171444 A1 WO2021171444 A1 WO 2021171444A1 JP 2020007868 W JP2020007868 W JP 2020007868W WO 2021171444 A1 WO2021171444 A1 WO 2021171444A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image data
unit
annotation
data
Prior art date
Application number
PCT/JP2020/007868
Other languages
English (en)
French (fr)
Inventor
野中 修
藤井 俊行
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to PCT/JP2020/007868 priority Critical patent/WO2021171444A1/ja
Publication of WO2021171444A1 publication Critical patent/WO2021171444A1/ja
Priority to US17/894,453 priority patent/US20220405622A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/141Control of illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10152Varying illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Definitions

  • the present invention relates to a teacher data generation device, a teacher data generation method, a recording device, and a recording method for a technique for supporting by utilizing AI (artificial intelligence) based on image data.
  • AI artificial intelligence
  • Deep Learning In Deep Learning, first, “learning” is performed to calculate the weight for appropriately deriving a solution for an unknown input using teacher data, and “inference” for deriving a solution for the input is performed using the weight calculated by learning. "I do.
  • Patent Document 1 proposes a technique for automatically determining and classifying an input image.
  • the present invention has been made in view of the above, and generates teacher data capable of generating an inference model that enables highly accurate image judgment by AI based on an image judged by human beings. It is an object of the present invention to provide a teacher data generation device, a teacher data generation method, a recording device, and a recording method.
  • the teacher data generation device includes an annotation input unit that accepts an input of an annotation for the second image data obtained by imaging an observation target.
  • a reflection unit that reflects the annotation result for the first image data that is related to the observation target similar to the second image data and has a different imaging mode and / or display mode, and the first image.
  • the second image data is image data to be displayed on the display unit when the annotation is performed.
  • the different imaging modes are processes that improve visibility when displayed on the display unit.
  • the first image data is image data of a RAW image
  • the second image data is an image obtained by subjecting the RAW image to image processing. It is image data.
  • the image processing includes at least one of gamma correction, white balance adjustment, color correction, noise reduction, or image enhancement processing.
  • the first image data is image data of an image captured in a state where the observation target is irradiated with special observation light
  • the second image data Is image data of an image taken in a state where the observation target is irradiated with illumination light.
  • the first image data includes image data of a plurality of images
  • the second image data is included in the first image data. It is image data of an image obtained by synthesizing a plurality of images.
  • the teacher data generation device includes a coordinate calculation unit that calculates the coordinates of the image included in the first image data or the second image data.
  • the teacher data generation method accepts input of an annotation for the second image data obtained by imaging the observation target, and is related to the same observation target as the second image data.
  • the annotation result is reflected on the first image data having a different imaging mode and / or display mode, and the first image data and the annotation result reflected in the first image data are used.
  • the recording device relates to an annotation input unit that accepts an input of an annotation for the second image data obtained by imaging the observation object, and an observation object similar to the second image data.
  • a recording control unit that reflects the annotation result on the first image data having a different imaging mode and / or display mode, and records the first image data and the second image data in association with each other.
  • the recording method accepts the input of an annotation for the second image data obtained by imaging the observation target, and is related to the observation target similar to the second image data, and The annotation result is reflected on the first image data having different imaging modes and / or display modes, and the first image data and the second image data are recorded in association with each other.
  • the recording device includes an image processing unit that performs image processing in order to display image data as a result of imaging an observation target on the display unit, and a display of the image data displayed on the display unit.
  • An imparting unit that acquires the annotation information performed on the image and imparts the annotation information to the image data in a mode different from the mode displayed on the display unit, and the annotation information for the image data in the different mode. It is provided with a recording control unit which creates and records an image file of the image data of the different aspects, which has the above as metadata.
  • image processing is performed in order to display the image data of the result of imaging the observation target on the display unit, and the recording method is performed on the display image of the image data displayed on the display unit.
  • the annotation information is acquired, the annotation information is added to the image data in a mode different from the mode displayed on the display unit, and the annotation information for the image data in the different mode is provided as metadata.
  • Image files of image data of different aspects are created and recorded.
  • composite image processing is performed in order to display a plurality of image data as a result of imaging an observation target on the display unit, and the composite image data displayed on the display unit is displayed.
  • the annotation coordinate information performed on the image is acquired, the annotation coordinate information is added to the individual image data constituting the composite image data displayed on the display unit, and the annotation coordinates for the individual image data are given.
  • the recording method for creating and recording the image file has off-screen coordinate information as metadata as the annotation coordinate information for the individual image data.
  • a teacher data generation device a teacher data generation method, a recording device, and a recording method for generating teacher data that enables highly accurate image determination by AI based on an image judged by humans.
  • a teacher data generation device a teacher data generation method, a recording device, and a recording method for generating teacher data that enables highly accurate image determination by AI based on an image judged by humans.
  • FIG. 1 is a schematic view showing the configuration of the observation system according to the first embodiment.
  • FIG. 2 is a block diagram showing a configuration of an observation system according to the first embodiment.
  • FIG. 3A is a diagram showing data constituting an image file to be teacher data.
  • FIG. 3B is a diagram showing data constituting an image file to be teacher data.
  • FIG. 3C is a diagram showing data constituting an image file to be teacher data.
  • FIG. 4 is a flowchart showing an outline of the processing executed by the image processing apparatus at the time of generating the teacher data.
  • FIG. 5 is a schematic view showing the configuration of the observation system according to the second embodiment.
  • FIG. 6 is a block diagram showing the configuration of the observation system according to the second embodiment.
  • FIG. 5 is a schematic view showing the configuration of the observation system according to the second embodiment.
  • FIG. 7 is a flowchart showing an outline of the processing executed by the image processing apparatus at the time of generating the teacher data.
  • FIG. 8 is a schematic view showing the configuration of the observation system according to the third embodiment.
  • FIG. 9 is a block diagram showing the configuration of the observation system according to the third embodiment.
  • FIG. 10 is an example of an image captured by the first imaging unit.
  • FIG. 11 is an example of an image captured by the second imaging unit.
  • FIG. 12 is an example of a composite image.
  • FIG. 13 is a flowchart showing an outline of the processing executed by the image processing apparatus at the time of generating the teacher data.
  • FIG. 14 is a flowchart showing an outline of the processing executed by the observation system according to the first modification when the teacher data is generated.
  • FIG. 15A is a diagram illustrating a situation in which an annotation result is given to the first image data and the second image data.
  • FIG. 15B is a diagram illustrating a situation in which an annotation result is given to the first image data and the second image data.
  • FIG. 16 is a flowchart showing an outline of the processing executed by the observation system according to the second modification when the teacher data is generated.
  • FIG. 17 is a flowchart showing an outline of the processing executed by the observation system according to the third modification when the teacher data is generated.
  • FIG. 18A is a diagram illustrating a situation in which an annotation result is given to the first image data and the second image data.
  • FIG. 18B is a diagram illustrating a situation in which annotation results are added to the first image data and the second image data.
  • FIG. 18C is a diagram illustrating a situation in which an annotation result is given to the first image data and the second image data.
  • FIG. 19 is a diagram showing an example of an image file that serves as teacher data.
  • FIG. 20 is a flowchart showing an outline of the processing executed by the observation system according to the modified example 4 at the time of generating the teacher data.
  • a teacher data generation device a teacher data generation method, a recording device, and a recording method for generating teacher data according to the present invention
  • the present invention is not limited to these embodiments.
  • an example of using an image captured by an endoscope will be described, but the present invention can be generally applied to a teacher data generation device, a teacher data generation method, a recording device, and a recording method.
  • FIG. 1 is a schematic view showing the configuration of the observation system according to the first embodiment.
  • the observation system 1 according to the first embodiment observes the observation target O such as a tumor in the subject H.
  • Endoscopic surgery can be performed by observing the observation target O in the subject H with this observation system 1 and performing treatment on the subject H with the treatment tool T.
  • FIG. 2 is a block diagram showing the configuration of the observation system according to the first embodiment.
  • the observation system 1 includes an endoscope (including an optical system and an imaging unit) 2, an image processing device 3, a learning device 4, and a display device (display unit) 5.
  • an endoscope including an optical system and an imaging unit
  • an image processing device 3 including an image processing device
  • a learning device 4 includes an image processing device
  • a display device display unit
  • Some of these may be configured by cloud computing, and each device may be connected by a network such as the Internet. That is, it is not necessary that all the configurations are contained in one housing.
  • the teacher data generation device and the image processing device 3 as a recording device generate teacher data using the image captured by the endoscope 2, and the learning device 4 uses the teacher data to generate deep learning or the like. Perform machine learning.
  • the learning device 4 generates an inference model that detects an observation target O such as a tumor from an image captured by the endoscope 2 by machine learning, for example.
  • the image processing device 3 automatically detects a tumor from the image captured by the endoscope 2 using the inference model generated by the learning device 4, and superimposes and displays a mark or the like representing the tumor on this image. Displayed on the device 5.
  • the learning device 4 may be a server connected via a line such as the Internet.
  • the endoscope 2 is a rigid mirror in which an illumination unit 21 and an imaging unit 22 are arranged at the tip of a rigid insertion portion.
  • the endoscope 2 may be an endoscope in which an illumination unit and an imaging unit are arranged at the tip of a flexible insertion portion.
  • the illumination unit 21 irradiates the observation target O with the illumination light emitted by the light source device.
  • the image pickup unit 22 has an image sensor configured by using a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Sensor) image sensor, an A / D conversion circuit, or the like, and images the observation target O.
  • the image data of the image captured by the image capturing unit 22 is transmitted to the image processing device 3.
  • the image processing device 3 includes a transmission / reception unit 31, an image processing unit 32, an annotation input unit 33, an annotation unit 34, a reflection unit 35, a teacher data generation unit 36, a display control unit 37, and a recording unit 38. , The estimation unit 39, the recording control unit 40, and the control unit 41.
  • the transmission / reception unit 31 performs wireless or wired communication with external devices such as the endoscope 2 and the learning device 4, and transmits / receives various signals.
  • the image processing unit 32 performs image processing such as gamma correction, white balance adjustment, color correction, noise reduction, and image enhancement processing on the image captured by the endoscope 2.
  • the image processing unit 32 is configured by using a general-purpose processor such as a CPU (Central Processing Unit) or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC (Application Specific Integrated Circuit).
  • a general-purpose processor such as a CPU (Central Processing Unit) or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC (Application Specific Integrated Circuit).
  • gamma correction corrects the brightness according to the human eye, making it easier for humans to observe, but the information in the original image may be impaired. Therefore, it may be preferable to use an image without gamma correction in AI that finds and infers information that cannot be intuitively discriminated by humans. From this point as well, favorable data do not always match between humans and machines. Therefore, the teacher data used for machine learning, etc., selected by humans is not always optimal as it is.
  • the white balance adjustment adjusts the white color so that it can be seen by human eyes, which makes it easier for humans to observe, but there is a possibility that the information of the original image such as the balance information of each RGB color may be impaired. Therefore, in some cases, it is preferable to use an image in which the white balance is not adjusted for the teacher data used for machine learning.
  • AI technology in which inputting the optical characteristics of the light source of the illumination unit 21 and the image sensor of the image pickup unit 22 into the learning device 4 instead of the white balance information performs multimodal learning, the inference model is highly accurate. There is a possibility that it can be converted.
  • multimodal learning means that AI performs machine learning using a plurality of types of data, and it is possible to improve the accuracy of the inference model by using a plurality of types of data at the time of inference as well. It becomes.
  • the color and contrast correction corrects the color and contrast so that they match the human eye, so it is easier for humans to observe, but the information in the original image may be damaged. Therefore, there are cases where it is preferable to use an image in which color and contrast are not corrected for machine learning. Then, instead of the color and contrast correction information, it is more multimodal to input the spectral characteristics of the imaging element of the imaging unit 22 to the learning device 4 (a method of learning from a plurality of types of data and processing them in an integrated manner). In such AI technology, there is a possibility that the inference model can be made highly accurate.
  • Noise reduction removes noise that is not useful for observation, making it easier for humans to observe, but it may affect information other than noise and damage the information in the original image. Therefore, it may be preferable to use an image in which noise reduction is not performed or noise reduction is weakened for machine learning. Further, the learning device 4 can automatically eliminate and detect noise by machine learning.
  • the image enhancement process emphasizes information useful for observation, it becomes easier for humans to observe, but the information of the original image may be impaired for elements and components that humans did not pay attention to. Therefore, it is said that it is preferable to use an image that has not been subjected to image enhancement processing for machine learning.
  • correction of the pixel sensitivity of the image sensor and correction of distortion of the shooting lens are also important for humans to see, but when using AI, if information that people do not care about is artificially manipulated and is inappropriate. There is also.
  • the annotation input unit 33 accepts the input of an annotation for the second image data obtained by imaging the observation target O.
  • the annotation input unit 33 includes a mouse, a keyboard, a touch panel, and a voice recognition device, and accepts annotation input by mouse operation, keyboard input, touch operation, voice input, or the like.
  • the second image data is image data to be displayed on the display unit (display device 5) when performing annotation.
  • the annotation input unit 33 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as ASIC.
  • the granting unit 34 assigns various annotation results to the image data by a person such as an expert who confirms and annotates the image.
  • the annotation unit 34 assigns the annotation result received by the annotation input unit 33 to the second image data. Specifically, while visually checking the image displayed on the display device 5, an expert or the like displayed the information of the object input by the mouse, keyboard, touch operation, voice input, or the like, or the object. It is expressed as giving to record the result of annotating the position information in the screen or the screen in which the object is shown in association with the image data.
  • the image data to which these annotation results (annotation information) are added is recorded in the recording unit 38.
  • the present application has a feature when creating and recording teacher data, and not only the aspect of the teacher data generation device and the teacher data generation method for generating the teacher data to be recorded, but also the recording device and the recording method. including.
  • the first image data is image data for AI to use for machine learning.
  • the imaging mode refers to the content of imaging including the intensity and wavelength of light irradiating the observation target O during imaging, the setting of the exposure time of the image sensor, the gain, etc., the content of image processing for the captured image, and the like.
  • the granting unit 34 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific association function as described above such as an ASIC.
  • the reflection unit 35 reflects the annotation result on the first image data which is related to the observation target O similar to the second image data and which has a different imaging mode and / or display mode. Specifically, the reflection unit 35 reflects the information on the result of the work performed by a human on the second image data in the first data, and gives the corresponding annotation result.
  • the reflection unit 35 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific association function such as an ASIC.
  • the teacher data generation unit 36 generates teacher data for creating an inference model using the first image data and the annotation result reflected in the first image data.
  • the teacher data generation unit 36 generates teacher data for learning to be transmitted to the learning device 4 so that the addition unit 34 can associate the annotation information with the image data.
  • the teacher data is a group of teacher images used by the learning device 4 for machine learning. Specifically, when the learning device 4 generates an inference model for detecting a tumor, the teacher data is a group of images in which a person such as an expert has determined whether or not the tumor is included. As described above, since most of the processing of the image subjected to various image processing is for the purpose of improving the visibility for human beings, the influence may occur in the portion other than the visibility.
  • the teacher data generation unit 36 identifies the image data (first image data) of the RAW image associated with the image data (second image data) of the image processed by the annotation, and uses the specified RAW image. Use to generate teacher data. Specifically, when a human observes an image processed image recorded in the recording unit 38 and extracts an image containing a tumor, the teacher data generation unit 36 is associated (annotated image). By searching for RAW image data (corresponding to) and adopting the same annotation result here as well, teacher data in which the RAW image group becomes the teacher image group is generated.
  • the RAW image data is distorted using the characteristic data and the image is displayed or recorded. It has become common to use. However, when multimodal processing is assumed with RAW image data and characteristic data as separate data, learning and inference may be performed with higher reliability than when using a distortion-corrected image. Then, the RAW image data is used as the teacher data when learning the AI.
  • the teacher data generation unit 36 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the display control unit 37 controls the display of the display device 5 by displaying various screens on the display device 5.
  • the recording unit 38 records parameters such as an execution program, a control program, and a threshold value for the control unit 41 to execute various operations.
  • the recording unit 38 is composed of a volatile memory, a non-volatile memory, or a combination thereof. Specifically, the recording unit 38 is composed of a RAM (Random Access Memory), a ROM (Read Only Memory), and the like.
  • the estimation unit 39 functions as an inference engine that estimates the tumor contained in the image captured by the endoscope 2 by using the inference model generated by the learning device 4.
  • the tumor estimated by the estimation unit 39 is highlighted by the display control unit 37 to support the observation by a doctor or the like.
  • the estimation unit 39 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • conventional general-purpose arithmetic processing circuits such as CPUs and FPGAs may be used, but since most of the processing of neural networks is matrix multiplication, matrix calculation is used.
  • Specialized GPUs Graphics Processing Units
  • TPUs Tinsor Processing Units
  • the estimation unit 39 may be provided in an inference engine connected to the image processing device 3 via a line such as the Internet.
  • the recording control unit 40 reflects the annotation result on the first image data which is related to the observation target O similar to the second image data and has a different imaging mode and / or display mode, and the first image.
  • the data and the second image data are associated and recorded in the recording unit 38. Further, the recording control unit 40 creates and records an image file of image data of different modes, which has annotation information for image data of different modes as metadata.
  • the recording control unit 40 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the control unit 41 controls the operation processing of the entire observation system 1.
  • the control unit 41 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the configuration may be realized by a processor such as one CPU.
  • the learning device 4 generates an inference model for detecting a tumor or the like from an image by performing machine learning using the teacher data generated by the teacher data generation unit 36.
  • the inference model generated by the learning device 4 is output to the image processing device 3.
  • the learning device 4 is composed of a general-purpose processor such as a CPU, a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC, and a recording device such as a RAM or a ROM.
  • the display device 5 displays various screens under the control of the display control unit 37.
  • the display device 5 may be a monitor having a display such as a liquid crystal display or an organic EL (Electroluminescence), but may be a head-mounted display that can be worn by an operator such as a doctor.
  • the image processing device 3 When the image processing device 3 performs general processing such as imaging, image processing, and display using the endoscope 2, it is necessary for a human to make a visual judgment like a live view display in a consumer camera.
  • the image processing unit 32 Based on the image pickup result of the image pickup unit 22 (which may be called RAW image data), the image processing unit 32 performs pixel correction and distortion correction (some of these are performed) as described above. However, it is sometimes called RAW image data), contrast correction, exposure correction (correction of the entire image or part of the image), color correction (white balance, saturation enhancement, etc.), gradation expression (gentle shadow change).
  • the display control unit 37 performs display control on the image display in the display device 5 by performing correction or the like and using the result as the display image data.
  • the display image data may be data reduced to a size close to the limit in which visibility can be obtained, such as a thumbnail.
  • the display image data may be data reduced to a size close to the limit in which visibility can be obtained, such as a thumbnail.
  • what humans see is the image displayed on the display device 5 (not limited to the live view, but the display image data once recorded in the recording unit 38 may be displayed and controlled).
  • RAW image data which is an intermediate product, has not been recorded, but it is important to be able to record RAW image data in association with such display image data. Then, this RAW image data is used as teacher data for machine learning. However, since this RAW image data does not match the human sense even if it is reproduced as it is, it is not suitable for an expert or the like to annotate an image.
  • the RAW image data is described as image data in which data lost in the process of image processing performed for human visibility is left, but it does not necessarily have to be raw data. Further, the RAW image data may be obtained by omitting or thinning out unnecessary parts such as compression for recording capacity measures for purposes other than visibility.
  • 3A to 3C show the structure of the file when the display image data suitable for human viewing and the RAW image data used by AI for machine learning are recorded together and the image file is created.
  • An example is shown. This is generated when the control unit 41 causes the recording unit 38 to record these data.
  • the recording control unit 40 and a dedicated circuit (not shown) for performing recording control may be designed. That is, in one image file Fa1, the area (block) Ba1 (which may be reduced image data such as a thumbnail) for recording the display image data and the image data for AI are stored. It has an area (block) Ba3 for recording, and has a block Ba2 for recording a group of metadata for annotating them.
  • the block Ba2 for this metadata can record information that this image is teacher data and information related to annotation.
  • This annotation-related information assumes information such as what can be confirmed as an object, what is recorded, and its position information while the expert looks at the display image displayed on the display device 5.
  • the block Ba2 for the metadata may be capable of recording the shooting date and time, the place, the ID of the photographer or the patient, and the like.
  • the display image data is used by the image processing unit 32 to perform image processing such as gamma correction, white balance adjustment, color correction, noise reduction, or image enhancement processing on the RAW image data in order to reduce the recording capacity.
  • a recording area (block) Ba3 separately provided for recording RAW image data close to the original data is provided.
  • this RAW image data is an image before an operation such as distortion correction for converting the coordinate position of the image is performed, the annotation result of the position in the screen performed while actually reproducing and viewing the displayed image data. If the above is adopted as it is, the correct object position may not be reflected. Therefore, the converted in-screen position annotation information can be recorded in the area (block) Ba4. This is done in a process as described in FIG. 4, which will be described later.
  • Data such as parameters used for image correction may be stored in this block Ba4 for multimodal learning / inference. Further, the information recorded in the block Ba4 may be included in the metadata group of the block Ba2. In the case of an image to be used as teacher data in this way, by taking a picture with that fact set, the fact that it is teacher data is recorded as metadata, and the RAW image data is also possessed (the control unit 41 does so). Create an image file Fa1 so that it will be recorded and controlled). With such a device, it is possible to quickly collect images suitable for teacher data, perform machine learning, and create an appropriate inference model.
  • the image for teacher data as shown in FIG. 3B may be recorded.
  • the image data recorded in the area (block) Bb1 for recording the processed image data is recorded in the image file Fb2, and the image data recorded in the image file Fb2 is RAW image data (image processing that emphasizes visibility to the raw data is omitted). It is recorded in block Bb3.
  • the block Bb2 in which the metadata group is recorded may be the same as the metadata group in FIG. 3A, but the information for designating the AI image file Fb2 including the RAW image data to be referred to is described therein. It enables search. In addition, there is also a method of aligning the file names of the image data and associating the relationship between these two image files with the extension.
  • the AI image file Fb2 for RAW image data has a block Bb4 for recording the annotation result, but when writing position information such as coordinates in the image, the coordinates described in the block Bb2. Therefore, the coordinates (equivalent coordinates before image processing) after the calculation for converting to the coordinates before image processing are described. Data such as parameters used for image correction may be input here for multimodal learning / inference.
  • the inference is performed by inputting the image file as shown in FIG. 3A or FIG. 3B.
  • this metadata can be effectively utilized.
  • inference is performed using the information of blocks Ba3 and Ba4. If image correction-related data for multimodal learning / inference is stored in the metadata area of block Ba4, highly accurate inference can be performed using this data as well.
  • all of the metadata explained here can be effectively used in multimodal learning and inference.
  • the image file Fb1 of a type that refers to another image file is input, the image file Fb2 is searched from the metadata information recorded in the block Bb2, and the AI image data recorded in the block Bb3 is used. Then, learn and infer in the same way.
  • the metadata of the block Bb4 may be used as appropriate. Further, this may be described in the metadata. That is, these image files may have metadata for specifying the multimodal AI. "Metadata for instruction of teacher data" is described in blocks Ba2 and Bb2, but when used for inputting an inference model, this metadata is described as "metadata for inference input”. May make it possible to know which image is for which purpose.
  • information that specifies an inference model for inputting the image may be described and recorded in the metadata.
  • the image processing unit 32 that performs image processing in order to display the image data of the result of imaging the observation target on the display unit (display device 5) and the display image of the image data displayed on the display unit are used.
  • a different mode in which the adding unit 34, which acquires the annotation information and gives the image data in a mode different from the mode displayed on the display unit, and the annotation information for the image data in the different mode are provided as metadata. It is possible to provide an image processing device 3 which is a recording device including a recording control unit 40 for creating and recording an image file of the image data of the above.
  • FIG. 3C shows an example of an image file of the inference result.
  • the image file Fc1 has a block Bc1 for recording image data for display and a block Bc2 for recording information regarding inference.
  • Information such as is made possible to be recorded as metadata. This makes it possible to avoid the black boxing of AI and fulfill some of AI's accountability.
  • the annotation input unit 33 that annotates the display image data (second image data) obtained by imaging the observation target O and subjecting the image data (first image data) to image processing or the like.
  • the granting unit 34 that reflects the annotation result and assigns the first image data (described here as RAW image data) that is related to the observation target O similar to the second image data and has a different imaging mode.
  • a teacher data generation device including a teacher data generation unit 36 that generates teacher data for creating an inference model using the first image data and the annotation result reflected in the first image data.
  • An image processing device 3 can be provided.
  • the second image is an image in which pixel information is correctly arranged two-dimensionally and the hue, contrast, gradation expression, etc. are adjusted appropriately for vision, but the first image improves their visibility. It is a pixel data group before any processing is performed.
  • FIG. 4 is a flowchart showing an outline of the processing executed by the image processing apparatus at the time of generating the teacher data.
  • a human observes an image processed image recorded in the recording unit 38, and extracts an image containing a tumor.
  • the image processing device 3 accepts the input of the image including the extracted tumor (step S11).
  • This is the annotation information. Note that annotation is possible not only with the image recorded in the recording unit 38 but also with the live view image, and when annotating the live view image, annotate the imaging result, record it, and use it as teacher data. do.
  • the annotation information may be a determination result obtained by a human being to determine whether or not the image contains a tumor, but may include the location information of the extracted tumor.
  • the teacher data generation unit 36 identifies the RAW image associated with the input image by association, and generates teacher data using the identified image (step S12). Specifically, the teacher data generation unit 36 identifies the RAW image associated with the input image, identifies that the identified image group is an image containing a tumor, and determines whether or not the identified image group contains a tumor. Generates teacher data in which the RAW image data for which is determined becomes the teacher image data. When the annotation information includes the position information of the tumor, the teacher data generation unit 36 identifies the RAW image associated with the input image, and the identified image group and the reflection unit 35 reflect the image group. Teacher data to be teacher image data is generated using the annotation result including the location information of the tumor.
  • the image processing device 3 performs coordinate conversion to create different coordinate data, and obtains RAW image data for learning (for example,). ) Describe as metadata. This data may be recorded in another referenceable file.
  • image processing is not performed mainly for the purpose of visibility and recordability (compression of data size), and teacher data using RAW images suitable for machine learning is generated. can do.
  • This reflects the result of annotation with an image with excellent visibility, and it is possible to learn to generate an extremely reliable and highly accurate inference model.
  • inference may be performed using RAW image data as input in the same manner.
  • the inference input image data has good visibility due to the related display image data, and the inference is a RAW image. The high amount of information can be used, and highly accurate inference is possible.
  • FIG. 5 is a schematic view showing the configuration of the observation system according to the second embodiment.
  • the observation system 11 according to the second embodiment observes the observation target O in the subject H. Endoscopic surgery can be performed by observing the observation target O in the subject H with the observation system 11 and performing treatment on the subject H with the treatment tool T.
  • FIG. 6 is a block diagram showing the configuration of the observation system according to the second embodiment.
  • the observation system 11 includes a first lighting unit 12, a second lighting unit 13, a first imaging unit 14, a second imaging unit 15, an image processing device 16, and a learning device 17. , Display device 18.
  • the first illumination unit 12 irradiates the observation target O with normal light.
  • Normal light is illumination light used for normal observation, not special light observation.
  • the first illumination unit 12 is attached to the subject H by being inserted into, for example, an insertion portion which is a hard needle having a diameter of 2 mm or more and 3 mm or less and which does not have curvature.
  • the first lighting unit 12 is provided with a light source including an LED (Light Emitting Diode) and a battery for supplying electric power to the light source.
  • the illumination light emitted by the light source is applied to the observation target O via a lens or an optical fiber arranged inside the needle.
  • the endoscope 2 may irradiate the observation target O with the illumination light output by the external light source device.
  • the second illumination unit 13 irradiates the observation target O with special observation light.
  • the second illumination unit 13 is attached to the subject H, for example, by being inserted into an insertion unit which is a hard needle having no curvature of 2 mm or more and 3 mm or less.
  • the second lighting unit 13 is provided with a light source made of an LED or the like and a battery for supplying electric power to the light source.
  • the special observation light emitted by the light source is applied to the observation target O via a lens or an optical fiber arranged inside the needle.
  • the second illumination unit 13 may irradiate the observation target O with the special observation light output by the external light source device.
  • the special observation light is, for example, special observation light used for NBI (Narrow Band Imaging) observation, IRI (Infra Red Imaging) observation, or fluorescence observation, and is light having a spectrum different from that of ordinary illumination light.
  • the first imaging unit 14 images the observation target O.
  • the first imaging unit 14 is attached to the subject H, for example, by being inserted into an insertion portion which is a rigid needle having a diameter of 2 mm or more and 3 mm or less and having no curvature.
  • the first image pickup unit 14 is provided with an image pickup element configured by using a CCD or CMOS image sensor, an A / D conversion circuit, or the like. Then, the reflected light from the observation target O is imaged by the image sensor via a lens or an optical fiber arranged inside the needle.
  • the second imaging unit 15 images the observation target O from a position different from that of the first imaging unit 14.
  • the second imaging unit 15 is attached to the subject H, for example, by being inserted into an insertion portion which is a rigid needle having a diameter of 2 mm or more and 3 mm or less and having no curvature.
  • an insertion portion which is a rigid needle having a diameter of 2 mm or more and 3 mm or less and having no curvature.
  • the second image pickup unit 15 is provided with an image pickup element configured by using a CCD or CMOS image sensor, an A / D conversion circuit, or the like.
  • the reflected light from the observation target O is imaged by the image sensor via a lens or an optical fiber arranged inside the needle.
  • the image sensor of the second image pickup unit 15 has sensitivity to the spectrum of the special observation light emitted by the second illumination unit 13, and is an image pickup element suitable for special light observation using the special observation light.
  • the image processing device 16 includes a transmission / reception unit 161, an image processing unit 162, an annotation input unit 163, an annotation unit 164, a reflection unit 165, a teacher data generation unit 166, a display control unit 167, and a recording unit 168. , An estimation unit 169, a recording control unit 170, and a control unit 171.
  • the transmission / reception unit 161, the image processing unit 162, the annotation input unit 163, the display control unit 167, the recording unit 168, the recording control unit 170, and the control unit 171 are the transmission / reception unit 31, the image processing unit 32, the annotation input unit 33, and the display, respectively. Since the configuration may be the same as that of the control unit 37, the recording unit 38, the recording control unit 40, and the control unit 41, the description thereof will be omitted.
  • the granting unit 164 assigns various annotation results to the image data.
  • the granting unit 164 is a circuit or program having a function of associating information on the content and position of an object annotated by an expert or the like with the image while viewing a normal light (white light) image having good visibility. It is a functional block consisting of etc.
  • the adding unit 164 adds an annotation result, which is information on the content and position of the object, to the image data (second image data) of the image obtained by the first imaging unit 14 capturing the observation target O with normal light.
  • the granting unit 164 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the reflection unit 165 is added to the image data (first image data) of the image obtained by subjecting the image of the observation target O captured by the observation target O with the special observation light to the image data (first image data) of the second image data. It is given by reflecting the annotation result. That is, by adding the annotation result to the second image data, the annotation result is automatically added corresponding to the first image data.
  • the reflection unit 165 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the image data to which the annotation result is added to these addition units 164 or reflection units 165 is set to the recording unit 168.
  • the image data of the normal observation image and the image data of the special light observation are recorded in the recording unit 168 in association with each other.
  • the visibility-enhancing image (display image, second) of the first embodiment described in relation to the processed image with enhanced visibility and the image before the processing (RAW image)
  • RAW image first image
  • the RAW image is not subjected to image processing to improve visibility.
  • the application of recording as an image may be performed.
  • the teacher data generation unit 166 generates teacher data for learning to be transmitted to the learning device 17.
  • the teacher data generation unit 166 identifies the image data (second image data) of the normal observation image associated with the image data (first image data) of the image obtained by subjecting the special light observation image to image processing. , Annotate using the specified image and generate teacher data with the result information.
  • the teacher data generation unit 166 reflects the annotation result on the corresponding special observation light image recorded in the recording unit 168.
  • the teacher data generation unit 166 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the learning device 17 and the display device 18 may have the same configurations as the learning device 4 and the display device 5, respectively, the description thereof will be omitted.
  • the transmission / reception unit 161 receives image data of an image obtained by capturing the observation target O with normal illumination light and special observation light from the first imaging unit 14 and the second imaging unit 15, respectively.
  • the first imaging unit 14 takes an image in a state where the observation target O is irradiated with normal illumination light by the first illumination unit 12 (normal observation), and the second imaging unit 15 observes by the second illumination unit 13. Imaging is performed with the target O irradiated with special observation light (special light observation). Normal observation and special light observation may be performed alternately for each frame, or may be performed separately. However, it is preferable that the first imaging unit 14 and the second imaging unit 15 image substantially the same position of the observation target O.
  • Special light observation may be performed only when shooting by manual operation, but here, an example in which both normal observation and special light observation are always performed is shown.
  • the image data of the images of normal observation and special light observation received by the transmission / reception unit 161 are recorded in the recording unit 168 in association with each other.
  • the image processing unit 162 performs image processing such as gamma correction, white balance adjustment, color correction, noise reduction, or image enhancement processing on images for normal observation and special light observation.
  • FIG. 7 is a flowchart showing an outline of the process executed at the time of generating the teacher data.
  • a human observes an image of normal observation recorded in the recording unit 168, and extracts an image containing a tumor.
  • the image processing device 16 accepts the input of the image including the extracted tumor (step S31). This is an image of normal light observation that is easy for doctors and specialists to see, and by looking at this, the specialist can determine what is shown here (object) and its position.
  • the addition unit 34 When the information of the object and its position is input (annotated) to the image with good visibility, the addition unit 34 reflects the annotation result on the data of the corresponding special light image, and the teacher data generation unit 166. Generates teacher data (step S32).
  • wavelength information at the time of imaging and the like may be recorded as the metadata described in FIGS. 3A to 3C.
  • information such as the wavelength distributions of the two images and their differences may be recorded.
  • the image (second image data) captured by the normal light obtained by imaging the observation target O is a natural image when viewed by a human, so the annotation input unit 163 that annotates the image is used.
  • the annotation result may be reflected on the image data (first image data) by special light which is related to the observation target O similar to the second image data and has a different imaging mode. It is assumed that the reflection unit 165 performs this, and further, the teacher data generation unit 166 generates teacher data for creating an inference model using the first image data and the annotation result given by reflecting the first image data. It is possible to provide an image processing device 3 which is a teacher data generation device having a function.
  • the second image is an image with good visibility, and is assumed to be captured by illumination such as natural light, white light, or daylight.
  • the contrast, exposure, and hue are processed to be natural to the human appearance. Further, since such image data is recorded as data (file) that is easy to handle by devising as shown in FIGS. 3A to 3C, the present application is also an invention of a recording device and a recording method.
  • FIG. 8 is a schematic view showing the configuration of the observation system according to the third embodiment.
  • the observation system 51 according to the third embodiment observes the observation target O in the subject H. Endoscopic surgery can be performed by observing the observation target O in the subject H with the observation system 51 and treating the subject H with the treatment tool T.
  • FIG. 9 is a block diagram showing the configuration of the observation system according to the third embodiment.
  • the observation system 51 includes an illumination unit 52, a first imaging unit 53, a second imaging unit 54, an image processing device 55, a learning device 56, and a display device 57.
  • the illumination unit 52 irradiates the observation target O with illumination light.
  • the illumination unit 52 is attached to the subject H by being inserted into, for example, an insertion unit which is a hard needle having a diameter of 2 mm or more and 3 mm or less and which does not have curvature.
  • the lighting unit 52 is provided with a light source made of an LED or the like and a battery for supplying electric power to the light source.
  • the illumination light emitted by the light source is applied to the observation target O via a lens or an optical fiber arranged inside the needle.
  • the illumination unit 52 may irradiate the observation target O with the illumination light output by the external light source device.
  • the first imaging unit 53 and the second imaging unit 54 image the observation target O from different positions.
  • the first imaging unit 53 and the second imaging unit 54 are attached to the subject H, for example, by being inserted into an insertion portion which is a hard needle having a diameter of 2 mm or more and 3 mm or less and having no curvature. By puncturing the insertion portion at different positions of the subject H, the first imaging unit 53 and the second imaging unit 54 image the observation target O from different positions.
  • the first image pickup unit 53 and the second image pickup unit 54 are provided with an image pickup element configured by using a CCD or CMOS image sensor, an A / D conversion circuit, or the like. Then, the reflected light from the observation target O is imaged by the image sensor via a lens or an optical fiber arranged inside the needle.
  • the image processing device 55 includes a transmission / reception unit 551, an image processing unit 552, a guide unit 555, a determination unit 554, an image composition unit 555, a coordinate calculation unit 556, an annotation input unit 557, and an addition unit 558. It includes a reflection unit 559, a teacher data generation unit 560, a display control unit 561, a recording unit 562, an estimation unit 563, a recording control unit 564, and a control unit 565.
  • the transmission / reception unit 551, the image processing unit 552, the annotation input unit 557, the display control unit 561, the recording unit 562, the estimation unit 563, and the control unit 565 are the transmission / reception unit 31, the image processing unit 32, the annotation input unit 33, and the display control, respectively. Since the configuration may be the same as that of the unit 37, the recording unit 38, and the control unit 41, the description thereof will be omitted.
  • the guide unit 553 guides the positions of the first imaging unit 53 and the second imaging unit 54, respectively.
  • the guide unit 553 outputs a voice, outputs characters to the display device 5, irradiates the subject H and the like with light, and the like to puncture the first imaging unit 53 and the second imaging unit 54 and the first imaging unit 53. And the positional relationship between the second imaging unit 54 and the observation target O is guided.
  • the guide unit 553 may guide the positions of the first imaging unit 53 and the second imaging unit 54 to positions where they are in focus, or may guide the observation target O so as to be included in a predetermined ratio or more.
  • the guide unit 553 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the determination unit 554 has an imaging region of an image captured by the first imaging unit 53 that images the observation target O in the subject H and a second imaging unit that images the observation target O from a position different from that of the first imaging unit 53. It is determined whether or not there is an overlapping portion with the image captured by 54. Further, the determination unit 554 determines whether or not the first imaging unit 53 and the second imaging unit 54 are inserted to the focal positions where the observation target O is focused, respectively. This focal position is used here to explain the position where the first imaging unit 53 and the second imaging unit 54 are arranged at a distance that allows the observation target O to be in focus.
  • the determination unit 554 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the image synthesizing unit 555 determines that the determination unit 554 is inserted to the focal position where the first imaging unit 53 and the second imaging unit 54 are focused on the observation target O, respectively, and the first imaging unit 53 takes an image. When it is determined that there is an overlapping portion between the imaging region of the image and the imaging region of the image captured by the second imaging unit 54, a composite image obtained by synthesizing these images is generated.
  • the image compositing unit 555 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the coordinate calculation unit 556 detects the feature points of the captured image (characteristic points of the image, for example, the edge of the lesion and the bleeding point), and calculates the amount of movement between each image based on the position of the feature points. , For example, give two-dimensional coordinates to each image.
  • the coordinate calculation unit 556 may calculate the coordinates of the center of each image, or may calculate the coordinates of the four corners of each image.
  • the coordinate calculation unit 556 calculates the coordinates of the tumor or the like found by observing the composite image by a human.
  • the granting unit 558 assigns various annotation results to the image data.
  • the granting unit 558 is an image data (second image) of an image obtained by synthesizing these images with an image (first image data) obtained by the first imaging unit 53 and the second imaging unit 54, respectively. Data) is associated and the annotation result is added to the second image data.
  • the granting unit 558 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the reflection unit 559 reflects the annotation result for the image data (second image data) of the combined image in the image data (first image data) before composition and gives it. In this way, the annotations made on the composite image that is easy for humans to judge are reflected in the image before composition.
  • the image before composition is used for AI, but the person who creates or uses AI should handle the composite image that is easy to understand.
  • the reflection unit 559 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the image data to which the annotation result is given by these addition units 558 or reflection unit 559 is recorded in the recording unit 562.
  • the annotation to the first image is for AI
  • the annotation to the second image is for human confirmation
  • the annotation to the second image does not have to be recorded.
  • the first image data may be RAW image data, or the first image data may be photographed and recorded with special light.
  • the recording unit 562 a plurality of image data and the image data of the image synthesized by performing image processing on the image are recorded in association with each other.
  • the teacher data generation unit 560 generates teacher data to be transmitted to the learning device 56.
  • the teacher data generation unit 560 identifies a plurality of RAW images (first image data) associated with the composite image (second image data), and generates teacher data using the specified images. Specifically, when a human observes a composite image recorded in the recording unit 562 and extracts an image containing a tumor, the teacher data generation unit 560 displays a plurality of images associated with the extracted image. It is identified as an image containing a tumor, and a teacher image group in which it is determined whether or not a tumor is contained is used as a teacher image group to generate teacher data.
  • the teacher data generation unit 560 is realized by a general-purpose processor such as a CPU or a dedicated processor such as various arithmetic circuits that execute a specific function such as an ASIC.
  • the RAW image (first image) of the first embodiment is made to correspond to the pre-composite image by using the composite observation image (image), but as described above, this pre-composite image is used as the RAW image. You may make an application to record as. Further, here, the idea of the second embodiment may be put into an observation image with special light.
  • the learning device 56 and the display device 57 may have the same configurations as the learning device 4 and the display device 5, respectively, the description thereof will be omitted.
  • FIG. 10 is an example of an image captured by the first imaging unit.
  • the image Im1 captured by the first imaging unit 53 includes the observation target O, but does not include the tumor.
  • FIG. 11 is an example of an image captured by the second imaging unit.
  • the image Im2 captured by the second imaging unit 54 includes the observation target O and the tumor TU.
  • a composite image (second image) can be created by superimposing the common parts of these images and synthesizing them like a margin.
  • This is an image in which the relationship between the whole and the part is easy for a person to see, intuitively grasping, understanding, recognizing, and judging, or rich in information for finding a specific object.
  • This composite image may be said to be a display image to be displayed on the display device 57.
  • the margins overlap, so they are not necessarily perceived as rich in information like humans. Rather, it may be easier for the computer to determine the information by the multimodal process in which the margin information is acquired separately and each image is determined as an individual image.
  • the coordinate calculation unit 556 calculates the coordinates of the individual image Im1 and the image Im2 from the result of this composition with reference to this composite image.
  • the coordinate relationship of each image becomes secondary information of the multimodal processing. This may be recorded as metadata as shown in FIGS. 3A-C.
  • the granting unit 558 reads the annotation result including the coordinate information of each image in the two images and gives it so that it can be diverted. Record in the recording unit 562.
  • the annotation input unit 557 that annotates the composite image (second image data) obtained by imaging the observation target O, and the observation target O that is similar to the second image data and is related to the observation target O
  • a reflection unit 559 that reflects the annotation result for the first image data having different imaging display modes (here, the image capture before combining a plurality of images and the combined image are displayed in another mode)
  • an image processing device 3 which is a teacher data generation device including a teacher data generation unit 560 for generating teacher data for creating an inference model using the image data of 1 and the annotation result reflected therein.
  • the second image is assumed to be a composite image that is easy to display and confirm.
  • visibility is an image in which the image of the whole image and the part can be easily confirmed, the field of view for the imaged object, and the range of the imaged object are wide.
  • image data is recorded as data (file) that is easy to handle by devising as shown in FIGS. 3A to 3C, the present application is also an invention of a recording device and a recording method.
  • FIG. 12 is an example of a composite image.
  • the image synthesizing unit 555 synthesizes the image Im1 captured by the first imaging unit 53 and the image Im2 captured by the second imaging unit 54 to generate a composite image Im3.
  • the entire observation target O can be observed by the images captured by the first imaging unit 53 and the second imaging unit 54, so that the image is easy for humans to observe.
  • the addition unit 558 assigns an annotation result including coordinate information to the combined composite image Im3 and records it in the recording unit 562, the image data of a plurality of images and the image data of the image obtained by combining these images can be obtained. It is associated with each other and recorded in the recording unit 562.
  • FIG. 13 is a flowchart showing an outline of the processing executed by the image processing apparatus at the time of generating the teacher data.
  • a doctor or an expert sees an image after composition with an enlarged confirmation range, which is easy for a doctor or an expert to see, and corresponds to the image before composition.
  • composite images are richer in the amount of information such as the continuity of individual images, and by looking at this, experts can determine what is shown here (object) and its position.
  • a human observes the composite image Im3 recorded in the recording unit 562, and extracts an image containing the tumor TU.
  • the image processing apparatus 55 accepts the input of the composite image Im3 including the extracted tumor TU and the position information of the tumor TU included in the composite image Im3 (step S51).
  • the coordinate calculation unit 556 calculates the coordinates of the tumor TU based on the input position information (step S52).
  • the teacher data generation unit 560 associates an image (image Im2) including the tumor TU with the coordinates of the tumor TU included in the input composite image (multi-image format file conversion or, in the case of another file, an image). It is specified from a file name reference (by a specific file name relationship or extension), and teacher data is generated based on the specified image Im2 (step S53). Specifically, the teacher data generation unit 560 identifies an image (image Im2) including the tumor TU based on the coordinates of the tumor TU included in the input composite image from the annotation association result, and the identified image group is It is identified as an image containing a tumor, and a teacher image group in which it is determined whether or not a tumor is contained is used as a teacher image group to generate teacher data.
  • the combined location and the like may be recorded as the metadata described in FIGS. 3A to 3C.
  • the coordinate information converted from the coordinates given as the annotation result may be recorded for each image.
  • image data is recorded as data (file) that is easy to handle by devising as shown in FIGS. 3A to 3C, the present application is also an invention of a recording device and a recording method.
  • image processing and image composition are not performed, and machine learning can be performed using individual images before composition suitable for machine learning.
  • Modification example 1 Next, the observation system according to the first modification will be described.
  • the configuration of the observation system according to the first modification may be the same as the configuration of the first embodiment shown in FIG. 2, and thus the description thereof will be omitted.
  • FIG. 14 is a flowchart showing an outline of the processing executed by the observation system according to the first modification when the teacher data is generated. As shown in FIG. 14, first, a user who confirms an image, such as an expert, selects an image to be annotated from the images recorded in the recording unit 38 (step S71).
  • the display control unit 37 causes the display device 5 to display the display image (image processed image (second image)) of the selected image (step S72).
  • the user confirms this display image, inputs the position of the tumor by mouse operation, keyboard input, touch operation, voice input, etc., and the annotation input unit 33 accepts this input (step S73).
  • 15A and 15B are diagrams for explaining a situation in which annotation results are added to the first image data and the second image data.
  • the user confirms the display image Im11 and inputs the coordinates (X1, Y1) of the tumor TU. Position information indicating these coordinates is added to the image data (second image data) of the display image Im11 as an annotation result.
  • control unit 41 determines whether or not a predetermined operation input indicating that the annotation for this image has been completed has been performed (step S74).
  • step S74 determines that the predetermined operation input indicating that the annotation for this image has been completed has not been performed (step S74: No)
  • the process returns to step S72, and the annotation for this image is continued.
  • step S74 when the control unit 41 determines that a predetermined operation input indicating that the annotation for this image has been completed has been performed (step S74: Yes), the recording control unit 40 metadata the annotation result for the image file. (Step S75). Then, the addition unit 34 adds an annotation result (metadata) to the image data of the display image Im11. Specifically, in the image file Fa1 shown in FIG. 3A, the metadata that is the annotation result is recorded in the block Ba2 in association with the display image data recorded in the block Ba1.
  • the reflection unit 35 reflects the annotation result in the image data (first image data) of the corresponding AI image (RAW image) (step S76). Specifically, as shown in FIG. 15B, the annotation result (position information of the tumor TU) given to the display image Im11 is reflected in the AI image Im12, and the annotation result (tumor) is reflected in the image data of the AI image Im12. TU position information) is given.
  • the recording control unit 40 converts the annotation result into metadata for the image file (step S77).
  • the adding unit 34 adds an annotation result (metadata) to the image data of the AI image Im12. Specifically, in the image file Fa1 shown in FIG. 3A, the metadata of the annotation result is recorded in the block Ba4 in association with the AI image data Im12 recorded in the block Ba3.
  • the teacher data generation unit 36 generates teacher data using the AI image to which the annotation result is attached (step S78).
  • the teacher data is a teacher image group used when the learning device 4 performs machine learning, and is an image data group to which the position information of the tumor TU, which is the annotation result, is added. That is, the teacher data is generated by accumulating a large amount of image files as shown in FIGS. 3A to 3C.
  • control unit 41 determines whether or not a predetermined operation input indicating that the annotation has been completed has been performed (step S79).
  • the control unit 41 determines that the predetermined operation input indicating that the annotation has been completed has not been performed (step S79: No)
  • the process returns to step S71.
  • step S79 Yes
  • a series of processes is completed.
  • the AI image to which this annotation result is given is used.
  • Teacher data can be generated.
  • the learning device 4 can generate a highly reliable and highly accurate inference model by using such teacher data.
  • Modification 2 Next, the observation system according to the second modification will be described.
  • the configuration of the observation system according to the second modification may be the same as the configuration of the second embodiment shown in FIG. 6, and thus the description thereof will be omitted.
  • FIG. 16 is a flowchart showing an outline of the processing executed by the observation system according to the second modification when the teacher data is generated. As shown in FIG. 16, first, the first illumination unit 12 irradiates the observation object with normal light (step S91).
  • the first imaging unit 14 images the observation object (step S92).
  • the image data generated by this imaging is hereinafter referred to as image data Im21.
  • the first imaging unit 14 images the observation object again (step S93).
  • the image data generated by this imaging is hereinafter referred to as image data Im22.
  • image data Im22 In order to secure the frame rate of normal light observation and to make the number of imaging of normal light observation larger than the number of imaging of special light observation, an example of performing imaging of normal light observation twice is shown here, but normal light observation is shown. The number of times of imaging is not particularly limited.
  • the recording control unit 170 temporarily records the image data Im21 and the image data Im22 in the recording unit 168 (step S94). Specifically, the image data Im21 and the image data Im22 are recorded in the ring buffer of the recording unit 168, and one frame of image data is recorded in chronological order. Then, when the ring buffer of the recording unit 168 records the image data of a predetermined number of frames, the oldest image data is deleted and the latest image data is recorded, so that new image data of a predetermined number of frames is recorded in chronological order. Record.
  • the second illumination unit 13 irradiates the observation object with special light (step S95).
  • the second imaging unit 15 images the observation object (step S96).
  • the image data generated by this imaging is hereinafter referred to as image data Im23.
  • the recording control unit 170 temporarily records the image data Im23 in the recording unit 168 (step S97). Specifically, the image data Im23 is recorded in the ring buffer of the recording unit 168.
  • the image processing device 16 estimates the position of the tumor in the image data Im22 and performs an inference display process of displaying the tumor on the display device 18 (step S98). Specifically, the estimation unit 169 estimates the position of the tumor included in the image data Im23 (first image data) by special light observation by using the inference model generated by the learning device 17 by machine learning. Then, the reflection unit 165 reflects the position information of this tumor on the image data Im22 (second image data) and gives it. Then, the display control unit 167 highlights the position of the tumor in the image data Im22 and displays it on the display device 18.
  • control unit 171 determines whether or not the instruction input for shooting has been accepted (step S99).
  • the user confirms the position of the tumor in the image data Im22 displayed on the display device 18, and when the position of the tumor is correctly displayed and he / she wishes to take an image of this image, he / she presses the imaging button displayed on the display device 18. Perform operation input such as pressing.
  • the control unit 171 determines whether or not this operation input has been received.
  • step S99: No When the control unit 171 determines that there is no instruction input for shooting (step S99: No), the process proceeds to step S104.
  • the recording control unit 170 records the image data Im22 in a non-temporary recording area (not a ring buffer) of the recording unit 168. , For example, RAM) (step S100).
  • the imparting unit 164 adds the tumor position information estimated by the estimating unit 169 to the image data Im23 as an annotation result and records it in the recording unit 168.
  • the imparting unit 164 may add the tumor position information acquired by the annotation input unit 163 in response to the user's input as the annotation result.
  • the recording control unit 170 records the image data Im23 in the non-temporary recording area (for example, RAM, not the ring buffer) of the recording unit 168 (step S101).
  • the recording control unit 170 displays the image data Im22 in the block Ba1 of the image file Fa1, the image data Im23 in the block Ba3, and the metadata representing the tumor position information in the blocks Ba2 and the block Ba4. Each is recorded, and the data generated by the series of processes is converted into a file and recorded in the recording unit 168 (step S102).
  • the teacher data generation unit 166 generates teacher data using the image data Im23 obtained by special light observation to which the annotation result is attached (step S103).
  • control unit 171 determines whether or not a predetermined operation input indicating that the process of generating the teacher data is terminated has been performed (step S104).
  • step S104 determines that a predetermined operation input indicating that this process is terminated has not been performed.
  • step S104 determines that a predetermined operation input indicating that this process is terminated has been performed (step S104: Yes).
  • the inference model generated by the learning device 17 by machine learning automatically estimates the position of the tumor using the image data Im23 by special light observation, and the doctor or the expert observes it. It is possible to confirm the tumor whose position has been estimated in the image data Im22 by normal light observation, which is easy to do. Then, an image confirmed by a doctor or an expert as a tumor is recorded together with the annotation result.
  • the second modification it is possible to easily and a large amount of teacher data, which is a group of image data by special light observation to which the position information of the tumor is given.
  • FIG. 17 is a flowchart showing an outline of the processing executed by the observation system according to the modified example 3 at the time of generating teacher data. As shown in FIG. 17, first, the user selects an image to be annotated from the images recorded in the recording unit 562 (step S111).
  • the image synthesizing unit 555 synthesizes the selected images to generate a panoramic composite image (second image), and the display control unit 561 displays the composite image on the display device 57 (step). S112).
  • the user confirms this composite image and inputs the position of the tumor by mouse operation, keyboard input, touch operation, voice input, etc., and the annotation input unit 557 accepts this input (step S113).
  • FIGS. 18A to 18C are diagrams for explaining a situation in which annotation results are added to the first image data and the second image data.
  • the composite image Im31 is an image in which the pre-composite image Im32 shown in FIG. 18B and the pre-composite image Im33 shown in FIG. 18C are combined with the overlapping portion OV as a margin.
  • the user confirms the composite image Im31 and inputs the coordinates (X1, Y1) of the tumor TU. Position information indicating these coordinates is added to the image data (second image data) of the composite image Im31 as an annotation result.
  • control unit 565 determines whether or not a predetermined operation input indicating that the annotation for this image has been completed has been performed (step S114).
  • the control unit 565 determines that the predetermined operation input indicating that the annotation for this image has been completed has not been performed (step S114: No)
  • the process returns to step S112 and the annotation for this image is continued.
  • the recording control unit 564 metadata the annotation result for the image file. (Step S115). Then, the addition unit 558 adds an annotation result (metadata) to the image data of the composite image Im31 for display. Specifically, in the image file Fa1 shown in FIG. 3A, the metadata of the annotation result is recorded in the block Ba2 in association with the display image data (composite image Im31) recorded in the block Ba1.
  • the reflection unit 559 reflects the annotation result in the image data (first image data) of the corresponding pre-composite image (step S116). Specifically, as shown in FIGS. 18B and 18C, the annotation result (position information of the tumor TU) given to the composite image Im31 is reflected in the pre-synthesis image Im32 and the pre-synthesis image Im33, and the pre-synthesis image Im32 and the composite. Annotation result (position information of tumor TU) is added to the image data of the previous image Im33. At this time, the coordinate calculation unit 556 calculates the coordinates of the tumor TU in the pre-synthesis image Im32 and the pre-synthesis image Im33.
  • the coordinates of the tumor in the pre-synthesis image Im33 are the coordinates of the tumor in the composite image (X1, Y1), the width ⁇ X of the overlapping portion OV in the X-axis direction (see FIG. 18A), and the pre-synthesis image Im32.
  • X21 X1-X0 + ⁇ X
  • Y21 Y1- ⁇ Y using the width X0 in the x-axis direction and the positional deviation ⁇ Y (see FIG. 18A) between the pre-composite image Im32 and the pre-composite image Im33 in the Y-axis direction. be able to.
  • the recording control unit 564 converts the annotation result into metadata for the image file (step S117).
  • the addition unit 558 adds an annotation result (metadata) to the image data of the pre-composite image Im32 and the pre-composite image Im33.
  • FIG. 19 is a diagram showing an example of an image file that serves as teacher data.
  • the image data of the composite image Im31 is recorded in the block Ba1
  • the coordinates (X1, Y1) of the tumor in the composite image Im31 are recorded in the block Ba2 as annotation information.
  • this composite image Im31 is a specific part, the whole picture including the surroundings is relatively easy to understand, and it is an image that is easy to understand and annotate for experts who are familiar with the tissue structure of the tumor.
  • each pre-synthesis image is used as a teacher image. That is, the pre-synthesis image data Im32 and the pre-synthesis image Im33 are recorded in the block Ba3, and the coordinates of the post-synthesis coordinates given by a person are the coordinates of the tumor in the pre-synthesis image data Im32 and the pre-synthesis image Im33 (X11, Y11) (tumor). Is outside the pre-composite image Im32, so it is recalculated into the coordinates (coordinates outside the screen) and coordinates (X21, Y21) to create a teacher image.
  • the converted coordinates are recorded in the block Ba4 as annotation information.
  • an example of adding metadata indicating "outside the screen” is shown in FIG. 19, but when the in-screen coordinates have the lower right corner as the origin (0,0), the screen range is set to, for example, (X100, Y100).
  • screen range information metadata If it is described as "screen range information metadata" and the coordinate value is such that the annotation position exceeds it or becomes a negative value, it can be information that conveys that it is off the screen. By making it possible to annotate off-screen information in this way, it is possible to create teacher data for off-screen search that the tumor itself is outside the screen even if it is not inside the screen.
  • Such teacher data for off-screen learning can also be easily created by an expert in this modification 3, and the inference model learned from this teacher data, for example, a doctor happens to have a range of imaging toward the tumor part. It is possible to provide a guide display function that tells that there is a tumor outside the screen without aiming. It is possible to take measures to overlook lesions that tend to occur in specific tissues, and also to detect events that can occur in specific environments and situations (location of matsutake mushrooms in pine forests, places where buildings are prone to cracks, etc.) even if they are not inside the body. From the characteristics of the image, it is possible to provide an inference model that predicts even if it is not within the imaging range.
  • the teacher data generation unit 560 generates teacher data using the pre-synthesis image data Im32 and the pre-composite image Im33 to which the annotation result is attached (step S118).
  • the composite image can be grasped as a whole, the ratio from the tumor part contains a much larger area of information, which may cause noise when learning the image features of the tumor itself.
  • the learning of the characteristic difference between the tumor part and the tissue of the non-tumor part can be performed more accurately.
  • control unit 565 determines whether or not a predetermined operation input indicating that the annotation has been completed has been performed (step S119).
  • the control unit 565 determines that the predetermined operation input indicating that the annotation has been completed has not been performed (step S119: No)
  • the process returns to step S111.
  • step S119 when the control unit 565 determines that a predetermined operation input indicating that the annotation has been completed has been performed (step S119: Yes), a series of processes is completed.
  • the present modification 3 is an invention as a recording method for creating and recording an image file having the annotation coordinate information as metadata, and a plurality of image data as a result of imaging the observation target are displayed on the display unit.
  • Composite image processing is performed to display the composite image data, and the annotation coordinate information performed on the display image of the composite image data displayed on the display unit is acquired, and the individual image data constituting the composite image data displayed on the display unit is obtained.
  • the teacher data can be generated using the pre-composite image to which the annotation result is given.
  • the learning device 56 can generate a highly reliable and highly accurate inference model by using such teacher data.
  • FIG. 20 is a flowchart showing an outline of the processing executed by the observation system according to the modified example 4 at the time of generating teacher data.
  • the first imaging unit 53 cannot image the entire observation target, and the images captured by the first imaging unit 53 and the second imaging unit 54 are combined to form a panorama. This is the case when the entire observation target can be observed. If the first imaging unit 53 can image the entire observation target, only one imaging unit is required, and even if the images captured by the first imaging unit 53 and the second imaging unit 54 are combined, the entire observation target is imaged. If this is not possible, three or more imaging units may be used.
  • the control unit 565 causes the first imaging unit 53 to image an observation object (step S131).
  • the control unit 565 always causes the illumination unit 52 to irradiate the observation target with illumination light when performing imaging.
  • the image captured by the first imaging unit 53 is referred to as a first image.
  • the guide unit 553 may guide the position of the first imaging unit 53. Specifically, when the distance between the first imaging unit 53 and the observation target is not appropriate, the guide unit 553 sends a message such as "Please move closer” or "Please move further away” to the display device 57. The position of the first imaging unit 53 is guided by displaying it in characters. Further, when the distance between the first imaging unit 53 and the observation target becomes appropriate and the entire observation target cannot be imaged, the guide unit 553 tells the display device 57 that "it is in focus but continues to the affected area.” A message such as "There is.” May be displayed in characters to encourage the addition of an imaging unit to expand the imaging range. The guide unit 553 may perform the above-mentioned guide by outputting a message by voice.
  • a case where the second imaging unit 54 is added will be described.
  • control unit 565 causes the second imaging unit 54 to image the observation object (step S132).
  • the image captured by the second imaging unit 54 is referred to as a second image.
  • the guide unit 553 may guide the position of the second imaging unit 54. Specifically, when the distance between the first imaging unit 53 and the observation target and the distance between the second imaging unit 54 and the observation target are too different for the guide unit 553, images cannot be combined.
  • the guide unit 553 guides the position of the second imaging unit 54 by displaying a message such as "Please bring the second imaging unit closer” or "Please move the second imaging unit away" to the display device 57 in characters. do.
  • the guide unit 553 may perform the above-mentioned guide by outputting a message by voice.
  • the determination unit 554 determines whether or not the first image and the second image can be combined (step S133). Specifically, the determination unit 554 determines the feature points included in the first image (characteristic points of the image, for example, the edge of the lesion and the bleeding point) and the feature points included in the second image by image processing. Is extracted and the positions of the feature points are compared with each other to determine whether or not there is an overlapping portion. Then, the determination unit 554 determines whether or not there is an overlapping portion and the first image and the second image are in focus, and determines whether or not the first image and the second image can be combined. ..
  • the guide unit 553 displays the composition guide on the display device 57 (step S134). Specifically, the guide unit 553 causes the display device 57 to display a message for guiding the position of the second imaging unit 54 in characters as described above. Then, the process returns to step S132. The guide unit 553 may display a message for guiding the position of the first imaging unit 53 on the display device 57 in characters. In this case, the process returns to step S131. Further, the guide unit 553 may guide the positions of both the first imaging unit 53 and the second imaging unit 54, and in this case as well, the process returns to step S131.
  • the image composition unit 555 combines the first image and the second image to create a panorama (step S135).
  • the guide unit 553 may display a message such as "composite display is possible" on the display device 57 in characters to notify that the compositing is possible.
  • the image synthesizing unit 555 generates a composite image obtained by synthesizing the first image and the second image. It is assumed that this composite image includes the entire observation target.
  • the determination unit 554 determines whether or not the lighting needs to be adjusted (step S136). Specifically, the determination unit 554 determines whether or not there is illumination unevenness in the first image or the second image based on the brightness distribution of the first image and the second image.
  • step S136: No the process proceeds to step S138.
  • step S136: Yes the determination unit 554 determines that the illumination needs to be adjusted
  • step S137 the control unit 565 performs uniform illumination control and image processing correction. Specifically, the guide unit 553 reduces the illumination unevenness of the first image or the second image under the control of the control unit 565, and makes the illumination applied to the observation target uniform (uniform illumination control). Therefore, by displaying a message such as "There is uneven lighting" on the display device 57 in characters, it is possible to add a lighting unit different from the lighting unit 52 to urge the display device 57 to eliminate the uneven lighting.
  • the guide unit 553 may guide the position where the lighting is added by characters or voice. Further, the guide unit 553 may guide the position of the illumination unit 52 and the direction of irradiating the illumination light with characters or voice. Further, the image processing unit 552 may add correction (image processing correction) to the image processing in order to reduce the illumination unevenness of the first image or the second image under the control of the control unit.
  • the image processing unit 552 increases the gain of the pixel having low brightness and decreases the gain of the pixel having high brightness in the first image or the second image, so that the first image or the second image The uneven illumination of the image is reduced and the image is uniformly illuminated.
  • the determination unit 554 determines whether or not the composite image needs to be re-corrected (step S138). Specifically, the determination unit 554 determines whether or not the composite image is out of focus, whether or not there is uneven lighting, and whether or not the composite image needs to be re-corrected based on the determination result. To judge.
  • step S138 determines that the composite image needs to be re-corrected (step S138: Yes)
  • the process returns to step 131.
  • the determination unit 554 determines that the composite image does not need to be re-corrected (step S138: No)
  • the image processing device 55 estimates the position of the tumor in the composite image and displays it on the display device 57.
  • Inference display processing is performed (step S139). Specifically, the estimation unit 563 estimates the position of the tumor included in the first image and the second image (first image data) by using the inference model generated by the learning device 56 by machine learning. Then, the reflection unit 559 reflects the position information of this tumor on the composite image (second image data) and gives it. Then, the display control unit 561 highlights the position of the tumor in the composite image and displays it on the display device 57.
  • the control unit 565 determines whether or not the instruction input for shooting has been accepted (step S140).
  • the user confirms the position of the tumor in the composite image displayed on the display device 57, and when the position of the tumor is correctly displayed and he / she wishes to take an image of this image, he / she presses the imaging button displayed on the display device 57. Etc. are input.
  • the control unit 565 determines whether or not this operation input has been received.
  • the imparting unit 558 attaches the tumor position information estimated by the estimation unit 563 to the first image and the second image as annotation results and records them in the recording unit 562.
  • the imparting unit 558 may add the tumor position information acquired by the annotation input unit 557 by receiving the user's input as the annotation result.
  • step S140 determines that there is no instruction input for shooting (step S140: No)
  • step S140 determines that there is an instruction input for shooting
  • step S140: Yes the recording control unit 564 records the composite image to which the above-mentioned uniform illumination control and image processing correction have been performed. Record in 562 (step S141).
  • control unit 565 eliminates the illumination unit added for uniform illumination, or restores the position of the illumination unit 52 and the direction of irradiating the illumination light (step S142).
  • the recording control unit 564 records the first image and the second image in the recording unit 562 (step S143).
  • imaging without uniform illumination is used to generate an inference model that can estimate the position of the tumor even when looking for a tumor without uniform illumination. This is because teacher data captured in a non-uniform state is required.
  • the recording control unit 564 sets the block Ba1 of the image file Fa1 as a composite image to which uniform illumination control and image processing correction are performed, and the block Ba3 as a first image and a second image. Metadata representing the location information of the tumor is recorded in each of the block Ba2 and the block Ba4, and the data generated by the series of processes is filed and recorded in the recording unit 562 (step S144).
  • the teacher data generation unit 560 generates teacher data using the first image and the second image to which the annotation result is attached (step S145).
  • control unit 565 determines whether or not a predetermined operation input indicating that the series of processes for generating the teacher data is completed has been performed (step S146).
  • the control unit 565 determines that the predetermined operation input indicating the end of this series of processing has not been performed (step S146: No)
  • the process returns to step S137.
  • step S146 determines that a predetermined operation input indicating that the series of processes has been completed has been performed.
  • the inference model generated by the learning device 56 by machine learning automatically estimates the position of the tumor using the first image and the second image before synthesis, and a doctor or an expert Can confirm the tumor whose position was estimated in the easy-to-observe synthetic image. Then, an image confirmed by a doctor or an expert as a tumor is recorded together with the annotation result.
  • the teacher data which is a group of image data before synthesis to which the position information of the tumor is given.
  • a composite image that emphasizes natural visibility that matches the visual characteristics of humans is intuitively judged by humans such as doctors and specialists at high speed, and is annotated in large quantities and accurately, like a pre-composite image.
  • An image that retains the original information is also considered to be a large amount of high-quality teacher data (here, it can be said that it is an unprocessed image because processing such as uniform lighting and image processing is not performed), so it is abundant information. High-precision learning is possible. Since there are more pre-composite images than post-composite images, a large amount of images can be converted into teacher data by themselves.
  • the inference model obtained by such learning is an inference with high accuracy because the inference is performed according to the above annotation result by inputting the image data by the image before composition. Therefore, by reflecting the information corresponding to this inference result on the related display image (composite image) and displaying it, the operator and the observer can examine in consideration of the highly accurate inference result. From this judgment, the following observations and treatments can be appropriately performed.
  • Various inventions can be formed by appropriately combining a plurality of components disclosed in the teacher data generation device according to the embodiment of the present disclosure described above. For example, some components may be deleted from all the components described in the teacher data generation device according to the embodiment of the present disclosure described above. Further, the components described in the teacher data generation device according to the embodiment of the present disclosure described above may be appropriately combined. Further, although the description has been given here with an example of an endoscope assuming medical use, the part described as an endoscope can be read as a camera including an optical system and an imaging unit. It can be applied to an in-vehicle camera, a surveillance camera, an agricultural camera, or the like for detecting a similar object under different shooting conditions such as daylight, illumination light, and infrared light.
  • the imaging unit and the optical system can be separated by an interchangeable lens, and the portion described as an endoscope can be read as an imaging unit or an imaging device.
  • the above-mentioned "part” can be read as “means” or "circuit".
  • the control unit can be read as a control means or a control circuit.
  • the program to be executed by the teacher data generator is a file data in an installable format or an executable format, such as a CD-ROM, a flexible disk (FD), a CD-R, or a DVD. It is provided by being recorded on a computer-readable recording medium such as a Digital Versail Disc), a USB medium, or a flash memory.
  • a computer-readable recording medium such as a Digital Versail Disc), a USB medium, or a flash memory.
  • the program to be executed by the teacher data generator according to the embodiment of the present disclosure may be stored on a computer connected to a network such as the Internet and provided by downloading via the network. good.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

教師データ生成装置は、観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けるアノテーション入力部と、前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映する反映部と、前記第1の画像データと該第1の画像データに反映された前記アノテーション結果とを用いて推論モデルを作成するための教師データを生成する教師データ生成部と、を備える。これにより、人間が見て判断した画像をもとに、AIによる高精度の画像判定を可能とする教師データを生成する教師データ生成装置を提供する。

Description

教師データ生成装置、教師データ生成方法、記録装置及び記録方法
 本発明は、画像データをもとにAI(人工知能)を活用して支援する技術のための教師データ生成装置、教師データ生成方法、記録装置及び記録方法に関する。
 近年、人間が目視で行っていた判定を、画像データをもとにAI(人工知能)を活用して判定支援する技術が各分野で発達している。
 上記AIを実現するために、あらかじめ答えとなる入出力データセットである教師データを大量に用意し、Deep Learningと呼ばれる技術を組み合わせる場合が多い。Deep Learningでは、まず、教師データを用い、未知の入力に対する解を適切に導くための重みを計算するための「学習」を行い、学習により計算された重みを用い、入力に対する解を導く「推論」を行う。
 また、特許文献1には、入力した画像を自動的に判定して分類する技術が提案されている。
 具体的には、画像を複数の領域に分割し、それぞれの領域内の対象物をヒストグラムや特徴量を駆使して分類することによって画像にラベリングする技術が提案されている。
特開2013-117860号公報
 上述した画像の自動分類の技術では、人間には簡単に判定できる画像も、機械にとっては簡単には分類できない事が記載されている。
 このように、機械にとって分類しやすい手法が、必ずしも人間にとって分類しやすいものではないことが分かる。
 本発明は、上記に鑑みてなされたものであって、人間が見て判断した画像をもとに、AIにより高精度の画像判定を可能とする推論モデルを生成することができる教師データを生成する教師データ生成装置、教師データ生成方法、記録装置及び記録方法を提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明の一態様に係る教師データ生成装置は、観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けるアノテーション入力部と、前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映する反映部と、前記第1の画像データと該第1の画像データに反映された前記アノテーション結果とを用いて推論モデルを作成するための教師データを生成する教師データ生成部と、を備える。
 また、本発明の一態様に係る教師データ生成装置は、前記第2の画像データは、前記アノテーションを行う際に表示部に表示するための画像データである。
 また、本発明の一態様に係る教師データ生成装置は、前記異なる撮像態様は、前記表示部に表示する際に視認性を改善した処理である。
 また、本発明の一態様に係る教師データ生成装置は、前記第1の画像データは、RAW画像の画像データであり、前記第2の画像データは、前記RAW画像に画像処理を施した画像の画像データである。
 また、本発明の一態様に係る教師データ生成装置は、前記画像処理は、ガンマ補正、ホワイトバランスの調整、色補正、ノイズリダクション、又は画像強調処理の少なくとも1つを含む。
 また、本発明の一態様に係る教師データ生成装置は、前記第1の画像データは、前記観察対象に特殊観察光を照射した状態で撮像した画像の画像データであり、前記第2の画像データは、前記観察対象に照明光を照射した状態で撮像した画像の画像データである。
 また、本発明の一態様に係る教師データ生成装置は、前記第1の画像データは、複数の画像の画像データを含み、前記第2の画像データは、前記第1の画像データに含まれる前記複数の画像を合成した画像の画像データである。
 また、本発明の一態様に係る教師データ生成装置は、前記第1の画像データ又は前記第2の画像データに含まれる画像の座標を算出する座標算出部を備える。
 また、本発明の一態様に係る教師データ生成方法は、観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けて、前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映し、前記第1の画像データと該第1の画像データに反映された前記アノテーション結果とを用いて推論モデルを作成するための教師データを生成する。
 また、本発明の一態様に係る記録装置は、観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けるアノテーション入力部と、前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映し、前記第1の画像データと前記第2の画像データとを関連づけて記録する記録制御部と、を備える。
 また、本発明の一態様に係る記録方法は、観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けて、前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映し、前記第1の画像データと前記第2の画像データとを関連づけて記録する。
 また、本発明の一態様に係る記録装置は、観察対象を撮像した結果の画像データを表示部に表示させるために画像処理を行う画像処理部と、前記表示部に表示された画像データの表示画像上において行ったアノテーション情報を取得し、前記表示部に表示されている態様とは異なる態様における画像データに対し、前記アノテーション情報を付与する付与部と、前記異なる態様の画像データに対する前記アノテーション情報をメタデータとして有する、前記異なる態様の画像データの画像ファイルを作成して記録する記録制御部と、を備える。
 また、本発明の一態様に係る記録方法は、観察対象を撮像した結果の画像データを表示部に表示させるために画像処理を行い、前記表示部に表示された画像データの表示画像上において行ったアノテーション情報を取得し、前記表示部に表示されている態様とは異なる態様における画像データに対し、前記アノテーション情報を付与し、前記異なる態様の画像データに対する前記アノテーション情報をメタデータとして有する、前記異なる態様の画像データの画像ファイルを作成して記録する。
 また、本発明の一態様に係る記録方法は、観察対象を撮像した結果の複数の画像データを表示部に表示させるために合成画像処理を行い、前記表示部に表示された合成画像データの表示画像上において行ったアノテーション座標情報を取得し、前記表示部に表示されている合成画像データを構成する個々の画像データに対し、前記アノテーション座標情報を付与し、前記個々の画像データに対する前記アノテーション座標情報をメタデータとして有する画像ファイルを作成して記録する。
 また、本発明の一態様に係る記録方法は、前記画像ファイルを作成して記録する記録方法は、前記個々の画像データに対する前記アノテーション座標情報として画面外座標情報をメタデータとして有する。
 本発明によれば、人間が見て判断した画像をもとに、AIによる高精度の画像判定を可能とする教師データを生成する教師データ生成装置、教師データ生成方法、記録装置及び記録方法を提供することができる。
図1は、実施の形態1に係る観察システムの構成を示す模式図である。 図2は、実施の形態1に係る観察システムの構成を示すブロック図である。 図3Aは、教師データとなる画像ファイルを構成するデータを示す図である。 図3Bは、教師データとなる画像ファイルを構成するデータを示す図である。 図3Cは、教師データとなる画像ファイルを構成するデータを示す図である。 図4は、画像処理装置が教師データ生成時に実行する処理の概要を示すフローチャートである。 図5は、実施の形態2に係る観察システムの構成を示す模式図である。 図6は、実施の形態2に係る観察システムの構成を示すブロック図である。 図7は、画像処理装置が教師データ生成時に実行する処理の概要を示すフローチャートである。 図8は、実施の形態3に係る観察システムの構成を示す模式図である。 図9は、実施の形態3に係る観察システムの構成を示すブロック図である。 図10は、第1撮像部が撮像した画像の一例である。 図11は、第2撮像部が撮像した画像の一例である。 図12は、合成画像の一例である。 図13は、画像処理装置が教師データ生成時に実行する処理の概要を示すフローチャートである。 図14は、変形例1に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。 図15Aは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。 図15Bは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。 図16は、変形例2に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。 図17は、変形例3に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。 図18Aは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。 図18Bは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。 図18Cは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。 図19は、教師データとなる画像ファイルの一例を示す図である。 図20は、変形例4に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。
 以下に、図面を参照して本発明に係る教師データを生成する教師データ生成装置、教師データ生成方法、記録装置及び記録方法の実施の形態を説明する。なお、これらの実施の形態により本発明が限定されるものではない。以下の実施の形態においては、内視鏡が撮像した画像を用いる例を説明するが、本発明は、教師データ生成装置、教師データ生成方法、記録装置及び記録方法一般に適用することができる。
 また、図面の記載において、同一又は対応する要素には適宜同一の符号を付している。また、図面は模式的なものであり、各要素の寸法の関係、各要素の比率などは、現実と異なる場合があることに留意する必要がある。図面の相互間においても、互いの寸法の関係や比率が異なる部分が含まれている場合がある。
(実施の形態1)
〔観察システムの構成〕
 まず、医療分野を想定し、内視鏡(硬性鏡など)を利用した体内(腹腔内)を観察するシステムの構成を説明する。図1は、実施の形態1に係る観察システムの構成を示す模式図である。図1に示すように、本実施の形態1に係る観察システム1は、被検体H内の腫瘍等の観察対象Oを観察する。この観察システム1により被検体H内の観察対象Oを観察し、処置具Tにより被検体Hに対する処置を行うことにより内視鏡手術を行うことができる。
 図2は、実施の形態1に係る観察システムの構成を示すブロック図である。図2に示すように、観察システム1は、内視鏡(光学系及び撮像部を含む)2と、画像処理装置3と、学習装置4と、表示装置(表示部)5と、を備える。これらは一部が、クラウドコンピューティングにより構成されていてもよく、各装置がインターネット等のネットワークでつながっていればよい。すなわち、全ての構成が一つの筐体に収まっている必要はない。
 観察システム1では、内視鏡2により撮像した画像を用いて教師データ生成装置及び記録装置としての画像処理装置3が教師データを生成し、この教師データを用いて学習装置4がDeep Learning等の機械学習を行う。学習装置4は、機械学習により、例えば内視鏡2が撮像した画像から腫瘍等の観察対象Oを検出する推論モデルを生成する。そして、画像処理装置3は、学習装置4が生成した推論モデルを用いて、内視鏡2が撮像した画像から自動的に腫瘍を検出し、この画像に腫瘍を表すマーク等を重畳して表示装置5に表示する。その結果、医師等の術者は、腫瘍を容易に見つけることができる。なお、学習装置4は、インターネット等の回線を経由して接続されているサーバであってもよい。
 内視鏡2は、硬質な挿入部の先端に照明部21及び撮像部22が配置されている硬性鏡である。ただし、内視鏡2は、可撓性を有する挿入部の先端に照明部及び撮像部が配置されている内視鏡であってもよい。
 照明部21は、光源装置が照射した照明光を観察対象Oに照射する。
 撮像部22は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)のイメージセンサやA/D変換回路等を用いて構成された撮像素子を有し、観察対象Oを撮像する。撮像部22が撮像した画像の画像データは、画像処理装置3に送信される。
 画像処理装置3は、送受信部31と、画像処理部32と、アノテーション入力部33と、付与部34と、反映部35と、教師データ生成部36と、表示制御部37と、記録部38と、推定部39と、記録制御部40と、制御部41と、を備える。
 送受信部31は、内視鏡2、学習装置4等の外部機器と、無線又は有線の通信を行い、各種信号を送受信する。
 画像処理部32は、内視鏡2が撮像した画像にガンマ補正、ホワイトバランスの調整、色補正、ノイズリダクション、又は画像強調処理等の画像処理を施す。画像処理部32は、CPU(Central Processing Unit)等の汎用プロセッサやASIC(Application Specific Integrated Circuit)等の特定の機能を実行する各種演算回路等の専用プロセッサを用いて構成される。
 なお、ガンマ補正は、人の目に合わせて輝度を補正するため、人間は観察しやすくなるが元の画像の情報が損なわれる場合がある。そのため、人間が感覚的に判別できない情報まで見つけ出して推論を行うAIでは、ガンマ補正していない画像を用いることが好ましい可能性がある。このような点からも、人と機械とでは、必ずしも好ましいデータが一致しない。したがって、機械学習などに使われる教師データも、人が選んだものが、そのまま最適であるとは限らない。
 以下において同様に、教師データも、人が選んだものが、そのまま最適であるとは限らない例を示す。たとえば、ホワイトバランスの調整は、人の目に遭わせて白色を調整するため、人間は観察しやすくなるがRGB各色のバランス情報など元の画像の情報が損なわれる可能性もある。そのため、機械学習に用いる教師データにはホワイトバランスの調整をしていない画像を用いることが好ましいケースもある。そして、ホワイトバランスの情報に代えて、照明部21の光源や撮像部22の撮像素子の光学特性を学習装置4に入力する方がマルチモーダル学習を行うようなAI技術においては推論モデルを高精度化できる可能性がある。なお、マルチモーダル学習とは、複数の種類のデータを使ってAIが機械学習することであり、推論時にも同様に複数の種類のデータを用いることにより、推論モデルを高精度化することが可能となる。
 色やコントラストの補正は、人の目に合うように色やコントラストを補正するため、人間は観察しやすくなるが元の画像の情報が損なわれている可能性もある。そのため、機械学習には色やコントラストを補正していない画像を用いることが好ましいケースがある。そして、色やコントラストの補正の情報に代えて、撮像部22の撮像素子の分光特性を学習装置4に入力する方がマルチモーダル(複数種類のデータから学習して、統合的に処理する手法)のようなAI技術においては推論モデルを高精度化できる可能性がある。
 ノイズリダクションは、観察に有用ではないノイズを除去するため、人間は観察しやすくなるが、ノイズ以外の情報に影響を与え、元の画像の情報が損なわれる可能性がある。そのため、機械学習にはノイズリダクションをしていない、又はノイズリダクションを弱めに施した画像を用いることが好ましい場合もある。また、学習装置4は、機械学習により、ノイズを自動的に排除して検出することが可能である。
 画像強調処理は、観察に有用な情報を強調するため、人間は観察しやすくなるが人間が気に留めなかった要素、成分については、元の画像の情報が損なわれる場合もある。そのため、機械学習には画像強調処理をしていない画像を用いることが好ましいとも言われる。その他、撮像素子の画素感度の補正や、撮影レンズの歪補正なども人が見る上では重要だが、AI利用時には、人が気にしない情報に人為的な操作がなされていて、不適当という場合もある。
 アノテーション入力部33は、観察対象Oを撮像して得た第2の画像データに対するアノテーションの入力を受け付ける。具体的には、アノテーション入力部33は、マウスやキーボード、タッチパネル、音声認識装置を含み、マウス操作やキーボードからの入力、タッチ操作、音声入力等によりアノテーションの入力を受け付ける。第2の画像データは、アノテーションを行う際に表示部(表示装置5)に表示するための画像データである。アノテーション入力部33は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 付与部34は、画像データに専門家などの人間が画像を確認して注釈した各種のアノテーション結果を付与する。付与部34は、第2の画像データにアノテーション入力部33が受け付けたアノテーション結果を付与する。具体的には、専門家などが、表示装置5に表示された画像を目視により確認しながら、マウスやキーボード、タッチ操作、音声入力等により入力した対象物の情報や、対象物が表示された画面内、もしくは対象物が写っている画面内の位置の情報などを注釈した結果を、画像データに関連付けて記録する事を付与と表現した。これらのアノテーション結果(アノテーション情報)を付与された画像データは、記録部38に記録される。この付与の仕方はいろいろな方法が考えられ、対応するデータ群を別のフォルダに用意して、データ名やファイル名で関連付ける方法や、画像ファイル内にメタデータとして書き込む方法などがある。このように、本願は、教師データを作成して記録する際にも特徴を有し、記録する教師データを生成する教師データ生成装置、教師データ生成方法という側面のみならず、記録装置、記録方法を含む。なお、第1の画像データは、AIが機械学習に用いるための画像データである。また、撮像態様とは、撮像を行う際に観察対象Oに照射する光の強度や波長、撮像素子の露光時間、ゲイン等の設定、撮像した画像に対する画像処理の内容等を含む撮像の内容を表し、例えば、表示部(表示装置5)に表示する際に視認性を改善した処理である。また、表示態様とは、撮像した画像を表示装置5に表示する際に画像の合成を行うこと等を含む表示の内容を表す。付与部34は、CPU等の汎用プロセッサやASIC等の上述したような特定の関連付け機能を実行する各種演算回路等の専用プロセッサによって実現される。
 反映部35は、第2の画像データと同様の観察対象Oに関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、アノテーション結果を反映する。具体的には、反映部35は、第2の画像データに対して人間が行った作業の結果の情報を、第1のデータに反映させて、対応したアノテーション結果を付与する。反映部35は、CPU等の汎用プロセッサやASIC等の特定の関連付け機能を実行する各種演算回路等の専用プロセッサによって実現される。
 教師データ生成部36は、第1の画像データと第1の画像データに反映されたアノテーション結果とを用いて推論モデルを作成するための教師データを生成する。教師データ生成部36は、付与部34においてアノテーション情報を画像データに関連付けられるように、学習装置4に送信する学習用の教師データを生成する。教師データは、学習装置4が機械学習する際に用いる教師画像群である。具体的には、学習装置4が腫瘍を検出する推論モデルを生成する場合には、教師データは、腫瘍が含まれているか否かを上記、専門家などの人間が判定した画像群である。上述したように、各種の画像処理を施した画像は、その処理の多くが人間にとっての視認性の改善を目的としたものであるので、視認性以外の部分でその影響が生じうる。ここでは、画像処理前の撮像素子からの出力データが、最も、この画像処理の影響を受けていないものと考えて、説明を行う。このいわば生のデータは、「生」を「RAW」と英語に翻訳してRAWデータと呼ばれることがある。これは、多くのカメラで「RAWデータ記録」といった形でカタログ記載されているものであっても良いが、実際は、カメラのカタログにある「RAWデータ」は、最低限の画像処理が施されている場合が多い。また、以下、「RAW画像データ(又は単にRAWデータ、RAW画像ともいう)」として記載する部分も、必ずしも、撮像素子の出力そのままである必要はなく、カメラのカタログにある「RAWデータ記録」でも良いが、視認性を高める何らかの画像処理を省いた「加工前データ」を想定している。ただし、簡単に表せる単語がないので、「RAW画像データ」という言葉で説明を行う。教師データ生成部36は、アノテーションにより画像処理を施した画像の画像データ(第2の画像データ)に関連づけられたRAW画像の画像データ(第1の画像データ)を特定し、特定したRAW画像を用いて教師データを生成する。具体的には、記録部38に記録されている画像処理を施した画像を人間が観察して腫瘍が含まれている画像を抽出すると、教師データ生成部36は、関連付けられた(アノテーションした画像に対応する)RAW画像データを検索し、ここにも同様のアノテーション結果を採用することによってRAW画像群が教師画像群となる教師データを生成する。例えば、画像に撮影光学系の特性に起因する歪がある場合、人間の視認性や直感的な感覚に合わせるために、RAW画像データをその特性データを使って歪補正した画像を表示や記録に用いることが一般的になっている。ただし、RAW画像データと特性データとを別データとしてマルチモーダル処理を想定した場合の方が、歪補正された画像を使った場合より、学習、推論が高信頼性でできる場合があるので、ここでは、RAW画像データを、AIの学習を行う時の教師データとしている。教師データ生成部36は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 表示制御部37は、表示装置5に各種画面を表示させることにより表示装置5の表示を制御する。
 記録部38は、制御部41が各種動作を実行するための実行プログラム及び制御プログラム並びに閾値等のパラメータを記録する。記録部38は、揮発性メモリや、不揮発性メモリ、又はその組み合わせによって構成される。具体的には、記録部38は、RAM(Random Access Memory)、ROM(Read Only Memory)等によって構成される。
 推定部39は、学習装置4が生成した推論モデルを用いて、内視鏡2が撮像した画像に含まれている腫瘍を推定する推論エンジンとして機能する。推定部39が推定した腫瘍は、表示制御部37により強調表示され、医師等の観察を支援する。推定部39は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。これらの技術の実現のためには、CPUやFPGAといったこれまでの汎用的な演算処理回路などを使ってもよいが、ニューラル・ネットワークの処理の多くが行列の掛け算であることから、行列計算に特化したGPU(Graphics Processing Unit)やTPU(Tensor Processing Unit)と呼ばれるものが利用される場合もある。近年ではこうした人工知能(AI)専用ハードの「ニューラル・ネットワーク・プロセッシング・ユニット(NPU)」がCPUなどその他の回路とともに集積して組み込み可能に設計され、処理回路の一部になっている場合もある。この推定部39は、画像処理装置3とインターネット等の回線を経由して接続されている推論エンジンに設けられてもよい。
 記録制御部40は、第2の画像データと同様の観察対象Oに関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、アノテーション結果を反映し、第1の画像データと第2の画像データとを関連づけて記録部38に記録する。また、記録制御部40は、異なる態様の画像データに対するアノテーション情報をメタデータとして有する、異なる態様の画像データの画像ファイルを作成して記録する。記録制御部40は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 制御部41は、観察システム1全体の動作処理を制御する。制御部41は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。なお、画像処理部32、アノテーション入力部33、付与部34、反映部35、教師データ生成部36、表示制御部37、推定部39、記録制御部40、又は制御部41の全部又はいくつかの構成を1つのCPU等のプロセッサによって実現してもよい。
 学習装置4は、教師データ生成部36が生成した教師データを用いて機械学習を行うことにより、画像から腫瘍等を検出する推論モデルを生成する。学習装置4が生成した推論モデルは、画像処理装置3に出力される。学習装置4は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサ、及びRAM、ROM等の記録装置によって構成される。
 表示装置5は、表示制御部37による制御のもと、各種画面を表示する。表示装置5は、液晶、有機EL(Electro Luminescence)等の表示ディスプレイを有するモニターであってよいが、医師等の術者が装着可能なヘッドマウントディスプレイであってもよい。
 画像処理装置3が内視鏡2を使った撮像、画像処理、表示といった一般的な処理を行う場合、民生用カメラにおけるライブビュー表示のように、人間が目で見ての判定を行うために、撮像部22の撮像結果(これをRAW画像データと呼ぶ場合もある)をもとに、画像処理部32が、先に説明したような画素補正、歪補正(これらのうちのいくつかを行ってもRAW画像データと呼ばれる場合もある)やコントラスト補正、露出補正(画像全体又は画像を部分的に補正)、色補正(ホワイトバランスや彩度強調等)、階調表現(なだらかな陰影変化)補正などを行って表示用画像データとして、その結果を利用して、表示制御部37が表示装置5における画像表示に対して表示制御を行う。表示用画像データは、極端な例では、サムネイルのように視認性が得られる限界に近いサイズまで縮小したデータでもよい。この時、あくまで人間が見るのは表示装置5に表示された画像(ライブビューに限らず、一度、表示用画像データが記録部38に記録されたものを表示制御したものでもよい)であるため、これまで、途中生成物であるRAW画像データは、記録されることはなかったが、こうした表示用画像データと共にRAW画像データを関連付けて記録できるようにすることが重要である。そして、このRAW画像データを機械学習用の教師データとして利用する。ただし、このRAW画像データは、そのまま再生をしても人間の感覚に合っていないので、専門家などが、画像に注釈をつけるアノテーションを行う時には不向きなものになっている。なお、RAW画像データは、人間の視認性のために施した画像処理の過程で失われるデータを残した画像データとして記載しているが、必ずしも生データである必要はない。また、RAW画像データは、視認性以外の目的で、記録容量対策のための圧縮等の必要以外の部分の省略や間引きを行ったものであってもよい。
 図3A~Cには、このように、人間が見るのに相応しい表示用画像データと、AIが機械学習に用いるRAW画像データとを併せて記録する時、画像ファイル化を行う時のファイルの構造例を示したものである。これは、制御部41が記録部38にこれらのデータを記録させる時に生成する。別途、記録制御部40や記録制御を行う専用回路(不図示)を設計してもよい。つまり、一つの画像ファイルFa1の中に、この表示用画像データを記録する領域(ブロック)Ba1(これは状況によっては、サムネイルのように縮小した画像データでもよい)と、AI用の画像データを記録する領域(ブロック)Ba3とを有し、それらを注釈するメタデータ群を記録するブロックBa2を有する。このメタデータ用のブロックBa2には、ここで示したように、この画像は教師データである、という情報や、アノテーション関連の情報を記録できるようになっている。このアノテーション関連の情報は、専門家が表示装置5に表示された表示画像を見ながら、何が対象物として確認できるか、記録されているかという情報や、その位置情報などを想定している。この他、このメタデータ用のブロックBa2には、撮影日時や場所、撮影者や患者のIDなどを記録できるようにしてもよい。また、表示用画像データは、画像処理部32によって、RAW画像データにガンマ補正、ホワイトバランスの調整、色補正、ノイズリダクション、又は画像強調処理等の画像処理に加え、記録容量の削減のために圧縮処理などを行って、内視鏡2が撮像して、記録、表示可能とした画像であり、人間が観察しやすい画像となる一方で情報の操作が施されたデータになっている。そこで、本実施の形態1では、元のデータに近いRAW画像データを記録するために別途設けた記録用の領域(ブロック)Ba3を設けている。また、このRAW画像データは、歪補正など、画像の座標位置を変換するような操作が入る前の画像であるから、実際に表示画像データを再生して見ながら行った画面内位置のアノテーション結果をそのまま採用すると、正しい対象物位置が反映されない場合があるので、領域(ブロック)Ba4に、この換算された画面内位置用アノテーション情報を記録できるようにした。これは、後述する図4に説明するようなプロセスで行われる。このブロックBa4には、マルチモーダル学習・推論用に、画像補正に用いたパラメータ等のデータを入れておいてもよい。また、このブロックBa4に記録する情報は、ブロックBa2のメタデータ群に入れても良い。このように教師データにする画像の場合、その旨を設定した撮影を行う事によって、教師データである事をメタデータとして記録し、かつ、RAW画像データも有することになる(制御部41がそうなるように画像ファイルFa1を作って記録制御する)。このような工夫によって、迅速に教師データに相応しい画像を集めて、機械学習して、適切な推論モデルを作成することが可能となる。
 また、図3Aのような画像の記録以外に、図3Bに示したような教師データ用の画像の記録を行ってもよい。これは、視認性のよい表示用画像ファイルFb1とは別に、RAW(AI用)画像ファイルFb2を作成して記録するもので、画像ファイルFb1の画像データは、視認性や記録性を向上させる画像処理が施された画像データを記録する領域(ブロック)Bb1に記録されており、画像ファイルFb2に記録される画像データはRAW画像データ(生データに対する視認性重視の画像処理を省いたもの)であってブロックBb3に記録される。
 メタデータ群が記録されるブロックBb2は、図3Aのメタデータ群と同様でも良いが、そこに、参照すべきRAW画像データが含まれたAI用画像ファイルFb2を指定する情報を記載して、検索を可能としたものである。その他、画像データのファイル名を揃えて、拡張子で、これら二つの画像ファイルの関係を関連づける方法もある。ここでは、RAW画像データ用のAI用画像ファイルFb2には、アノテーション結果を記録するためのブロックBb4を有するが、ここに画像内の座標などの位置の情報を書き込む場合、ブロックBb2に記載した座標から、画像処理前の座標に換算する演算を行った後の、座標(画像処理前相当座標)を記載する。ここに、マルチモーダル学習・推論用に、画像補正に用いたパラメータ等のデータを入れておいてもよい。
 このような画像データファイルを使って学習した推論モデルに、新たに別の画像を入れて推論を依頼する場合も、図3Aまたは図3Bのような画像ファイルを入力して推論を行う。この場合も、このメタデータは有効に活用することができる。例えば、マルチ画像記録タイプの画像ファイルFa1が入力されると、ブロックBa3、Ba4の情報を使って推論を行う。ブロックBa4のメタデータ領域に、マルチモーダル学習・推論用の、画像補正関係のデータが入れてあれば、このデータも使った高精度な推論が出来る。その他、ここで説明したメタデータは、いずれも、マルチモーダル学習、推論で有効活用することが出来る。また、別の画像ファイルを参照するタイプの画像ファイルFb1が入力されると、ブロックBb2に記録されたメタデータ情報から画像ファイルFb2を検索して、ブロックBb3に記録されたAI用画像データを使って、同様に学習・推論を行う。この時、適宜、ブロックBb4のメタデータを利用してもよい。さらに、この旨をメタデータに記載してもよい。つまり、これらの画像ファイルは、マルチモーダルAIを指定するためのメタデータを有してもよい。ブロックBa2、Bb2には「教師データ指示用メタデータ」を記載しているが、推論モデルの入力に用いる場合は、このメタデータを「推論入力用のメタデータ」と記載するようにして、これによって、どの画像がどの目的のものかが分かるようにしてもよい。また、メタデータには、当該画像を入力する推論モデルを指定する情報を記載、記録しても良い。このように、観察対象を撮像した結果の画像データを表示部(表示装置5)に表示させるために画像処理を行う画像処理部32と、表示部に表示された画像データの表示画像において行ったアノテーション情報を取得し、表示部に表示されている態様とは異なる態様における画像データに対し、アノテーション情報を付与する付与部34と、異なる態様の画像データに対するアノテーション情報をメタデータとして有する、異なる態様の画像データの画像ファイルを作成して記録する記録制御部40と、を備える記録装置である画像処理装置3を提供することが可能となる。
 また、図3Cには、推論結果の画像ファイル例を示している。画像ファイルFc1は、表示用画像データを記録するブロックBc1と、推論に関する情報を記録するブロックBc2とを有する。ここでは、推論結果を人に見てもらう用途を想定し、RAW画像データやその関連付け情報は不要であるが、どのような推論結果になったかや、それが、どのような推論モデルによる判定かなどの情報をメタデータとして記録できるようにしてある。これによって、AIのブラックボックス化を回避して、AIの説明責任を一部、果たすことが可能となる。なお、ここでは、画像ファイルFc1にアノテーション情報をメタデータ化して記録する方法を説明したが、アノテーション情報を、これとは別の関連するファイルやフォルダにデータとして記録してもよい。このように、観察対象Oを撮像して得た画像データ(第1の画像データ)に画像処理などを施した表示用画像データ(第2の画像データ)に対しアノテーションを行うアノテーション入力部33と、第2の画像データと同様の観察対象Oに関連し、かつ、撮像態様の異なる第1の画像データ(ここではRAW画像データと記載)に対し、アノテーション結果を反映して付与する付与部34と、第1の画像データと該第1の画像データに反映されたアノテーション結果とを用いて推論モデルを作成するための教師データを生成する教師データ生成部36と、を備える教師データ生成装置である画像処理装置3を提供することができる。ここで、第2の画像は、正しく画素情報が二次元に配列されて、色合いやコントラストや階調表現などが視覚に相応しく調整された画像であるが、第1の画像はそれらの視認性向上処理のいずれかを行う前の画素データ群である。
 〔画像処理装置が教師データ生成時に実行する処理〕
 図4は、画像処理装置が教師データ生成時に実行する処理の概要を示すフローチャートである。まず、記録部38に記録されている画像処理を施した画像を人間が観察し、腫瘍が含まれている画像を抽出する。そして、図4に示すように、画像処理装置3は、抽出した腫瘍を含む画像の入力を受け付ける(ステップS11)。これがアノテーション情報となる。なお、記録部38に記録された画像ではなく、ライブビュー画像でもアノテーションは可能であり、ライブビュー画像に対してアノテーションを行う場合は、撮像結果にアノテーションを行い、それを記録して教師データとする。なお、アノテーション情報は、画像に腫瘍が含まれているか否かを人間が判定した判定結果であってよいが、抽出した腫瘍の位置情報を含んでいてもよい。
 すると、教師データ生成部36は、この入力された画像に関連づけられたRAW画像を関連付けにより特定し、特定した画像を用いて教師データを生成する(ステップS12)。具体的には、教師データ生成部36は、入力された画像に関連づけられたRAW画像を特定し、特定した画像群が腫瘍を含む画像であると識別して、腫瘍が含まれているか否かが判定されたRAW画像データが教師画像データとなる教師データを生成する。また、アノテーション情報が腫瘍の位置情報を含む場合、教師データ生成部36は、入力された画像に関連づけられたRAW画像を特定し、この特定した画像群とこの画像群に反映部35が反映した腫瘍の位置情報を含むアノテーション結果とを用いて教師画像データとなる教師データを生成する。この時、画像処理の種類によっては、座標変換等が行われているので、画像処理装置3は、座標の換算を行って、異なる座標データを作成して、学習用のRAW画像データの(例えば)メタデータとして記載する。このデータは、別の参照可能なファイルに記録してもよい。
 以上説明した実施の形態1によれば、視認性や記録性(データサイズの圧縮)を主な目的とした画像処理を施しておらず、機械学習に適したRAW画像を用いた教師データを生成することができる。これは、視認性の優れた画像によるアノテーションの結果が反映されており、極めて高信頼性、高精度の推論モデルを生成する学習が可能となる。また、同様の方法で、RAW画像データを入力に使った推論を行ってもよく、この場合、推論入力用画像データは、関連する表示用画像データによって視認性がよく、それでいて、推論はRAW画像の高い情報量を利用でき、高精度の推論が可能となる。
(実施の形態2)
〔観察システムの構成〕
 まず、観察システムの構成を説明する。図5は、実施の形態2に係る観察システムの構成を示す模式図である。図5に示すように、本実施の形態2に係る観察システム11は、被検体H内の観察対象Oを観察する。この観察システム11により被検体H内の観察対象Oを観察し、処置具Tにより被検体Hに対する処置を行うことにより内視鏡手術を行うことができる。
 図6は、実施の形態2に係る観察システムの構成を示すブロック図である。図6に示すように、観察システム11は、第1照明部12と、第2照明部13と、第1撮像部14と、第2撮像部15と、画像処理装置16と、学習装置17と、表示装置18と、を備える。
 第1照明部12は、観察対象Oに通常光を照射する。通常光は、特殊光観察ではない通常観察に用いる照明光である。第1照明部12は、例えば直径2mm以上3mm以下の湾曲性を持たない硬質な針である挿入部に挿入されていることにより被検体Hに取り付けられる。第1照明部12には、LED(Light Emitting Diode)等からなる光源と、光源に電力を供給するバッテリーとが設けられている。光源が照射した照明光は、針の内部に配置されたレンズ又は光ファイバを経由して観察対象Oに照射される。ただし、内視鏡2は、外部の光源装置が出力した照明光を観察対象Oに照射してもよい。
 第2照明部13は、観察対象Oに特殊観察光を照射する。第2照明部13は、例えば2mm以上3mm以下の湾曲性を持たない硬質な針である挿入部に挿入されていることにより、被検体Hに取り付けられている。第2照明部13には、LED等からなる光源と、光源に電力を供給するバッテリーとが設けられている。光源が照射した特殊観察光は、針の内部に配置されたレンズ又は光ファイバを経由して観察対象Oに照射される。ただし、第2照明部13は、外部の光源装置が出力した特殊観察光を観察対象Oに照射してもよい。特殊観察光は、例えばNBI(Narrow Band Imaging)観察、IRI(Infra Red Imaging)観察、又は蛍光観察に用いられる特殊観察光であり、通常の照明光のスペクトルとは異なるスペクトルの光である。
 第1撮像部14は、観察対象Oを撮像する。第1撮像部14は、例えば直径2mm以上3mm以下の湾曲性を持たない硬質な針である挿入部に挿入されていることにより、被検体Hに取り付けられている。第1撮像部14には、CCDやCMOSのイメージセンサやA/D変換回路等を用いて構成された撮像素子が設けられている。そして、観察対象Oからの反射光は、針の内部に配置されたレンズ又は光ファイバを経由して撮像素子により撮像される。
 第2撮像部15は、観察対象Oを第1撮像部14とは異なる位置から撮像する。第2撮像部15は、例えば直径2mm以上3mm以下の湾曲性を持たない硬質な針である挿入部に挿入されていることにより、被検体Hに取り付けられている。挿入部が被検体Hの互いに異なる位置に穿刺されることにより、観察対象Oを第1撮像部14及び第2撮像部15とは異なる位置から撮像する。第2撮像部15には、CCDやCMOSのイメージセンサやA/D変換回路等を用いて構成された撮像素子が設けられている。そして、観察対象Oからの反射光は、針の内部に配置されたレンズ又は光ファイバを経由して撮像素子により撮像される。第2撮像部15の撮像素子は、第2照明部13が照射する特殊観察光のスペクトルに感度を有し、特殊観察光を用いた特殊光観察に適した撮像素子である。
 画像処理装置16は、送受信部161と、画像処理部162と、アノテーション入力部163と、付与部164と、反映部165と、教師データ生成部166と、表示制御部167と、記録部168と、推定部169と、記録制御部170と、制御部171と、を備える。送受信部161、画像処理部162、アノテーション入力部163、表示制御部167、記録部168、記録制御部170、及び制御部171は、それぞれ送受信部31、画像処理部32、アノテーション入力部33、表示制御部37、記録部38、記録制御部40、及び制御部41と同様の構成であってよいので、説明を省略する。
 付与部164は、画像データに各種のアノテーション結果を付与する。具体的には、付与部164は、視認性のよい通常光(白色光)画像を見ながら、専門家などが注釈した対象物の内容や位置の情報を、画像に関連付ける機能を有する回路やプログラム等からなる機能ブロックである。付与部164は、第1撮像部14が観察対象Oを通常光により撮像した画像の画像データ(第2の画像データ)に対象物の内容や位置の情報であるアノテーション結果を付与する。付与部164は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 反映部165は、第2撮像部15が観察対象Oを特殊観察光により撮像した画像に画像処理を施した画像の画像データ(第1の画像データ)に、第2の画像データに付与されたアノテーション結果を反映して付与する。すなわち、第2の画像データへのアノテーション結果の付与により、自動的に第1の画像データに対応してアノテーション結果が付与される。反映部165は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 これらの付与部164又は反映部165にアノテーション結果を付与された画像データは、記録部168にされる。換言すると、記録部168には、通常観察の画像の画像データと特殊光観察の画像データとが互いに関連づけられて記録される。この実施の形態2は、視認性を高めた処理付きの画像と、その処理前の画像(RAW画像)の関係で説明した実施の形態1の、視認性向上画像(表示用画像、第2の画像)を通常観察画像とし、RAW画像(第1の画像)を特殊光観察画像に対応させた実施例であり、この特殊光観察画像を、視認性を向上させる画像処理が施されていないRAW画像として記録する応用を行ってもよい。
 教師データ生成部166は、学習装置17に送信する学習用の教師データを生成する。教師データ生成部166は、特殊光観察の画像に画像処理を施した画像の画像データ(第1の画像データ)に関連づけられた通常観察の画像の画像データ(第2の画像データ)を特定し、特定した画像を用いてアノテーションを行ってその結果の情報を付与した教師データを生成する。具体的には、教師データ生成部166は、記録部168に記録されている、対応する特殊観察光の画像に対してアノテーション結果を反映させる。教師データ生成部166は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 学習装置17及び表示装置18は、それぞれ学習装置4及び表示装置5と同様の構成であってよいので、説明を省略する。
 送受信部161は、第1撮像部14及び第2撮像部15からそれぞれ観察対象Oを通常の照明光及び特殊観察光により撮像した画像の画像データを受信する。なお、第1撮像部14は、第1照明部12により観察対象Oに通常の照明光を照射した状態で撮像を行い(通常観察)、第2撮像部15は、第2照明部13により観察対象Oに特殊観察光を照射した状態で撮像を行う(特殊光観察)。通常観察と特殊光観察とは、1フレームごとに交互に行ってもよいが、別々に行ってもよい。ただし、第1撮像部14と第2撮像部15とは、観察対象Oの略同じ位置を撮像することが好ましい。マニュアル操作により撮影する場合などの時のみ、特殊光観察を行うようにしてもよいが、ここでは常に通常観察と特殊光観察との両方の撮像を行っている例を示す。送受信部161が受信した通常観察及び特殊光観察の画像の画像データは、互いに関連づけられて記録部168に記録される。
 画像処理部162は、通常観察及び特殊光観察の画像にガンマ補正、ホワイトバランスの調整、色補正、ノイズリダクション、又は画像強調処理等の画像処理を施す。
 〔画像処理装置が教師データ生成時に実行する処理〕
 図7は、教師データ生成時に実行する処理の概要を示すフローチャートである。まず、記録部168に記録されている通常観察の画像を人間が観察し、腫瘍が含まれている画像を抽出する。そして、図7に示すように、画像処理装置16は、抽出した腫瘍を含む画像の入力を受け付ける(ステップS31)。これは、医師や専門家が見てわかりやすい通常光観察の画像であり、これを見て、専門家は、ここに何が写っているか(対象物)やその位置が判定可能である。
 この視認性のよい画像に対して上記対象物やその位置の情報を入力(アノテーション)すると、付与部34が対応する特殊光画像のデータに対してこのアノテーション結果を反映し、教師データ生成部166が教師データを生成する(ステップS32)。なお、この時、マルチモーダルの手法に対応するため、撮像時の波長情報などを図3A~Cにおいて説明したメタデータとして記録してもよい。また、2つの画像の波長分布やその差異などの情報を記録してもよい。このように、観察対象Oを撮像して得た通常光で撮像した画像(第2の画像データ)は、人間が目視する際に自然な画像なので、これに対しアノテーションを行うアノテーション入力部163を用意すれば、第2の画像データと同様の観察対象Oに関連し、かつ、撮像態様の異なる特殊光による画像データ(第1の画像データ)に対し、アノテーション結果を反映すればよく、これを反映部165が行うとし、さらに、教師データ生成部166が、第1の画像データとそこに反映して付与されたアノテーション結果を用いて推論モデルを作成するための教師データを生成する、これらの機能を備える教師データ生成装置である画像処理装置3を提供することができる。ここで、第2の画像は視認性の良い画像で、自然光や白色光、昼光のような照明での撮像を想定した。さらに、画像処理などで、コントラストや露出や色合いが人間の見た目に自然な処理を行っている。また、こうした画像データを図3A~Cで示したような工夫で扱いやすいデータ(ファイル)として記録するので、本願は、記録装置、記録方法の発明ともなっている。
(実施の形態3)
〔観察システムの構成〕
 まず、観察システムの構成を説明する。図8は、実施の形態3に係る観察システムの構成を示す模式図である。図8に示すように、本実施の形態3に係る観察システム51は、被検体H内の観察対象Oを観察する。この観察システム51により被検体H内の観察対象Oを観察し、処置具Tにより被検体Hに対する処置を行うことにより内視鏡手術を行うことができる。
 図9は、実施の形態3に係る観察システムの構成を示すブロック図である。図9に示すように、観察システム51は、照明部52と、第1撮像部53と、第2撮像部54と、画像処理装置55と、学習装置56と、表示装置57と、を備える。
 照明部52は、観察対象Oに照明光を照射する。照明部52は、例えば直径2mm以上3mm以下の湾曲性を持たない硬質な針である挿入部に挿入されていることにより被検体Hに取り付けられる。照明部52には、LED等からなる光源と、光源に電力を供給するバッテリーとが設けられている。光源が照射した照明光は、針の内部に配置されたレンズ又は光ファイバを経由して観察対象Oに照射される。ただし、照明部52は、外部の光源装置が出力した照明光を観察対象Oに照射してもよい。
 第1撮像部53及び第2撮像部54は、互いに異なる位置から観察対象Oを撮像する。以下において、2つの撮像部を備える例を説明するが、撮像部は複数であればよく、3つ以上の撮像部を備えていてもよい。第1撮像部53及び第2撮像部54は、例えば直径2mm以上3mm以下の湾曲性を持たない硬質な針である挿入部に挿入されていることにより、被検体Hに取り付けられている。挿入部が被検体Hの互いに異なる位置に穿刺されることにより、第1撮像部53と第2撮像部54とは、観察対象Oを互いに異なる位置から撮像する。第1撮像部53及び第2撮像部54には、CCDやCMOSのイメージセンサやA/D変換回路等を用いて構成された撮像素子が設けられている。そして、観察対象Oからの反射光は、針の内部に配置されたレンズ又は光ファイバを経由して撮像素子により撮像される。
 画像処理装置55は、送受信部551と、画像処理部552と、ガイド部553と、判定部554と、画像合成部555と、座標算出部556と、アノテーション入力部557と、付与部558と、反映部559と、教師データ生成部560と、表示制御部561と、記録部562と、推定部563と、記録制御部564と、制御部565と、を備える。送受信部551、画像処理部552、アノテーション入力部557、表示制御部561、記録部562、推定部563、及び制御部565は、それぞれ送受信部31、画像処理部32、アノテーション入力部33、表示制御部37、記録部38、及び制御部41と同様の構成であってよいので、説明を省略する。
 ガイド部553は、第1撮像部53及び第2撮像部54の位置をそれぞれガイドする。ガイド部553は、音声出力、表示装置5に文字を出力、被検体H等に光を照射すること等により、第1撮像部53及び第2撮像部54を穿刺する位置や第1撮像部53及び第2撮像部54と観察対象Oとの位置関係をガイドする。ガイド部553は、第1撮像部53及び第2撮像部54の位置をそれぞれピントが合う位置にガイドしてもよいし、観察対象Oが所定の割合以上含まれるようにガイドしてもよい。ガイド部553は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 判定部554は、被検体H内の観察対象Oを撮像する第1撮像部53が撮像した画像の撮像領域と、観察対象Oを第1撮像部53とは異なる位置から撮像する第2撮像部54が撮像した画像とに重なり部分があるか否かを判定する。また、判定部554は、第1撮像部53及び第2撮像部54がそれぞれ観察対象Oに焦点が合う焦点位置まで挿入されているか否かを判定する。この焦点位置とは、ここでは観察対象Oに焦点が合うような距離に第1撮像部53及び第2撮像部54が配置された位置の説明に用いている。これは、挿入過程で観察対象Oの像の状態を判定して、第1撮像部53及び第2撮像部54が撮像光学系の焦点が合っていない位置にある時にはボケて撮像されるためコントラストが低下しているが、焦点が合った状態(焦点位置)ではコントラストが良好になることから、コントラストの変化、あるいは、所定値との比較で検出が可能となる。画像処理部552が得られた画像のコントラスト値を求めることにより、これらを判定してもよい。判定部554は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 画像合成部555は、判定部554が、第1撮像部53及び第2撮像部54がそれぞれ観察対象Oに焦点が合う焦点位置まで挿入されていると判定し、かつ第1撮像部53が撮像した画像の撮像領域と第2撮像部54が撮像した画像の撮像領域とに重なり部分があると判定した場合、これらの画像を合成した合成画像を生成する。画像合成部555は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 座標算出部556は、撮像された画像の特徴点(画像の特徴的な点、例えば病変の端部や出血点)を検出し、特徴点の位置に基づいて各画像間の移動量を算出し、各画像に例えば2次元の座標を付与する。座標算出部556は、各画像の中心の座標を算出してもよいし、各画像の四隅の座標を算出してもよい。また、座標算出部556は、合成画像を人間が観察して見つけた腫瘍等の座標を算出する。
 付与部558は、画像データに各種のアノテーション結果を付与する。また、付与部558は、第1撮像部53及び第2撮像部54がそれぞれ観察対象Oを撮像した画像(第1の画像データ)にこれらの画像を合成した画像の画像データ(第2の画像データ)を関連づけ、第2の画像データにアノテーション結果を付与する。付与部558は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 反映部559は、画像を合成した画像の画像データ(第2の画像データ)に対するアノテーション結果を、合成前の画像データ(第1の画像データ)に反映させてこれを付与する。このように、人間にとって判断がしやすい合成画像に対して行ったアノテーションが、合成前の画像に反映される。AI用には合成前の画像を使うが、AIを作成したり利用したりする人はわかりやすい合成画像を取り扱えばよい。反映部559は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。
 これらの付与部558又は反映部559によりアノテーション結果を付与された画像データは、記録部562に記録される。第1の画像へのアノテーションはAI用で、第2の画像へのアノテーションは人間が確認するためであり、確認が不要なら、この第2の画像へのアノテーションは記録しなくともよい。もちろん、実施の形態1、2の考えから、第1の画像データをRAW画像データにしたり、第1の画像データを特殊光にして撮影して記録してもよい。記録部562には、複数の画像データとこの画像に画像処理を施して合成した画像の画像データとが互いに関連づけられて記録される。
 教師データ生成部560は、学習装置56に送信する教師データを生成する。教師データ生成部560は、合成画像(第2の画像データ)に関連づけられた複数のRAW画像(第1の画像データ)を特定し、特定した画像を用いて教師データを生成する。具体的には、記録部562に記録されている合成画像を人間が観察して腫瘍が含まれている画像を抽出すると、教師データ生成部560は、抽出した画像に関連づけられた複数の画像が腫瘍を含む画像であると識別して、腫瘍が含まれているか否かが判定された画像群が教師画像群となる教師データを生成する。教師データ生成部560は、CPU等の汎用プロセッサやASIC等の特定の機能を実行する各種演算回路等の専用プロセッサによって実現される。この実施の形態3は、視認性を高めた処理付きの画像と、その処理前の画像(RAW画像)の関係で説明した実施の形態1の、視認性向上画像(表示用画像、第2の画像)を合成した観察画像とし、実施の形態1のRAW画像(第1の画像)を合成前画像に対応させた実施例であるが、先に説明したように、この合成前画像をRAW画像として記録する応用を行ってもよい。また、ここで実施の形態2の考えを入れて特殊光での観察画像としてもよい。
 学習装置56及び表示装置57は、それぞれ学習装置4及び表示装置5と同様の構成であってよいので、説明を省略する。
 ここで、この実施の形態3の内視鏡2で複数の画像を取得して合成して表示する例を説明する。図10は、第1撮像部が撮像した画像の一例である。図10に示すように、第1撮像部53が撮像した画像Im1には、観察対象Oが含まれているが、腫瘍は含まれていない。
 図11は、第2撮像部が撮像した画像の一例である。図11に示すように、第2撮像部54が撮像した画像Im2には、観察対象O及び腫瘍TUが含まれている。これらの画像の共通部を重ねてのりしろのようにして合成すると合成画像(第2の画像)が作成できる。これは、人が見るには、全体と部分との関係が認識しやすく、直感的に把握、理解、認識、判断がしやすく、あるいは特定の対象を見つけるための情報がリッチな画像である。この合成画像は、表示装置57に表示する表示用画像と言ってもよい。ただし、コンピュータなど機械にとっては、のりしろ部が重なっていたりして、必ずしも人間と同様に情報リッチとは受け取らない。むしろ、のりしろ情報を別に取得して、個々の画像は個々の画像として判定するマルチモーダル処理の方が、コンピュータには情報の判定がしやすい場合がある。
 そのため、座標算出部556は、この合成の結果から、この合成画像を基準にして、個々の画像Im1、及び画像Im2の座標を算出する。この個々の画像の座標関係などが、マルチモーダル処理の副次情報となる。これを図3A~Cのように、メタデータとして記録してもよい。
 医師など専門家が合成画像で全体を認識しながらアノテーション情報を付与すると、付与部558は、2枚の画像に各画像の座標情報を含めたアノテーション結果を読み替えて、転用するように付与し、記録部562に記録する。このように、観察対象Oを撮像して得た合成画像(第2の画像データ)に対しアノテーションを行うアノテーション入力部557と、第2の画像データと同様の観察対象Oに関連し、かつ、撮像表示態様の異なる(ここでは複数枚合成前画像撮像と、それを合成した画像は別の態様で表示している)第1の画像データに対し、アノテーション結果を反映する反映部559と、第1の画像データとそこに反映されたアノテーション結果を用いて推論モデルを作成するための教師データを生成する教師データ生成部560と、を備える教師データ生成装置である画像処理装置3を提供することができる。ここで、第2の画像は表示して確認しやすい合成画像を想定した。つまり視認性という言葉で表されるが、これは、全体像と部分との像が確認しやすい、撮像した対象物に対する視野、撮像対象範囲が広い画像である。また、こうした画像データを図3A~Cで示したような工夫で扱いやすいデータ(ファイル)として記録するので、本願は、記録装置、記録方法の発明ともなっている。
 図12は、合成画像の一例である。図12に示すように、画像合成部555は、第1撮像部53が撮像した画像Im1と、第2撮像部54が撮像した画像Im2とを合成し、合成画像Im3を生成する。合成画像Im3を生成することにより、第1撮像部53及び第2撮像部54が撮像した画像により、観察対象Oの全体を観察することができるため人間が観察しやすい画像となる。
 付与部558は、合成した合成画像Im3に座標情報を含めたアノテーション結果を付与し、記録部562に記録すれば、複数の画像の画像データとこれらの画像を合成した画像の画像データとが、互いに関連づけられて記録部562に記録される。
 〔画像処理装置が教師データ生成時に実行する処理〕
 図13は、画像処理装置が教師データ生成時に実行する処理の概要を示すフローチャートである。これは、医師や専門家が見てわかりやすい、確認範囲を拡大した合成後の画像を見て、合成前の画像に対応させる実施例である。合成画像の方が人間にとっては個々の画像の連続性などの情報量に富み、これを見て、専門家は、ここに何が写っているか(対象物)やその位置が判定可能である。まず、記録部562に記録されている合成画像Im3を人間が観察し、腫瘍TUが含まれている画像を抽出する。そして、図13に示すように、画像処理装置55は、抽出した腫瘍TUを含む合成画像Im3と、その合成画像Im3に含まれる腫瘍TUの位置情報との入力を受け付ける(ステップS51)。
 すると、座標算出部556は、入力された位置情報に基づき、腫瘍TUの座標を算出する(ステップS52)。
 教師データ生成部560は、入力された合成画像に含まれる腫瘍TUの座標に基づいて、腫瘍TUを含む画像(画像Im2)を関連付け結果(マルチ画像形式のファイル化や、別ファイルの場合、画像ファイル名の参照や特定のファイル名関係や拡張子による)から特定し、特定した画像Im2に基づいて教師データを生成する(ステップS53)。具体的には、教師データ生成部560は、入力された合成画像に含まれる腫瘍TUの座標に基づいて、腫瘍TUを含む画像(画像Im2)をアノテーション関連付け結果により特定し、特定した画像群が腫瘍を含む画像であると識別して、腫瘍が含まれているか否かが判定された画像群が教師画像群となる教師データを生成する。なお、この時、マルチモーダルの手法に対応して、合成した場所などを図3A~Cに説明したメタデータとして記録してもよい。あるいは、アノテーション結果として付与された座標から換算された座標情報を個々の画像に対して記録してもよい。また、こうした画像データを図3A~Cで示したような工夫で扱いやすいデータ(ファイル)として記録するので、本願は、記録装置、記録方法の発明ともなっている。
 以上説明した実施の形態3によれば、画像処理及び画像の合成をしておらず、機械学習に適した合成前の個々の画像を用いて機械学習することができる。
(変形例1)
 次に、変形例1に係る観察システムについて説明する。変形例1に係る観察システムの構成は、図2に示した実施の形態1の構成と同様であってよいので説明を省略する。
 図14は、変形例1に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。図14に示すように、まず、専門家などの画像を確認するユーザが記録部38に記録されている画像からアノテーションする画像を選択する(ステップS71)。
 続いて、表示制御部37は、選択された画像の表示用画像(画像処理を施した画像(第2の画像))を表示装置5に表示させる(ステップS72)。
 そして、ユーザは、この表示用画像を確認して腫瘍の位置をマウス操作やキーボードからの入力、タッチ操作、音声入力等により入力し、この入力をアノテーション入力部33が受け付ける(ステップS73)。
 図15A、Bは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。図15Aに示すように、ユーザは、表示用画像Im11を確認して、腫瘍TUの座標(X1,Y1)を入力する。この座標を示す位置情報が表示用画像Im11の画像データ(第2の画像データ)にアノテーション結果として付与される。
 その後、制御部41は、この画像に対するアノテーションが終了したことを示す所定の操作入力が行われたか否かを判定する(ステップS74)。制御部41が、この画像に対するアノテーションが終了したことを示す所定の操作入力が行われていないと判定した場合(ステップS74:No)、ステップS72に戻り、この画像に対するアノテーションが継続される。
 一方、制御部41が、この画像に対するアノテーションが終了したことを示す所定の操作入力が行われたと判定した場合(ステップS74:Yes)、記録制御部40は、アノテーション結果を画像ファイル用にメタデータ化する(ステップS75)。そして、付与部34は、表示用画像Im11の画像データにアノテーション結果(メタデータ)を付与する。具体的には、図3Aに示す画像ファイルFa1において、ブロックBa1に記録された表示用画像データに関連づけられて、ブロックBa2にアノテーション結果であるメタデータが記録される。
 すると、反映部35は、アノテーション結果を対応するAI用画像(RAW画像)の画像データ(第1の画像データ)に反映する(ステップS76)。具体的には、図15Bに示すように、表示用画像Im11に付与されたアノテーション結果(腫瘍TUの位置情報)がAI用画像Im12に反映され、AI用画像Im12の画像データにアノテーション結果(腫瘍TUの位置情報)が付与される。
 そして、記録制御部40は、アノテーション結果を画像ファイル用にメタデータ化する(ステップS77)。そして、付与部34は、AI用画像Im12の画像データにアノテーション結果(メタデータ)を付与する。具体的には、図3Aに示す画像ファイルFa1において、ブロックBa3に記録されたAI用画像データIm12に関連づけられて、ブロックBa4にアノテーション結果のメタデータが記録される。
 続いて、教師データ生成部36は、このアノテーション結果が付与されたAI用画像を用いて教師データを生成する(ステップS78)。教師データは、学習装置4が機械学習する際に用いる教師画像群であり、アノテーション結果である腫瘍TUの位置情報が付与された画像データ群である。すなわち、教師データは、図3A~Cに示すような画像ファイルを大量に蓄積することにより生成される。
 その後、制御部41は、アノテーションが終了したことを示す所定の操作入力が行われたか否かを判定する(ステップS79)。制御部41が、アノテーションが終了したことを示す所定の操作入力が行われていないと判定した場合(ステップS79:No)、ステップS71に戻る。
 一方、制御部41が、アノテーションが終了したことを示す所定の操作入力が行われたと判定した場合(ステップS79:Yes)、一連の処理が終了する。
 以上説明した変形例1によれば、画像処理を施した表示用画像に付与したアノテーション結果がAI用画像(RAW画像)に反映されるため、このアノテーション結果が付与されたAI用画像を用いて教師データを生成することができる。その結果、学習装置4は、そのような教師データを用いることにより、高信頼性、高精度の推論モデルを生成することが可能となる。
 このように、人間の視覚特性に合わせた視認性重視の画像で医師、専門家など人間が、快適な視覚判断で快速、大量に作業性良くアノテーションを行いながら、関連付けられたRAW画像のようにオリジナルの情報を保持した画像によって教師データ化されていくので、豊富な情報で高精度の学習が可能となる。このような学習で得られた推論モデルは、RAWデータ入力で、上記のアノテーション結果に合わせた推論を行うので、高精度の推論が可能となる。したがって、この推論結果に相当する情報を、関連する表示用画像に反映させて表示させることによって、オペレーター、観察者は高精度な推論結果を考慮した検討が出来る。この判断から、次の観察や処置などを適切に行うことが可能となる。
(変形例2)
 次に、変形例2に係る観察システムについて説明する。変形例2に係る観察システムの構成は、図6に示した実施の形態2の構成と同様であってよいので説明を省略する。
 図16は、変形例2に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。図16に示すように、まず、第1照明部12が観察対象物に通常光を照射する(ステップS91)。
 続いて、第1撮像部14は、観察対象物を撮像する(ステップS92)。この撮像により生成された画像データを、以下において画像データIm21という。
 さらに、第1撮像部14は、観察対象物をもう一度撮像する(ステップS93)。この撮像により生成された画像データを、以下において画像データIm22という。通常光観察のフレームレートを確保するため、通常光観察の撮像回数を特殊光観察の撮像回数より多くするために、ここでは通常光観察の撮像を2回行う例を示したが、通常光観察の撮像回数は特に限定されない。
 その後、記録制御部170は、画像データIm21と画像データIm22とを記録部168に仮記録する(ステップS94)。具体的には、画像データIm21及び画像データIm22は、記録部168のリングバッファに記録され、1フレームの画像データが時系列に沿って記録される。そして、記録部168のリングバッファは、所定のフレーム数の画像データを記録すると、最も古い画像データを削除して最新の画像データを記録することで、時系列順に所定フレーム数の新しい画像データを記録する。
 続いて、第2照明部13が観察対象物に特殊光を照射する(ステップS95)。
 続いて、第2撮像部15は、観察対象物を撮像する(ステップS96)。この撮像により生成された画像データを、以下において画像データIm23という。
 その後、記録制御部170は、画像データIm23を記録部168に仮記録する(ステップS97)。具体的には、画像データIm23は、記録部168のリングバッファに記録される。
 そして、画像処理装置16は、画像データIm22における腫瘍の位置を推定して、表示装置18に表示させる推論表示処理を行う(ステップS98)。具体的には、推定部169は、学習装置17が機械学習により生成した推論モデルを利用して、特殊光観察による画像データIm23(第1の画像データ)に含まれる腫瘍の位置を推定する。すると、反映部165は、この腫瘍の位置情報を画像データIm22(第2の画像データ)に反映して付与する。そして、表示制御部167は、画像データIm22における腫瘍の位置を強調表示して、表示装置18に表示させる。
 続いて、制御部171は、撮影を行う指示入力を受け付けたか否かを判定する(ステップS99)。ユーザは、表示装置18に表示された画像データIm22における腫瘍の位置を確認し、腫瘍の位置が正しく表示されておりこの画像の撮影を希望する場合に、表示装置18に表示された撮影ボタンを押す等の操作入力を行う。制御部171は、この操作入力があったか否かを判定する。
 制御部171が、撮影を行う指示入力がなかったと判定した場合(ステップS99:No)、ステップS104に進む。一方、制御部171が、撮影を行う指示入力があったと判定した場合(ステップS99:Yes)、記録制御部170は、画像データIm22を記録部168の非一時的な記録領域(リングバッファではなく、例えばRAM)に記録する(ステップS100)。このとき、付与部164は、推定部169が推定した腫瘍の位置情報をアノテーション結果として画像データIm23に付与して記録部168に記録する。ただし、付与部164は、アノテーション入力部163がユーザの入力を受け付けて取得した腫瘍の位置情報をアノテーション結果として付与してもよい。
 さらに、記録制御部170は、画像データIm23を記録部168の非一時的な記録領域(リングバッファではなく、例えばRAM)に記録する(ステップS101)。
 そして、記録制御部170は、図3Aに示すように、画像ファイルFa1のブロックBa1に画像データIm22を、ブロックBa3に画像データIm23を、ブロックBa2及びブロックBa4に腫瘍の位置情報を表すメタデータをそれぞれ記録し、一連の処理によって生成したデータをファイル化して記録部168に記録する(ステップS102)。
 続いて、教師データ生成部166は、このアノテーション結果が付与された特殊光観察による画像データIm23を用いて教師データを生成する(ステップS103)。
 その後、制御部171は、教師データを生成する処理を終了することを示す所定の操作入力が行われたか否かを判定する(ステップS104)。制御部171が、この処理を終了することを示す所定の操作入力が行われていないと判定した場合(ステップS104:No)、ステップS91に戻る。
 一方、制御部171が、この処理を終了することを示す所定の操作入力が行われたと判定した場合(ステップS104:Yes)、一連の処理を終了させる。
 以上説明した変形例2によれば、特殊光観察による画像データIm23を用いて、学習装置17が機械学習により生成した推論モデルが腫瘍の位置を自動的に推定し、医師や専門家は、観察しやすい通常光観察による画像データIm22において位置が推定された腫瘍を確認することができる。そして、医師や専門家が腫瘍であることを確認した画像がアノテーション結果とともに記録される。その結果、変形例2によれば、腫瘍の位置情報が付与された特殊光観察による画像データ群である教師データを容易かつ大量に蓄積することができる。
 このように、人間の視覚特性に合わせた自然な視認性重視の通常光(白色)画像で医師、専門家など人間が直感的に手早く判断でき、大量にかつ正確にアノテーションを行いながら、特殊光観察画像のようにオリジナルの情報を保持した関連付けられた画像が、同様に大量かつ良質な教師データとなっていくので、豊富な情報で高精度の学習が可能となる。このような学習で得られた推論モデルは、特殊光による画像データ入力で、上記のアノテーション結果に合わせた推論を行うので、高精度の推論となる。したがって、この推論結果に相当する情報を、関連する表示用画像(通常光、白色光を照射して撮像した画像に対応)に反映させて表示させることによって、オペレーター、観察者は高精度な推論結果を考慮した検討が出来る。この判断から、次の観察や処置などを適切に行うことが可能となる。
(変形例3)
 次に、変形例3に係る観察システムについて説明する。変形例3に係る観察システムの構成は、図9に示した実施の形態3の構成と同様であってよいので説明を省略する。
 図17は、変形例3に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。図17に示すように、まず、ユーザが記録部562に記録されている画像からアノテーションする画像を選択する(ステップS111)。
 続いて、画像合成部555は、選択された画像を合成してパノラマ化した合成画像(第2の画像)を生成し、表示制御部561は、この合成画像を表示装置57に表示させる(ステップS112)。
 そして、ユーザは、この合成画像を確認して腫瘍の位置をマウス操作やキーボードからの入力、タッチ操作、音声入力等により入力し、この入力をアノテーション入力部557が受け付ける(ステップS113)。
 図18A~Cは、第1の画像データ及び第2の画像データにアノテーション結果を付与する状況を説明する図である。図18Aに示すように、合成画像Im31は重なり部分OVをのりしろとして、図18Bに示す合成前画像Im32と図18Cに示す合成前画像Im33とが合成された画像である。ユーザは、合成画像Im31を確認して、腫瘍TUの座標(X1,Y1)を入力する。この座標を示す位置情報が合成画像Im31の画像データ(第2の画像データ)にアノテーション結果として付与される。
 その後、制御部565は、この画像に対するアノテーションが終了したことを示す所定の操作入力が行われたか否かを判定する(ステップS114)。制御部565が、この画像に対するアノテーションが終了したことを示す所定の操作入力が行われていないと判定した場合(ステップS114:No)、ステップS112に戻り、この画像に対するアノテーションが継続される。
 一方、制御部565が、この画像に対するアノテーションが終了したことを示す所定の操作入力が行われたと判定した場合(ステップS114:Yes)、記録制御部564は、アノテーション結果を画像ファイル用にメタデータ化する(ステップS115)。そして、付与部558は、表示用の合成画像Im31の画像データにアノテーション結果(メタデータ)を付与する。具体的には、図3Aに示す画像ファイルFa1において、ブロックBa1に記録された表示用画像データ(合成画像Im31)に関連づけられて、ブロックBa2にアノテーション結果のメタデータが記録される。
 すると、反映部559は、アノテーション結果を対応する合成前画像の画像データ(第1の画像データ)に反映する(ステップS116)。具体的には、図18B、Cに示すように、合成画像Im31に付与されたアノテーション結果(腫瘍TUの位置情報)が合成前画像Im32及び合成前画像Im33に反映され、合成前画像Im32及び合成前画像Im33の画像データにアノテーション結果(腫瘍TUの位置情報)が付与される。このとき、座標算出部556は、合成前画像Im32及び合成前画像Im33における腫瘍TUの座標を算出する。合成前画像Im33における腫瘍の座標(X21,Y21)は、合成画像の腫瘍の座標(X1,Y1)と、X軸方向の重なり部分OVの幅ΔX(図18A参照)と、合成前画像Im32のx軸方向の幅X0と、合成前画像Im32と合成前画像Im33とのY軸方向の位置ずれΔY(図18A参照)とを用いて、X21=X1-X0+ΔX,Y21=Y1-ΔYとして算出することができる。
 そして、記録制御部564は、アノテーション結果を画像ファイル用にメタデータ化する(ステップS117)。そして、付与部558は、合成前画像Im32及び合成前画像Im33の画像データにアノテーション結果(メタデータ)を付与する。
 図19は、教師データとなる画像ファイルの一例を示す図である。図19に示す画像ファイルFa1において、合成画像Im31の画像データがブロックBa1に記録され、合成画像Im31における腫瘍の座標(X1,Y1)がアノテーション情報としてブロックBa2に記録される。
 この合成画像Im31は、特定部分ではあるが、比較的周辺を含めての全体像が分かりやすく、腫瘍の組織構造を熟知している専門家には、わかりやすくアノテーションしやすい画像となっている。
 一方、周辺までの情報がなくとも、あくまで腫瘍そのものにおける血管など組織起伏のパターンからAI(人工知能)は、それを判定できるので、個々の合成前画像を教師画像にする。つまり、合成前画像データIm32及び合成前画像Im33がブロックBa3に記録され、人が付けた合成後座標の座標を合成前画像データIm32及び合成前画像Im33における腫瘍の座標(X11,Y11)(腫瘍は合成前画像Im32の外にあるので画面の外の座標)及び座標(X21,Y21)に計算しなおして、教師画像化する。これは、人間によるアノテーションを関連して記録された機械用の画像に置き換えるステップとなる。この変換座標がアノテーション情報としてブロックBa4に記録される。この時、「画面外」を示すメタデータを付ける例を図19では図示したが、画面内座標が右下隅を原点(0,0)とする場合、画面の範囲を例えば(X100、Y100)として、それを「画面範囲情報メタデータ」として記載して、さらにアノテーション位置がそれを超える、あるいはマイナス値となる座標値とすれば、画面外であることを伝える情報にすることが出来る。このように画面外情報もアノテーションできるようにすれば、腫瘍そのものが画面内になくとも、画面外にあるという画面外探索用の教師データを作ることも出来る。こうした画面外学習用の教師データも、この変形例3では簡単に専門家が作ることができ、この教師データで学習した推論モデルは、例えば、医師がたまたま、腫瘍部の方に撮像の範囲を向けなくとも、画面外に腫瘍があることを伝える、ガイド表示機能を提供することが出来る。特定の組織に出来がちな病変などの見逃し対策ができ、同様に体内でなくとも、特定の環境、状況下において起こりうる事象(松林におけるマツタケの所在、建築物のヒビの入りやすい場所など)を、その画像の特徴から、撮像範囲に入っていなくとも予測する推論モデルを提供できる。
 続いて、教師データ生成部560は、このアノテーション結果が付与された合成前画像データIm32及び合成前画像Im33を用いて教師データを生成する(ステップS118)。合成画像は全体が把握できるが、腫瘍部分からの比率では、はるかに広い面積の情報量が含まれてしまい、腫瘍そのものの画像特徴を学習する時にノイズになってしまう可能性があるが、このような工夫によって、腫瘍部と腫瘍以外部の組織との特徴差異の学習がより正確に行われることになる。
 その後、制御部565は、アノテーションが終了したことを示す所定の操作入力が行われたか否かを判定する(ステップS119)。制御部565が、アノテーションが終了したことを示す所定の操作入力が行われていないと判定した場合(ステップS119:No)、ステップS111に戻る。
 一方、制御部565が、アノテーションが終了したことを示す所定の操作入力が行われたと判定した場合(ステップS119:Yes)、一連の処理が終了する。
 このように、本変形例3はアノテーション座標情報をメタデータとして有する画像ファイルを作成して記録する記録方法としての発明となっており、観察対象を撮像した結果の複数の画像データを表示部に表示させるために合成画像処理を行い、表示部に表示された合成画像データの表示画像上において行ったアノテーション座標情報を取得し、表示部に表示されている合成画像データを構成する個々の画像データに対し、アノテーション座標情報を付与し、個々の画像データに対するアノテーション座標情報をメタデータとして有する画像ファイルを作成することができ、個々の画像データに対するアノテーション座標情報として画面外座標情報をメタデータとして有するので、画面外の対象物に対して見逃しのない観察装置や方法が提供できる。
 以上説明した変形例3によれば、合成画像に付与したアノテーション結果が合成前画像に反映されるため、このアノテーション結果が付与された合成前画像を用いて教師データを生成することができる。その結果、学習装置56は、そのような教師データを用いることにより、高信頼性、高精度の推論モデルを生成することが可能となる。
 このように、人間の視覚特性に合わせた自然な視認性重視の合成画像で医師、専門家など人間が直感的に高速に判断し、大量にかつ正確にアノテーションを行いながら、合成前画像のようにオリジナルの情報を保持した画像が同様に大量かつ良質な教師データとされるので、豊富な情報で高精度の学習が可能となる。このような学習で得られた推論モデルは、合成前画像による画像データ入力で、上記のアノテーション結果に合わせた推論を行うので、高精度の推論となる。したがって、この推論結果に相当する情報を、関連する表示用画像(合成画像)に反映させて表示させることによって、オペレーター、観察者は高精度な推論結果を考慮した検討が出来る。この判断から、次の観察や処置などを適切に行うことが可能となる。
(変形例4)
 次に、変形例4に係る観察システムについて説明する。変形例4に係る観察システムの構成は、図9に示した実施の形態3の構成と同様であってよいので説明を省略する。
 図20は、変形例4に係る観察システムが教師データ生成時に実行する処理の概要を示すフローチャートである。図20により説明する例は、第1撮像部53では観察対象全体を撮像することができず、第1撮像部53及び第2撮像部54が撮像した画像を合成してパノラマ化することにより、観察対象全体が観察できる場合である。第1撮像部53により観察対象全体を撮像できる場合には、撮像部は1つでよいし、第1撮像部53及び第2撮像部54が撮像した画像を合成しても観察対象全体が撮像できない場合には、3つ以上の撮像部を用いてもよい。
 図20に示すように、制御部565は、第1撮像部53に観察対象物を撮像させる(ステップS131)。なお、制御部565は、撮像を行う際には常に照明部52に観察対象物に対して照明光を照射させている。以下において、第1撮像部53が撮像した画像を第1画像という。
 このとき、ガイド部553は、第1撮像部53の位置をガイドしてもよい。具体的には、ガイド部553は、第1撮像部53と観察対象との間の距離が適切でない場合、表示装置57に「もっと近づけて下さい。」又は「もっと遠ざけて下さい。」といったメッセージを文字で表示させることにより第1撮像部53の位置をガイドする。また、第1撮像部53と観察対象との間の距離が適切になり、観察対象の全体が撮像できていない場合、ガイド部553は、表示装置57に「ピントが合いましたが患部に続きがあります。」といったメッセージを文字で表示させ、撮像部を追加して撮像範囲を拡大するように促してもよい。なお、ガイド部553は、メッセージを音声で出力することにより、上述したガイドを行ってもよい。以下において、第2撮像部54を追加する場合を説明する。
 続いて、制御部565は、第2撮像部54に観察対象物を撮像させる(ステップS132)。以下において、第2撮像部54が撮像した画像を第2画像という。
 このとき、ガイド部553は、第2撮像部54の位置をガイドしてもよい。具体的には、ガイド部553は、第1撮像部53と観察対象との間の距離と、第2撮像部54と観察対象との間の距離とが異なりすぎて画像の合成ができない場合、ガイド部553は、表示装置57に「第2撮像部を近づけて下さい。」又は「第2撮像部を遠ざけて下さい。」といったメッセージを文字で表示させることにより第2撮像部54の位置をガイドする。なお、ガイド部553は、メッセージを音声で出力することにより、上述したガイドを行ってもよい。
 そして、判定部554は、第1画像と第2画像とが合成可能であるか否かを判定する(ステップS133)。具体的には、判定部554は、画像処理により、第1画像に含まれる特徴点(画像の特徴的な点、例えば病変の端部や出血点)と、第2画像に含まれる特徴点とを抽出し、互いの特徴点の位置を比較することにより重なり部分があるか否かを判定する。そして、判定部554は、重なり部分があり、さらに第1画像及び第2画像のピントが合っているか等を判定し、第1画像と第2画像とが合成可能であるか否かを判定する。
 判定部554が、合成可能ではないと判定した場合(ステップS133:No)、ガイド部553は、表示装置57に合成用ガイドを表示する(ステップS134)。具体的には、ガイド部553は、上述したような、第2撮像部54の位置をガイドするメッセージを表示装置57に文字で表示させる。その後、ステップS132に戻る。なお、ガイド部553は、第1撮像部53の位置をガイドするメッセージを表示装置57に文字で表示させてもよく、この場合、ステップS131に戻る。また、ガイド部553は、第1撮像部53及び第2撮像部54の両方の位置をガイドしてもよく、この場合も、ステップS131に戻る。
 一方、判定部554が、合成可能であると判定した場合(ステップS133:Yes)、画像合成部555は、第1画像と第2画像とを合成し、パノラマ化する(ステップS135)。このとき、ガイド部553は、表示装置57に「合成表示可能です。」といったメッセージを文字で表示させ、合成可能であることを通知してもよい。そして、画像合成部555は、第1画像と第2画像とを合成した合成画像を生成する。この合成画像には、観察対象全体が含まれているものとする。
 続いて、判定部554は、照明の調整が必要であるか否かを判定する(ステップS136)。具体的には、判定部554は、第1画像及び第2画像の輝度の分布に基づいて、第1画像又は第2画像に照明ムラがあるか否かを判定する。
 判定部554が、照明の調整が必要ではないと判定した場合(ステップS136:No)、ステップS138に進む。一方、判定部554が、照明の調整が必要であると判定した場合(ステップS136:Yes)、制御部565は、均一化照明制御、及び画像処理補正を行う(ステップS137)。具体的には、ガイド部553は、制御部565による制御のもと、第1画像又は第2画像の照明ムラを低減し、観察対象に照射される照明を均一にする(均一化照明制御)ため、表示装置57に「照明ムラがあります。」といったメッセージを文字で表示させることにより、照明部52とは異なる照明部を追加して照明ムラを解消するよう促してもよい。そして、医師等により観察対象に照明光を照射する照明部が追加されると、第1画像又は第2画像の照明ムラが低減し、照明が均一となる。このとき、ガイド部553は、照明を追加する位置を文字や音声でガイドしてもよい。また、ガイド部553は、照明部52の位置や照明光を照射する方向を文字や音声でガイドしてもよい。また、画像処理部552は、制御部による制御のもと、第1画像又は第2画像の照明ムラを低減するため、画像処理に補正(画像処理補正)を加えてもよい。具体的には、画像処理部552は、第1画像又は第2画像において、輝度が小さい画素のゲインを増大させるとともに、輝度が大きい画素のゲインを減少させることにより、第1画像又は第2画像の照明ムラを低減し、照明が均一な画像とする。
 その後、判定部554は、合成画像に対する再修正が必要であるか否かを判定する(ステップS138)。具体的には、判定部554は、合成画像がボケているか否かや照明ムラがあるか否か等を判定し、この判定結果に基づいて、合成画像に対する再修正が必要であるか否かを判定する。
 判定部554が、合成画像に対する再修正が必要であると判定した場合(ステップS138:Yes)、ステップ131に戻る。一方、判定部554が、合成画像に対する再修正が必要ではないと判定した場合(ステップS138:No)、画像処理装置55は、合成画像における腫瘍の位置を推定して、表示装置57に表示させる推論表示処理を行う(ステップS139)。具体的には、推定部563は、学習装置56が機械学習により生成した推論モデルを利用して、第1画像及び第2画像(第1の画像データ)に含まれる腫瘍の位置を推定する。すると、反映部559は、この腫瘍の位置情報を合成画像(第2の画像データ)に反映して付与する。そして、表示制御部561は、合成画像における腫瘍の位置を強調表示して表示装置57に表示させる。
 続いて、制御部565は、撮影を行う指示入力を受け付けたか否かを判定する(ステップS140)。ユーザは、表示装置57に表示された合成画像における腫瘍の位置を確認し、腫瘍の位置が正しく表示されておりこの画像の撮影を希望する場合に、表示装置57に表示された撮影ボタンを押す等の操作入力を行う。制御部565は、この操作入力があったか否かを判定する。このとき、付与部558は、推定部563が推定した腫瘍の位置情報をアノテーション結果として第1画像及び第2画像に付与して記録部562に記録する。ただし、付与部558は、アノテーション入力部557がユーザの入力を受け付けて取得した腫瘍の位置情報をアノテーション結果として付与してもよい。
 制御部565が、撮影を行う指示入力がなかったと判定した場合(ステップS140:No)、ステップS146に進む。一方、制御部565が、撮影を行う指示入力があったと判定した場合(ステップS140:Yes)、記録制御部564は、上述した均一化照明制御や画像処理補正が行われた合成画像を記録部562に記録する(ステップS141)。
 続いて、制御部565は、均一化照明のために追加した照明部をなくす、または、照明部52の位置や照明光を照射する方向を元に戻す(ステップS142)。
 そして、記録制御部564は、第1画像及び第2画像を記録部562に記録する(ステップS143)。このように、照明を均一にしない状態で撮像を行うのは、照明を均一化しないで腫瘍を探しているときにも腫瘍の位置を推定することができる推論モデルを生成するために、照明を均一にしない状態で撮像した教師データが必要となるからである。
 さらに、記録制御部564は、図3Aに示すように、画像ファイルFa1のブロックBa1に均一化照明制御や画像処理補正が行われた合成画像を、ブロックBa3に第1画像及び第2画像を、ブロックBa2及びブロックBa4に腫瘍の位置情報を表すメタデータをそれぞれ記録し、一連の処理によって生成したデータをファイル化して記録部562に記録する(ステップS144)。
 続いて、教師データ生成部560は、このアノテーション結果が付与された第1画像及び第2画像を用いて教師データを生成する(ステップS145)。
 その後、制御部565は、教師データを生成する一連の処理を終了することを示す所定の操作入力が行われたか否かを判定する(ステップS146)。制御部565が、この一連の処理を終了することを示す所定の操作入力が行われていないと判定した場合(ステップS146:No)、ステップS137に戻る。
 一方、制御部565が、この一連の処理を終了することを示す所定の操作入力が行われたと判定した場合(ステップS146:Yes)、一連の処理を終了させる。
 以上説明した変形例4によれば、合成前の第1画像及び第2画像を用いて、学習装置56が機械学習により生成した推論モデルが腫瘍の位置を自動的に推定し、医師や専門家は、観察しやすい合成画像において位置が推定された腫瘍を確認することができる。そして、医師や専門家が腫瘍であることを確認した画像がアノテーション結果とともに記録される。その結果、変形例4によれば、腫瘍の位置情報が付与された合成前の画像データ群である教師データを容易かつ大量に蓄積することができる。
 このように、人間の視覚特性に合わせた自然な視認性重視の合成画像で医師、専門家など人間が直感的に高速に判断し、大量にかつ正確にアノテーションを行いながら、合成前画像のようにオリジナルの情報を保持した画像が同様に大量かつ良質な教師データとされる(ここでは、均一照明や画像処理などの処理も行われていないので加工前画像と言える)ので、豊富な情報で高精度の学習が可能となる。合成前画像は合成後画像より数が多いので、それだけで大量の画像の教師データ化ができる。このような学習で得られた推論モデルは、合成前画像による画像データ入力で、上記のアノテーション結果に合わせた推論を行うので、高精度の推論となる。したがって、この推論結果に相当する情報を、関連する表示用画像(合成画像)に反映させて表示させることによって、オペレーター、観察者は高精度な推論結果を考慮した検討が出来る。この判断から、次の観察や処置などを適切に行うことが可能となる。
 上述した本開示の一実施の形態に係る教師データ生成装置に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、上述した本開示の実施の形態に係る教師データ生成装置に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、上述した本開示の実施の形態に係る教師データ生成装置で説明した構成要素を適宜組み合わせてもよい。また、ここでは医療用途を想定して内視鏡を例にした実施例で説明したが、内視鏡と書いた部分は光学系と撮像部とを含むカメラと読み替えることができる。車載カメラや監視カメラ、あるいは農業用のカメラなどにおいて、昼光と照明光、赤外光など、異なる撮影条件で、同様の対象物を検出する用途へ応用することが可能である。また、撮像機能を有する顕微鏡に対して応用することも可能である。こうした産業用途の他、民生用、科学用の画像に対しての学習・推論に対しても応用が可能である。また、一眼レフのようなカメラであれば、交換レンズで上記撮像部と光学系とは分離可能であり、内視鏡と書いた部分は撮像部又は撮像装置と読み替えることが出来る。
 また、本開示の一実施の形態に係る教師データ生成装置では、上述してきた「部」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
 また、本開示の一実施の形態に係る教師データ生成装置に実行させるプログラムは、インストール可能な形式または実行可能な形式のファイルデータでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)、USB媒体、フラッシュメモリ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
 また、本開示の一実施の形態に係る教師データ生成装置に実行させるプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
 なお、本明細書におけるフローチャートの説明では、「まず」、「その後」、「続いて」等の表現を用いてステップ間の処理の前後関係を明示していたが、本発明を実施するために必要な処理の順序は、それらの表現によって一意的に定められるわけではない。即ち、本明細書で記載したフローチャートにおける処理の順序は、矛盾のない範囲で変更することができる。また、こうした、単純な分岐処理からなるプログラムに限らず、より多くの判定項目を総合的に判定して分岐させてもよい。その場合、ユーザにマニュアル操作を促して学習を繰り返すうちに機械学習するような人工知能の技術を併用しても良い。また、多くの専門家が行う操作パターンを学習させて、さらに複雑な条件を入れ込む形で深層学習をさせて実行してもよい。
 以上、本願の実施の形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、本発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
 1、11、51 観察システム
 2 内視鏡
 3、16、55 画像処理装置
 4、17、56 学習装置
 5、18、57 表示装置
 12 第1照明部
 13 第2照明部
 14、53 第1撮像部
 15、54 第2撮像部
 21、52 照明部
 22 撮像部
 31、161、551 送受信部
 32、162、552 画像処理部
 33、163、557 アノテーション入力部
 34、164、558 付与部
 35、165、559 反映部
 36、166、560 教師データ生成部
 37、167、561 表示制御部
 38、168、562 記録部
 39、169、563 推定部
 40、170、564 記録制御部
 41、171、565 制御部
 553 ガイド部
 554 判定部
 555 画像合成部
 556 座標算出部
 H 被検体
 O 観察対象
 T 処置具
 TU 腫瘍

Claims (15)

  1.  観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けるアノテーション入力部と、
     前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映する反映部と、
     前記第1の画像データと該第1の画像データに反映された前記アノテーション結果とを用いて推論モデルを作成するための教師データを生成する教師データ生成部と、
     を備える教師データ生成装置。
  2.  前記第2の画像データは、前記アノテーションを行う際に表示部に表示するための画像データである請求項1に記載の教師データ生成装置。
  3.  前記異なる撮像態様は、前記表示部に表示する際に視認性を改善した処理である請求項2に記載の教師データ生成装置。
  4.  前記第1の画像データは、RAW画像の画像データであり、
     前記第2の画像データは、前記RAW画像に画像処理を施した画像の画像データである請求項1に記載の教師データ生成装置。
  5.  前記画像処理は、ガンマ補正、ホワイトバランスの調整、色補正、ノイズリダクション、又は画像強調処理の少なくとも1つを含む請求項4に記載の教師データ生成装置。
  6.  前記第1の画像データは、前記観察対象に特殊観察光を照射した状態で撮像した画像の画像データであり、
     前記第2の画像データは、前記観察対象に照明光を照射した状態で撮像した画像の画像データである請求項1に記載の教師データ生成装置。
  7.  前記第1の画像データは、複数の画像の画像データを含み、
     前記第2の画像データは、前記第1の画像データに含まれる前記複数の画像を合成した画像の画像データである請求項1に記載の教師データ生成装置。
  8.  前記第1の画像データ又は前記第2の画像データに含まれる画像の座標を算出する座標算出部を備える請求項7に記載の教師データ生成装置。
  9.  観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けて、
     前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映し、
     前記第1の画像データと該第1の画像データに反映された前記アノテーション結果とを用いて推論モデルを作成するための教師データを生成する教師データ生成方法。
  10.  観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けるアノテーション入力部と、
     前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映し、前記第1の画像データと前記第2の画像データとを関連づけて記録する記録制御部と、
     を備える記録装置。
  11.  観察対象を撮像して得た第2の画像データに対するアノテーションの入力を受け付けて、
     前記第2の画像データと同様の観察対象に関連し、かつ、撮像態様及び/又は表示態様の異なる第1の画像データに対し、前記アノテーション結果を反映し、
     前記第1の画像データと前記第2の画像データとを関連づけて記録する記録方法。
  12.  観察対象を撮像した結果の画像データを表示部に表示させるために画像処理を行う画像処理部と、
     前記表示部に表示された画像データの表示画像上において行ったアノテーション情報を取得し、前記表示部に表示されている態様とは異なる態様における画像データに対し、前記アノテーション情報を付与する付与部と、
     前記異なる態様の画像データに対する前記アノテーション情報をメタデータとして有する、前記異なる態様の画像データの画像ファイルを作成して記録する記録制御部と、
     を備える記録装置。
  13.  観察対象を撮像した結果の画像データを表示部に表示させるために画像処理を行い、
     前記表示部に表示された画像データの表示画像上において行ったアノテーション情報を取得し、前記表示部に表示されている態様とは異なる態様における画像データに対し、前記アノテーション情報を付与し、
     前記異なる態様の画像データに対する前記アノテーション情報をメタデータとして有する、前記異なる態様の画像データの画像ファイルを作成して記録する記録方法。
  14.  観察対象を撮像した結果の複数の画像データを表示部に表示させるために合成画像処理を行い、
     前記表示部に表示された合成画像データの表示画像上において行ったアノテーション座標情報を取得し、前記表示部に表示されている合成画像データを構成する個々の画像データに対し、前記アノテーション座標情報を付与し、
     前記個々の画像データに対する前記アノテーション座標情報をメタデータとして有する画像ファイルを作成して記録する記録方法。
  15.  前記画像ファイルを作成して記録する記録方法は、
     前記個々の画像データに対する前記アノテーション座標情報として画面外座標情報をメタデータとして有する請求項14に記載の記録方法。
PCT/JP2020/007868 2020-02-26 2020-02-26 教師データ生成装置、教師データ生成方法、記録装置及び記録方法 WO2021171444A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/007868 WO2021171444A1 (ja) 2020-02-26 2020-02-26 教師データ生成装置、教師データ生成方法、記録装置及び記録方法
US17/894,453 US20220405622A1 (en) 2020-02-26 2022-08-24 Training data generation device, recording method, and inference device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/007868 WO2021171444A1 (ja) 2020-02-26 2020-02-26 教師データ生成装置、教師データ生成方法、記録装置及び記録方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/894,453 Continuation US20220405622A1 (en) 2020-02-26 2022-08-24 Training data generation device, recording method, and inference device

Publications (1)

Publication Number Publication Date
WO2021171444A1 true WO2021171444A1 (ja) 2021-09-02

Family

ID=77490032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/007868 WO2021171444A1 (ja) 2020-02-26 2020-02-26 教師データ生成装置、教師データ生成方法、記録装置及び記録方法

Country Status (2)

Country Link
US (1) US20220405622A1 (ja)
WO (1) WO2021171444A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024005074A1 (ja) * 2022-06-30 2024-01-04 本田技研工業株式会社 画像処理装置、画像処理方法、画像処理システム、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013152423A (ja) * 2011-12-26 2013-08-08 Canon Inc 画像処理装置、その制御方法、画像処理システム、及びプログラム
JP2019117577A (ja) * 2017-12-27 2019-07-18 本田技研工業株式会社 プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013152423A (ja) * 2011-12-26 2013-08-08 Canon Inc 画像処理装置、その制御方法、画像処理システム、及びプログラム
JP2019117577A (ja) * 2017-12-27 2019-07-18 本田技研工業株式会社 プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024005074A1 (ja) * 2022-06-30 2024-01-04 本田技研工業株式会社 画像処理装置、画像処理方法、画像処理システム、およびプログラム

Also Published As

Publication number Publication date
US20220405622A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
US11948282B2 (en) Image processing apparatus, image processing method, and storage medium for lighting processing on image using model data
US11051716B2 (en) Method and apparatus for jaundice diagnosis based on an image
US10945637B2 (en) Image based jaundice diagnosing method and apparatus and image based jaundice diagnosis assisting apparatus
US9814385B2 (en) Ophthalmoscope
WO2018003503A1 (ja) 画像処理装置および画像処理方法、並びに医療用撮像システム
US20060056733A1 (en) Image comparing method, computer program product, and image comparing apparatus
CN111597938A (zh) 活体检测、模型训练方法及装置
JP6273640B2 (ja) 撮影画像表示装置
JPWO2019073814A1 (ja) 焦点検出装置および方法、並びにプログラム
JP7387859B2 (ja) 医用画像処理装置、プロセッサ装置、内視鏡システム、医用画像処理装置の作動方法及びプログラム
KR20110094037A (ko) 비디오 적외선 망막 이미지 스캐너
CN113208567A (zh) 多光谱成像系统、成像方法和存储介质
CN106714651A (zh) 评价值计算装置以及电子内窥镜系统
JP2018163648A (ja) 画像処理装置、画像処理方法、及びプログラム
CN111784686A (zh) 一种内窥镜出血区域的动态智能检测方法、系统及可读存储介质
CN112243091A (zh) 三维内窥镜系统、控制方法和存储介质
JPWO2020067100A1 (ja) 医用画像処理装置、プロセッサ装置、医用画像処理方法、及びプログラム
JP2015005237A (ja) 検出装置、学習装置、検出方法、学習方法及びプログラム
WO2021171444A1 (ja) 教師データ生成装置、教師データ生成方法、記録装置及び記録方法
TWI255429B (en) Method for adjusting image acquisition parameters to optimize objection extraction
JP2022142428A (ja) 機械学習用教師データ生成システム、機械学習用教師データ生成方法及びプログラム
CN107405050A (zh) 内窥镜系统以及评价值计算装置
JP6896811B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP6033006B2 (ja) 画像処理装置、その制御方法、および制御プログラム、並びに撮像装置
CN114845624A (zh) 医用图像处理装置、医用图像处理方法及程序

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20921944

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20921944

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP