WO2021220822A1 - 画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル - Google Patents

画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル Download PDF

Info

Publication number
WO2021220822A1
WO2021220822A1 PCT/JP2021/015555 JP2021015555W WO2021220822A1 WO 2021220822 A1 WO2021220822 A1 WO 2021220822A1 JP 2021015555 W JP2021015555 W JP 2021015555W WO 2021220822 A1 WO2021220822 A1 WO 2021220822A1
Authority
WO
WIPO (PCT)
Prior art keywords
endoscopic
image
esophagus
iodine
unstained
Prior art date
Application number
PCT/JP2021/015555
Other languages
English (en)
French (fr)
Inventor
洋平 池之山
翔 城間
敏之 由雄
智裕 多田
Original Assignee
公益財団法人がん研究会
株式会社Aiメディカルサービス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 公益財団法人がん研究会, 株式会社Aiメディカルサービス filed Critical 公益財団法人がん研究会
Priority to JP2022517627A priority Critical patent/JPWO2021220822A1/ja
Priority to CN202180030877.3A priority patent/CN115460968A/zh
Priority to US17/997,028 priority patent/US20230255467A1/en
Publication of WO2021220822A1 publication Critical patent/WO2021220822A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/273Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the upper alimentary canal, e.g. oesophagoscopes, gastroscopes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000094Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope extracting biological structures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000096Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00043Operational features of endoscopes provided with output arrangements
    • A61B1/00045Display arrangement
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00043Operational features of endoscopes provided with output arrangements
    • A61B1/00045Display arrangement
    • A61B1/0005Display arrangement combining images e.g. side-by-side, superimposed or tiled
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/273Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the upper alimentary canal, e.g. oesophagoscopes, gastroscopes
    • A61B1/2733Oesophagoscopes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00043Operational features of endoscopes provided with output arrangements
    • A61B1/00055Operational features of endoscopes provided with output arrangements for alerting the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30092Stomach; Gastric
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Definitions

  • the present invention relates to a diagnostic imaging apparatus, a diagnostic imaging method, a diagnostic imaging program, and a trained model.
  • Esophageal cancer is the eighth most common cancer in the world among all carcinomas, and has the sixth highest cancer-related mortality rate, with more than 500,000 deaths annually.
  • squamous cell carcinoma of the esophagus is common in South America and Asia (including Japan).
  • Advanced esophageal cancer has a poor prognosis, but superficial esophageal cancer can be treated with minimally invasive treatment such as endoscopic resection if detected early, and the prognosis is also good. Therefore, early detection of superficial esophageal cancer is the most important issue.
  • ESD endoscopic submucosal dissection
  • NBI Narrow Band Imaging, narrow-band imaging
  • esophageal cancer has little change in color tone and develops as a flat lesion with almost no unevenness, and it is difficult to recognize such findings as lesions without skill.
  • the background mucosa is often accompanied by inflammation, inexperienced endoscopists tend to confuse the inflamed mucosa with esophageal cancer, making it even more difficult to determine cancer lesions. In this way, it is still difficult to properly diagnose esophageal cancer endoscopically, even if it is generally called the gastrointestinal tract, even if it is compared with colon cancer, which is characterized by polyps. Diagnostic technology is required in the field of endoscopic diagnosis.
  • iodine-unstained zones are associated with heavy smoking and drinking, and low intake of green and yellow vegetables, and multiple iodine-unstained zones present in the esophagus are caused by mutations in the cancer suppressor gene TP53 in the background epithelium.
  • subjects with multiple iodine-unstained zones are at high risk of esophageal cancer and head and neck cancer. Therefore, observation using iodine staining is performed by endoscopy for esophageal cancer. Suitable for precise screening of head and neck cancer.
  • iodine staining has problems such as chest discomfort (side effects) and prolonged operation time, so it is not realistic to use it in all cases, and cases with a history of esophageal cancer and head and neck cancer. It is desirable to select using a very limited number of high-risk cases, such as cases with complications. Further rapid and useful methods such as a high-precision test method that does not require iodine staining or a test method that combines iodine staining as needed are required for early detection of esophageal cancer.
  • AI Artificial Intelligence
  • CNN convolutional neural network
  • CAD Computer-aided diagnosis
  • Image judgment technology by deep learning in the medical field is various reports that AI supports the diagnosis of specialists such as radiological image diagnosis, skin cancer classification, histological classification of pathological specimens, colon lesion detection by super-magnifying endoscopy, etc. There is. In particular, it has been proved that AI can obtain the same accuracy as a specialist at the microscopic endoscopy level (see Non-Patent Document 1). In addition, in dermatology, it has been announced that AI with a deep learning function exhibits the same diagnostic imaging ability as a specialist (see Non-Patent Document 2), and patent documents using various machine learning methods (patents). (See References 1 and 2) also exists.
  • AI's diagnostic imaging ability in the medical field is comparable to that of specialists in some areas, but AI's diagnostic imaging ability is used to diagnose esophageal cancer with high accuracy in real time.
  • the technology has not yet been introduced in the actual medical field (actual clinical practice), and it is expected that it will be put into practical use at an early stage in the future.
  • cancer diagnostic imaging criteria based on the characteristics of the cancer tissue, such as morphological characteristics and tissue-derived biochemical biomarkers and cell biological reactions, are essential, so endoscopy is used. Even if it is said to be a diagnosis of gastrointestinal cancer, if the organs are different, the AI diagnosis program also requires the design of techniques and criteria optimized for each organ.
  • flat esophageal cancer has a different form from colorectal cancer, which is easy to detect with raised polyps, and is more difficult and requires new ingenuity and technology. Since there is a high possibility that the accuracy and judgment of the results obtained will differ depending on the experience of the operator of medical equipment, some of the ingenuity and technology include not only the functions related to image processing of endoscopes, but also the equipment operator. Methods of optimizing the operation of an endoscopist should also be considered. That is, the extraction of the unique characteristic amount of each gastrointestinal cancer (esophageal cancer, gastric cancer, colorectal cancer, etc.) and the judgment criteria of the pathological level are different, and the design of the AI program that matches the characteristics of each cancer type.
  • gastrointestinal cancer esophageal cancer, gastric cancer, colorectal cancer, etc.
  • An object of the present invention is to provide a diagnostic imaging apparatus, a diagnostic imaging method, and a diagnostic imaging program capable of improving the diagnostic accuracy of esophageal cancer in esophageal endoscopy.
  • the diagnostic imaging apparatus is An endoscopic image acquisition unit that acquires an endoscopic moving image of the subject's esophagus, Estimation to estimate the position of esophageal cancer present in the acquired endoscopic moving image using a convolutional neural network trained as teacher data from an esophageal cancer image that images the esophagus in which esophageal cancer is present Department and A display control unit that superimposes and displays the estimated position of esophageal cancer and the degree of certainty that indicates the possibility that esophageal cancer exists at the position on the endoscopic moving image. To be equipped.
  • the diagnostic imaging method for acquiring endoscopic moving images of the subject's esophagus, Estimation to estimate the position of esophageal cancer present in the acquired endoscopic moving image using a convolutional neural network trained as teacher data from an esophageal cancer image that images the esophagus in which esophageal cancer is present
  • the diagnostic imaging program On the computer Endoscopic image acquisition processing to acquire endoscopic moving images of the subject's esophagus, Estimation to estimate the position of esophageal cancer present in the acquired endoscopic moving image using a convolutional neural network trained as teacher data from an esophageal cancer image that images the esophagus in which esophageal cancer is present Processing and Display control processing that superimposes and displays the estimated position of esophageal cancer and the degree of certainty that indicates the possibility that esophageal cancer exists at that position on the endoscopic moving image. To execute.
  • the trained model according to the present invention A non-iodine-stained image of the esophagus in which multiple iodine-unstained zones are present without iodine staining, and a non-iodine-stained image of the esophagus in which multiple iodine-unstained zones are not present. It is obtained by training a convolutional neural network using a non-multiple iodine-unstained esophageal image as training data. The computer is made to function to estimate the relationship between the endoscopic image of the subject's esophagus and esophageal cancer and output the estimation result.
  • FIGS. 7A, 7B, and 7C are diagrams showing an example of an endoscopic image of the esophagus when iodine solution is sprayed into the lumen of the esophagus in the second embodiment. It is a figure which shows the characteristic of the subject and the lesion (esophageal cancer) about the endoscopic moving image (low velocity) used for the data set for evaluation test. It is a figure which shows the characteristic of the subject and the lesion (esophageal cancer) about the endoscopic moving image (high speed) used for the data set for evaluation test.
  • 14A, 14B, 14C, 14D, 14E, 14F, 14G, 14H, 14I are diagrams showing various endoscopic findings in endoscopic images. It is a figure which shows the sensitivity, specificity, positive predictive value, negative predictive value and correct diagnosis rate of a diagnostic imaging apparatus, an endoscopist. A diagram showing the evaluation result of the presence or absence of endoscopic findings in an endoscopic image having multiple iodine unstained bands and the evaluation result of the presence or absence of endoscopic findings in an endoscopic image without multiple iodine unstained bands. Is. It is a figure which shows the comparison result of the image diagnostic apparatus and endoscopic findings about whether or not it is possible to correctly diagnose the existence of multiple iodine unstained bands in an endoscopic image (sensitivity). Incidence of squamous cell carcinoma of the esophagus and squamous cell carcinoma of the head and neck and the incidence per 100 man-years It is a figure showing.
  • the first embodiment comprises a real-time moving image diagnostic device, a diagnostic imaging method, and a diagnostic imaging program
  • the second embodiment is trained with teacher data relating to multiple iodine-unstained zones by iodine staining of the esophageal lumen. It consists of an image diagnosis device using iodine, an image diagnosis method, and an image diagnosis program.
  • the first embodiment or the second embodiment may be performed alone, or the first embodiment and the second embodiment may be combined.
  • FIG. 1 is a block diagram showing an overall configuration of the diagnostic imaging apparatus 100.
  • FIG. 2 is a diagram showing an example of the hardware configuration of the diagnostic imaging apparatus 100 according to the first embodiment.
  • the diagnostic imaging apparatus 100 is an endoscopic image possessed by a convolutional neural network (CNN) in an endoscopic examination of a digestive organ (esophagus in the present embodiment) by a doctor (for example, an endoscopist). Diagnose esophageal cancer with real-time video using the diagnostic imaging capabilities of.
  • An endoscopic imaging device 200 and a display device 300 are connected to the diagnostic imaging device 100.
  • the endoscope imaging device 200 is, for example, an electronic endoscope (also referred to as a videoscope) having a built-in imaging means, a camera-mounted endoscope in which a camera head having a built-in imaging means is attached to an optical endoscope, or the like. be.
  • the endoscopic imaging device 200 is inserted into the digestive organ, for example, through the mouth or nose of the subject, and images a diagnosis target site in the digestive organ.
  • the endoscope imaging device 200 irradiates the esophagus of the subject with white light or narrow band light (for example, narrow band light for NBI) in response to a doctor's operation (for example, button operation).
  • a doctor's operation for example, button operation.
  • the part to be diagnosed in the esophagus is imaged as an endoscopic moving image.
  • the endoscopic moving image is composed of a plurality of endoscopic images that are continuous in time.
  • the endoscope imaging device 200 outputs the endoscopic image data D1 representing the captured endoscopic moving image to the diagnostic imaging device 100.
  • the display device 300 is, for example, a liquid crystal display, and displays the endoscopic moving image and the determination result image output from the diagnostic imaging device 100 so that the doctor can identify them.
  • the diagnostic imaging apparatus 100 has a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, and an external storage device (for example, a flash memory) as main components. It is a computer equipped with 104, a communication interface 105, a GPU (Graphics Processing Unit) 106, and the like.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an external storage device for example, a flash memory
  • Each function of the diagnostic imaging apparatus 100 includes, for example, a control program (for example, an diagnostic imaging program) in which the CPU 101 and GPU 106 are stored in a ROM 102, a RAM 103, an external storage device 104, and various data (for example, endoscopic image data, learning). It is realized by referring to the training data, the model data of the convolutional neural network (structural data, learned weight parameters, etc.), and the RAM 103 functions as, for example, a data work area or a temporary save area.
  • a control program for example, an diagnostic imaging program
  • the CPU 101 and GPU 106 are stored in a ROM 102, a RAM 103, an external storage device 104, and various data (for example, endoscopic image data, learning). It is realized by referring to the training data, the model data of the convolutional neural network (structural data, learned weight parameters, etc.), and the RAM 103 functions as, for example, a data work area or a temporary save area.
  • diagnostic imaging apparatus 100 may be realized by processing by the DSP (Digital Signal Processor) instead of or in combination with the processing by the CPU 101 and GPU 106.
  • DSP Digital Signal Processor
  • a part or all of each function may be realized by processing by a dedicated hardware circuit in place of or in combination with processing by software.
  • the diagnostic imaging apparatus 100 includes an endoscopic image acquisition unit 10, an estimation unit 20, and a display control unit 30.
  • the learning device 40 has a function of generating model data (corresponding to the "learned model” of the present invention) of the convolutional neural network used in the diagnostic imaging device 100.
  • the display control unit 30 also functions as the "warning output control unit” of the present invention.
  • Endoscopic image acquisition unit The endoscope image acquisition unit 10 acquires the endoscope image data D1 output from the endoscope imaging device 200. Then, the endoscopic image acquisition unit 10 outputs the acquired endoscopic image data D1 to the estimation unit 20. When the endoscope image acquisition unit 10 acquires the endoscope image data D1, the endoscope image acquisition unit 10 may directly acquire the endoscope image data D1 or the endoscope image data stored in the external storage device 104. Endoscopic image data D1 provided via D1 or an internet line may be acquired.
  • the estimation unit 20 uses a convolutional neural network to display a lesion in the endoscopic moving image represented by the endoscopic image data D1 output from the endoscopic image acquisition unit 10 (in the present embodiment, the esophagus is formed. The existence of) is estimated and the estimation result is output. Specifically, the estimation unit 20 determines the lesion name (name) and lesion position (position) of the lesion existing in the endoscopic moving image and the certainty (also referred to as accuracy) of the lesion name and lesion position. presume. Then, the estimation unit 20 displays the endoscopic image data D1 output from the endoscopic image acquisition unit 10 and the estimation result data D2 representing the estimation result of the lesion name, the lesion position, and the certainty in the display control unit 30. Output.
  • the endoscopic image whose certainty is a predetermined value (for example, 0.5) or more in the endoscopic moving image represented by the endoscopic image data D1 is for a predetermined time (for example, 0). If a predetermined number (for example, 3) is present within .5 seconds), it is presumed that a lesion (esophageal cancer) is present in the endoscopic moving image.
  • the predetermined number is set so as to increase as the predetermined value decreases.
  • the estimation unit 20 estimates the probability score as an index showing the certainty of the lesion name and the lesion position.
  • the probability score is represented by a value greater than 0 and less than or equal to 1. The higher the probability score, the higher the certainty of the lesion name and lesion location.
  • the probability score is an example of an index indicating the degree of certainty of the lesion name and the lesion position, and an index of any other aspect may be used.
  • the probability score may be represented by a value of 0% to 100%, or may be represented by any of several levels.
  • a convolutional neural network is a type of feedforward neural network and is based on knowledge in the structure of the visual cortex of the brain. Basically, it has a structure in which a convolution layer responsible for extracting local features of an image and a pooling layer (subsampling layer) that summarizes features for each local area are repeated. According to each layer of the convolutional neural network, it possesses multiple neurons (Neurons), and each neuron is arranged so as to correspond to the visual cortex. The basic function of each neuron consists of signal input and output. However, when transmitting signals between neurons in each layer, instead of outputting the input signal as it is, a coupling load is set for each input, and the sum of the weighted inputs is each.
  • a signal is output to the neuron in the next layer.
  • the connection load between these neurons is calculated from the training data. This makes it possible to estimate the output value by inputting real-time data.
  • convolutional neural network models include GoogLeNet, ResNet, and SENEt, but the algorithm for constructing the convolutional neural network is not particularly limited as long as it is a convolutional neural network suitable for this purpose.
  • FIG. 3 is a diagram showing a configuration of a convolutional neural network according to the present embodiment.
  • the model data (structural data, learned weight parameters, etc.) of the convolutional neural network is stored in the external storage device 104 together with the diagnostic imaging program.
  • the convolutional neural network has, for example, a feature extraction unit Na and an identification unit Nb.
  • the feature extraction unit Na performs a process of extracting image features from an input image (specifically, an endoscopic image constituting an endoscopic moving image represented by the endoscopic image data D1).
  • the identification unit Nb outputs an estimation result related to the image from the image features extracted by the feature extraction unit Na.
  • the feature extraction unit Na is configured by hierarchically connecting a plurality of feature amount extraction layers Na1, Na2, and so on.
  • Each feature amount extraction layer Na1, Na2 ... Provides a convolution layer, an activation layer, and a pooling layer.
  • the feature amount extraction layer Na1 of the first layer scans the input image for each predetermined size by raster scanning. Then, the feature amount extraction layer Na1 extracts the feature amount contained in the input image by performing the feature amount extraction process on the scanned data by the convolutional layer, the activation layer and the pooling layer.
  • the feature amount extraction layer Na1 of the first layer extracts a relatively simple single feature amount such as a linear feature amount extending in the horizontal direction and a linear feature amount extending in the diagonal direction.
  • the feature amount sampling layer Na2 of the second layer scans an image (also referred to as a feature map) input from the feature amount sampling layer Na1 of the previous layer at predetermined size intervals by, for example, raster scanning. Then, the feature amount extraction layer Na2 extracts the feature amount contained in the input image by similarly performing the feature amount extraction process by the convolutional layer, the activation layer and the pooling layer on the scanned data.
  • the feature amount extraction layer Na2 of the second layer is integrated with reference to the positional relationship of a plurality of feature amounts extracted by the feature amount extraction layer Na1 of the first layer, so that it is a higher-dimensional complex. Extract features.
  • the feature amount sampling layers after the second layer perform the same processing as the feature amount extraction layer Na2 of the second layer. do. Then, the output of the feature amount sampling layer of the final layer (each value in the map of the plurality of feature maps) is input to the identification unit Nb.
  • the identification unit Nb is composed of, for example, a multi-layer perceptron in which a plurality of fully connected layers (Fully Connected) are hierarchically connected.
  • the fully connected layer on the input side of the identification unit Nb is fully connected to each value in the map of a plurality of feature maps acquired from the feature extraction unit Na, and the product-sum operation is performed while changing the weighting coefficient for each value. Go and output.
  • the fully connected layer of the next layer of the identification unit Nb is fully coupled to the values output by each element of the fully connected layer of the previous layer, and the product-sum operation is performed while applying different weighting factors to each value. Then, in the final stage of the identification unit Nb, the lesion name and lesion position of the lesion existing in the image (endoscopic image) input to the feature extraction unit Na, and the probability score (confidence) of the lesion name and lesion position.
  • a layer for example, a softmax function, etc. that outputs a degree
  • the convolutional neural network is desired from the input endoscopic image by performing learning processing using reference data (hereinafter referred to as "teacher data") marked in advance by an experienced endoscopist.
  • the estimation function can be possessed so that the estimation result (here, the lesion name, the lesion position and the probability score) can be output.
  • the estimation result here, the lesion name, the lesion position and the probability score
  • over-learning can be prevented and performance generalized for esophageal cancer diagnosis. It is possible to make an AI program having.
  • the convolutional neural network in the present embodiment receives the endoscopic image data D1 as an input (Input in FIG. 3), and is an image of the endoscopic image constituting the endoscopic moving image represented by the endoscopic image data D1. It is configured to output the lesion name, the lesion position, and the probability score according to the characteristics as the estimation result data D2 (Input in FIG. 3).
  • the convolutional neural network has a configuration in which information related to the subject's age, gender, region, or medical history can be input in addition to the endoscopic image data D1 (for example, an input element of the identification unit Nb). It may be provided as). Since the importance of real-world data in clinical practice is particularly recognized, it is possible to develop a more useful system in clinical practice by adding such information on subject attributes. That is, the characteristics of the endoscopic image are considered to have a correlation with information related to the subject's age, gender, region, medical history, family medical history, etc. By referring to the subject attribute information such as age in addition to D1, the lesion name and the lesion position can be estimated with higher accuracy. Since the pathophysiology of the disease may differ depending on the region and race, this method should be adopted especially when the present invention is used internationally.
  • the estimation unit 20 also performs processing for converting the size and aspect ratio of the endoscope image, color division processing for the endoscope image, and color conversion processing for the endoscope image as preprocessing. , Color extraction processing, brightness gradient extraction processing, and the like may be performed. In order to prevent overfitting and improve accuracy, it is also preferable to adjust the weighting.
  • the display control unit 30 has a lesion name and a lesion represented by the estimation result data D2 output from the estimation unit 20 on the endoscopic moving image represented by the endoscopic image data D1 output from the estimation unit 20. A judgment result image for superimposing and displaying the position and probability score is generated. Then, the display control unit 30 outputs the endoscopic image data D1 and the determination result image data D3 representing the generated determination result image to the display device 300.
  • a digital image processing system such as structural enhancement, color enhancement, difference processing, high contrast, and high definition of the lesion part of the endoscopic moving image is connected to understand and judge the observer (for example, a doctor). It can also be displayed with some processing to help.
  • the display device 300 superimposes and displays the determination result image represented by the determination result image data D3 on the endoscopic moving image represented by the endoscope image data D1 output from the display control unit 30.
  • the endoscopic moving image and the determination result image displayed on the display device 300 are used for real-time diagnostic assistance and diagnostic support by a doctor.
  • the display control unit 30 when the probability score is equal to or higher than a certain threshold value (for example, 0.4), the display control unit 30 displays a rectangular frame indicating the lesion position, the lesion name, and the probability score on the endoscopic moving image. Overlay display.
  • a certain threshold for example, 0.4
  • the display control unit 30 sets the probability score on the endoscopic moving image. The rectangular frame indicating the lesion position, the lesion name, and the probability score are not displayed. That is, the display control unit 30 changes the display mode of the determination result image on the endoscopic moving image according to the probability score represented by the estimation result data D2 output from the estimation unit 20.
  • the display control unit 30 controls the display device 300 and emits a screen for displaying the endoscopic moving image.
  • a warning is displayed and output by causing the lesion to blink or blinking the rectangular area of the lesion determination part. This can effectively alert the doctor that the lesion is present in the endoscopic moving image.
  • a warning sound may be sounded (output) from a speaker (not shown) to output a warning. Further, at this time, it is also possible to independently calculate and display the determination probability and the estimated probability.
  • FIG. 4 is a diagram showing an example in which the determination result image is superimposed and displayed on the endoscopic moving image.
  • FIG. 4 is an endoscopic moving image of a diagnosis target site in the esophagus of a subject in a state where the esophagus of the subject is irradiated with narrow-band light.
  • a rectangular frame 50 indicating the lesion position (range) estimated by the estimation unit 20 is displayed as the determination result image.
  • the plurality of (for example, three) endoscopic images displayed on the left side of FIG. 4 capture an endoscopic image having a certainty of a predetermined value (for example, 0.5) or more in the endoscopic moving image.
  • the convolutional neural network of the estimation unit 20 estimates the lesion position, the lesion name, and the probability score from the endoscopic image data D1 (specifically, the endoscopic image constituting the endoscopic moving image).
  • the teacher data D4 stored in an external storage device (not shown) is input, and the convolutional neural network of the learning device 40 is subjected to learning processing.
  • the learning device 40 irradiates the esophagus of a plurality of subjects with white light or narrow band light in the endoscopy of the esophagus performed in the past, and images the esophagus with the endoscopic imaging device 200.
  • Perform processing Specifically, the learning device 40 reduces the error (also referred to as loss) of the output data with respect to the correct answer value (fault name and lesion position) when the endoscopic image is input to the convolutional neural network.
  • the learning device 40 uses an endoscopic image (corresponding to the “esophageal cancer image” of the present invention) in which a lesion (esophageal cancer) is reflected, that is, an existing endoscopic image (corresponding to the “esophageal cancer image” of the present invention) as teacher data D4. And perform learning processing.
  • an endoscopic image corresponding to the “esophageal cancer image” of the present invention
  • an existing endoscopic image corresponding to the “esophageal cancer image” of the present invention
  • Endoscopic images as teacher data D4 in learning processing mainly use the abundant database of Japan's top-class cancer treatment hospitals, and have abundant diagnosis and treatment experience. Examined and selected all the images in detail, and marked the location of the lesion (esophageal cancer) by precise manual treatment.
  • teacher data D4 endoscopic image data
  • an expert endoscopist with abundant experience can directly connect to the diagnostic accuracy of the diagnostic imaging apparatus 100.
  • a sufficient number of cases with image selection, lesion identification, and feature extraction marking is an extremely important process.
  • Such high-precision data cleansing work and use of high-quality reference data provide highly reliable AI program output results.
  • the teacher data D4 of the endoscopic image may be pixel value data or data that has undergone a predetermined color conversion process or the like. Further, as the pretreatment, a texture feature, a shape feature, an uneven state, a spread feature, etc., which are characteristic of the cancerous part, may be extracted from a comparison between an inflammatory image and a non-inflammatory image. Further, the teacher data D4 may perform learning processing in association with information related to the subject's age, gender, region or medical history, family medical history, etc., in addition to the endoscopic image data.
  • the algorithm when the learning device 40 performs the learning process may be a known method.
  • the learning device 40 uses, for example, a known backpropagation (backpropagation method) to perform learning processing on a convolutional neural network and adjust network parameters (weighting coefficient, bias, etc.).
  • backpropagation method backpropagation method
  • the model data (structural data, learned weight parameters, etc.) of the convolutional neural network subjected to the learning process by the learning device 40 is stored in the external storage device 104 together with the diagnostic imaging program, for example.
  • Examples of known convolutional neural network models include GoogleLeNet, ResNet, and SENEt.
  • the diagnostic imaging apparatus 100 includes an endoscopic image acquisition unit 10 that acquires an endoscopic moving image of the esophagus of a subject and an esophagus in which esophageal cancer is present. It is provided with an estimation unit 20 that estimates the presence of esophageal cancer in the acquired endoscopic moving image using a convolutional neural network trained from the captured esophageal cancer image as teacher data, and outputs the estimation result. ..
  • the convolutional neural network is obtained in advance for each of the plurality of subjects and the endoscopic images (esophageal cancer images) of the plurality of esophagus (digestive organs) obtained in advance for each of the plurality of subjects. It is learned based on the lesion name of the lesion (esophageal cancer) and the definite judgment result of the lesion position. Therefore, it is possible to estimate the lesion name and lesion position of the esophagus of a new subject in a short time and with an accuracy comparable to that of a substantially experienced endoscopist. Therefore, in endoscopy of the esophagus, esophageal cancer can be diagnosed in real time by using the diagnostic ability of the endoscopic moving image possessed by the convolutional neural network according to the present embodiment.
  • the diagnostic imaging apparatus 100 can also be used as a diagnostic support tool that directly supports the diagnosis of endoscopic moving images by an endoscopist in a laboratory.
  • the diagnostic imaging apparatus 100 can be used as a central diagnostic support service that supports the diagnosis of endoscopic moving images transmitted from a plurality of laboratories, or can be remotely controlled via an Internet line in a remote institution. It can also be used as a diagnostic support service to support the diagnosis of endoscopic moving images.
  • the diagnostic imaging apparatus 100 can also be operated on the cloud.
  • these endoscopic moving images and AI judgment results can be directly converted into a video library and used as teaching materials and materials for education and training and research.
  • FIG. 5 is a block diagram showing the overall configuration of the diagnostic imaging apparatus 100A.
  • the diagnostic imaging apparatus 100A uses the diagnostic imaging capability of the endoscopic image possessed by the convolutional neural network in the endoscopy of the digestive organs (esophagus in the present embodiment) by a doctor (for example, an endoscopist). , Estimate the presence or absence of multiple iodine-unstained zones in the endoscopic image of the subject's esophagus.
  • the multiple iodine-unstained zone is a portion that shows a yellowish white color without being stained brown when the iodine solution is sprayed into the lumen of the esophagus.
  • An endoscopic imaging device 200A and a display device 300A are connected to the diagnostic imaging device 100A.
  • the endoscope imaging device 200A is, for example, an electronic endoscope (also referred to as a videoscope) having a built-in imaging means, a camera-mounted endoscope in which a camera head having a built-in imaging means is attached to an optical endoscope, or the like. be.
  • the endoscopic imaging device 200A is inserted into the digestive tract from, for example, the mouth or nose of a subject, and images a diagnosis target site in the digestive tract.
  • the endoscope imaging device 200A irradiates the esophagus of the subject with white light or narrow band light (for example, narrow band light for NBI) in response to a doctor's operation (for example, button operation).
  • a doctor's operation for example, button operation.
  • the site to be diagnosed in the esophagus is imaged as an endoscopic image.
  • the endoscope imaging device 200A outputs the endoscopic image data D1 representing the captured endoscopic image to the diagnostic imaging device 100A.
  • the display device 300A is, for example, a liquid crystal display, and displays the endoscopic image and the determination result image output from the diagnostic imaging device 100A so that the doctor can identify them.
  • the diagnostic imaging apparatus 100A has a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, and external storage as main components.
  • a computer including a device (for example, a flash memory) 104, a communication interface 105, a GPU (Graphics Processing Unit) 106, and the like (see FIG. 2).
  • Each function of the diagnostic imaging apparatus 100A includes, for example, a control program (for example, an diagnostic imaging program) in which the CPU 101 and GPU 106 are stored in the ROM 102, RAM 103, an external storage device 104, and various data (for example, endoscopic image data, a teacher). It is realized by referring to data, model data of convolutional neural network (structural data, trained weight parameters, etc.).
  • the RAM 103 functions as, for example, a data work area or a temporary save area.
  • diagnostic imaging apparatus 100A may be realized by processing by the DSP (Digital Signal Processor) instead of or in combination with the processing by the CPU 101 and GPU 106.
  • DSP Digital Signal Processor
  • a part or all of each function may be realized by processing by a dedicated hardware circuit in place of or in combination with processing by software.
  • the diagnostic imaging apparatus 100A includes an endoscopic image acquisition unit 10A, an estimation unit 20A, and a display control unit 30A.
  • the learning device 40A has a function of generating model data (corresponding to the "learned model" of the present invention) of the convolutional neural network used in the diagnostic imaging device 100A.
  • Endoscopic image acquisition unit The endoscope image acquisition unit 10A acquires the endoscope image data D1 output from the endoscope imaging device 200A. Then, the endoscopic image acquisition unit 10A outputs the acquired endoscopic image data D1 to the estimation unit 20A. When the endoscope image acquisition unit 10A acquires the endoscope image data D1, the endoscope image acquisition unit 10A may directly acquire the endoscope image data D1 from the endoscope image pickup device 200A, or the endoscope image data stored in the external storage device 104. Endoscopic image data D1 provided via D1 or an internet line may be acquired.
  • the estimation unit 20A estimates the presence or absence of multiple iodine unstained bands in the endoscopic image represented by the endoscopic image data D1 output from the endoscopic image acquisition unit 10A using a convolutional neural network. , Output the estimation result. Specifically, the estimation unit 20A estimates the certainty (also referred to as accuracy) of the presence or absence of multiple iodine unstained zones in the endoscopic image. Then, the estimation unit 20A displays the endoscopic image data D1 output from the endoscopic image acquisition unit 10A and the estimation result data D2 representing the estimation result relating to the certainty of the presence or absence of the multiple iodine unstained zone. Output to the control unit 30A.
  • the estimation unit 20A estimates the probability score as an index indicating the degree of certainty of the presence or absence of the multiple iodine unstained zone.
  • the probability score is represented by a value greater than 0 and less than or equal to 1. The higher the probability score, the higher the certainty of the presence or absence of multiple iodine unstained zones.
  • the probability score is an example of an index indicating the degree of certainty of the presence or absence of a multiple iodine unstained zone, and an index of any other aspect may be used.
  • the probability score may be represented by a value of 0% to 100%, or may be represented by any of several levels.
  • a convolutional neural network is a type of feedforward neural network and is based on knowledge in the structure of the visual cortex of the brain. Basically, it has a structure in which a convolution layer responsible for extracting local features of an image and a pooling layer (subsampling layer) that summarizes features for each local area are repeated. According to each layer of the convolutional neural network, it possesses multiple neurons (Neurons), and each neuron is arranged so as to correspond to the visual cortex. The basic function of each neuron consists of signal input and output.
  • FIG. 6 is a diagram showing a configuration of a convolutional neural network according to the present embodiment.
  • the model data (structural data, learned weight parameters, etc.) of the convolutional neural network is stored in the external storage device 104 together with the diagnostic imaging program.
  • the convolutional neural network has, for example, a feature extraction unit Na and an identification unit Nb.
  • the feature extraction unit Na performs a process of extracting an image feature from an input image (specifically, an endoscopic image represented by the endoscopic image data D1).
  • the identification unit Nb outputs an estimation result related to the image from the image features extracted by the feature extraction unit Na.
  • the feature extraction unit Na is configured by hierarchically connecting a plurality of feature amount extraction layers Na1, Na2, and so on.
  • Each feature amount extraction layer Na1, Na2 ... Provides a convolution layer, an activation layer, and a pooling layer.
  • the feature amount extraction layer Na1 of the first layer scans the input image for each predetermined size by raster scanning. Then, the feature amount extraction layer Na1 extracts the feature amount contained in the input image by performing the feature amount extraction process on the scanned data by the convolutional layer, the activation layer and the pooling layer.
  • the feature amount extraction layer Na1 of the first layer extracts a relatively simple single feature amount such as a linear feature amount extending in the horizontal direction and a linear feature amount extending in the diagonal direction.
  • the feature amount sampling layer Na2 of the second layer scans an image (also referred to as a feature map) input from the feature amount sampling layer Na1 of the previous layer at predetermined size intervals by, for example, raster scanning. Then, the feature amount extraction layer Na2 extracts the feature amount contained in the input image by similarly performing the feature amount extraction process by the convolutional layer, the activation layer and the pooling layer on the scanned data.
  • the feature amount extraction layer Na2 of the second layer is integrated with reference to the positional relationship of a plurality of feature amounts extracted by the feature amount extraction layer Na1 of the first layer, so that it is a higher-dimensional complex. Extract features.
  • the feature amount sampling layers after the second layer perform the same processing as the feature amount extraction layer Na2 of the second layer. do. Then, the output of the feature amount sampling layer of the final layer (each value in the map of the plurality of feature maps) is input to the identification unit Nb.
  • the identification unit Nb is composed of, for example, a multi-layer perceptron in which a plurality of fully connected layers (Fully Connected) are hierarchically connected.
  • the fully connected layer on the input side of the identification unit Nb is fully connected to each value in the map of a plurality of feature maps acquired from the feature extraction unit Na, and the product-sum operation is performed while changing the weighting coefficient for each value. Go and output.
  • the fully connected layer of the next layer of the identification unit Nb is fully coupled to the values output by each element of the fully connected layer of the previous layer, and the product-sum operation is performed while applying different weighting factors to each value. Then, in the final stage of the identification unit Nb, a layer (for example, a certainty) that outputs a probability score (certainty) of the presence or absence of multiple iodine unstained bands in the image (endoscopic image) input to the feature extraction unit Na (for example). Softmax function, etc.) is provided.
  • the convolutional neural network is desired from the input endoscopic image by performing learning processing using reference data (hereinafter referred to as "teacher data") marked in advance by an experienced endoscopist.
  • the estimation function can be possessed so that the estimation result (here, the probability score of the presence or absence of the multiple iodine unstained zone) can be output.
  • overfitting can be prevented by covering typical pathological conditions, training with a sufficient amount of teacher data adjusted for bias, and adjusting the weight appropriately.
  • an AI program having generalized performance to the diagnosis of the presence or absence of multiple iodine-unstained zones in this implementation, a program having high-speed and high-precision diagnostic performance becomes possible.
  • the convolutional neural network in the present embodiment takes the endoscopic image data D1 as an input (Input in FIG. 6), and multiple iodine unstaining according to the image characteristics of the endoscopic image represented by the endoscopic image data D1. It is configured to output the probability score of the presence or absence of the band as the estimation result data D2 (Auto in FIG. 6).
  • the convolutional neural network has a configuration in which information related to the subject's age, gender, region, or medical history can be input in addition to the endoscopic image data D1 (for example, as an input element of the identification unit Nb). It may be provided). Since the importance of real-world data in clinical practice is particularly recognized, it is possible to develop a more useful system in clinical practice by adding such information on subject attributes. That is, the characteristics of the endoscopic image are considered to have a correlation with information related to the subject's age, gender, region, medical history, family medical history, etc. By referring to subject attribute information such as age in addition to D1, it is possible to estimate the presence or absence of multiple iodine-unstained zones with higher accuracy. Since the pathophysiology of the disease may differ depending on the region and race, this method should be adopted especially when the present invention is used internationally.
  • the estimation unit 20A performs processing for converting the size and aspect ratio of the endoscopic image, color dividing processing for the endoscopic image, and color conversion processing for the endoscopic image as preprocessing. , Color extraction processing, brightness gradient extraction processing, and the like may be performed. In order to prevent overfitting and improve accuracy, it is also preferable to adjust the weighting.
  • the display control unit 30A superimposes and displays the probability score represented by the estimation result data D2 output from the estimation unit 20A on the endoscope image represented by the endoscope image data D1 output from the estimation unit 20A. A judgment result image is generated. Then, the display control unit 30A outputs the endoscopic image data D1 and the determination result image data D3 representing the generated determination result image to the display device 300A.
  • a digital image processing system such as structural enhancement, color enhancement, difference processing, high contrast, and high definition of the endoscopic image is connected, and processing is performed to help the observer (for example, a doctor) understand and judge. Can also be displayed.
  • the display device 300A superimposes and displays the determination result image represented by the determination result image data D3 on the endoscope image represented by the endoscope image data D1 output from the display control unit 30A.
  • the endoscopic image and the determination result image displayed on the display device 300A are used, for example, for real-time diagnostic assistance and diagnostic support by a doctor.
  • the display control unit 30A controls the display device 300A and causes the screen for displaying the endoscopic image to emit light. Display and output a warning that there is a frequent iodine undyed zone. This can effectively alert the doctor to the presence of multiple iodine-unstained zones in the endoscopic image.
  • the diagnostic imaging apparatus 100A may output a warning by sounding (outputting) a warning sound from a speaker (not shown). Further, at this time, it is also possible to independently calculate and display the determination probability and the estimated probability.
  • the learning device 40A is illustrated so that the convolutional neural network of the estimation unit 20A can estimate the probability score of the presence or absence of multiple iodine unstained zones from the endoscopic image data D1 (specifically, the endoscopic image).
  • the teacher data D4 stored in the external storage device is input, and the learning process is performed on the convolutional neural network of the learning device 40A.
  • the learning device 40A is used by the endoscopic imaging device 200A in a state where the esophagus of a plurality of subjects is irradiated with white light or narrow band light in the endoscopy of the esophagus performed in the past.
  • Learning processing is performed using the captured endoscopic image and the presence / absence of multiple iodine-unstained bands in the endoscopic image determined in advance by iodine staining for confirmation as teacher data D4.
  • the learning device 40A reduces the error (also referred to as loss) of the output data with respect to the correct answer value (presence or absence of multiple iodine unstained bands) when the endoscopic image is input to the convolutional neural network.
  • the error also referred to as loss
  • the correct answer value presence or absence of multiple iodine unstained bands
  • the learning device 40A has an endoscopic image (corresponding to the "unstained band image” of the present invention) that images the esophagus in which the multiple iodine unstained zone actually exists, and an actually multiple iodine unstained band.
  • the learning process is performed using an endoscopic image (corresponding to the "non-stained band image” of the present invention) obtained by imaging the esophagus in which no band exists as the teacher data D4.
  • FIG. 7 is a diagram showing an example of an endoscopic image of the esophagus when iodine solution is sprayed into the lumen of the esophagus.
  • the number of multiple iodine unstained zones existing in the esophagus is 0, and the doctor determines that there are no multiple iodine unstained zones in the endoscopic image (grade A). Will be done.
  • the number of multiple iodine-unstained bands existing in the esophagus is 1 or more and 9 or less, and there are no multiple iodine-unstained bands in the endoscopic image (grade B). Determined by the doctor.
  • the endoscopic image shown in FIG. 7C has 10 or more multiple iodine-unstained zones in the esophagus, and multiple iodine-unstained zones are present in the endoscopic image (grade C). It is judged.
  • the endoscopic image processing device (imaging diagnostic device 100A) driven by a program trained by the teacher data of such a multiple iodine unstained zone can estimate the multiple iodine unstained zone without intentionally staining the iodine. Become.
  • Endoscopic images as teacher data D4 in learning processing mainly use the abundant database of Japan's top-class cancer treatment hospitals, and have abundant diagnosis and treatment experience. Examines all endoscopic images in detail to determine the presence or absence of multiple iodine-unstained zones.
  • the teacher data D4 endoscopic image data
  • the reference data which is the reference data
  • a sufficient number of cases for which image selection and determination of the presence or absence of multiple iodine-unstained zones have been performed is an extremely important process.
  • Such high-precision data cleansing work and use of high-quality reference data provide highly reliable AI program output results.
  • the teacher data D4 of the endoscopic image may be pixel value data or data that has undergone a predetermined color conversion process or the like.
  • a texture feature, shape feature, unevenness condition, spread feature, etc. which are characteristic of the presence or absence of multiple iodine undyed bands, are extracted from a comparison between the unstained band image and the non-stained band image. May be done.
  • the teacher data D4 may perform learning processing in association with information related to the subject's age, gender, region, pre-existing medical history, family medical history, etc., in addition to the endoscopic image data.
  • the algorithm when the learning device 40A performs the learning process may be a known method.
  • the learning device 40A uses, for example, known backpropagation (backpropagation) to perform learning processing on a convolutional neural network and adjust network parameters (weighting coefficient, bias, etc.).
  • backpropagation backpropagation
  • the model data (structural data, learned weight parameters, etc.) of the convolutional neural network subjected to the learning process by the learning device 40A is stored in the external storage device 104 together with the diagnostic imaging program, for example.
  • Examples of known convolutional neural network models include GoogleNet, ResNet, and SENEt.
  • the diagnostic imaging apparatus 100A includes an endoscopic image acquisition unit 10A that acquires an endoscopic image of the esophagus of a subject, and an esophagus in which multiple iodine-unstained zones are present.
  • the image of the esophagus in the multiple iodine-unstained zone and the image of the esophagus in the non-multiple iodine-unstained zone, which is an image of the esophagus in which the multiple iodine-unstained zone does not exist, are trained as teacher data.
  • It includes an estimation unit 20A that estimates the presence or absence of multiple iodine-unstained bands in the acquired endoscopic image using a convolutional neural network that detects bands, and outputs an estimation result. Since the presence of multiple iodine-unstained zones leads to a high risk of cancer, the diagnostic imaging apparatus 100A of the present embodiment can be used for diagnosis while having a risk determination function for esophageal cancer as it is.
  • the convolutional neural network is an endoscopic image of a plurality of esophagus (digestive organs) obtained in advance for each of a plurality of subjects (multiple iodine-unstained band esophagus image, non-multiple iodine-unstained band esophagus image). ) And the definite determination result of the presence or absence of the multiple iodine unstained zone obtained in advance for each of the plurality of subjects. Therefore, it is possible to estimate the presence or absence of multiple iodine-unstained zones in the endoscopic image of the esophagus of a new subject.
  • the diagnostic ability of the endoscopic image possessed by the convolutional neural network according to this embodiment is used, and it is an index of high-risk cases of esophageal cancer. Diagnosis can be made while predicting the presence or absence of an iodine-unstained zone. As a result, high-risk cases of esophageal cancer were identified in advance as well as iodine staining in advance, and esophageal cancer was efficiently and accurately detected without imposing the physical burden of iodine staining on the subjects.
  • the esophagus can be detected by real-time moving image. It is possible to efficiently determine the presence or absence of cancer.
  • the diagnostic imaging apparatus 100A can also be used as a diagnostic support tool that directly supports the diagnosis of endoscopic images by an endoscopist in a laboratory.
  • the diagnostic imaging apparatus 100A can be used as a central diagnostic support service that supports the diagnosis of endoscopic images transmitted from a plurality of laboratories, or can be remotely operated via an Internet line for endoscopic viewing at a remote institution. It can also be used as a diagnostic support service to support the diagnosis of mirror images.
  • the diagnostic imaging apparatus 100A can also be operated on the cloud.
  • these endoscopic images and AI judgment results can be directly converted into a video library and used as teaching materials and materials for education and training and research.
  • the technique of observing at low speed at high risk and at high speed at low risk by determining the low-speed mode and high-speed mode when inserting the endoscope.
  • the function that optimizes the operation on the part of the person facilitates more efficient and highly accurate diagnosis. That is, when inserting an endoscope into the esophagus, the magnitude of the risk of esophageal cancer can be determined from the detection status of multiple iodine-unstained zones.
  • the sensitivity can be displayed on the image device display unit, the operating conditions can be reset, and the diagnosis can be made under conditions suitable for observing the esophageal lumen.
  • the endoscope insertion speed during the examination can output a warning so that the difference between the reference insertion speed and the actual insertion speed becomes small. Appropriate observation conditions are maintained. If multiple iodine-unstained zones are not detected and the cancer risk is low, it is possible to pass through the esophageal lumen quickly, but in that case, lesions that are difficult for the endoscopist to notice are sufficiently detected by a real-time diagnostic imaging device. obtain. On the other hand, if multiple iodine-unstained zones are detected and the cancer risk is high, the endoscopist will observe in detail, and the endoscopist and the real-time diagnostic imaging device will miss the minute cancer lesions. No precise diagnosis can be made.
  • the endoscope can be used in the esophagus without imaging a still image or iodine staining.
  • the degree of esophageal cancer risk can be understood immediately by inserting it, and the accuracy of esophageal cancer risk decreases when the affected area is moved quickly, but the accuracy increases when the movement is slow. It is possible to make an efficient judgment at a speed far exceeding the judgment speed of. As a result, the subject can be examined in the shortest time and with the minimum necessary physical load.
  • each subject can be affected.
  • the endoscopic reference insertion speed that enables observation according to the degree of risk, it is possible to assist in the diagnosis of esophageal cancer efficiently and with high accuracy beyond the conventional technology.
  • first and second embodiments are merely examples of embodiment of the present invention, and the technical scope of the present invention is interpreted in a limited manner by these. It must not be. That is, the present invention can be implemented in various forms without departing from its gist or its main features.
  • the endoscopic image as the teacher data set among the endoscopic images of the subject's esophagus captured by the endoscopic imaging device, the endoscopy in which esophageal cancer is observed (exists). Included images. On the other hand, endoscopic images with widespread mucus, blood, out of focus, or poor image quality due to halation were excluded from the teacher dataset.
  • the instructor of the Japan Gastroenterological Endoscopy Society who is an expert in esophageal cancer, examines and selects the prepared endoscopic images in detail, marks the lesion position of the lesion by precise manual processing, and teaches data. I prepared a set.
  • a 22-layer convolutional neural network is constructed by convolving a GoogleNet that has a sufficient number of parameters and expressive power while having the same structure as the previous convolutional neural network. Used as.
  • the Caffe Deep Learning Framework developed at the Berkeley Vision and Learning Center (BVLC) was used for learning and evaluation testing. All layers of the convolutional neural network are fine-tuned with a global learning rate of 0.0001 using stochastic gradient descent. Each endoscopic image was resized to 224 x 224 pixels for compatibility with convolutional neural networks.
  • a total of 40 endoscopic moving images were collected as an evaluation test data set. An endoscopic moving image showing esophageal cancer and an endoscopic moving image not showing esophageal cancer were taken.
  • As the endoscopic imaging device GIF-H240Z, GIF-H260Z, and GIF-H290 manufactured by Olympus Medical Systems Corporation were used as in the preparation of the teacher data set. For structural enhancement during imaging, A mode level 5 was set when irradiating white light, and B mode level 8 was set when irradiating narrow band light.
  • the data set for the evaluation test includes an endoscopic moving image that meets the eligibility criteria, and an endoscopic moving image taken by an endoscopic imaging device for 5 seconds while gazing at the subject's esophagus as a detailed examination video. Including.
  • an endoscopic moving image in which the endoscope is moved at a low speed (for example, 1 cm / s) to observe the lesion. (Low speed) was imaged.
  • an endoscopic moving image in which an endoscope is quickly inserted at a high speed (for example, 2 cm / s) from the esophageal entrance to the esophagogastric junction was taken.
  • a high speed for example, 2 cm / s
  • evaluation test data are used as endoscopic moving images that meet the exclusion criteria. Excluded from the set.
  • the instructor of the Japan Gastroenterological Endoscopy Society who is an expert on esophageal cancer, examined the prepared endoscopic moving images in detail, and the endoscopic moving images with esophageal cancer and the presence of esophageal cancer are present.
  • a data set for evaluation test was prepared by selecting the endoscopic moving images that were not used.
  • FIG. 8 is a diagram showing the characteristics of the subject and the lesion (esophageal cancer) regarding the endoscopic moving image (low velocity) used in the data set for the evaluation test.
  • Median [whole range] is shown for age and tumor diameter. As shown in FIG. 8, for example, the median tumor diameter was 17 mm.
  • the superficial mucosal layer (EP) had 7 lesions
  • the deep mucosal layer (LPM) had 21 lesions
  • the muscularis mucosae infiltration (MM) was 3 cases
  • SM submucosal infiltration
  • rice field In the macroscopic type (classification), 16 lesions were most frequently depressed type (0-llc).
  • FIG. 9 is a diagram showing the characteristics of the subject and the lesion (esophageal cancer) regarding the endoscopic moving image (high velocity) used in the data set for the evaluation test.
  • Median [whole range] is shown for age and tumor diameter. As shown in FIG. 8, for example, the median tumor diameter was 17 mm.
  • the superficial mucosal layer (EP) had 8 lesions
  • the deep mucosal layer (LPM) had 10 lesions
  • the muscularis mucosae infiltration (MM) was 3 cases
  • SM submucosal infiltration
  • rice field In the macroscopic type (classification), 16 lesions were most frequently depressed type (0-llc).
  • evaluation test method In this evaluation test, the data set for the evaluation test is input to the convolutional neural network-based diagnostic imaging device that has been trained using the teacher data set, and each endoscope that constitutes the data set for the evaluation test. We evaluated whether or not it was possible to correctly diagnose whether or not esophageal cancer was present in the moving image.
  • the diagnostic imaging apparatus diagnoses that a lesion exists in the endoscopic moving image when a predetermined number of endoscopic images having a certainty level of a predetermined value or more exist within a predetermined time.
  • the diagnostic imaging apparatus recognizes a 1-second endoscopic moving image as a 30-frame still image.
  • the diagnostic imaging device recognizes esophageal cancer, it goes back for 0.5 seconds (15 frames) and searches, and if there is an endoscopic image containing esophageal cancer for 3 frames or more, it is included in the endoscopic moving image. Diagnose the presence of esophageal cancer.
  • the diagnostic imaging device correctly confirmed that esophageal cancer was present in the endoscopic moving images taken while irradiating the esophagus of the subject with white light and narrow band light. Whether or not the diagnosis can be made (sensitivity) was calculated using the following equation (1).
  • Sensitivity (Number of endoscopic moving images that could correctly diagnose the presence of esophageal cancer in the evaluation test data set) / (Endoscopic moving images in which esophageal cancer actually exists in the evaluation test data set) Number of) ⁇ ⁇ ⁇ (1)
  • Negative predictive value (NPV) (Number of endoscopic images in which esophageal cancer is not actually present among the endoscopic images diagnosed as having no esophageal cancer in the evaluation test data set) / ( Number of endoscopic moving images diagnosed as having esophageal cancer in the evaluation test data set) ... (4)
  • FIG. 10 is a diagram showing the sensitivity of the diagnostic imaging apparatus in an endoscopic moving image taken in a state where the esophagus of a subject is irradiated with white light and narrow band light, respectively.
  • the diagnostic imaging apparatus refers to 75% (95% CI) of the endoscopic moving images taken while irradiating the esophagus of the subject with white light. I was able to correctly diagnose the presence of esophageal cancer.
  • the diagnostic imaging device has esophageal cancer in 55% (95% CI) of the endoscopic moving images taken while irradiating the esophagus of the subject with narrow band light. I was able to correctly diagnose the existence.
  • the diagnostic imaging apparatus uses the esophagus for 85% (95% CI) of the endoscopic moving images taken while irradiating the esophagus of the subject with white light or narrow band light. I was able to correctly diagnose the presence of cancer.
  • FIG. 11 shows the sensitivity, specificity, and positive predictive value of the diagnostic ability of the diagnostic imaging apparatus in the endoscopic moving image captured by irradiating the esophagus of the subject with white light and narrow band light, respectively. It is a figure showing PPV) and negative predictive value (NPV). As shown in FIG. 11, in the endoscopic moving image taken while irradiating the esophagus of the subject with white light, the sensitivity, specificity, positive predictive value and negative predictive value of the diagnostic imaging apparatus are shown, respectively. , 75%, 30%, 52% and 55%.
  • the sensitivity, specificity, positive predictive value and negative predictive value of the diagnostic imaging apparatus were 55%, respectively. It was 80%, 73% and 64%.
  • AI and endoscopists can diagnose almost all esophageal cancers if the endoscopy insertion speed is as slow as about 1.0 cm / s. However, it is very difficult for the endoscopist to recognize the lesion at a high insertion speed of about 2.0 cm / s.
  • the AI displayed a square frame at the location of esophageal cancer, which slightly improved the endoscopist's recognition of lesions. On the other hand, AI can pick up esophageal cancer with a certain degree of accuracy.
  • Non-Patent Document 3 describes a sensitivity of 77% as a result of evaluating the diagnostic ability of a computer-assisted diagnostic (CAD) system for esophageal cancer using an endoscopic image (still image) taken by an NBI combined magnifying endoscope. , The specificity was 79%, the positive predictive value was 39%, and the negative predictive value was 95%. Examples of causes of false positives include severe shadows, normal structures (esophagogastric junction, left main bronchus, vertebral body), and benign lesions (scar, local atrophy, Barrett's esophagus).
  • CAD computer-assisted diagnostic
  • Non-Patent Document 3 the diagnostic ability of the computer-aided diagnostic system is not compared with the diagnostic ability of an endoscopic expert who has acquired the diagnostic technique for esophageal cancer.
  • the diagnostic difficulty of the endoscopic image used was unknown, and there was a limit to the interpretation of the diagnostic ability of the computer-aided diagnosis system.
  • Non-Patent Document 3 a study using a still image (endoscopic image) is carried out, and although it is useful when performing secondary interpretation of the endoscopic image after endoscopy, a moving image is used. It was difficult to introduce it into the actual medical field where esophageal cancer is diagnosed in real time because it has not been examined in. In order to apply it to real-time moving images, it is necessary to redesign and optimize the AI algorithm separately.
  • the diagnostic imaging apparatus of the present invention compares the diagnostic ability with many endoscopists, it is appropriate to set weights and parameters in the convolutional neural network, and it is difficult to evaluate moving images. It is possible to properly evaluate the degree. It is also possible to adjust to reduce the bias that occurs in comparison with a small number of endoscopists by making comparisons with many endoscopists.
  • the CAD system can provide the performance having a diagnostic ability equal to or higher than that of a skilled doctor. It was shown that it can be used not only in clinical practice but also as an education and training system.
  • the diagnostic ability is high, so that it is highly useful in actual clinical practice.
  • a moving image is used instead of a still image, and an endoscopic diagnosis of esophageal cancer can be performed in real time by using an diagnostic imaging apparatus in clinical practice.
  • Endoscopic imaging devices include high-resolution endoscopes (GIF-H290Z, Olympus Medical Systems Co., Ltd., Tokyo) and high-resolution endoscopic video systems (EVIS LUCERA ELITE CV-290 / CLV-290SL, Olympus Medical Systems). Co., Ltd., Tokyo) was used.
  • GIF-H290Z high-resolution endoscopes
  • EVIS LUCERA ELITE CV-290 / CLV-290SL Olympus Medical Systems
  • Endoscopic images taken in cases with a history of esophagectomy and endoscopic images taken in cases receiving chemotherapy or radiotherapy for the esophagus were excluded from the teacher data set.
  • endoscopic images including esophageal cancer and endoscopic images with poor image quality due to poor insufflation, post-biopsy bleeding, halation, blurring, defocusing, mucus, etc. are also available from the teacher dataset.
  • [Learning / Algorithm] It is composed of 22 layers and has the same structure as the previous convolutional neural network in order to construct an image diagnostic device that estimates the presence or absence of multiple iodine unstained bands in the endoscopic image of the subject's esophagus.
  • GoogleNet which has a sufficient number of parameters and expressive power, was used as a convolutional neural network.
  • the Caffe Deep Learning Framework developed at the Berkley Vision and Learning Center (BVLC) was used for learning and evaluation testing. All layers of the convolutional neural network were fine-tuned with a global learning rate of 0.0001 using stochastic gradient descent. Each endoscopic image was resized to 224 x 224 pixels for compatibility with convolutional neural networks.
  • Endoscopic imaging devices include high-resolution endoscopes (GIF-H290Z, Olympus Medical Systems Co., Ltd., Tokyo) and high-resolution endoscopic video systems (EVIS LUCERA ELITE CV-290 / CLV-290SL, Olympus Medical Systems). Co., Ltd., Tokyo) was used.
  • exclusion criteria for endoscopic images are the same as for the teacher dataset, but basically all of the images taken with white light or narrow band light shining on the esophagus to avoid bias. An endoscopic image was used.
  • the instructor of the Japanese Society of Gastroenterological Endoscopy examined the prepared endoscopic images in detail, determined the presence or absence of multiple iodine-unstained zones, and prepared a data set for evaluation tests.
  • FIG. 12 is a diagram showing an example of an endoscopic image used in the evaluation test data set.
  • FIG. 12A is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with white light, and there is actually no multiple iodine-unstained zone in the esophagus (degree of staining when iodine staining is performed: It is an endoscopic image judged to be grade A).
  • FIG. 12A is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with white light, and there is actually no multiple iodine-unstained zone in the esophagus (degree of staining when iodine staining is performed: It is an endoscopic image judged to be grade A).
  • FIG. 12A is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with white
  • 12B is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with narrow band light, and there is actually no multiple iodine-unstained zone in the esophagus (degree of staining when iodine staining is performed). : It is an endoscopic image judged to be grade A).
  • FIG. 12C is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with white light, and there is actually no multiple iodine-unstained zone in the esophagus (degree of staining when iodine staining is performed: It is an endoscopic image judged as grade B).
  • FIG. 12D is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with narrow band light, and there is actually no multiple iodine-unstained zone in the esophagus (degree of staining when iodine staining is performed). : It is an endoscopic image judged to be grade B).
  • FIG. 12E is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with white light, and there are actually multiple iodine-unstained zones in the esophagus (degree of staining when iodine staining is performed: It is an endoscopic image judged as grade C).
  • FIG. 12F is an image taken by an endoscopic imaging device in a state where the esophagus of the subject is irradiated with narrow band light, and there are actually multiple iodine-unstained zones in the esophagus (degree of staining when iodine staining is performed). : An endoscopic image determined to be grade C).
  • FIG. 13 is a diagram showing the characteristics of the subject regarding the endoscopic image used in the evaluation test data set.
  • the median age is shown in FIG.
  • Pearson's chi-square test and Fisher's rigorous test are used to compare various characteristics between subjects who do not actually have multiple iodine-unstained zones in the esophagus and subjects who actually have multiple iodine-unstained zones in the esophagus.
  • Wald's test was used for comparison of observer years (see P value in FIG. 13).
  • the statistically significant difference was set to less than 0.05.
  • “EZR version 1.27 (Saitama Medical Center, Autonomous Medical University)" was used to calculate the P value.
  • evaluation test method In this evaluation test, the data set for the evaluation test is input to the convolutional neural network-based image diagnostic device that has been trained using the teacher data set, and each endoscope that constitutes the data set for the evaluation test. It was evaluated whether or not it was possible to correctly diagnose (determine) whether or not there were multiple iodine-unstained bands in the image.
  • the diagnostic imaging apparatus determines that an endoscopic image having a certainty of presence or absence of a multiple iodine unstained zone has a multiple iodine unstained zone in the endoscopic image, while the multiple iodine unstained band is present.
  • the diagnostic imaging apparatus determines whether or not there is a multiple iodine unstained zone for each endoscopic image, and determines whether or not there is a multiple iodine unstained zone by majority voting of the endoscopic image for each case. Was done.
  • the endoscopist looks at the endoscopic images constituting the evaluation test data set and looks at the endoscopic images. A diagnosis was made as to whether or not multiple iodine-unstained bands were present in the endoscopic image.
  • 10 endoscopists with 8 to 17 years of experience as doctors of the Japan Gastroenterological Endoscopy Society and 3,500 to 18,000 endoscopy cases were selected.
  • the 10 selected endoscopists diagnosed whether or not there was a multiple iodine-unstained zone in each endoscopic image, and the multiple-iodine-stained zone was present in each case by a majority of the endoscopic images. A diagnosis was made as to whether or not to do so.
  • the sensitivity, specificity, positive predictive value (PPV), negative predictive value (NPV), and correct diagnosis rate for the diagnostic ability of the diagnostic imaging device (or endoscopist) are calculated by the following formula (5). Calculated using (9).
  • Sensitivity (Number of cases in which it was possible to correctly diagnose the presence of multiple iodine-unstained zones in the esophagus) / (Total number of cases in which multiple iodine-unstained zones actually exist in the esophagus) ...
  • Positive predictive value (PPV) (Among the cases diagnosed as having multiple iodine-unstained zones in the esophagus, the number of cases in which multiple iodine-unstained zones actually exist in the esophagus) / (Multiple iodine-free zones in the esophagus) Number of cases diagnosed as having a dyed band) ⁇ ⁇ ⁇ (7)
  • Negative predictive value (NPV) (Number of cases diagnosed as having no multiple iodine stains in the esophagus, but actually no multiple iodine stains in the esophagus) / (Multiple iodine in the esophagus) Number of cases diagnosed as having no unstained zone) ⁇ ⁇ ⁇ (8)
  • Correct diagnosis rate (number of cases in which it was possible to correctly diagnose whether or not there are multiple iodine-unstained zones in the esophagus) / (number of all cases) ...
  • an experienced endoscopist will be useful in correctly diagnosing the presence of multiple iodine-unstained zones in all endoscopic images that make up the evaluation test data set.
  • Possible background The presence or absence of endoscopic findings in the esophageal mucosa was evaluated, and the presence or absence of multiple iodine-unstained zones in the esophagus was diagnosed by a majority of the endoscopic findings for each endoscopic image. Then, regarding whether or not the presence of multiple iodine-unstained zones in the esophagus can be correctly diagnosed (sensitivity), which is superior between the diagnostic imaging apparatus and the endoscopic findings was compared.
  • FIG. 14 is a diagram showing various endoscopic findings in the endoscopic image.
  • FIG. 14A shows an endoscopic image in which two or more glycogen acanthosis are confirmed in one visual field when the esophagus is irradiated with white light, that is, no endoscopic finding (a) is observed.
  • FIG. 14B shows an endoscopic image in which two or more glycogen acanthosis are confirmed in one visual field when the esophagus is irradiated with narrow band light, that is, no endoscopic finding (a) is observed.
  • FIG. 14C shows an endoscopic image in which keratosis is confirmed when the esophagus is irradiated with white light, that is, endoscopic findings (b) are observed.
  • FIG. 14D shows an endoscopic image in which keratosis is confirmed when the esophagus is irradiated with narrow band light, that is, endoscopic findings (b) are observed.
  • FIG. 14E shows an endoscopic image in which a rough esophageal mucosa is confirmed when the esophagus is irradiated with white light, that is, an endoscopic finding (c) is observed.
  • FIG. 14F shows an endoscopic image in which a rough esophageal mucosa is confirmed when the esophagus is irradiated with narrow band light, that is, an endoscopic finding (c) is observed.
  • FIG. 14G shows an endoscopic image in which vascular fluoroscopy is confirmed when the esophagus is irradiated with white light, that is, no endoscopic finding (d) is observed.
  • FIG. 14H shows an endoscopic image in which a reddish background mucosa is confirmed when the esophagus is irradiated with white light, that is, no endoscopic findings (e) are observed.
  • FIG. 14I shows an endoscopic image in which a brown background mucosa is confirmed when the esophagus is irradiated with narrow band light, that is, an endoscopic finding (f) is observed.
  • FIG. 15 is a diagram showing the sensitivity, specificity, positive predictive value, negative predictive value, and correct diagnosis rate of the diagnostic imaging apparatus and the endoscopist.
  • a bilateral McNemar test was used to compare sensitivity, specificity, and accuracy between diagnostic imaging equipment and endoscopists.
  • the correct diagnosis rate for the presence or absence of multiple iodine-unstained zones was 76.4% for diagnostic imaging equipment and 63.9% for endoscopists.
  • the diagnostic imaging system was significantly more sensitive than 9 out of 10 endoscopists in correctly diagnosing the presence of multiple iodine-unstained zones in the esophagus.
  • FIG. 16 shows the evaluation results of the presence or absence of endoscopic findings on an endoscopic image having multiple iodine-unstained zones by an endoscopist, and an endoscope for an endoscopic image without multiple iodine-unstained zones. It is a figure which shows the evaluation result of the presence or absence of a finding. Pearson's comparison of the number of endoscopic findings evaluated as having findings for each endoscopic finding between an endoscopic image with multiple iodine-unstained zones and an endoscopic image without multiple iodine-unstained zones is described by Pearson. A chi-square test and Fisher's rigorous test were used.
  • endoscopic images in which multiple iodine-unstained zones are present in the esophagus show glycogen acanthosis (less than 2), keratosis, crude esophageal mucosa, loss of vascular see-through, and redness.
  • the number of endoscopic findings of the tone background mucosa and the brown background mucosa was evaluated to be significantly higher than that of endoscopic images in the absence of multiple iodine-unstained zones. That is, if it is evaluated as having endoscopic findings, it is considered that there is a high possibility that multiple iodine-unstained zones are present in the esophagus.
  • FIG. 17 shows the results of comparison between the diagnostic imaging apparatus and endoscopic findings regarding whether or not it is possible to correctly diagnose the presence of multiple iodine-unstained zones in the esophagus with reference to endoscopic images (sensitivity). It is a figure which shows. A two-sided McNemar test was used to compare the sensitivity between the diagnostic imaging system and each endoscopic finding.
  • the diagnostic imaging apparatus is more sensitive than the case where each endoscopic finding is evaluated as having a finding, and among the endoscopic findings, it is evaluated that there is a finding about "disappearance of vascular fluoroscopy". In the case, the sensitivity was the highest.
  • FIG. 18 shows squamous cell carcinoma of the esophagus and squamous cell carcinoma of the head and neck, which were detected as simultaneous / metachronous cancers in cases in which multiple iodine-unstained zones were diagnosed as present (not present) in the esophagus by an diagnostic imaging apparatus. It is a figure which shows the number of epithelial cancer. Pearson's chi-square test and Fisher's rigorous test were used to compare cases diagnosed with multiple iodine-unstained zones and cases diagnosed without multiple iodine-unstained zones.
  • squamous cell carcinoma of the esophagus As described above, for squamous cell carcinoma of the esophagus, squamous cell carcinoma of the esophagus, and squamous cell carcinoma of the head and neck, cases diagnosed as having multiple iodine-unstained zones in the esophagus are located in the esophagus.
  • the incidence of simultaneous / metachronous cancer was significantly higher than in cases diagnosed as having no multiple iodo-squamous zones. Therefore, the diagnostic imaging system not only determines the presence or absence of multiple iodine-unstained zones in the esophagus, but also the risk of developing esophageal squamous cell carcinoma and head and neck squamous cell carcinoma as simultaneous and metachronous cancers. I was able to separate it.
  • the diagnostic imaging apparatus uses the diagnostic ability of the endoscopic image possessed by the convolutional neural network, and in the endoscopic image of the esophagus that has not been iodine-stained, the esophageal squamous epithelial cancer and the head and neck.
  • the presence or absence of multiple iodine-unstained zones which is an index of high-risk cases of partial squamous epithelial cancer, could be diagnosed with higher sensitivity than experienced endoscopists.
  • the iodine staining is usually used only for cancer or lesions suspected of being cancer, and its usefulness is limited. ..
  • the risk of developing esophageal squamous epithelial cancer can be determined from endoscopic images taken without iodine staining in the initial endoscopy (EGD) of all subjects. Can be done.
  • the esophagus and pharynx should be carefully observed under narrow-band light irradiation, and the esophagus should be observed with iodine staining. Ideally, it is not practical to perform the iodine staining in all cases. Iodine staining is used for people with or suspected of having cancer to pick up the cancer without missing it and to diagnose the extent of the cancer. It is also possible to determine the risk of cancer based on the degree of multiple iodine-unstained zones.
  • the presence or absence of 6 endoscopic findings was evaluated in order to diagnose the presence or absence of multiple iodine-unstained zones from the endoscopic image of the esophagus that was not stained with iodine. All of these endoscopic findings are frequently confirmed in cases with multiple iodine-unstained zones.
  • the sensitivities of the two endoscopic findings "less than two glycogen acanthosis in one field of view” and "no vascular fluoroscopy is confirmed when the esophagus is irradiated with white light" are more sensitive than expected.
  • the presence or absence of multiple iodine-unstained zones can be diagnosed from endoscopic images of the esophagus, which is high in water and is not stained with iodine.
  • the endoscopist's sensitivity to correctly diagnosing the presence of multiple iodine-unstained zones was as low as 46.9% (see FIG. 15). It is presumed that the reason is that the above two endoscopic findings were not confirmed by many endoscopists. The other four endoscopic findings were all low in sensitivity.
  • the diagnostic imaging apparatus was more sensitive than each of the six endoscopic findings, and was more sensitive than the experienced endoscopist. In other words, it is suggested that the diagnostic imaging system is superior to the human endoscopist in diagnosing the presence or absence of multiple iodine-unstained zones by comprehensively judging these endoscopic findings. ing.
  • MDV multiple lesions of dilated blood vessels
  • the present inventor has a risk of developing multiple iodine-unstained zones from endoscopic images of the esophagus that are not stained with iodine, that is, squamous cell carcinoma of the esophagus and squamous cell carcinoma of the head and neck.
  • iodine that is, squamous cell carcinoma of the esophagus and squamous cell carcinoma of the head and neck.
  • the present invention is useful as a diagnostic imaging device, a diagnostic imaging method, a diagnostic imaging program, and a trained model capable of improving the diagnostic accuracy of esophageal cancer in esophageal endoscopy.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)
  • Image Processing (AREA)

Abstract

食道の内視鏡検査において、食道がんの診断精度を向上させることが可能な画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル。画像診断装置は、被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得部と、食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された内視鏡動画像内に存在する食道がんの位置を推定する推定部と、推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを内視鏡動画像上に重畳表示させる表示制御部とを備える。

Description

画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル
 本発明は、画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデルに関する。
 食道がんは、全がん腫のうち世界で8番目に多いがんであり、がん関連死亡率が6番目に高く、年間50万人以上が死亡している。食道がんの中で、南米およびアジア(日本を含む)に多いのは食道扁平上皮がんである。進行性食道がんは予後が悪いが、表在性食道がんは早期に発見されれば内視鏡的切除などの低侵襲治療で治療でき、予後も良好である。それゆえ、表在性食道がんの早期発見が最も重要な課題である。
 食道がんは、内視鏡検査技術の発達により早期発見が多くなっており、それが、予後の改善、臓器温存される低侵襲治療の実現につながっている。さらに、内視鏡的粘膜下層剥離術(ESD:Endoscopic Submucosal Dissection)の開発により、早期食道がんの治療は低侵襲治療となっている。ただし、日本の食道がん診断・治療ガイドラインでは、ESDの適応は粘膜層までに浸潤が留まる食道がんに限られていることから、早期で食道がんを発見、診断することが重要となっている。
 しかし、表在性食道がんは、内視鏡検査(EGD:Esophagogastroduodenoscopy)を行ったとしても、被験者の食道に対して白色光を照射して観察を行う白色光観察(WLI:White light imaging)のみで発見することは困難である。これに対して、被験者の食道に対して狭帯域光を照射して観察を行う狭帯域光観察(NBI: Narrow Band Imaging、狭帯域光法)は表在性食道がんの検出には有用であるが、狭帯域光観察を用いても経験の浅い内視鏡医の検出率は53%と低いことが報告されている。
 その理由として、食道がんは色調の変化に乏しく、ほぼ凹凸のない平坦な病変として発生するからで、こうした所見は熟練しないと病変として認識することが難しいことが挙げられる。また、その背景粘膜には炎症を伴うことが多いために、経験の浅い内視鏡医では炎症粘膜と食道がんを混同する傾向があり、がん病変の判定をさらに難しくしている。このように、一概に消化管と言っても、ポリープが特徴的な大腸がんと比較しても、食道がんを内視鏡的に適切に診断することはまだ困難が多く、より高度の診断技術が内視鏡診断領域に求められている。
 内視鏡機器の改良のみならず、検査技術として生化学的な手法も開発されつつある。そのひとつに、ヨード液を食道内腔に撒布するヨード(ルゴール)染色を用いて、食道がんを高感度で検出する方法がある。すなわち、多発ヨード不染帯(ヨード液を食道内腔に撒布した際に、茶褐色に染色されず黄白色を示す部分)をバイオマーカーとした検査方法で、ヨード染色後に食道内に多発ヨード不染帯が認められる被験者(患者)では、多発ヨード不染帯が認められない被験者と比べて、食道がんや頭頸部がんの発生頻度が高いことが報告されている。
 多発ヨード不染帯は、重度の喫煙や飲酒、緑黄色野菜の摂取量の少なさと関連し、食道内に存在する多発ヨード不染帯は、背景上皮のがん抑制遺伝子TP53変異が起こることで生じると言われ、前述したように、多発ヨード不染帯が存在する被験者は食道がんや頭頸部がんのリスクが高いことから、ヨード染色を用いた観察は、内視鏡検査による食道がんや頭頸部がんの精密スクリーニングに適している。
しかし、ヨード染色は、胸部不快感(副作用)や手術時間の長期化などの問題があり、全症例に使用することは現実的ではなく、食道がんの既往歴のある症例や頭頸部がんを合併している症例など、ごく限られたハイリスク症例を使用して選定することが望ましいとされる。ヨード染色を行わずに済む高精度検査法あるいは必要に応じてヨード染色を組み合わせる検査法など、さらなる迅速で有用な手法が食道がんの早期発見のために求められている。
 近年ディープラーニング(深層学習)を用いた人工知能(AI:Artificial Intelligence)が開発され、医療分野においても応用されている。さらに、AIに入力された画像の特徴を維持したまま畳み込み学習を行う畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が開発され、学習した画像の分類・判定を行うコンピューター支援診断(CAD:Computer-Aided Diagnosis)システムの画像診断能力は劇的に向上している。
 医療分野のディープラーニングによる画像判定技術は、放射線画像診断、皮膚がん分類、病理標本の組織学的分類、超拡大内視鏡による大腸病変検出など、AIが専門医の診断を支援する様々な報告がある。特に、顕微内視鏡レベルにおいてはAIが専門医と同等の精度を出せることが証明されている(非特許文献1を参照)。また、皮膚科では、ディープラーニング機能を持ったAIが専門医と同等の画像診断能力を発揮することが発表されており(非特許文献2を参照)、各種機械学習法を利用した特許文献(特許文献1,2を参照)も存在する。
 ただし、静止画を教師データとして学習に用い、検査時に撮像した静止画をAIで判定させる場合には、静止画を撮像しないとAIが判定できないため、撮像しない時間中にがん病巣の見落としが起こること、静止画で広い範囲を観察するには時間がかかることなどが問題として残っている。また、バイオマーカーのひとつである多発ヨード不染帯の存在有無を推定し、食道がんのハイリスク症例を検出する画像診断技術は、実際の医療現場(実臨床)にはまだ導入されていない状況である。
 こうした現状を整理すると、今後のAI診断支援技術に求められる要件として、内視鏡エキスパートの総合的な診断技術により近づけるためには、動画によるリアルタイムで精密な画像診断補助を行うこと、がんリスクに関連するバイオマーカーによる判定も併せて診断精度を上げることなどが求められている。
特開2017-045341号公報 特開2017-067489号公報
http://www.giejournal.org/article/S0016-5107(14)02171-3/fulltext, "Novel computer-aided diagnostic system for colorectal lesions by using endocytoscopy" Yuichi Mori et. al. Presented at Digestive Disease Week 2014, May 3-6, 2014, Chicago, Illinois, USA 「Nature」2017年2月号、巻頭論文、「皮膚の病変を学習する:人工知能が画像から皮膚がんを検出する能力を強化する」http://www.natureasia.com/ja-jp/nature/highlights/82762 Horie Y, Yoshio T, Aoyama K, et al. The diagnostic outcomes of esophageal cancer by artificial intelligence using convolutional neural networks. Gastrointest Endosc. 2018,89:25-32
 上述のように、医療分野におけるAIの画像診断能力は一部で専門医並みであることが示唆されているが、AIの画像診断能力を使用して食道がんの診断をリアルタイムに高精度に行う技術は、まだ実際の医療現場(実臨床)には導入されておらず、今後の早期の実用化が期待されている状況である。がんの画像診断においては、形態学的な特徴と組織由来の生化学的バイオマーカーや細胞生物学的反応など、がん組織の特性に基づく判定基準が必須となることから、内視鏡による消化器がんの診断と一口に言っても、臓器が異なればAI診断プログラムも臓器ごとに最適化された技術や判定基準の設計が必要になる。
 例えば、扁平な食道がんは、隆起したポリープで検出しやすい大腸がんとは異なる形態で、より難しく、新しい工夫や技術が必要である。医療機器は操作者の経験度よって、得られる結果の精度や判定が異なる可能性も大きいことから、その工夫や技術のなかには、内視鏡の画像処理に係る機能だけではなく、機器操作者である内視鏡医の操作法を適正化する方法も検討されるべきである。すなわち、各消化器がん(食道がん、胃がん、大腸がんなど)の固有の特徴量の抽出と、その病態レベルの判定基準が異なり、各がん種の特徴に合ったAIプログラムの設計が必要である。加えて、機器使用時の操作の適正化機能や、粘膜の直接観察のみならず、がんリスクを表現するバイオマーカーのような粘膜特性を評価する新技術も、有用な組み合わせ技術として開発が望まれている。
 本発明の目的は、食道の内視鏡検査において、食道がんの診断精度を向上させることが可能な画像診断装置、画像診断方法および画像診断プログラムを提供することである。
 本発明に係る画像診断装置は、
 被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得部と、
 食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された前記内視鏡動画像内に存在する食道がんの位置を推定する推定部と、
 推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを前記内視鏡動画像上に重畳表示させる表示制御部と、
 を備える。
 本発明に係る画像診断方法は、
 被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得工程と、
 食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された前記内視鏡動画像内に存在する食道がんの位置を推定する推定工程と、
 推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを前記内視鏡動画像上に重畳表示させる表示制御工程と、
 を含む。
 本発明に係る画像診断プログラムは、
 コンピューターに、
 被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得処理と、
 食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された前記内視鏡動画像内に存在する食道がんの位置を推定する推定処理と、
 推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを前記内視鏡動画像上に重畳表示させる表示制御処理と、
 を実行させる。
 本発明に係る学習済みモデルは、
 ヨード染色が行われずに、多発ヨード不染帯が存在する食道を撮像した非ヨード染色画像である多発ヨード不染帯食道画像と、多発ヨード不染帯が存在しない食道を撮像した非ヨード染色画像である非多発ヨード不染帯食道画像とを教師データとして畳み込みニューラルネットワークを学習させることによって得られ、
 被験者の食道を撮像した内視鏡画像と食道がんとの関連の有無を推定し、推定結果を出力するようコンピューターを機能させる。
 本発明によれば、食道の内視鏡検査において、食道がんの診断精度を向上させることができる。
第1の実施の形態における画像診断装置の全体構成を示すブロック図である。 第1の実施の形態における画像診断装置のハードウェア構成を示す図である。 第1の実施の形態における畳み込みニューラルネットワークの構成を示す図である。 第1の実施の形態における内視鏡動画像上に判定結果画像を重畳表示させた例を示す図である。 第2の実施の形態における画像診断装置の全体構成を示すブロック図である。 第2の実施の形態における畳み込みニューラルネットワークの構成を示す図である。 図7A,図7B,7Cは、第2の実施の形態における食道内腔にヨード液を撒布した際に、当該食道を撮像した内視鏡画像の例を示す図である 評価試験用データセットに用いられる内視鏡動画像(低速度)に関する被験者および病変(食道がん)の特徴を示す図である。 評価試験用データセットに用いられる内視鏡動画像(高速度)に関する被験者および病変(食道がん)の特徴を示す図である。 内視鏡動画像に食道がんが存在することを正しく診断できるか否か(感度)について、白色光、狭帯域光のそれぞれを照射した場合の比較結果を表す図である。 白色光、狭帯域光のそれぞれを照射した場合における画像診断装置の感度、特異度、陽性的中率および陰性的中率を表す図である。 図12A,図12B,図12C,図12D,図12E,図12Fは、評価試験用データセットに用いられる内視鏡画像の例を示す図である。 評価試験用データセットに用いられる内視鏡画像に関する被験者の特徴を示す図である。 図14A,図14B,図14C,図14D,図14E,図14F,図14G,図14H,図14Iは、内視鏡画像における各種の内視鏡所見を示す図である。 画像診断装置、内視鏡医の感度、特異度、陽性的中率、陰性的中率および正診率を表す図である。 多発ヨード不染帯が存在する内視鏡画像に対する内視鏡所見の有無の評価結果と、多発ヨード不染帯が存在しない内視鏡画像に対する内視鏡所見の有無の評価結果とを表す図である。 内視鏡画像に多発ヨード不染帯が存在することを正しく診断できるか否か(感度)について、画像診断装置と内視鏡的所見との比較結果を表す図である。 画像診断装置によって内視鏡画像に多発ヨード不染帯が存在する(存在しない)と診断された症例について食道扁平上皮がん、頭頸部扁平上皮がんの発生数および100人年当たりの発生率を表す図である。
 以下、本実施の形態を図面に基づいて詳細に説明する。第1の実施形態は、リアルタイム動画による画像診断装置、画像診断方法、画像診断プログラムからなり、第2の実施形態は、食道内腔のヨード染色による多発ヨード不染帯に係る教師データで訓練されたAIによる画像診断装置、画像診断方法、画像診断プログラムからなる。食道がんの内視鏡検査時には、第1の実施形態または第2の実施形態それぞれの単独の実施、あるいは第1実施形態と第2実施形態の組合せ実施のいずれでも構わない。
[画像診断装置の全体構成]
 まず、第1の実施の形態(リアルタイム動画による診断)における画像診断装置100の構成について説明する。図1は、画像診断装置100の全体構成を示すブロック図である。図2は、第1の実施の形態における画像診断装置100のハードウェア構成の一例を示す図である。
 画像診断装置100は、医師(例えば、内視鏡医)による消化器(本実施の形態では、食道)の内視鏡検査において、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)が有する内視鏡画像の画像診断能力を使用して食道がんの診断をリアルタイム動画にて行う。画像診断装置100には、内視鏡撮像装置200および表示装置300が接続されている。
 内視鏡撮像装置200は、例えば、撮像手段を内蔵した電子内視鏡(ビデオスコープともいう)や、光学式内視鏡に撮像手段を内蔵したカメラヘッドを装着したカメラ装着内視鏡等である。内視鏡撮像装置200は、例えば、被験者の口または鼻から消化器に挿入され、当該消化器内の診断対象部位を撮像する。
 本実施の形態では、内視鏡撮像装置200は、医師の操作(例えば、ボタン操作)に応じて、被験者の食道に対して白色光または狭帯域光(例えば、NBI用狭帯域光)を照射した状態で当該食道内の診断対象部位を内視鏡動画像として撮像する。内視鏡動画像は、時間的に連続する複数の内視鏡画像から構成される。内視鏡撮像装置200は、撮像した内視鏡動画像を表す内視鏡画像データD1を画像診断装置100に出力する。
 表示装置300は、例えば、液晶ディスプレイであり、画像診断装置100から出力された内視鏡動画像および判定結果画像を、医師に識別可能に表示する。
 図2に示すように、画像診断装置100は、主たるコンポーネントとして、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、外部記憶装置(例えば、フラッシュメモリ)104、通信インターフェイス105およびGPU(Graphics Processing Unit)106等を備えたコンピューターである。
 画像診断装置100の各機能は、例えば、CPU101,GPU106がROM102、RAM103、外部記憶装置104等に記憶された制御プログラム(例えば、画像診断プログラム)や各種データ(例えば、内視鏡画像データ、学習用教師データ、畳み込みニューラルネットワークのモデルデータ(構造データおよび学習済み重みパラメータ等)などを参照することによって実現される。なお、RAM103は、例えば、データの作業領域や一時退避領域として機能する。
 なお、画像診断装置100の各機能の一部または全部は、CPU101,GPU106による処理に代えて、または、これと共に、DSP(Digital Signal Processor)による処理によって実現されても良い。また、同様に、各機能の一部または全部は、ソフトウェアによる処理に代えて、または、これと共に、専用のハードウェア回路による処理によって実現されても良い。
 図1に示すように、画像診断装置100は、内視鏡画像取得部10、推定部20および表示制御部30を備えている。学習装置40は、画像診断装置100において使用される畳み込みニューラルネットワークのモデルデータ(本発明の「学習済みモデル」に対応)を生成する機能を有する。なお、表示制御部30は、本発明の「警告出力制御部」としても機能する。
[内視鏡画像取得部]
 内視鏡画像取得部10は、内視鏡撮像装置200から出力された内視鏡画像データD1を取得する。そして、内視鏡画像取得部10は、取得した内視鏡画像データD1を推定部20に出力する。なお、内視鏡画像取得部10は、内視鏡画像データD1を取得する際、内視鏡撮像装置200から直接取得しても良いし、外部記憶装置104に格納された内視鏡画像データD1や、インターネット回線等を介して提供された内視鏡画像データD1を取得しても良い。
[推定部]
 推定部20は、畳み込みニューラルネットワークを用いて、内視鏡画像取得部10から出力された内視鏡画像データD1により表される内視鏡動画像内における病変(本実施の形態では、食道がん)の存在を推定し、推定結果を出力する。具体的には、推定部20は、内視鏡動画像内に存在する病変の病変名(名称)および病変位置(位置)と、当該病変名および病変位置の確信度(確度ともいう)とを推定する。そして、推定部20は、内視鏡画像取得部10から出力された内視鏡画像データD1と、病変名、病変位置および確信度の推定結果を表す推定結果データD2とを表示制御部30に出力する。
 また、推定部20は、内視鏡画像データD1により表される内視鏡動画像内において確信度が所定値(例えば、0.5)以上である内視鏡画像が所定時間(例えば、0.5秒)内に所定数(例えば、3)存在する場合、内視鏡動画像内に病変(食道がん)が存在すると推定する。ここで、上記所定数は、上記所定値が小さくなるにつれて大きくなるように設定される。推定部20は、内視鏡動画像内に病変が存在すると推定した場合、その旨(推定結果)を表示制御部30に出力する。
 本実施の形態では、推定部20は、病変名および病変位置の確信度を示す指標として確率スコアを推定する。確率スコアは、0より大きく、1以下の値で表される。確率スコアが高いほど、病変名および病変位置の確信度が高いことを意味する。
 なお、確率スコアは、病変名および病変位置の確信度を示す指標の一例であって、その他の任意の態様の指標が用いられてもよい。例えば、確率スコアは、0%~100%の値で表される態様であっても良いし、数段階のレベル値のうちの何れで表される態様であっても良い。
 畳み込みニューラルネットワークは、順伝播型ニューラルネットワークの一種であって、脳の視覚野の構造における知見に基づくものである。基本的に、画像の局所的な特徴抽出を担う畳み込み層と、局所毎に特徴をまとめあげるプーリング層(サブサンプリング層)とを繰り返した構造となっている。畳み込みニューラルネットワークの各層によれば、複数のニューロン(Neuron)を所持し、個々のニューロンが視覚野と対応するような形で配置されている。それぞれのニューロンの基本的な働きは、信号の入力と出力とからなる。ただし、各層のニューロン間は、相互に信号を伝達する際に、入力された信号をそのまま出力するのではなく、それぞれの入力に対して結合荷重を設定し、その重み付きの入力の総和が各ニューロンに設定されている閾値を超えた時に、次の層のニューロンに信号を出力する。学習データからこれらニューロン間の結合荷重を算出しておく。これによって、リアルタイムのデータを入力することによって、出力値の推定が可能となる。公知の畳み込みニューラルネットワークモデルとしては、例えば、GoogLeNet、ResNet、SENetなどが挙げられるが、この目的に適合する畳み込みニューラルネットワークであれば、それを構成するアルゴリズムは特に限定されない。 
 図3は、本実施の形態における畳み込みニューラルネットワークの構成を示す図である。なお、畳み込みニューラルネットワークのモデルデータ(構造データおよび学習済み重みパラメータ等)は、画像診断プログラムと共に外部記憶装置104に格納されている。
 図3に示すように、畳み込みニューラルネットワークは、例えば、特徴抽出部Naと識別部Nbとを有する。特徴抽出部Naは、入力される画像(具体的には、内視鏡画像データD1により表される内視鏡動画像を構成する内視鏡画像)から画像特徴を抽出する処理を施す。識別部Nbは、特徴抽出部Naにより抽出された画像特徴から画像に係る推定結果を出力する。
 特徴抽出部Naは、複数の特徴量抽出層Na1、Na2・・・が階層的に接続されて構成される。各特徴量抽出層Na1、Na2・・・は、畳み込み層(Convolution layer)、活性化層(Activation layer)およびプーリング層(Pooling layer)を備える。
 第1層目の特徴量抽出層Na1は、入力される画像を、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Na1は、走査したデータに対して、畳み込み層、活性化層およびプーリング層によって特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。第1層目の特徴量抽出層Na1は、例えば、水平方向に延びる線状の特徴量や斜め方向に延びる線状の特徴量等の比較的シンプルな単独の特徴量を抽出する。
 第2層目の特徴量抽出層Na2は、前階層の特徴量抽出層Na1から入力される画像(特徴マップとも称される)を、例えば、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Na2は、走査したデータに対して、同様に、畳み込み層、活性化層およびプーリング層による特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。なお、第2層目の特徴量抽出層Na2は、第1層目の特徴量抽出層Na1が抽出した複数の特徴量の位置関係などを参照しながら統合させることで、より高次元の複合的な特徴量を抽出する。
 第2層目以降の特徴量抽出層(図3では、説明の便宜として、特徴量抽出層Naを2階層のみを示す)は、第2層目の特徴量抽出層Na2と同様の処理を実行する。そして、最終層の特徴量抽出層の出力(複数の特徴マップのマップ内の各値)が、識別部Nbに対して入力される。
 識別部Nbは、例えば、複数の全結合層(Fully Connected)が階層的に接続された多層パーセプトロンによって構成される。
 識別部Nbの入力側の全結合層は、特徴抽出部Naから取得した複数の特徴マップのマップ内の各値に全結合し、その各値に対して重み係数を変化させながら積和演算を行って出力する。
 識別部Nbの次階層の全結合層は、前階層の全結合層の各素子が出力する値に全結合し、その各値に対して異なる重み係数を適用しながら積和演算を行う。そして、識別部Nbの最後段には、特徴抽出部Naに入力される画像(内視鏡画像)内に存在する病変の病変名および病変位置と、当該病変名および病変位置の確率スコア(確信度)とを出力する層(例えば、ソフトマックス関数等)が設けられる。
 畳み込みニューラルネットワークは、あらかじめ経験豊富な内視鏡医によってマーキング処理されたリファレンスデータ(以下、「教師データ」という)を用いて学習処理を行っておくことよって、入力される内視鏡画像から所望の推定結果(ここでは、病変名、病変位置および確率スコア)を出力し得るように、推定機能を保有することができる。このとき、代表的な病態をカバーし、バイアスが調整された十分な量の教師データで学習させ、重みを適正に調整することによって、過学習を防ぎ、食道がん診断に汎化された性能を有するAIプログラムを作製することができる。
 本実施の形態における畳み込みニューラルネットワークは、内視鏡画像データD1を入力とし(図3のInput)、内視鏡画像データD1により表される内視鏡動画像を構成する内視鏡画像の画像特徴に応じた病変名、病変位置および確率スコアを推定結果データD2として出力する(図3のOutput)ように構成される。
 なお、畳み込みニューラルネットワークは、より好適には、内視鏡画像データD1に加えて、被験者の年齢、性別、地域、または既病歴に係る情報を入力し得る構成(例えば、識別部Nbの入力素子として設ける)としても良い。実臨床におけるリアルワールドデータの重要性は特に認められていることから、こうした被験者属性の情報を追加することによって、実臨床において、より有用なシステムに展開することができる。すなわち、内視鏡画像の特徴は、被験者の年齢、性別、地域、既病歴、家族病歴等に係る情報と相関関係を有すると考えられており、畳み込みニューラルネットワークに対して、内視鏡画像データD1に加えて年齢等の被験者属性情報を参照させることによって、より高精度に病変名および病変位置を推定し得る構成とすることができる。この手法は、地域や人種間によっても疾患の病態が異なることがあることから、特に本発明を国際的に活用する場合には、取り入れるべき事項である。
 また、推定部20は、畳み込みニューラルネットワークによる処理の他、前処理として、内視鏡画像のサイズやアスペクト比に変換する処理、内視鏡画像の色分割処理、内視鏡画像の色変換処理、色抽出処理、輝度勾配抽出処理等を行っても良い。過学習を防ぎ、精度を高めるためには、重みづけの調整を行うことも好ましい。
[表示制御部]
 表示制御部30は、推定部20から出力された内視鏡画像データD1により表される内視鏡動画像上において、推定部20から出力された推定結果データD2により表される病変名、病変位置および確率スコアを重畳表示するための判定結果画像を生成する。そして、表示制御部30は、内視鏡画像データD1と、生成した判定結果画像を表す判定結果画像データD3とを表示装置300に出力する。この場合、内視鏡動画像の病変部の構造強調や色彩強調、差分処理、高コントラスト化、高精細化などのデジタル画像処理システムを接続し、観察者(例えば、医師)の理解と判定を助ける加工を施して表示させることもできる。
 表示装置300は、表示制御部30から出力された内視鏡画像データD1により表される内視鏡動画像上に、判定結果画像データD3により表される判定結果画像を重畳表示させる。表示装置300に表示される内視鏡動画像および判定結果画像は、医師によるリアルタイムの診断補助及び診断支援に用いられる。
 本実施の形態では、表示制御部30は、確率スコアがある閾値(例えば、0.4)以上である場合、内視鏡動画像上において、病変位置を示す矩形枠、病変名および確率スコアを重畳表示させる。一方、表示制御部30は、確率スコアがある閾値(例えば、0.4)未満である場合、つまり内視鏡動画像内に病変が存在する確率が低い場合、内視鏡動画像上において、病変位置を示す矩形枠、病変名および確率スコアを表示させない。すなわち、表示制御部30は、推定部20から出力された推定結果データD2により表される確率スコアに応じて、内視鏡動画像上における判定結果画像の表示態様を変更する。
 また、表示制御部30は、内視鏡動画像内に病変が存在すると推定した旨が推定部20から出力された場合、表示装置300を制御し、内視鏡動画像を表示する画面を発光させたり、病変判定部の矩形範囲を点滅させたりすることによって警告を表示出力させる。これにより、医師に対して、内視鏡動画像内に病変が存在することの注意を効果的に促すことができる。なお、内視鏡動画像内に病変が存在すると推定部20により推定された場合、図示しないスピーカーから警告音を鳴らす(出力する)ことによって警告を出力させても良い。さらにこのとき、判定確率や推定確率を独自に算出して表示させることも可能である。
 図4は、内視鏡動画像上に判定結果画像を重畳表示させた例を示す図である。図4は、被験者の食道に対して狭帯域光を照射した状態で当該食道内の診断対象部位を撮像した内視鏡動画像である。図4の右側に表示される内視鏡動画像に示すように、判定結果画像として、推定部20により推定された病変位置(範囲)を示す矩形枠50が表示される。図4の左側に表示される複数(例えば、3つ)の内視鏡画像は、内視鏡動画像内において確信度が所定値(例えば、0.5)以上である内視鏡画像を撮像タイミング順(上下方向)に表示される内視鏡画像である。図4の左側に表示される内視鏡画像に示すように、判定結果画像として、推定部20により推定された病変位置(範囲)を示す矩形枠52,54,56、病変名(例えば、食道がん:cancer)および確率スコア(例えば、77.98%、63.44%、55.40%)が表示される。
[学習装置]
 学習装置40は、推定部20の畳み込みニューラルネットワークが内視鏡画像データD1(具体的には、内視鏡動画像を構成する内視鏡画像)から病変位置、病変名および確率スコアを推定し得るように、図示しない外部記憶装置に記憶されている教師データD4を入力し、学習装置40の畳み込みニューラルネットワークに対して学習処理を行う。
 本実施の形態では、学習装置40は、過去に行われた食道の内視鏡検査において、複数の被験者の食道に対して白色光または狭帯域光を照射し、内視鏡撮像装置200により撮像された内視鏡画像(静止画像)と、医師によってあらかじめ判定された、当該内視鏡画像内に存在する病変(食道がん)の病変名および病変位置と、を教師データD4として用いて学習処理を行う。具体的には、学習装置40は、畳み込みニューラルネットワークに内視鏡画像を入力した際の正解値(病変名および病変位置)に対する出力データの誤差(損失とも称される)が小さくなるように、畳み込みニューラルネットワークの学習処理を行う。
 本実施の形態では、学習装置40は、病変(食道がん)が映り込んでいる、つまり存在する内視鏡画像(本発明の「食道がん画像」に対応)を、教師データD4として用いて学習処理を行う。
 学習処理における教師データD4としての内視鏡画像は、日本トップクラスのがん治療専門病院の豊富なデータベースを主に使用し、豊富な診断・治療経験を有する日本消化器内視鏡学会指導医がすべての画像を詳細に検討、選別し、精密な手動処理で病変(食道がん)の病変位置に対するマーキングを行った。リファレンスデータとなる教師データD4(内視鏡画像データ)の精度管理とバイアスの排除のためには、そのまま画像診断装置100の診断精度に直結するために、豊富な経験を有するエキスパート内視鏡医による画像選別と病変同定、特徴抽出のマーキングが行われた十分量の症例数が極めて重要な工程である。このような高精度のデータクレンジング作業と高品質なレファレンンスデータの利用によって、信頼性の高いAIプログラムの出力結果が提供される。
 内視鏡画像の教師データD4は、画素値のデータであっても良いし、所定の色変換処理等がなされたデータであっても良い。また、前処理として、炎症像と非炎症像の比較からがん部に特徴的なテクスチャ特徴、形状特徴、凹凸状況、広がり特徴等を抽出したものが用いられても良い。また、教師データD4は、内視鏡画像データに加えて、被験者の年齢、性別、地域または既病歴、家族病歴等に係る情報を関連付けて学習処理を行ってもよい。
 なお、学習装置40が学習処理を行う際のアルゴリズムは、公知の手法であってよい。学習装置40は、例えば、公知のバックプロパゲーション(Backpropagation:誤差逆伝播法)を用いて、畳み込みニューラルネットワークに対して学習処理を施し、ネットワークパラメータ(重み係数、バイアス等)を調整する。そして、学習装置40によって学習処理が施された畳み込みニューラルネットワークのモデルデータ(構造データおよび学習済み重みパラメータ等)は、例えば、画像診断プログラムと共に、外部記憶装置104に格納される。公知の畳み込みニューラルネットワークモデルとしては、たとえば、GoogLeNet、ResNet、SENetなどが挙げられる。
 以上詳しく説明したように、本実施の形態では、画像診断装置100は、被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得部10と、食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された内視鏡動画像内における食道がんの存在を推定し、推定結果を出力する推定部20とを備える。
 具体的には、畳み込みニューラルネットワークは、複数の被験者のそれぞれについて予め得られている複数の食道(消化器)の内視鏡画像(食道がん画像)と、複数の被験者のそれぞれについて予め得られている病変(食道がん)の病変名および病変位置の確定判定結果とに基づいて学習されている。そのため、短時間、かつ、実質的に経験豊富な内視鏡医に匹敵する精度で、新規被験者の食道の病変名および病変位置を推定することができる。したがって、食道の内視鏡検査において、本実施の形態による畳み込みニューラルネットワークが有する内視鏡動画像の診断能力を使用して食道がんの診断をリアルタイムに行うことができる。
 実臨床においては、画像診断装置100は、検査室で内視鏡医による内視鏡動画像の診断を直接的に支援する診断支援ツールとして利用することもできる。また、画像診断装置100は、複数の検査室から伝送される内視鏡動画像の診断を支援する中央診断支援サービスとして利用することや、インターネット回線を通じた遠隔操作によって、遠隔地の機関における内視鏡動画像の診断を支援する診断支援サービスとして利用することもできる。また、画像診断装置100は、クラウド上で動作させることもできる。さらに、これらの内視鏡動画像とAI判定結果をそのまま動画ライブラリー化し、教育研修や研究のための教材や資料として活用することもできる。
[画像診断装置の全体構成]
 次に、第2の実施の形態(多発ヨード不染帯の存在有無の推定による診断)における画像診断装置100Aの構成について説明する。図5は、画像診断装置100Aの全体構成を示すブロック図である。
 画像診断装置100Aは、医師(例えば、内視鏡医)による消化器(本実施の形態では、食道)の内視鏡検査において、畳み込みニューラルネットワークが有する内視鏡画像の画像診断能力を使用し、被験者の食道を撮像した内視鏡画像における多発ヨード不染帯の存在有無を推定する。多発ヨード不染帯は、ヨード液を食道内腔に撒布した際に、茶褐色に染色されず黄白色を示す部分である。画像診断装置100Aには、内視鏡撮像装置200Aおよび表示装置300Aが接続されている。
 内視鏡撮像装置200Aは、例えば、撮像手段を内蔵した電子内視鏡(ビデオスコープともいう)や、光学式内視鏡に撮像手段を内蔵したカメラヘッドを装着したカメラ装着内視鏡等である。内視鏡撮像装置200Aは、例えば、被験者の口または鼻から消化器に挿入され、当該消化器内の診断対象部位を撮像する。
 本実施の形態では、内視鏡撮像装置200Aは、医師の操作(例えば、ボタン操作)に応じて、被験者の食道に対して白色光または狭帯域光(例えば、NBI用狭帯域光)を照射した状態で当該食道内の診断対象部位を内視鏡画像として撮像する。内視鏡撮像装置200Aは、撮像した内視鏡画像を表す内視鏡画像データD1を画像診断装置100Aに出力する。
 表示装置300Aは、例えば、液晶ディスプレイであり、画像診断装置100Aから出力された内視鏡画像および判定結果画像を、医師に識別可能に表示する。
 画像診断装置100Aは、第1の実施の形態における画像診断装置100と同様に主たるコンポーネントとして、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、外部記憶装置(例えば、フラッシュメモリ)104、通信インターフェイス105およびGPU(Graphics Processing Unit)106等を備えたコンピューターである(図2を参照)。
 画像診断装置100Aの各機能は、例えば、CPU101,GPU106がROM102、RAM103、外部記憶装置104等に記憶された制御プログラム(例えば、画像診断プログラム)や各種データ(例えば、内視鏡画像データ、教師データ、畳み込みニューラルネットワークのモデルデータ(構造データおよび学習済み重みパラメータ等))などを参照することによって実現される。なお、RAM103は、例えば、データの作業領域や一時退避領域として機能する。
 なお、画像診断装置100Aの各機能の一部または全部は、CPU101,GPU106による処理に代えて、または、これと共に、DSP(Digital Signal Processor)による処理によって実現されても良い。また、同様に、各機能の一部または全部は、ソフトウェアによる処理に代えて、または、これと共に、専用のハードウェア回路による処理によって実現されても良い。
 図5に示すように、画像診断装置100Aは、内視鏡画像取得部10A、推定部20Aおよび表示制御部30Aを備えている。学習装置40Aは、画像診断装置100Aにおいて使用される畳み込みニューラルネットワークのモデルデータ(本発明の「学習済みモデル」に対応)を生成する機能を有する。
[内視鏡画像取得部]
 内視鏡画像取得部10Aは、内視鏡撮像装置200Aから出力された内視鏡画像データD1を取得する。そして、内視鏡画像取得部10Aは、取得した内視鏡画像データD1を推定部20Aに出力する。なお、内視鏡画像取得部10Aは、内視鏡画像データD1を取得する際、内視鏡撮像装置200Aから直接取得しても良いし、外部記憶装置104に格納された内視鏡画像データD1や、インターネット回線等を介して提供された内視鏡画像データD1を取得しても良い。
[推定部]
 推定部20Aは、畳み込みニューラルネットワークを用いて、内視鏡画像取得部10Aから出力された内視鏡画像データD1により表される内視鏡画像内における多発ヨード不染帯の存在有無を推定し、推定結果を出力する。具体的には、推定部20Aは、内視鏡画像内における多発ヨード不染帯の存在有無の確信度(確度とも言う)を推定する。そして、推定部20Aは、内視鏡画像取得部10Aから出力された内視鏡画像データD1と、多発ヨード不染帯の存在有無の確信度に係る推定結果を表す推定結果データD2とを表示制御部30Aに出力する。
 本実施の形態では、推定部20Aは、多発ヨード不染帯の存在有無の確信度を示す指標として確率スコアを推定する。確率スコアは、0より大きく、1以下の値で表される。確率スコアが高いほど、多発ヨード不染帯の存在有無の確信度が高いことを意味する。
 なお、確率スコアは、多発ヨード不染帯の存在有無の確信度を示す指標の一例であって、その他の任意の態様の指標が用いられても良い。例えば、確率スコアは、0%~100%の値で表される態様であっても良いし、数段階のレベル値のうちの何れで表される態様であっても良い。
 畳み込みニューラルネットワークは、順伝播型ニューラルネットワークの一種であって、脳の視覚野の構造における知見に基づくものである。基本的に、画像の局所的な特徴抽出を担う畳み込み層と、局所毎に特徴をまとめあげるプーリング層(サブサンプリング層)とを繰り返した構造となっている。畳み込みニューラルネットワークの各層によれば、複数のニューロン(Neuron)を所持し、個々のニューロンが視覚野と対応するような形で配置されている。それぞれのニューロンの基本的な働きは、信号の入力と出力とからなる。
 ただし、各層のニューロン間は、相互に信号を伝達する際に、入力された信号をそのまま出力するのではなく、それぞれの入力に対して結合荷重を設定し、その重み付きの入力の総和が各ニューロンに設定されている閾値を超えた時に、次の層のニューロンに信号を出力する。学習データからこれらニューロン間の結合荷重を算出しておく。これによって、リアルタイムのデータを入力することによって、出力値の推定が可能となる。この目的に適合する畳み込みニューラルネットワークであれば、それを構成するアルゴリズムは特に限定されない。 
 図6は、本実施の形態における畳み込みニューラルネットワークの構成を示す図である。なお、畳み込みニューラルネットワークのモデルデータ(構造データおよび学習済み重みパラメータ等)は、画像診断プログラムと共に、外部記憶装置104に格納されている。
 図6に示すように、畳み込みニューラルネットワークは、例えば、特徴抽出部Naと識別部Nbとを有する。特徴抽出部Naは、入力される画像(具体的には、内視鏡画像データD1により表される内視鏡画像)から画像特徴を抽出する処理を施す。識別部Nbは、特徴抽出部Naにより抽出された画像特徴から画像に係る推定結果を出力する。
 特徴抽出部Naは、複数の特徴量抽出層Na1、Na2・・・が階層的に接続されて構成される。各特徴量抽出層Na1、Na2・・・は、畳み込み層(Convolution layer)、活性化層(Activation layer)およびプーリング層(Pooling layer)を備える。
 第1層目の特徴量抽出層Na1は、入力される画像を、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Na1は、走査したデータに対して、畳み込み層、活性化層およびプーリング層によって特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。第1層目の特徴量抽出層Na1は、例えば、水平方向に延びる線状の特徴量や斜め方向に延びる線状の特徴量等の比較的シンプルな単独の特徴量を抽出する。
 第2層目の特徴量抽出層Na2は、前階層の特徴量抽出層Na1から入力される画像(特徴マップとも称される)を、例えば、ラスタスキャンにより所定サイズ毎に走査する。そして、特徴量抽出層Na2は、走査したデータに対して、同様に、畳み込み層、活性化層およびプーリング層による特徴量抽出処理を施すことにより、入力画像に含まれる特徴量を抽出する。なお、第2層目の特徴量抽出層Na2は、第1層目の特徴量抽出層Na1が抽出した複数の特徴量の位置関係などを参照しながら統合させることで、より高次元の複合的な特徴量を抽出する。
 第2層目以降の特徴量抽出層(図6では、説明の便宜として、特徴量抽出層Naを2階層のみを示す)は、第2層目の特徴量抽出層Na2と同様の処理を実行する。そして、最終層の特徴量抽出層の出力(複数の特徴マップのマップ内の各値)が、識別部Nbに対して入力される。
 識別部Nbは、例えば、複数の全結合層(Fully Connected)が階層的に接続された多層パーセプトロンによって構成される。
 識別部Nbの入力側の全結合層は、特徴抽出部Naから取得した複数の特徴マップのマップ内の各値に全結合し、その各値に対して重み係数を変化させながら積和演算を行って出力する。
 識別部Nbの次階層の全結合層は、前階層の全結合層の各素子が出力する値に全結合し、その各値に対して異なる重み係数を適用しながら積和演算を行う。そして、識別部Nbの最後段には、特徴抽出部Naに入力される画像(内視鏡画像)内における多発ヨード不染帯の存在有無の確率スコア(確信度)を出力する層(例えば、ソフトマックス関数等)が設けられる。
 畳み込みニューラルネットワークは、あらかじめ経験豊富な内視鏡医によってマーキング処理されたリファレンスデータ(以下、「教師データ」という)を用いて学習処理を行っておくことよって、入力される内視鏡画像から所望の推定結果(ここでは、多発ヨード不染帯の存在有無の確率スコア)を出力し得るように、推定機能を保有することができる。このとき、代表的な病態をカバーし、バイアスが調整された十分な量の教師データで学習させ、重みを適正に調整することによって、過学習を防ぐことができる。また、本実施の多発ヨード不染帯の存在有無の診断に汎化された性能を有するAIプログラムを連結させることによって、高速で高精度の診断性能を有するプログラムが可能となる。
 本実施の形態における畳み込みニューラルネットワークは、内視鏡画像データD1を入力とし(図6のInput)、内視鏡画像データD1により表される内視鏡画像の画像特徴に応じた多発ヨード不染帯の存在有無の確率スコアを推定結果データD2として出力する(図6のOutput)ように構成される。
 なお、畳み込みニューラルネットワークは、より好適には、内視鏡画像データD1に加えて、被験者の年齢、性別、地域または既病歴に係る情報を入力し得る構成(例えば、識別部Nbの入力素子として設ける)としても良い。実臨床におけるリアルワールドデータの重要性は特に認められていることから、こうした被験者属性の情報を追加することによって、実臨床において、より有用なシステムに展開することができる。すなわち、内視鏡画像の特徴は、被験者の年齢、性別、地域、既病歴、家族病歴等に係る情報と相関関係を有すると考えられており、畳み込みニューラルネットワークに対して、内視鏡画像データD1に加えて年齢等の被験者属性情報を参照させることによって、より高精度に多発ヨード不染帯の存在有無を推定し得る構成とすることができる。この手法は、地域や人種間によっても疾患の病態が異なることがあることから、特に本発明を国際的に活用する場合には、取り入れるべき事項である。
 また、推定部20Aは、畳み込みニューラルネットワークによる処理の他、前処理として、内視鏡画像のサイズやアスペクト比に変換する処理、内視鏡画像の色分割処理、内視鏡画像の色変換処理、色抽出処理、輝度勾配抽出処理等を行っても良い。なお、過学習を防ぎ、精度を高めるためには、重みづけの調整を行うことも好ましい。
[表示制御部]
 表示制御部30Aは、推定部20Aから出力された内視鏡画像データD1により表される内視鏡画像上において、推定部20Aから出力された推定結果データD2により表される確率スコアを重畳表示するための判定結果画像を生成する。そして、表示制御部30Aは、内視鏡画像データD1と、生成した判定結果画像を表す判定結果画像データD3とを表示装置300Aに出力する。この場合、内視鏡画像の構造強調や色彩強調、差分処理、高コントラスト化、高精細化などのデジタル画像処理システムを接続し、観察者(例えば、医師)の理解と判定を助ける加工を施して表示させることもできる。
 表示装置300Aは、表示制御部30Aから出力された内視鏡画像データD1により表される内視鏡画像上に、判定結果画像データD3により表される判定結果画像を重畳表示させる。表示装置300Aに表示される内視鏡画像および判定結果画像は、例えば医師によるリアルタイムの診断補助および診断支援に用いられる。
 本実施の形態では、表示制御部30Aは、確率スコアがある閾値(例えば、0.6)以上である場合、表示装置300Aを制御し、内視鏡画像を表示する画面を発光させることによって、多発ヨード不染帯が存在する旨の警告を表示出力させる。これにより、医師に対して、内視鏡画像内に多発ヨード不染帯が存在することの注意を効果的に促すことができる。なお、画像診断装置100Aは、確率スコアがある閾値以上である場合、図示しないスピーカーから警告音を鳴らす(出力する)ことによって警告を出力させても良い。さらにこのとき、判定確率や推定確率を独自に算出して表示させることも可能である。
[学習装置]
 学習装置40Aは、推定部20Aの畳み込みニューラルネットワークが内視鏡画像データD1(具体的には、内視鏡画像)から多発ヨード不染帯の存在有無の確率スコアを推定し得るように、図示しない外部記憶装置に記憶されている教師データD4を入力し、学習装置40Aの畳み込みニューラルネットワークに対して学習処理を行う。
 本実施の形態では、学習装置40Aは、過去に行われた食道の内視鏡検査において、複数の被験者の食道に対して白色光または狭帯域光を照射した状態で内視鏡撮像装置200Aにより撮像された内視鏡画像と、確認のためのヨード染色によってあらかじめ判定された、当該内視鏡画像における多発ヨード不染帯の存在有無と、を教師データD4として用いて学習処理を行う。具体的には、学習装置40Aは、畳み込みニューラルネットワークに内視鏡画像を入力した際の正解値(多発ヨード不染帯の存在有無)に対する出力データの誤差(損失とも称される)が小さくなるように、畳み込みニューラルネットワークの学習処理を行う。
 本実施の形態では、学習装置40Aは、実際に多発ヨード不染帯が存在する食道を撮像した内視鏡画像(本発明の「不染帯画像」に対応)と、実際に多発ヨード不染帯が存在しない食道を撮像した内視鏡画像(本発明の「非不染帯画像」に対応)とを、教師データD4として用いて学習処理を行う。
 図7は、食道内腔にヨード液を撒布した際に、当該食道を撮像した内視鏡画像の例を示す図である。図7Aに示す内視鏡画像は、食道内に存在する多発ヨード不染帯の数が0であり、当該内視鏡画像内に多発ヨード不染帯は存在しない(グレードA)と医師によって判定される。図7Bに示す内視鏡画像は、食道内に存在する多発ヨード不染帯の数が1以上9以下であり、当該内視鏡画像内に多発ヨード不染帯は存在しない(グレードB)と医師によって判定される。図7Cに示す内視鏡画像は、食道内に存在する多発ヨード不染帯の数が10以上であり、当該内視鏡画像内に多発ヨード不染帯は存在する(グレードC)と医師によって判定される。このような多発ヨード不染帯の教師データで学習させたプログラムで駆動させる内視鏡画像処理装置(画像診断装置100A)は、あえてヨード染色しなくても多発ヨード不染帯を推定できるようになる。
 学習処理における教師データD4としての内視鏡画像は、日本トップクラスのがん治療専門病院の豊富なデータベースを主に使用し、豊富な診断・治療経験を有する日本消化器内視鏡学会指導医がすべての内視鏡画像を詳細に検討し、多発ヨード不染帯の存在有無を判定している。リファレンスデータとなる教師データD4(内視鏡画像データ)の精度管理とバイアスの排除のためには、そのまま画像診断装置100Aの診断精度に直結するために、豊富な経験を有するエキスパート内視鏡医による画像選別と多発ヨード不染帯の存在有無の判定が行われた十分量の症例数が極めて重要な工程である。このような高精度のデータクレンジング作業と高品質なリファレンンスデータの利用によって、信頼性の高いAIプログラムの出力結果が提供される。
 内視鏡画像の教師データD4は、画素値のデータであっても良いし、所定の色変換処理等がなされたデータであっても良い。また、前処理として、不染帯画像と非不染帯画像との比較から多発ヨード不染帯の存在有無に特徴的なテクスチャ特徴、形状特徴、凹凸状況、広がり特徴等を抽出したものが用いられても良い。また、教師データD4は、内視鏡画像データに加えて、被験者の年齢、性別、地域、既病歴または家族病歴等に係る情報を関連付けて学習処理を行ってもよい。
 なお、学習装置40Aが学習処理を行う際のアルゴリズムは、公知の手法であってよい。学習装置40Aは、例えば、公知のバックプロパゲーション(Backpropagation:誤差逆伝播法)を用いて、畳み込みニューラルネットワークに対して学習処理を施し、ネットワークパラメータ(重み係数、バイアス等)を調整する。そして、学習装置40Aによって学習処理が施された畳み込みニューラルネットワークのモデルデータ(構造データおよび学習済み重みパラメータ等)は、例えば、画像診断プログラムと共に、外部記憶装置104に格納される。公知の畳み込みニューラルネットワークモデルとしては、たとえば、GoogleNet、ResNet、SENetなどが挙げられる。
 以上詳しく説明したように、本実施の形態では、画像診断装置100Aは、被験者の食道を撮像した内視鏡画像を取得する内視鏡画像取得部10Aと、多発ヨード不染帯が存在する食道を撮像した多発ヨード不染帯食道画像と、多発ヨード不染帯が存在しない食道を撮像した非多発ヨード不染帯食道画像とを教師データとして学習させ、ヨード染色をせずに多発ヨード不染帯を検出する畳み込みニューラルネットワークを用いて、取得された内視鏡画像における多発ヨード不染帯の存在有無を推定し、推定結果を出力する推定部20Aとを備える。多発ヨード不染帯の存在はがんリスクが高いことにつながるので、本実施の形態の画像診断装置100Aは、そのまま食道がんのリスク判定機能を有しながら診断に供することができる。
 具体的には、畳み込みニューラルネットワークは、複数の被験者のそれぞれについて予め得られている複数の食道(消化器)の内視鏡画像(多発ヨード不染帯食道画像、非多発ヨード不染帯食道画像)と、複数の被験者のそれぞれについて予め得られている多発ヨード不染帯の存在有無の確定判定結果とに基づいて学習されている。そのため、新規被験者の食道を撮像した内視鏡画像における多発ヨード不染帯の存在有無を推定することができる。したがって、通常のヨード染色を用いない通常の内視鏡検査において、本実施の形態による畳み込みニューラルネットワークが有する内視鏡画像の診断能力を使用し、食道がんのハイリスク症例の指標である多発ヨード不染帯の存在有無を予測しながら診断することができる。その結果、事前にヨード染色したのと同等に食道がんのハイリスク症例を事前に同定して、被験者にはヨード染色という身体的負荷を与えずに、高精度で効率的に食道がんを検出することができ、本発明の第1の実施の形態であるリアルタイム動画による診断と併せて、ヨード染色せずに多発ヨード不染帯の存在をAIにより予知することで、リアルタイム動画による食道がんの有無の判定を効率的に行うことができる。
 実臨床においては、画像診断装置100Aは、検査室で内視鏡医による内視鏡画像の診断を直接的に支援する診断支援ツールとして利用することもできる。また、画像診断装置100Aは、複数の検査室から伝送される内視鏡画像の診断を支援する中央診断支援サービスとして利用することや、インターネット回線を通じた遠隔操作によって、遠隔地の機関における内視鏡画像の診断を支援する診断支援サービスとして利用することもできる。また、画像診断装置100Aは、クラウド上で動作させることもできる。さらに、これらの内視鏡画像とAI判定結果とをそのまま動画ライブラリー化し、教育研修や研究のための教材や資料として活用することもできる。
 多発ヨード不染帯の予測判定によるがんリスク評価と併せると、内視鏡挿入時に低速モードと高速モードを決める方法によって、高リスクでは低速で観察し、低リスクでは高速で観察するという、術者側の操作を適正化する機能で、さらに効率的で高精度の診断が容易となる。すなわち、内視鏡を食道に挿入する際に、まず多発ヨード不染帯の検知状況から、食道がんリスクの大小が判定できるので、その判定によって、内視鏡基準挿入速度の設定と警告の感度を画像装置表示部で表示し、操作条件を再設定し、食道内腔の観察に適した条件下で診断を行うことができる。検査中の内視鏡挿入速度は、基準挿入速度と、実際の挿入速度との差分が小さくなるように、警告を出力させることができ。適正な観察条件が維持される。多発ヨード不染帯が検出されず、がんリスクが低ければ食道内腔を早く通り過ぎることも可能であるが、その際には内視鏡医が気づきにくい病巣はリアルタイム画像診断装置で十分検出し得る。一方、多発ヨード不染帯が検出され、がんリスクが高い場合は内視鏡医が詳細に観察することになり、内視鏡医とリアルタイム画像診断装置と併せて微細ながん病変を見逃さない精密な診断ができる。このように、内視鏡リアルタイム動画像の診断と多発ヨード不染帯の予測判定とを組合せることにより、静止画を撮像しなくても、ヨード染色をしなくとも、内視鏡を食道に入れるだけですぐに食道がんリスクの程度が分かり、患部観察は速い動きだと精度が下がるが、ゆっくり動かすと精度が上がるという人間の判定様式を補完・拡張して、食道がんリスクを人間の判断速度を遙かに超えた速度で効率的に判定することが可能となる。これによって、被験者にとっても最短の時間と必要最低限の身体的負荷で検査を受けることができる。
 以上のように、上記第1の実施の形態(内視鏡リアルタイム動画による診断)と上記第2の実施の形態(多発ヨード不染帯の予測判定)とを適宜組み合わせることによって、被験者ごとのがんリスク度に合わせた観察が可能な内視鏡基準挿入速度を調整し、従来技術を超えて、効率的に高精度で食道がんの診断を補助することができる。
 また、上記第1および第2の実施の形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
 最後に、上記第1および第2の実施の形態の構成における効果を確認するための評価試験について説明する。
[第1の評価試験]
 まず、上記第1の実施の形態の構成における効果を確認するための第1の評価試験(内視鏡リアルタイム動画像の判定)について説明する。
[教師データセットの準備]
 2014年から2017年に組織学的に食道がんと診断された429病変の内視鏡静止画像8428枚を画像診断装置における畳み込みニューラルネットワークの学習に使用する教師データセット(教師データ)として用意した。内視鏡撮像装置としては、オリンパスメディカルシステムズ社のGIF-H240Z、GIF-H260Z、GIF-H290を用いた。
 なお、教師データセットとしての内視鏡画像には、被験者の食道を内視鏡撮像装置により撮像された内視鏡画像のうち、画像中に食道がんが認められる(存在する)内視鏡画像を含めた。一方、粘液、血液が広範に付着している、ピントが合っていないまたはハレーションの理由により画像品質が悪い内視鏡画像は、教師データセットから除外した。食道がんの専門家である日本消化器内視鏡学会指導医は、用意された内視鏡画像を詳細に検討、選別し、精密な手動処理で病変の病変位置に対するマーキングを行い、教師データセットを用意した。
[学習・アルゴリズム]
 食道がんの診断を行う画像診断装置の構築には、22層のレイヤーで構成され、以前の畳み込みニューラルネットワークと共通の構造を持ちながら、十分なパラメータ数と表現力を有するGoogleNetを畳み込みニューラルネットワークとして使用した。バークレービジョン及びラーニングセンター(BVLC:Berkeley Vision and Learning Center)で開発されたCaffeディープラーニングフレームワークを学習および評価試験に使用した。畳み込みニューラルネットワークの全ての層は、確率的勾配降下法を使用して、グローバル学習率0.0001で微調整されている。畳み込みニューラルネットワークと互換性を持たせるために、各内視鏡画像を224×224ピクセルにリサイズした。
[評価試験用データセットの準備]
 構築された畳み込みニューラルネットワークベースの画像診断装置の診断精度を評価するために、2018年8月~2019年8月の間に公益財団法人がん研究会有明病院で初回治療としてESDが行われた症例において、まず、複数の被験者の食道に対して内視鏡撮像装置により撮像され、食道がんが存在する複数の被験者の食道に対して白色光と狭帯域光のどちらの観察も含んだ32の内視鏡精密検査動画像1セットと、複数の被験者の食道に対して白色光または狭帯域光を照射し内視鏡撮像装置により撮像された通常検査動画では食道がんが存在する20例において白色光と狭帯域光の内視鏡動画像合計40と、複数の被験者の食道に対し内視鏡撮像装置により撮像され、食道がんが存在しない20例に白色光または狭帯域光の内視鏡動画像合計40を評価試験用データセットとして収集した。食道がんが映り込んでいる内視鏡動画像と、食道がんが映り込んでいない内視鏡動画像とを撮像した。評価試験用データセットを構成する各内視鏡動画像のフレームレートは、30fps(1内視鏡画像=0.033秒)である。内視鏡撮像装置としては、教師データセットの準備と同様に、オリンパスメディカルシステムズ社のGIF-H240Z、GIF-H260Z、GIF-H290を用いた。撮像の際の構造強調は、白色光を照射する場合にAモードレベル5を設定し、狭帯域光を照射する場合にBモードレベル8を設定した。
 なお、評価試験用データセットには、適格基準を満たす内視鏡動画像として、精密検査動画としては被験者の食道を注視した状態で内視鏡撮像装置により5秒間撮像された内視鏡動画像を含めた。また、通常検査動画(具体的には、病変精査のために詳細に観察している動画)として、低速度(例えば、1cm/s)で内視鏡を動かし病変を観察する内視鏡動画像(低速度)を撮像した。また、通常検査動画として、食道入口部から食道胃接合部までを高速度(例えば、2cm/s)で素早く内視鏡を挿入する内視鏡動画像(高速度)を撮像した。一方、粘液、血液が広範に付着している、ピントが合っていないまたはハレーションの理由により画像品質が悪い内視鏡動画像については、除外基準を満たす内視鏡動画像として、評価試験用データセットから除外した。食道がんの専門家である日本消化器内視鏡学会指導医は、用意された内視鏡動画像を詳細に検討し、食道がんが存在する内視鏡動画像と食道がんが存在しない内視鏡動画像とを選別し、評価試験用データセットを用意した。
 図8は、評価試験用データセットに用いられた内視鏡動画像(低速度)に関する被験者および病変(食道がん)の特徴を示す図である。年齢および腫瘍径については、中央値[全範囲]を示している。図8に示すように例えば、腫瘍径の中央値は17mmであった。深達度では、粘膜浅層(EP)が7病変であり、粘膜深層(LPM)が21病変であり、粘膜筋板浸潤(MM)が3例、粘膜下層浸潤(SM)が1病変であった。肉眼型(分類)では、16病変で陥凹型(0-llc)が最も多かった。
 図9は、評価試験用データセットに用いられた内視鏡動画像(高速度)に関する被験者および病変(食道がん)の特徴を示す図である。年齢および腫瘍径については、中央値[全範囲]を示している。図8に示すように例えば、腫瘍径の中央値は17mmであった。深達度では、粘膜浅層(EP)が8病変であり、粘膜深層(LPM)が10病変であり、粘膜筋板浸潤(MM)が3例、粘膜下層浸潤(SM)が1病変であった。肉眼型(分類)では、16病変で陥凹型(0-llc)が最も多かった。
[評価試験の方法]
 本評価試験では、教師データセットを用いて学習処理が行われた畳み込みニューラルネットワークベースの画像診断装置に対して評価試験用データセットを入力し、当該評価試験用データセットを構成する各内視鏡動画像内に食道がんが存在するか否かを正しく診断できるか否かについて評価した。画像診断装置は、確信度が所定値以上である内視鏡画像が所定時間内に所定数存在する場合、内視鏡動画像内に病変が存在すると診断する。
 具体的には、画像診断装置は、1秒間の内視鏡動画像を30フレームの静止画像として認識している。画像診断装置が食道がんを認識すると0.5秒間(15フレーム)戻って検索し、その中に3フレーム以上食道がんを含む内視鏡画像が存在した場合、内視鏡動画像内に食道がんが存在すると診断する。
 また、本評価試験では、被験者の食道に対して白色光、狭帯域光のそれぞれを照射した状態で撮像された内視鏡動画像において、画像診断装置が、食道がんが存在することを正しく診断できるか否か(感度)について、次の式(1)を用いて算出した。
 感度=(評価試験用データセットにおいて食道がんが存在することを正しく診断できた内視鏡動画像の数)/(評価試験用データセットにおいて実際に食道がんが存在する内視鏡動画像の数)・・・(1)
 また、本評価試験では、被験者の食道に対して白色光、狭帯域光のそれぞれを照射した状態で撮像された内視鏡動画像において、画像診断装置の診断能力に対する特異度、陽性的中率(PPV)および陰性的中率(NPV)を次の式(2)~(4)を用いて算出した。
 特異度=(評価試験用データセットにおいて食道がんが存在しないことを正しく診断できた内視鏡動画像の数)/(評価試験用データセットにおいて実際に食道がんが存在しない内視鏡動画像の数)・・・(2)
 陽性的中率(PPV)=(評価試験用データセットにおいて食道がんが存在すると診断した内視鏡動画像のうち、実際に食道がんが存在する内視鏡動画像の数)/(評価試験用データセットにおいて食道がんが存在すると診断した内視鏡動画像の数)・・・(3)
 陰性的中率(NPV)=(評価試験用データセットにおいて食道がんが存在しないと診断した内視鏡動画像のうち、実際に食道がんが存在しない内視鏡動画像の数)/(評価試験用データセットにおいて食道がんが存在すると診断した内視鏡動画像の数)・・・(4)
[評価試験の結果]
 図10は、被験者の食道に対して白色光、狭帯域光のそれぞれを照射した状態で撮像された内視鏡動画像における画像診断装置の感度を表す図である。図10に示すように、画像診断装置は、被験者の食道に対して白色光を照射した状態で撮像された内視鏡動画像のうち75%(95%CI)の内視鏡動画像について、食道がんが存在することを正しく診断できた。また、画像診断装置は、被験者の食道に対して狭帯域光を照射した状態で撮像された内視鏡動画像のうち55%(95%CI)の内視鏡動画像について、食道がんが存在することを正しく診断できた。また、画像診断装置は、被験者の食道に対して白色光または狭帯域光を照射した状態で撮像された内視鏡動画像のうち85%(95%CI)の内視鏡動画像について、食道がんが存在することを正しく診断できた。
 図11は、被験者の食道に対して白色光、狭帯域光のそれぞれを照射した状態で撮像された内視鏡動画像において、画像診断装置の診断能力に対する感度、特異度、陽性的中率(PPV)および陰性的中率(NPV)を表す図である。図11に示すように、被験者の食道に対して白色光を照射した状態で撮像された内視鏡動画像において、画像診断装置の感度、特異度、陽性的中率および陰性的中率はそれぞれ、75%、30%、52%および55%であった。また、被験者の食道に対して狭帯域光を照射した状態で撮像された内視鏡動画像において、画像診断装置の感度、特異度、陽性的中率および陰性的中率はそれぞれ、55%、80%、73%および64%であった。
[第1の評価試験に対する考察]
 病変精査のために詳細に観察している内視鏡動画像(32本)では、白色光、狭帯域光の両方において画像診断装置は全ての食道がんの認識が可能であった。次に、食道がんの存在は分からず、食道入口部から食道胃接合部まで2.0cm/sで素早く挿入している内視鏡動画像では白色光と狭帯域光の両方を加えると画像診断装置は85%の食道がんの認識が可能であった。同様の素早い内視鏡動画像を15人の内視鏡医(食道がんの診断を実臨床で行っている日本消化器内視鏡学会認定専門医7人と非専門医8人)が診断すると中央値45%(25-60%)の正診率であった。また、画像診断装置が食道がんと認識した領域を四角枠で示すAI補助下の内視鏡動画像では15人中11人の内視鏡医で正診率が中央値10%(5-20%)上昇した。
 以上のことから、内視鏡挿入速度が1.0cm/s程度の遅いスピードであればAIも内視鏡医もほぼ全ての食道がんを診断することが可能であると考えられる。しかしながら、2.0cm/s程度の早い挿入速度では内視鏡医は病変を認識することが非常に難しい。AIが食道がんの位置に四角枠を表示することで内視鏡医の病変認識は少し改善した。それに対してAIはある程度の高い精度で食道がんの拾い上げが可能である。
 非特許文献3には、NBI併用拡大内視鏡により撮像された内視鏡画像(静止画像)を用いてコンピューター支援診断(CAD)システムの食道がんの診断能力を評価した結果、感度77%、特異度79%、陽性的中率39%、陰性的中率95%であったことが記載されている。また、偽陽性となる原因の例として、重度の影、正常の構造物(食道胃接合部、左主気管支、椎体)、良性病変(瘢痕、局所萎縮、バレット食道)が記載されている。
 しかしながら、非特許文献3においては、コンピューター支援診断システムの診断能力と、食道がんの診断技術を習得した内視鏡熟練医の診断能力とを比較していないため、診断能力を評価するために使用された内視鏡画像の診断難易度が不明であり、コンピューター支援診断システムの診断能力の解釈に限界があった。
 また、非特許文献3においては、静止画像(内視鏡画像)を用いた検討を行っており、内視鏡検査後に内視鏡画像の二次読影を行う場合には有用であるものの、動画での検討を行っていないため、食道がんの診断をリアルタイムに行う実際の医療現場に導入することは困難であった。リアルタイム動画に適用させるためには、AIアルゴリズムの再設計と最適化が別途必要になる。
 以上のとおり、従来の先行技術ではリアルタイム動画による検討が行われていないために、本発明と比べて実臨床での有用性や精度などの評価が十分ではなく、産業上の有用性も限定的である。しかしながら、本発明ではこれらの課題を克服する試みが達成され、以下の点が従来技術に比べて特に優れている。
(1)本発明における画像診断装置は、多くの内視鏡医と診断能力の比較を行っているため、畳み込みニューラルネットワークにおける重みづけやパラメータの設定が適切であり、さらに動画評価のための難易度を適正に評価することが可能である。また多くの内視鏡医との比較を行うことで、少数の内視鏡医との比較で生じるバイアスを低下させることも調整できる。その上で、CADシステムが熟練医と同等以上の診断能力を有する性能をもたらすことができる。実臨床での利用のほか、教育訓練用システムとしても利用できることを示した。
(2)本発明では、通常内視鏡やNBI併用非拡大内視鏡を使用することで、その診断能力が高いため、実臨床における有用性が高かった。
(3)本発明では、静止画像の代わりに動画像を用いており、実臨床において画像診断装置を用いて食道がんの内視鏡的診断をリアルタイムに行うことができる。これによって、静止画像を検査後に見直して判定する手間と時間がなくなり、内視鏡検査時に即時に食道がんの診断支援を行うことができ、検査効率や費用対効果の点で非常に優れる。
(4)静止画像による診断では写真が撮像されたもののみを評価するため、内視鏡検査時に検出する食道がんの数は限られてしまうことになるが、本発明による動画像では、静止画像のように患部を撮影するタイミングに関係なく連続的に食道内腔を連続観察できるため、検査中にリアルタイムで食道がんの検出を可能にし、また検出できる食道がんの数が制限されないという点が、食道がんのサーベイランスという意味から実臨床において非常に有用である。
[第2の評価試験]
 次に、上記第2の実施の形態の構成における効果を確認するための第2の評価試験(多発ヨード不染帯の判定)について説明する。
[教師データセットの準備]
 2015年4月~2018年10月の間に公益財団法人がん研究会有明病院の日常臨床において、ヨード染色が行われた症例について、複数の被験者の食道に対して白色光または狭帯域光を照射した状態で内視鏡撮像装置により撮像された内視鏡画像を電子カルテ装置から抽出した。そして、その抽出した内視鏡画像を、画像診断装置における畳み込みニューラルネットワークの学習に使用する教師データセット(教師データ)として用意した。その内訳は、実際に食道内に多発ヨード不染帯が存在する188症例における2736枚の内視鏡画像(白色光観察:1294枚、狭帯域光観察:1442枚)と、実際に食道内に多発ヨード不染帯が存在しない407症例における3898枚の内視鏡画像(白色光観察:1954枚、狭帯域光観察:1944枚)とである。内視鏡撮像装置としては、高解像度内視鏡(GIF-H290Z、オリンパスメディカルシステムズ株式会社、東京都)および高解像度内視鏡ビデオシステム(EVIS LUCERA ELITE CV-290/CLV-290SL、オリンパスメディカルシステムズ株式会社、東京都)を用いた。撮像の際の構造強調について、白色光を照射する場合にAモードレベル5を設定し、狭帯域光を照射する場合にBモードレベル8を設定した。
 なお、食道切除の既往歴がある症例で撮像された内視鏡画像や、食道への化学療法や放射線治療を受けた症例で撮像された内視鏡画像については、教師データセットから除外した。また、食道がんを含む内視鏡画像や、送気不良、生検後の出血、ハレーション、ぼやけ、デフォーカス、粘液などの理由により画像品質の悪い内視鏡画像についても、教師データセットから除外した。豊富な診断・治療経験を有する日本消化器内視鏡学会指導医(2名)は、用意された内視鏡画像を詳細に検討し、多発ヨード不染帯の存在有無を判定して教師データセットを用意した。
[学習・アルゴリズム]
 被験者の食道を撮像した内視鏡画像における多発ヨード不染帯の存在有無を推定する画像診断装置を構築するため、22層のレイヤーで構成され、以前の畳み込みニューラルネットワークと共通の構造を持ちながら、十分なパラメータ数と表現力を有するGoogleNetを畳み込みニューラルネットワークとして使用した。バークレービジョン及びラーニングセンター(BVLC:Berkley Vision and Learning Center)で開発されたCaffeディープラーニングフレームワークを学習および評価試験に使用した。畳み込みニューラルネットワークの全ての層は、確率的勾配降下法を使用して、グローバル学習率0.0001で微調整した。畳み込みニューラルネットワークと互換性を持たせるために、各内視鏡画像を224×224ピクセルにリサイズした。
[評価試験用データセットの準備]
 構築された畳み込みニューラルネットワークベースの画像診断装置の診断精度を評価するために、2018年11月~2019年7月の間に公益財団法人がん研究会有明病院の日常臨床において、ヨード染色が行われた症例について、複数の被験者の食道に対して白色光または狭帯域光を照射した状態で内視鏡撮像装置により撮像された内視鏡画像を評価試験用データセットとして収集した。その内訳は、実際に食道内に多発ヨード不染帯が存在する32症例における342枚の内視鏡画像(白色光観察:135枚、狭帯域光観察:207枚)と、実際に食道内に多発ヨード不染帯が存在しない40症例における325枚の内視鏡画像(白色光観察:165枚、狭帯域光観察:160枚)とである。内視鏡撮像装置としては、高解像度内視鏡(GIF-H290Z、オリンパスメディカルシステムズ株式会社、東京都)および高解像度内視鏡ビデオシステム(EVIS LUCERA ELITE CV-290/CLV-290SL、オリンパスメディカルシステムズ株式会社、東京都)を用いた。
 なお、内視鏡画像の除外基準は教師データセットと同じであるが、バイアスを避けるために基本的には、食道に対して白色光または狭帯域光を照射した状態で撮像された全ての内視鏡画像を使用した。日本消化器内視鏡学会指導医は、用意された内視鏡画像を詳細に検討し、多発ヨード不染帯の存在有無を判定して評価試験用データセットを用意した。
 図12は、評価試験用データセットに用いられる内視鏡画像の例を示す図である。図12Aは、被験者の食道に対して白色光を照射した状態で内視鏡撮像装置により撮像され、実際に食道内に多発ヨード不染帯が存在しない(ヨード染色を行った場合の染色程度:グレードA)と判定された内視鏡画像である。図12Bは、被験者の食道に対して狭帯域光を照射した状態で内視鏡撮像装置により撮像され、実際に食道内に多発ヨード不染帯が存在しない(ヨード染色を行った場合の染色程度:グレードA)と判定された内視鏡画像である。
 図12Cは、被験者の食道に対して白色光を照射した状態で内視鏡撮像装置により撮像され、実際に食道内に多発ヨード不染帯が存在しない(ヨード染色を行った場合の染色程度:グレードB)と判定された内視鏡画像である。図12Dは、被験者の食道に対して狭帯域光を照射した状態で内視鏡撮像装置により撮像され、実際に食道内に多発ヨード不染帯が存在しない(ヨード染色を行った場合の染色程度:グレードB)と判定された内視鏡画像である。
 図12Eは、被験者の食道に対して白色光を照射した状態で内視鏡撮像装置により撮像され、実際に食道内に多発ヨード不染帯が存在する(ヨード染色を行った場合の染色程度:グレードC)と判定された内視鏡画像である。図12Fは、被験者の食道に対して狭帯域光を照射した状態で内視鏡撮像装置により撮像され、実際に食道内に多発ヨード不染帯が存在する(ヨード染色を行った場合の染色程度:グレードC)と判定された内視鏡画像である。
 図13は、評価試験用データセットに用いられる内視鏡画像に関する被験者の特徴を示す図である。図13における年齢については、中央値を示している。実際に食道内に多発ヨード不染帯が存在しない被験者と実際に食道内に多発ヨード不染帯が存在する被験者との間における各種特徴の比較には、ピアソンのカイ二乗検定とフィッシャーの厳密検定を用いる一方、観察人年の比較にはワルドの検定を用いた(図13のP値を参照)。ここで、各検定において、統計学的有意差は0.05未満とした。今回の評価試験において、P値の算出には、「EZR version 1.27(自治医科大学埼玉医療センター)」を用いた。
 図13に示すように、食道内に多発ヨード不染帯が存在する被験者は、食道内に多発ヨード不染帯が存在しない被験者に比べて、多量飲酒者と現在喫煙者の割合が有意に高い一方、性別、年齢および紅潮(フラッシング)反応については両者の間に有意差は認められなかった。観察期間中、食道内に多発ヨード不染帯が存在しない被験者では、100人年あたりの同時性・異時性がんとして検出された食道扁平上皮がんは5.6個であり、頭頸部扁平上皮がんは0.3個であった。一方、食道内に多発ヨード不染帯が存在する被験者では、100人年あたりの同時性・異時性がんとして検出された食道扁平上皮がんは13.3個であり、頭頸部扁平上皮がんは4.8個であった。
[評価試験の方法]
 本評価試験では、教師データセットを用いて学習処理が行われた畳み込みニューラルネットワークベースの画像診断装置に対して評価試験用データセットを入力し、当該評価試験用データセットを構成する各内視鏡画像に多発ヨード不染帯が存在するか否かを正しく診断(判定)できるか否かについて評価した。画像診断装置は、多発ヨード不染帯の存在有無の確信度が所定値以上である内視鏡画像について、当該内視鏡画像に多発ヨード不染帯が存在すると判定する一方、多発ヨード不染帯の存在有無の確信度が所定値未満である内視鏡画像について、当該内視鏡画像に多発ヨード不染帯が存在しないと判定する。画像診断装置は、内視鏡画像毎に多発ヨード不染帯が存在するか否かについて判定を行い、症例毎に内視鏡画像の多数決で多発ヨード不染帯が存在するか否かについて判定を行った。
 また、本評価試験では、画像診断装置の診断能力と、内視鏡医の診断能力とを比較するため、内視鏡医は、評価試験用データセットを構成する内視鏡画像を見て、当該内視鏡画像に多発ヨード不染帯が存在するか否かについて診断を行った。内視鏡医としては、日本消化器内視鏡学会の医師経験:8~17年、内視鏡検査件数:3,500~18,000件の内視鏡医10人を選定した。選定された内視鏡医10人は、内視鏡画像毎に多発ヨード不染帯が存在するか否かについて診断を行い、症例毎に内視鏡画像の多数決で多発ヨード不染帯が存在するか否かについて診断を行った。
 本評価試験では、画像診断装置(または内視鏡医)の診断能力に対する感度、特異度、陽性的中率(PPV)、陰性的中率(NPV)および正診率を次の式(5)~(9)を用いて算出した。
 感度=(食道内に多発ヨード不染帯が存在することを正しく診断できた症例数)/(実際に食道内に多発ヨード不染帯が存在する総症例数)・・・(5)
 特異度=(食道内に多発ヨード不染帯が存在しないことを正しく診断できた症例数)/(実際に食道内に多発ヨード不染帯が存在しない総症例数)・・・(6)
 陽性的中率(PPV)=(食道内に多発ヨード不染帯が存在すると診断した症例のうち、実際に食道内に多発ヨード不染帯が存在する症例数)/(食道内に多発ヨード不染帯が存在すると診断した症例数)・・・(7)
 陰性的中率(NPV)=(食道内に多発ヨード不染帯が存在しないと診断した症例のうち、実際に食道内に多発ヨード不染帯が存在しない症例数)/(食道内に多発ヨード不染帯が存在しないと診断した症例数)・・・(8)
 正診率=(食道内に多発ヨード不染帯が存在するか否かを正しく診断できた症例数)/(全ての症例数)・・・(9)
 また、本評価試験では、経験豊富な内視鏡医は、評価試験用データセットを構成する全内視鏡画像に対して、多発ヨード不染帯が存在することを正しく診断することに役立つと考えられる背景食道粘膜の内視鏡所見の有無を評価し、内視鏡画像毎に内視鏡的所見の多数決で食道内に多発ヨード不染帯が存在するか否かについて診断を行った。そして、食道内に多発ヨード不染帯が存在することを正しく診断できるか否か(感度)について、画像診断装置と内視鏡的所見との間でどちらが優れているかを比較した。
 ここで、上記内視鏡的所見としては、以下(a)~(f)の6つが挙げられる。
 (a)1視野に2個未満のグリコーゲンアカントーシスが確認される。
 (b)角化症(ケラトーシス)が確認される。
 (c)粗造な(ざらざらとした)食道粘膜が確認される。
 (d)食道に対して白色光を照射した場合に、血管透見が確認されない。
 (e)食道に対して白色光を照射した場合に、発赤調の背景粘膜が確認される。
 (f)食道に対して狭帯域光を照射した場合に、茶色の背景粘膜が確認される。
 図14は、内視鏡画像における各種の内視鏡所見を示す図である。図14Aは、食道に対して白色光を照射した場合に1視野に2個以上のグリコーゲンアカントーシスが確認される、すなわち内視鏡所見(a)が認められない内視鏡画像を示す。図14Bは、食道に対して狭帯域光を照射した場合に1視野に2個以上のグリコーゲンアカントーシスが確認される、すなわち内視鏡所見(a)が認められない内視鏡画像を示す。図14Cは、食道に対して白色光を照射した場合に角化症が確認される、すなわち内視鏡所見(b)が認められる内視鏡画像を示す。図14Dは、食道に対して狭帯域光を照射した場合に角化症が確認される、すなわち内視鏡所見(b)が認められる内視鏡画像を示す。
 図14Eは、食道に対して白色光を照射した場合に粗造な食道粘膜が確認される、すなわち内視鏡所見(c)が認められる内視鏡画像を示す。図14Fは、食道に対して狭帯域光を照射した場合に粗造な食道粘膜が確認される、すなわち内視鏡所見(c)が認められる内視鏡画像を示す。図14Gは、食道に対して白色光を照射した場合に血管透見が確認される、すなわち内視鏡所見(d)が認められない内視鏡画像を示す。図14Hは、食道に対して白色光を照射した場合に発赤調の背景粘膜が確認される、すなわち内視鏡所見(e)が認められない内視鏡画像を示す。図14Iは、食道に対して狭帯域光を照射した場合に茶色の背景粘膜が確認される、すなわち内視鏡所見(f)が認められる内視鏡画像を示す。
[評価試験の結果]
 図15は、画像診断装置、内視鏡医の感度、特異度、陽性的中率、陰性的中率および正診率を表す図である。画像診断装置と内視鏡医との間における感度、特異度および正診率の比較には、両側マクネマー検定を用いた。
 図15に示すように、画像診断装置は、食道内に多発ヨード不染帯が存在する症例のうち84.4%(=27/32)の症例について多発ヨード不染帯が存在することを正しく診断し、食道内に多発ヨード不染帯が存在しない症例のうち70.0%(=28/40)の症例について多発ヨード不染帯が存在しないことを正しく診断した。一方、内視鏡医は、食道内に多発ヨード不染帯が存在する症例のうち46.9%(=15/32)の症例について多発ヨード不染帯が存在することを正しく診断し、食道内に多発ヨード不染帯が存在しない症例のうち77.5%(=31/40)の症例について多発ヨード不染帯が存在しないことを正しく診断した。多発ヨード不染帯の存在有無に関する正診率は、画像診断装置が76.4%であり、内視鏡医が63.9%であった。特に、画像診断装置は、10人中9人の内視鏡医より、食道内に多発ヨード不染帯が存在することを正しく診断する感度が有意に高かった。一方、特異度および正診率については、画像診断装置と内視鏡医との間で有意差はなかった。
 図16は、内視鏡医による、多発ヨード不染帯が存在する内視鏡画像に対する内視鏡所見の有無の評価結果と、多発ヨード不染帯が存在しない内視鏡画像に対する内視鏡所見の有無の評価結果とを表す図である。多発ヨード不染帯が存在する内視鏡画像と多発ヨード不染帯が存在しない内視鏡画像との間において、各内視鏡所見について所見ありと評価された数の比較には、ピアソンのカイ二乗検定とフィッシャーの厳密検定とを用いた。
 図16に示すように、食道内に多発ヨード不染帯が存在する内視鏡画像では、グリコーゲンアカントーシス(2個未満)、角化症、粗造な食道粘膜、血管透見の消失、発赤調の背景粘膜および茶色の背景粘膜の内視鏡所見について所見ありと評価された数が、多発ヨード不染帯が存在しない内視鏡画像と比べて有意に多かった。すなわち、内視鏡所見ありと評価された場合、食道内に多発ヨード不染帯が存在する可能性がそれなりに高いと考えられる。
 図17は、内視鏡画像を参照して食道内に多発ヨード不染帯が存在することを正しく診断できるか否か(感度)について、画像診断装置と内視鏡的所見との比較結果を表す図である。画像診断装置と各内視鏡所見との間における感度の比較には、両側マクネマー検定を用いた。
 図17に示すように、全ての内視鏡画像(白色光観察および狭帯域光観察)において、画像診断装置の感度は81.6%(=279/342)であり、グリコーゲンアカントーシス(2個未満)、角化症、粗造な食道粘膜について内視鏡所見ありと評価された場合よりも有意に、多発ヨード不染帯が存在することを正しく診断することができた。食道に対して白色光を照射した内視鏡画像では、画像診断装置の感度は81.5%(=110/135)であり、発赤調の背景粘膜について内視鏡所見ありと評価された場合よりも有意に、多発ヨード不染帯が存在することを正しく診断することができた。食道に対して狭帯域光を照射した内視鏡画像では、画像診断装置の感度は81.6%(=169/207)であり、茶色の背景粘膜について内視鏡所見ありと評価された場合よりも有意に、多発ヨード不染帯が存在することを正しく診断することができた。以上のように、画像診断装置は、各内視鏡所見について所見ありと評価された場合よりも感度が高く、内視鏡所見の中では「血管透見の消失」について所見ありと評価された場合、最も感度が高かった。
 図18は、画像診断装置によって食道内に多発ヨード不染帯が存在する(存在しない)と診断された症例について同時性・異時性がんとして検出された食道扁平上皮がん、頭頸部扁平上皮がんの数を表す図である。多発ヨード不染帯が存在すると診断された症例と多発ヨード不染帯が存在しないと診断された症例との間の比較には、ピアソンのカイ二乗検定とフィッシャーの厳密検定とを用いた。
 図18に示すように、画像診断装置によって食道内に多発ヨード不染帯が存在すると診断された症例について、100人年あたりで検出された食道扁平上皮がんは11.2個であり、食道扁平上皮がんおよび頭頸部扁平上皮がんは14.6個であった。画像診断装置によって食道内に多発ヨード不染帯が存在しないと診断された症例について、100人年あたりで検出された食道扁平上皮がんは6.1個であり、食道扁平上皮がんおよび頭頸部扁平上皮がんは7.0個であった。以上のように、食道扁平上皮がんについても、食道扁平上皮がんおよび頭頸部扁平上皮がんについても、食道内に多発ヨード不染帯が存在すると診断された症例の方が、食道内に多発ヨード不染帯が存在しないと診断された症例に比べて、同時性・異時性がんとしての発生率は有意に高かった。したがって、画像診断装置は、食道内における多発ヨード不染帯の存在有無だけでなく、同時性・異時性がんとしての食道扁平上皮がんおよび頭頸部扁平上皮がんの発生リスクについても層別化することができた。
[第2の評価試験に対する考察]
 以上のように、画像診断装置は、畳み込みニューラルネットワークが有する内視鏡画像の診断能力を使用し、ヨード染色が行われていない食道を撮像した内視鏡画像において、食道扁平上皮がんや頭頸部扁平上皮がんのハイリスク症例の指標である多発ヨード不染帯の存在有無を、経験豊富な内視鏡医よりも高感度に診断することができた。
 従来、食道扁平上皮がんの危険因子としては、多量飲酒や喫煙、紅潮(フラッシング)反応などが知られている。食道に対してヨード染色を行った後に認められる多発ヨード不染帯の内視鏡所見は、上記危険因子を全て反映しており、食道扁平上皮がん、頭頸部扁平上皮がんの発生リスクを層別化している。多発ヨード不染帯は、食道扁平上皮がん、頭頸部扁平上皮がんの治療後のサーベイランス(定期検査)スケジュールを決定する上でも非常に有用である。しかし、ヨード染色を行わないと多発ヨード不染帯の存在有無はわからないため、当該ヨード染色は通常、がんやがんの疑いのある病変にしか使用されず、その有用性は限定されている。しかしながら、画像診断装置を用いることで、全ての被験者における初回の内視鏡検査(EGD)においてヨード染色を行わずに撮像された内視鏡画像から食道扁平上皮がんの発生リスクを判定することができる。
 食道扁平上皮がん、頭頸部扁平上皮がんのリスクが高いハイリスク症例は、狭帯域光を照射した状態で食道や咽頭を注意深く観察し、食道ではヨード染色を行った状態で観察することが理想的であるが、全ての症例で当該ヨード染色を実施することは現実的ではない。ヨード染色はがんがある方、またはがんを疑う方に使用して、がんを見逃さずに拾い上げることと、がんの範囲を診断する目的に行う。また、多発ヨード不染帯の程度でがんのリスクを判定することもできる。ただし、刺激性があり不快感を生じることや、ヨードアレルギーの患者には使用できないなどの問題もある。ヨード染色を使わないで、がんリスク判定をAIに担わせ、ヨード染色が行われない食道の内視鏡画像からリスクの高い症例を認識できれば、より有用である。しかし、従来、ヨード染色が行われない食道の内視鏡画像から多発ヨード不染帯を効果的に判定するための内視鏡検査の手法は知られておらず、本発明で初めて達成された。
 そこで本評価試験では、ヨード染色が行われない食道の内視鏡画像から多発ヨード不染帯の存在有無を診断するために、6つの内視鏡所見の有無を評価した。これらの内視鏡所見は何れも、多発ヨード不染帯が存在する症例で高頻度に確認される。特に、2つの内視鏡所見「1視野に2個未満のグリコーゲンアカントーシスが確認される」および「食道に対して白色光を照射した場合に、血管透見が確認されない」の感度は予想以上に高く、ヨード染色が行われない食道の内視鏡画像から多発ヨード不染帯の存在有無を診断することができる。しかし、多発ヨード不染帯が存在することを正しく診断することについて内視鏡医の感度は46.9%と低かった(図15を参照)。その理由は、上記2つの内視鏡所見が多くの内視鏡医において確認されなかったためと推察される。そして、それ以外の4つの内視鏡所見は何れも感度が低かった。一方、画像診断装置は、6つの各内視鏡所見よりも感度が高く、さらに、経験豊富な内視鏡医よりも感度が高かった。つまり、これらの内視鏡所見を総合的に判断して多発ヨード不染帯の存在有無を診断するのは、画像診断装置の方が人間の内視鏡医よりも優れていることを示唆している。
 また、評価試験用データセットを用いて、松野らが報告している「拡張血管の多発病巣(MDV)」の診断性能を検討した。本発明者は、MDVに関して限られた知識しか有していなかったため、非拡大静止画像からMDVを認識するのは少し難しかった。他の知見と比較するためにはもう少し訓練が必要と考えられるが、本発明者が解析した結果、MDVは、感度が59.4%、特異度が70.4%、精度が79.5%であった。すなわちMDVは、原著論文では高い特異度と精度を示しているものの、感度は原著論文でも本発明者による解析と同様に、それほど高くはなかった。食道扁平上皮がん、頭頸部扁平上皮がんのハイリスク症例をより多く認識し、食道扁平上皮がん、頭頸部扁平上皮がんを確実に見逃さないためには、画像診断装置において最も高い値を示した感度が最も重要な診断値と考えられる。
 以上のように、本発明者は、ヨード染色が行われない食道の内視鏡画像から多発ヨード不染帯が存在する症例、すなわち食道扁平上皮がん、頭頸部扁平上皮がんの発生リスクが高い症例を高感度で診断することが可能な画像診断装置を構築した。この画像診断装置を用いることにより、内視鏡医は、ヨード染色を用いない通常の内視鏡検査において、慎重なサーベイランスが必要な食道扁平上皮がんのハイリスク症例を効率的に検出することができ、ヨード染色を適切に適用し、高精度な食道がん診断をすることができる。
 本出願は、2020年4月27日付で出願された日本国特許出願(特願2020-078601)に基づくものであり、その内容はここに参照として取り込まれる。
 本発明は、食道の内視鏡検査において、食道がんの診断精度を向上させることが可能な画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデルとして有用である。リアルタイム動画診断と多発ヨード不染帯の予測からがんリスク判定も行うことで、被験者臓器ごとに適した迅速で高精度な内視鏡による食道がん診断法を提供する。
 10,10A 内視鏡画像取得部
 20,20A 推定部
 30,30A 表示制御部
 40,40A 学習装置
 100,100A 画像診断装置
 101 CPU
 102 ROM
 103 RAM
 104 外部記憶装置
 105 通信インターフェイス
 200,200A 内視鏡撮像装置
 300,300A 表示装置
 D1 内視鏡画像データ
 D2 推定結果データ
 D3 判定結果画像データ
 D4 教師データ

Claims (8)

  1.  被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得部と、
     食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された前記内視鏡動画像内に存在する食道がんの位置を推定する推定部と、
     推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを前記内視鏡動画像上に重畳表示させる表示制御部と、
     を備える画像診断装置。
  2.  前記内視鏡動画像は、内視鏡撮像装置を前記食道に挿入して撮像され、
     前記食道に食道がんが存在するリスクに応じた食道内腔の観察速度として前記内視鏡撮像装置の基準挿入速度を設定し、前記基準挿入速度と、実際の挿入速度との間に乖離がある場合に警告を出力させる警告出力制御部を備える、
     請求項1に記載の画像診断装置。
  3.  前記リスクは、ヨード染色が行われずに、多発ヨード不染帯が存在する食道を撮像した非ヨード染色画像である多発ヨード不染帯食道画像と、多発ヨード不染帯が存在しない食道を撮像した非ヨード染色画像である非多発ヨード不染帯食道画像とを教師データとして学習させた畳み込みニューラルネットワークを用いて、前記食道における多発ヨード不染帯の存在有無の推定から判定される、
     請求項2に記載の画像診断装置。
  4.  被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得工程と、
     食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された前記内視鏡動画像内に存在する食道がんの位置を推定する推定工程と、
     推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを前記内視鏡動画像上に重畳表示させる表示制御工程と、
     を含む画像診断方法。
  5.  前記食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを、ヨード染色が行われずに、多発ヨード不染帯が存在する食道を撮像した非ヨード染色画像である多発ヨード不染帯食道画像と、多発ヨード不染帯が存在しない食道を撮像した非ヨード染色画像である非多発ヨード不染帯食道画像とを教師データとして学習させた畳み込みニューラルネットワークと連結して実行させる、
     請求項4に記載の画像診断方法。
  6.  コンピューターに、
     被験者の食道を撮像した内視鏡動画像を取得する内視鏡画像取得処理と、
     食道がんが存在する食道を撮像した食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを用いて、取得された前記内視鏡動画像内に存在する食道がんの位置を推定する推定処理と、
     推定された食道がんの位置と、当該位置に食道がんが存在する可能性を指標する確信度とを前記内視鏡動画像上に重畳表示させる表示制御処理と、
     を実行させる画像診断プログラム。
  7.  前記食道がん画像を教師データとして学習させた畳み込みニューラルネットワークを、ヨード染色が行われずに、多発ヨード不染帯が存在する食道を撮像した非ヨード染色画像である多発ヨード不染帯食道画像と、多発ヨード不染帯が存在しない食道を撮像した非ヨード染色画像である非多発ヨード不染帯食道画像とを教師データとして学習させた畳み込みニューラルネットワークと連結して実行させる、
     請求項6に記載の画像診断プログラム。
  8.  ヨード染色が行われずに、多発ヨード不染帯が存在する食道を撮像した非ヨード染色画像である多発ヨード不染帯食道画像と、多発ヨード不染帯が存在しない食道を撮像した非ヨード染色画像である非多発ヨード不染帯食道画像とを教師データとして畳み込みニューラルネットワークを学習させることによって得られ、
     被験者の食道を撮像した内視鏡画像と食道がんとの関連の有無を推定し、推定結果を出力するようコンピューターを機能させる学習済みモデル。
PCT/JP2021/015555 2020-04-27 2021-04-15 画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル WO2021220822A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022517627A JPWO2021220822A1 (ja) 2020-04-27 2021-04-15
CN202180030877.3A CN115460968A (zh) 2020-04-27 2021-04-15 图像诊断装置、图像诊断方法、图像诊断程序和学习完毕模型
US17/997,028 US20230255467A1 (en) 2020-04-27 2021-04-15 Diagnostic imaging device, diagnostic imaging method, diagnostic imaging program, and learned model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020078601 2020-04-27
JP2020-078601 2020-04-27

Publications (1)

Publication Number Publication Date
WO2021220822A1 true WO2021220822A1 (ja) 2021-11-04

Family

ID=78332385

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015555 WO2021220822A1 (ja) 2020-04-27 2021-04-15 画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル

Country Status (4)

Country Link
US (1) US20230255467A1 (ja)
JP (1) JPWO2021220822A1 (ja)
CN (1) CN115460968A (ja)
WO (1) WO2021220822A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019004084T5 (de) * 2019-03-27 2021-05-06 Hoya Corporation Endoskopprozessor, informationsverarbeitungsvorrichtung, endoskopsystem, programm und informationsverarbeitungsverfahren
CN116703798B (zh) * 2023-08-08 2023-10-13 西南科技大学 基于自适应干扰抑制的食管多模态内镜图像增强融合方法
CN117934519B (zh) * 2024-03-21 2024-06-07 安徽大学 一种非配对增强合成的食管肿瘤ct图像自适应分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017216878A1 (ja) * 2016-06-14 2017-12-21 オリンパス株式会社 内視鏡装置
WO2018216618A1 (ja) * 2017-05-25 2018-11-29 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2018221033A1 (ja) * 2017-06-02 2018-12-06 富士フイルム株式会社 医療画像処理装置、内視鏡システム、診断支援装置、並びに医療業務支援装置
WO2018225448A1 (ja) * 2017-06-09 2018-12-13 智裕 多田 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体
WO2019088121A1 (ja) * 2017-10-30 2019-05-09 公益財団法人がん研究会 画像診断支援装置、資料収集方法、画像診断支援方法および画像診断支援プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017216878A1 (ja) * 2016-06-14 2017-12-21 オリンパス株式会社 内視鏡装置
WO2018216618A1 (ja) * 2017-05-25 2018-11-29 日本電気株式会社 情報処理装置、制御方法、及びプログラム
WO2018221033A1 (ja) * 2017-06-02 2018-12-06 富士フイルム株式会社 医療画像処理装置、内視鏡システム、診断支援装置、並びに医療業務支援装置
WO2018225448A1 (ja) * 2017-06-09 2018-12-13 智裕 多田 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体
WO2019088121A1 (ja) * 2017-10-30 2019-05-09 公益財団法人がん研究会 画像診断支援装置、資料収集方法、画像診断支援方法および画像診断支援プログラム

Also Published As

Publication number Publication date
US20230255467A1 (en) 2023-08-17
JPWO2021220822A1 (ja) 2021-11-04
CN115460968A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
JP7335552B2 (ja) 画像診断支援装置、学習済みモデル、画像診断支援装置の作動方法および画像診断支援プログラム
WO2021220822A1 (ja) 画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル
de Groof et al. Deep learning algorithm detection of Barrett’s neoplasia with high accuracy during live endoscopic procedures: a pilot study (with video)
Ohmori et al. Endoscopic detection and differentiation of esophageal lesions using a deep neural network
Nakagawa et al. Classification for invasion depth of esophageal squamous cell carcinoma using a deep neural network compared with experienced endoscopists
JP5242381B2 (ja) 医療用画像処理装置及び医療用画像処理方法
Pan et al. Bleeding detection in wireless capsule endoscopy based on probabilistic neural network
JP2021112593A (ja) 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体
WO2015141302A1 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
Wu et al. Real-time artificial intelligence for detecting focal lesions and diagnosing neoplasms of the stomach by white-light endoscopy (with videos)
US20220296081A1 (en) Method for real-time detection of objects, structures or patterns in a video, an associated system and an associated computer readable medium
WO2021054477A2 (ja) 消化器官の内視鏡画像による疾患の診断支援方法、診断支援システム、診断支援プログラム及びこの診断支援プログラムを記憶したコンピュータ読み取り可能な記録媒体
US20220301159A1 (en) Artificial intelligence-based colonoscopic image diagnosis assisting system and method
CN114372951A (zh) 基于图像分割卷积神经网络的鼻咽癌定位分割方法和系统
Lin et al. Simultaneous recognition of atrophic gastritis and intestinal metaplasia on white light endoscopic images based on convolutional neural networks: a multicenter study
Xu et al. Upper gastrointestinal anatomy detection with multi‐task convolutional neural networks
CN115018767A (zh) 基于本征表示学习的跨模态内镜图像转换及病灶分割方法
KR20200060129A (ko) 병변 예측 방법 및 이를 이용한 병변 진단용 디바이스
KR102637484B1 (ko) 인공지능 기반의 내시경 진단 보조 시스템 및 이의 제어방법
WO2021206170A1 (ja) 画像診断装置、画像診断方法、画像診断プログラムおよび学習済みモデル
Ohura et al. Computer-aided diagnosis method for detecting early esophageal cancer from endoscopic image by using dyadic wavelet transform and fractal dimension
US20230351592A1 (en) Clinical decision support system having a multi-ordered hierarchy of classification modules
KR102564443B1 (ko) 딥러닝을 이용한 위내시경 검사의 신뢰성을 향상시킬 수 있는 위내시경 시스템
JP2023079866A (ja) 超拡大内視鏡による胃癌の検査方法、診断支援方法、診断支援システム、診断支援プログラム、学習済みモデル及び画像診断支援装置
Vilarino et al. Cascade analysis for intestinal contraction detection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21796898

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022517627

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21796898

Country of ref document: EP

Kind code of ref document: A1