WO2021039339A1 - 情報処理装置、情報処理方法、情報処理システム及びプログラム - Google Patents
情報処理装置、情報処理方法、情報処理システム及びプログラム Download PDFInfo
- Publication number
- WO2021039339A1 WO2021039339A1 PCT/JP2020/030133 JP2020030133W WO2021039339A1 WO 2021039339 A1 WO2021039339 A1 WO 2021039339A1 JP 2020030133 W JP2020030133 W JP 2020030133W WO 2021039339 A1 WO2021039339 A1 WO 2021039339A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- disease
- risk
- developing
- information processing
- Prior art date
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/12—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for looking at the eye fundus, e.g. ophthalmoscopes
- A61B3/1208—Multiple lens hand-held instruments
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/12—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for looking at the eye fundus, e.g. ophthalmoscopes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/14—Arrangements specially adapted for eye photography
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0059—Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
- A61B5/0062—Arrangements for scanning
- A61B5/0066—Optical coherence imaging
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
- A61B5/02007—Evaluating blood vessel condition, e.g. elasticity, compliance
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7271—Specific aspects of physiological measurement analysis
- A61B5/7275—Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/74—Details of notification to user or communication with user or patient ; user input means
- A61B5/742—Details of notification to user or communication with user or patient ; user input means using visual displays
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/74—Details of notification to user or communication with user or patient ; user input means
- A61B5/742—Details of notification to user or communication with user or patient ; user input means using visual displays
- A61B5/7445—Display arrangements, e.g. multiple display units
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/74—Details of notification to user or communication with user or patient ; user input means
- A61B5/7465—Arrangements for interactive communication between patient and care services, e.g. by using a telephone network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
- G06T7/0014—Biomedical image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H40/00—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
- G16H40/60—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
- G16H40/67—ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B2576/00—Medical imaging apparatus involving image processing or analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/0033—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
- A61B5/0035—Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room adapted for acquisition of images from more than one imaging mode, e.g. combining MRI and optical tomography
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/02—Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
- A61B5/021—Measuring pressure in heart or blood vessels
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4869—Determining body composition
- A61B5/4872—Body fat
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10101—Optical tomography; Optical coherence tomography [OCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/40—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Definitions
- the disclosure of this specification relates to an information processing device, an information processing method, an information processing system and a program.
- Various methods such as general X-ray imaging, computed tomography, nuclear magnetic resonance imaging, ultrasonography, positron emission tomography, or single photon emission tomography are used for disease screening and diagnosis. Diagnostic imaging equipment is used to image various parts of the body.
- the eye is the only site where blood vessels can be observed directly from outside the body, and eye diseases such as diabetic retinopathy and age-related macular degeneration are diagnosed through eye examinations.
- eye diseases such as diabetic retinopathy and age-related macular degeneration
- application to early diagnosis of lifestyle-related diseases such as arteriosclerosis and diabetes and screening of various diseases such as risk determination of cerebral infarction and dementia is being studied.
- a technique for determining the risk of a disease using an ophthalmologic examination device is known.
- Patent Document 1 discloses that risk information indicating a risk of a specific disease is generated by analyzing test data obtained from an ophthalmic test device.
- One of the purposes of the disclosure of the present specification is to improve the determination accuracy in the risk determination of diseases in view of the above problems.
- the information processing device disclosed in this specification is An estimation means for estimating the risk of developing a disease by a subject using a learned model that learned the relationship between the feature amount acquired from the fundus image and the risk of developing the disease evaluated from the feature amount.
- a correction means for correcting the risk of developing the estimated disease based on the biological information of the subject is provided.
- FIG. 1 which shows an example of the whole structure of the inspection system which concerns on 1st Embodiment
- a block diagram showing an example of the configuration of the functions of the information processing apparatus according to the first embodiment.
- a flow chart showing an example of a processing procedure of the information processing apparatus according to the first embodiment.
- the figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment The figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment
- the figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment The figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment
- the figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment The figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment
- the figure which shows the display example of the risk estimation result of the disease which concerns on 1st Embodiment The figure which showed an example of the structure of the medical treatment appointment system which concerns on the modification of 1st Embodiment
- the figure which showed the flow of the risk estimation which concerns on the 2nd Embodiment The figure which shows an example of the whole structure of the inspection system which concerns on 1st Embodi
- the information processing device estimates the risk of a disease based on a biological image (medical image of a subject) taken by an diagnostic imaging device or an ophthalmic examination device and biological information obtained by other tests or the like. It is characterized by that.
- a fundus camera is used as an imaging device for capturing a biological image used for estimating the risk of a disease
- the present invention is not limited to this, and other diagnostic imaging is performed. It can be suitably applied even to an apparatus or an ophthalmologic examination apparatus.
- another ophthalmologic examination device such as an optical coherence tomography device (OCT device) capable of taking an image of the fundus or anterior segment of the eye may be used depending on the disease for which risk estimation is performed.
- OCT device optical coherence tomography device
- diagnostic imaging used for disease screening and diagnosis such as general X-ray imaging, X-ray computed tomography, magnetic resonance imaging, ultrasonography, positron emission tomography, and single photon emission tomography.
- An apparatus may be used.
- FIG. 1 is a diagram showing an overall configuration of an information processing system 100 including an information processing device according to the present embodiment.
- the information processing system 100 includes a fundus camera 101, a biological information inspection device 102, a cloud server 103, and an information processing device 104.
- the fundus camera 101 captures a fundus image, which is a biological image used for estimating the risk of a disease.
- near-infrared light may be used for photographing with the fundus camera 101.
- factors that deteriorate the quality of a still image such as the position of the subject's eyes, body movement, blinking, and foreign matter mixed in the image during shooting. Therefore, if the image at the time of shooting is not suitable for calculating the image feature amount, it is necessary to take it again.
- miosis occurs and it takes some time to reshoot. You will need it. Therefore, by using near-infrared light, miosis can be avoided, and continuous and repeated imaging becomes possible. Further, by using near-infrared light, it becomes easy to take a moving image without miosis.
- weak visible light may be used for shooting with the fundus camera 101.
- the image at the time of shooting is an image feature. If it is not suitable for calculating the amount, it will need to be redone.
- the flash photography with visible light used in the conventional fundus camera miosis occurs, and it takes some time to re-photograph. Therefore, by using weak visible light, miosis can be avoided, and continuous and repeated shooting becomes possible.
- weak visible light it is possible to take a moving image without miosis.
- a light source having the same light source as the observation light used to search for the position of the anterior segment of the eye or a light source having the same illuminance may be used for photographing with the fundus camera 101.
- the photographing method is not limited to the above as long as the fundus image can be acquired.
- the fundus image taken by the fundus camera 101 is once transmitted to the biometric information inspection device 102.
- a transmission method a wired communication method such as USB or a wireless communication means such as Wi-Fi (Wireless Fidelity) (registered trademark) or Bluetooth (registered trademark) is used.
- the fundus image may be transmitted to the cloud server 103 without going through the biometric information inspection device 102, or may be transmitted to the information processing device 104.
- the biological information inspection device 102 acquires biological information used for estimating the risk of a disease.
- the biological information test device 102 can measure biological information such as height, weight, body fat percentage, systolic blood pressure, diastolic blood pressure, irregular pulse wave, heart rate, and body temperature of the subject.
- biological information does not necessarily have to be acquired from examinations and measurements, and for example, the presence or absence of smoking habits and medical history may be acquired by input from the user. Further, for example, it may have a blood test function for measuring blood glucose level, red blood cell count, hemoglobin, uric acid, etc. from the blood of the subject, a urine test function for testing the urine of the subject, and the like.
- the biological information test kit 108 is provided to the subject by mail or the like. Then, the result of the inspection by the subject may be stored in the cloud server 103 via the personal computer 107 or the mobile information terminal 106. Further, for example, data such as blood pressure and body weight measured by a sphygmomanometer 109 or a weight scale 110 without using a sample may be stored in the cloud server 103 by the subject by the same method.
- the type of biopsy method and the flow of data transmission / reception are not limited to this as an example, and it is sufficient that necessary biometric information can be transmitted to the information processing apparatus 104.
- the cloud server 103 stores and manages data such as images taken by the fundus camera 101 and biometric information acquired by the biometric information inspection device 102.
- the information processing device 104 has a communication IF (Interface) 111, a ROM (Read Only Memory) 112, a RAM (Random Access Memory) 113, a storage unit 114, and an operation unit 115 as its functional configuration. , Display unit 116, and control unit 117.
- IF Interface
- ROM Read Only Memory
- RAM Random Access Memory
- the communication IF 111 is realized by a LAN card or the like, and controls communication between an external device (for example, a cloud server 103) and an information processing device 104.
- the ROM 112 is realized by a non-volatile memory or the like and stores various programs or the like.
- the RAM 113 is realized by a volatile memory or the like, and temporarily stores various information.
- the storage unit 114 is an example of a computer-reading storage medium, and is realized by a large-capacity information storage device typified by a hard disk drive (HDD) or a solid state drive (SSD), and stores various information.
- the operation unit 115 is realized by a keyboard, a mouse, or the like, and inputs an instruction from the user to the device.
- the display unit 116 is realized by a display or the like, and displays various information to the user.
- the control unit 117 is realized by a CPU (Central Processing Unit), a GPU (Graphical Processing Unit), or the like, and controls each process in the information processing device 104 in an integrated manner.
- the control unit 117 includes an acquisition unit 118, an estimation unit 119, a correction unit 120, and a display control unit 121 as its functional configuration.
- the acquisition unit 118 reads and acquires data such as the fundus image of the subject taken by the fundus camera 101 and the biometric information of the subject acquired by the biometric information inspection device 102 from the cloud server 103.
- the data does not necessarily have to be acquired from the cloud server 103, and for example, the data transmitted directly from the fundus camera 101 or the biometric information inspection device 102 may be acquired.
- the estimation unit 119 estimates the risk of the subject's disease from the fundus image of the subject acquired by the acquisition unit 118 (executes the risk estimation process).
- the risk of a disease indicates the probability of developing a disease within a certain period of time.
- the probability of developing a disease may be a quantitative expression such as a percentage display, or a qualitative expression such as a high risk or a low risk.
- the correction unit 120 corrects the estimation result of the disease risk estimated by the estimation unit 119 and calculates the final disease risk. More specifically, the disease risk estimated by the trained model is estimated by using the weighting coefficient of the probability of developing each disease preset for each of the plurality of biometric information obtained by the biometric information test device 102. Correct the result. That is, the correction unit 120 corresponds to an example of correction means for correcting the risk of developing a disease by using a predetermined weighting coefficient determined for each biological information.
- the display control unit 121 causes the display unit 116 to display the final disease risk estimation result corrected by the correction unit 120.
- S3000 Reading of fundus image
- the acquisition unit 118 reads and acquires the fundus image captured by the fundus camera 101 stored in the cloud server 103.
- a fundus image transmitted directly from the fundus camera 101 is acquired.
- the estimation unit 119 detects a feature amount for estimating the risk of disease from the fundus image acquired from the cloud server 103.
- a moving image taken by the fundus camera 101 may be acquired from the cloud server 103, and a desired image feature amount may be detected from the moving image.
- a desired image feature amount may be detected from the moving image.
- the detected features include, for example, morphological features and color information of defective parts such as blood vessel diameter, curvature, angle or bifurcation. Alternatively, for example, it may be abnormal shape, image contrast, or color information other than the blood vessel portion due to bleeding or vitiligo.
- the feature amount used for risk estimation is not limited to this, and various feature amounts can be used.
- the estimation unit 119 estimates the risk of the disease by inputting the feature amount detected in S3010 into the trained model. That is, the estimation unit 119 uses a learned model that learns the relationship between the feature amount acquired from the fundus image and the risk of developing the disease evaluated from the feature amount, and the risk that the subject develops the disease. Corresponds to an example of an estimation means for estimating. More specifically, it corresponds to an example of an estimation means for estimating the probability that the subject develops a disease by inputting the feature amount obtained from the fundus image of the subject into the trained model.
- the trained model is a machine learning model that follows a machine learning algorithm such as a support vector machine, and indicates a machine learning model that has been trained using appropriate learning data in advance. It should be noted that the trained model does not require further learning, and additional learning can be performed.
- the learning data is composed of one or more pairs of input data and output data (correct answer data).
- the trained model according to the present embodiment uses output data (data related to disease risk) as training data for input data (data related to a plurality of feature quantities detected from biological images such as fundus images) according to an arbitrary learning algorithm.
- I'm learning Specifically, for example, the correlation between the abnormal shape other than the blood vessel portion due to bleeding or vitiligo detected from the fundus image and the probability of developing diabetic retinopathy is learned.
- a feature amount relating to the morphology of a blood vessel showing arterial diameter, vein diameter, ratio of arterial diameter to vein diameter, branch angle of blood vessel, asymmetry of the branch, arterial vein stenosis or twist of blood vessel, and the feature.
- the risk of developing a disease may be output as a percentage, or may be identified and output in a plurality of qualitative classes such as high risk and low risk.
- the correlation between the input data and the output data to be learned is not limited to the above combination, and various correlations related to disease risk estimation can be learned.
- the trained model can repeatedly execute training based on a data set including input data and output data.
- the trained model for estimating the disease risk may be generated by the information processing device 104, or may be a model generated by an information processing device different from the information processing device 104. ..
- the information processing device 104 When the information processing device 104 also generates a trained model for estimating the disease risk, the information processing device 104 further includes a generation unit (not shown).
- the generation unit learns the output data for the input data as teacher data according to an arbitrary learning algorithm, and generates a trained model.
- Specific algorithms for machine learning include the nearest neighbor method, the naive Bayes method, a decision tree, and a support vector machine.
- deep learning deep learning in which features and coupling weighting coefficients for learning are generated by themselves using a neural network can also be mentioned.
- a trained model is obtained by learning a pair of a fundus image and a risk of developing a disease evaluated from the fundus image.
- a blood vessel called a retinal arteriole has a higher risk of developing hypertension in a person with a small size than a person with a large size. Therefore, in contrast to a fundus image in which the retinal arteriole is evaluated to be thin as described above. Learning is performed by grouping high risks as learning data.
- the estimation unit 119 deeply learns the relationship between the fundus image and the risk of developing a disease evaluated from the fundus image, and the fundus image of the subject acquired by the acquisition means.
- the estimation unit 119 corresponds to an example of an estimation means for estimating the risk of developing a disease (performing a risk estimation process) for the subject by inputting.
- the relationship between the input data and the output data to be learned is not limited to the above combination, and various correlations related to disease risk estimation can be learned. As appropriate, any of the above algorithms that can be used can be applied to this embodiment.
- a plurality of trained models may be generated according to the disease for which the risk is to be estimated, or one trained model may be generated so that the risk of a plurality of diseases can be estimated.
- the estimation unit 119 evaluates the relationship between the feature amount acquired from the fundus image and the risk of developing the first disease evaluated from the feature amount, and the feature amount acquired from the fundus image and the feature amount.
- the estimation unit 119 is acquired from the first trained model that has learned the relationship between the feature amount acquired from the fundus image and the risk of developing the first disease evaluated from the feature amount, and the fundus image.
- the subject can use the first disease and the second disease. It corresponds to an example of an estimation means for estimating the risk of developing a disease.
- the information processing apparatus 104 stores the estimated risk of the disease in the storage unit 114. Alternatively, it is transferred to the cloud server 103 via the communication IF 111 and stored in the cloud server 103. It may be stored in both the storage unit 114 and the cloud server 104.
- the information processing device 104 reads the biometric information obtained from the biometric information inspection device 102 stored in the cloud server 103. Alternatively, the biometric information transmitted directly from the biometric information inspection device 102 is acquired.
- S3050 Reading of estimation result
- the acquisition unit 118 reads the disease risk estimation result stored in the storage unit 114 or the cloud server 103.
- the correction unit 120 corrects the disease risk estimation result estimated by the estimation unit 119 and calculates the final disease risk. More specifically, the probability of developing each disease using a weighting coefficient of the probability of developing each disease preset for each of a plurality of measured / examined biometric information using the biometric information test device 102. To correct. For example, since the probability of developing a disease differs depending on the body mass index (BMI) obtained from the blood pressure, height, and weight of the subject, the probability calculated based on the feature amount obtained from the fundus image is used as the living body. Make corrections based on information. As the correction amount, a value calculated from the feature amount acquired from the fundus image of the diseased person and the healthy person as the subject and the evaluation result of the biological information is used.
- BMI body mass index
- a plurality of threshold values may be set for the probability of onset, and the threshold values may be used to classify into categories of a plurality of risk stages, and the classified categories may be used as the final risk estimation result.
- the probability of developing a disease is divided into three stages of "0 to 33%, 34% to 66%, 67% to 100%", and each is classified into the categories of "low risk, medium risk, and high risk”. ..
- the classification method is not limited to the above, and may be divided into, for example, two stages or four or more stages.
- the threshold value is also an example and is not limited to this.
- the output method of the output estimation result is not limited to the above, and it may be output so that the subject can recognize the degree of risk of developing the disease. Further, in the above, the corrected estimation results are classified into categories, but when the trained model is trained, the output data is classified into a plurality of classes such as "low risk, medium risk, and high risk" in advance and trained in S3020. The estimation result may be output in a classified form at the stage where the disease risk is estimated.
- the information processing apparatus 104 stores the corrected risk of the disease in the storage unit 114. Alternatively, it is transferred to the cloud server 103 via the communication IF 111 and stored in the cloud server 103. It may be stored in both the storage unit 114 and the cloud server 104.
- S3080 (Result display / print output)
- the display control unit 121 causes the display unit 116 to display the estimated final disease risk. Alternatively, it is sent to a separate printer and output.
- FIG. 4A shows how the disease risk estimation results calculated as the disease risk stages are classified and displayed in three stages of high risk, medium risk, and low risk. That is, the display control means 121 classifies the risk of developing the corrected disease into a plurality of classes and displays it on the display unit. In addition, it displays a description of what each category is doing. For example, if the estimated category is "low risk", an explanation such as "low risk of developing the disease. Please continue a healthy lifestyle" is displayed.
- the above description is an example and is not limited to the above.
- a tab or the like for supplementary explanation may be provided only when the subject wants to know more about the disease, such as when the risk is presumed to be high.
- a tab or the like in which only a brief explanation is written together and a supplementary explanation is given when a person wants to know in more detail.
- the risk estimation result of the disease may be displayed as a graph, the risk estimation result of a plurality of diseases may be shown using a radar chart as shown in FIG. 4B, or a bar graph may be used as shown in FIG. 4C. Risk estimation results for multiple diseases may be shown.
- the above is an example, and the form is not limited as long as the risk estimation result of the disease is visually represented in two dimensions.
- FIGS. 4D to 4F show a state in which the fundus image taken by the fundus camera 101 is displayed.
- the display control unit 121 may display the corrected risk estimation result of developing the disease in parallel with the fundus image of the subject.
- FIG. 4D shows a state in which images of the left and right eyes are displayed in parallel.
- FIG. 4E shows a state in which two images (current image and past image) captured at different times are displayed in parallel.
- FIG. 4F shows an example of a main image portion related to risk estimation and an explanation. That is, the part highly correlated with the disease in the fundus image is emphasized and displayed.
- the display method is not limited to these, and various display methods of risk estimation results and other display methods using not only captured images but also biological information, their past information, progress, etc. can be performed. it can.
- the estimation result may be displayed not only on the display unit 116 of the information processing device 104 but also on the display unit included in the biometric information inspection device 102.
- application software dedicated to the inspection system is installed on the mobile information terminal 106.
- the received risk estimation result of the disease and information related to other inspection systems may be displayed on the mobile information terminal 106 via the application software. That is, the device that displays the estimation result does not necessarily have to be the information processing device 104.
- the disease risk estimation result on the display unit may be transmitted to a separate printer and output.
- the probability that the estimation result estimated by the feature amount acquired from the fundus image will develop in each disease preset for each of a plurality of biometric information when estimating the risk of a disease of a subject, the probability that the estimation result estimated by the feature amount acquired from the fundus image will develop in each disease preset for each of a plurality of biometric information.
- the accuracy of the estimation result can be improved by correcting using the weighting coefficient of.
- the risk estimation of the disease does not require specialization, the risk of the disease can be easily estimated regardless of the user.
- the risk of the disease can be intuitively recognized.
- by displaying a biological image such as a fundus image to be examined in parallel with the estimation result it becomes easier to recognize the location of the disease.
- Modification example 1 In the first embodiment, the risks of diseases were estimated, and they were displayed or printed out. In this modified example, the estimation result is transmitted to the medical institution, etc. so that the subject can receive consultation such as additional examination, consultation at an appropriate medical institution or clinical department, and lifestyle-related guidance.
- FIG. 5 shows the configuration of a system that cooperates with the medical institution 130 and gives advice to the subject.
- recommended medical institutions 130 and clinical departments are output together with the risk estimation results from a plurality of pre-registered medical institutions 130 according to the type of disease and the risk estimation result.
- the subject can confirm the above output result, for example, on the display unit of the biological information inspection device 102, a print, or the like, or on the portable information terminal 106 or the personal computer 107.
- the cloud server 103 stores medical institutions 102 and relevant clinical departments according to the type of disease and the degree of risk of the disease. Then, by reading out these information from the cloud server 103 according to the risk estimation result, the medical institution 130 and the medical department can be sent to the biometric information inspection device 102, the personal digital assistant 106, and the personal computer 107 and presented to the subject. ..
- the medical institution 130 can be reserved on the biometric information inspection device 102, the mobile information terminal 106, or the personal computer 107.
- Application software for reservation for making a reservation for a medical institution is installed in the biometric information inspection device 102.
- the application software for reservation communicates with the medical treatment reservation system 132 of the medical institution 130 to inquire about the ID of the subject and the desired reservation date and time. Then, if it is possible to make a reservation by collating with the latest reservation status stored in the medical treatment reservation system, the medical treatment reservation system 132 registers the reservation by ID. In addition, when the reservation is completed, the photographed image, biological information, and risk estimation result can be transferred to the medical institution 130 at the time of consultation. Select the transfer of captured images, biometric information, and risk estimation results on the application software for reservation. By this operation, information such as captured images, biological information, and risk estimation results is read from the cloud server 103, transferred securely, and stored in the examinee information storage unit 133 in the medical treatment reservation system 132 of the medical institution 130.
- the examination system of this embodiment it is possible to receive a doctor's diagnosis and consultation on the system according to the disease risk obtained by this examination system.
- the risk of fundus disease is high as a result of risk estimation using the image of the fundus camera 101
- the fundus image is transferred to a doctor.
- the doctor and the doctor face-to-face via the video communication function (system capable of video communication) incorporated in the biometric information inspection device 102, the mobile information terminal 106 possessed by the subject, and the personal computer 107. You can receive face diagnosis and consultation.
- test system of the present embodiment based on the risk estimation result and the result obtained by the biometric information system 102, it is possible to directly propose lifestyle-related improvement, supplements, general drug intake, etc. by this test system.
- the cloud server 103 stores lifestyle-related improvement contents, recommended supplements, and general medicines according to the type of disease and the degree of risk of the disease.
- the above-mentioned proposal can be sent to the biometric information inspection device 102, the mobile information terminal 106, or the personal computer 107 and presented to the subject.
- the risk of the disease estimated by inputting a plurality of features obtained from the biometric image into the trained model is a weighting coefficient preset for each biometric information obtained by the biopsy.
- the accuracy of disease risk estimation was improved by correcting with.
- the image feature amount obtained from the image taken by the fundus camera 101 and the probability of developing the disease, the biological information obtained by the biometric information inspection device 102, and the probability of developing the disease are learned. Estimate the risk of disease using a trained model.
- the overall configuration of the information processing system in this embodiment is the same as that in the first embodiment.
- the fundus camera 101, the biological information inspection device 102, and the cloud server 103 used in the present embodiment are the same as those in the first embodiment.
- S6050 Estimate the risk of disease
- the acquisition unit 118 acquires the feature amount obtained from the fundus image of the subject stored in the cloud server 103 and the biometric information measured / inspected by using the biometric information inspection device 102.
- the estimation unit 119 estimates the risk of the subject developing the disease by inputting the feature amount and the biological information acquired by the acquisition unit 118 into the pre-generated learned model (risk estimation). Execute the process).
- fundus images such as arterial diameter, vein diameter, ratio of arterial diameter to vein diameter, branch angle of blood vessel, asymmetry of the branch, arterial vein stenosis or twist of blood vessel.
- biological information such as blood pressure, BMI index, age, gender, medical history, or presence or absence of smoking habits as input data
- the probability of developing diseases such as cardiovascular disease and cerebrovascular disease evaluated from the characteristic amount and biological information. Learn the correlation.
- the correlation between the input data and the output data to be learned is not limited to the above combination, and various correlations related to disease risk estimation can be learned.
- the learned model for estimating the disease risk may be generated by the information processing device 104, or may be a model generated by an information processing device different from the information processing device 104. ..
- the information processing apparatus 104 stores the estimation result of the risk of the disease in the storage unit 114. Alternatively, it is transferred to the cloud server 103 via the communication IF 111 and stored in the cloud server 103. It may be stored in both the storage unit 114 and the cloud server 104.
- the correlation between the feature amount acquired from the fundus image and the probability of developing the disease evaluated from the biological information acquired by the biopsy was learned.
- the accuracy of disease risk estimation can be improved by using a trained model.
- learning is performed to adjust (tune) a learned model (learned model for estimation) used for estimation processing of a disease of a subject for each subject, and the subject is subjected to learning.
- You may generate a dedicated trained model. For example, using the tomographic images acquired in the past examination of the subject, transfer learning of a general-purpose trained model for estimating the disease of the subject is performed, and the trained model dedicated to the subject is obtained. Can be generated.
- the control unit 117 can perform the current inspection of the subject.
- a trained model dedicated to the subject can be specified and used based on the ID of the subject. By using a trained model dedicated to the subject, it is possible to improve the estimation accuracy of the disease for each subject.
- the control unit 117 may perform various image processing using images or the like acquired by photographing. For example, the control unit 117 may generate a high-quality image with improved image quality by using a learned model for high image quality (high image quality model) for the image acquired by shooting.
- the improvement of image quality includes reduction of noise, conversion to colors and gradations that make it easy to observe the object to be photographed, improvement of resolution and spatial resolution, and enlargement of image size while suppressing a decrease in resolution.
- CNN or the like can be used as a machine learning model for improving image quality.
- various images such as an anterior eye image and an SLO image are used as input data, and high quality images corresponding to the input images, for example, which have undergone high image quality processing, are output data.
- the high image quality processing includes alignment of images taken at the same spatial position a plurality of times, and addition and averaging of the aligned images.
- the image quality improvement process is not limited to the addition averaging process, and may be, for example, a process using a smoothing filter, a maximum a posteriori probability estimation process (MAP estimation process), a gradation conversion process, or the like.
- the high-quality image may be, for example, an image that has undergone filter processing such as noise removal and edge enhancement, or an image whose contrast has been adjusted so as to change from a low-brightness image to a high-brightness image. May be used.
- the output data of the learning data related to the high image quality model may be a high quality image, it is photographed by using an OCT device having higher performance than the OCT device when the tomographic image which is the input data is taken. It may be an image taken or an image taken with a high load setting.
- the control unit 117 can acquire an image with high image quality with high accuracy at a higher speed by performing high image quality processing using such a high image quality model.
- the high image quality model may be prepared for each type of various images that are input data. For example, a high image quality model for an anterior eye image, a high image quality model for an SLO image, a high image quality model for a tomographic image, a high image quality model for an OCTA front image, and the like may be prepared. Further, for the OCTA front image and the En-Face image, a high image quality model may be prepared for each depth range for generating an image. For example, a high image quality model for the surface layer, a high image quality model for the deep layer, and the like may be prepared. Further, the high image quality model may be one in which learning is performed on an image for each imaging site (for example, the center of the macula and the center of the optic nerve head), or may be one in which learning is performed regardless of the imaging site. ..
- the fundus OCTA front image is improved in image quality, and further, the anterior eye OCTA front image is learned as training data.
- the front eye OCTA front image may be improved in quality by using the high image quality model.
- the high image quality model may be one that has been learned regardless of the imaging region.
- the fundus OCTA frontal image and the anterior ocular OCTA frontal image may have relatively similar distributions of blood vessels to be imaged.
- the feature amounts may be relatively similar to each other.
- At least one type of front image may be configured to have high image quality.
- the fundus OCTA front image may be applied to the En-Face image of OCTA in the fundus photography mode
- the anterior eye OCTA front image may be applied in the anterior segment imaging mode.
- the high image quality button is pressed, for example, in the fundus photography mode, in the display area of the En-Face image of OCTA, among the low image quality fundus OCTA front image and the high image quality fundus OCTA front image.
- One display may be configured to change to the other display.
- a low image quality front eye OCTA front image and a high image quality front eye OCTA front image are displayed.
- One of the displays may be configured to be changed to the other display.
- the anterior eye adapter may be attached when the anterior eye can also be imaged.
- the optical system of the OCT device may be configured to be movable at a distance of about the axial length of the eye to be inspected without using the anterior eye adapter.
- the focus position of the OCT device may be configured to be largely changeable to the emmetropic side to the extent that an image is formed on the front eye.
- the fundus OCT tomographic image may be applied in the fundus photography mode
- the anterior ocular OCT tomographic image may be applied in the anterior ocular segment imaging mode.
- the above-mentioned high image quality processing of the fundus OCTA front image and the anterior ocular OCTA front image can be applied as, for example, high image quality processing of the fundus OCTA tomographic image and the anterior ocular OCT tomographic image.
- the high image quality button is pressed, for example, in the fundus photography mode
- one of the low image quality fundus OCT tomographic image and the high image quality fundus OCT tomographic image is displayed in the tomographic image display area.
- It may be configured to change to the other display.
- the high image quality button is pressed, for example, in the anterior segment imaging mode, one of the low image quality anterior OCT tomographic image and the high image quality anterior OCT tomographic image is displayed in the tomographic image display area.
- the display of is changed to the other display.
- the fundus OCTA tomographic image may be applied in the fundus photography mode, and the anterior ocular OCTA tomographic image may be applied in the anterior ocular segment imaging mode.
- the above-mentioned high image quality processing of the fundus OCTA front image and the anterior ocular OCTA front image can be applied as, for example, high image quality processing of the fundus OCTA tomographic image and the anterior ocular OCTA tomographic image.
- the information indicating the blood vessel region (for example, motion contrast data equal to or higher than the threshold value) in the fundus OCTA tomographic image is superimposed on the fundus OCT tomographic image at the corresponding position. It may be configured to be displayed. Further, for example, in the anterior segment imaging mode, information indicating a blood vessel region in the anterior ocular OCTA tomographic image may be superimposed and displayed on the anterior ocular OCT tomographic image at a corresponding position in the tomographic image display region. ..
- At least one type of the plurality of types of medical images may be used.
- a high image quality model obtained by learning a medical image as training data at least one type of medical image of a plurality of types of medical images may be configured to have high image quality.
- a common trained model common high image quality improvement model
- the display screen of the fundus photography mode and the display screen of the anterior segment photography mode may have the same display layout or may have a display layout corresponding to each photography mode.
- Various conditions such as imaging conditions and analysis conditions may be the same or different between the fundus imaging mode and the anterior segment imaging mode.
- the target image for the high image quality processing may be, for example, a plurality of OCTA front images (corresponding to a plurality of depth ranges) (OCTA En-Face image, motion contrast En-Face image). Further, the target image for the high image quality processing may be, for example, one OCTA front image corresponding to one depth range. Further, the target image of the high image quality processing is, for example, a front image of brightness (En-Face image of brightness), an OCT tom image which is a B scan image, or a tom image of motion contrast data (for example, instead of the front image of OCTA. OCTA tomographic image) may be used.
- the target image of the high image quality processing is not only the OCTA front image, but also various medical applications such as an OCTA tomographic image which is a brightness front image and a B scan image, and a tomographic image of motion contrast data (OCTA tomographic image). It may be an image. That is, the target image for the high image quality processing may be, for example, at least one of various medical images displayed on the display screen of the display unit 116. At this time, for example, since the feature amount of the image may be different for each type of image, a trained model for high image quality corresponding to each type of the target image for high image quality processing may be used.
- the OCTA front image is not only processed for high image quality by using the learned model for high image quality corresponding to the OCTA front image.
- the OCT tomographic image may also be configured to be high quality processed using a trained model for high image quality corresponding to the OCT tomographic image.
- the high image quality button is pressed in response to an instruction from the examiner, the high image quality OCTA front image generated by using the learned model for high image quality corresponding to the OCTA front image is displayed. It may be configured to be changed to display a high-quality OCT tomographic image generated by using a trained model for high image quality corresponding to the OCT tomographic image.
- the line indicating the position of the OCT tomographic image may be superimposed and displayed on the OCTA front image.
- the line may be configured to be movable on the OCTA front image according to an instruction from the examiner.
- the high image quality OCT tomographic image obtained by performing high image quality processing on the OCT tomographic image corresponding to the position of the current line after the above line is moved. It may be configured to be modified to display an image. Further, by displaying the high image quality button for each target image of the high image quality processing, the high image quality processing may be independently enabled for each image.
- the information indicating the blood vessel region (for example, motion contrast data above the threshold value) in the OCTA tomographic image may be superimposed and displayed on the OCT tomographic image which is the B scan image of the corresponding position.
- the image quality of the OCTA tomographic image is improved
- the image quality of the OCTA tomographic image at the corresponding position may be improved.
- the information indicating the blood vessel region in the OCTA tomographic image obtained by improving the image quality may be superimposed and displayed on the OCTA tomographic image obtained by improving the image quality.
- the information indicating the blood vessel region may be any identifiable information such as color.
- the superimposed display and non-display of the information indicating the blood vessel region may be configured to be changeable according to an instruction from the examiner. Further, when the line indicating the position of the OCT tomographic image is moved on the OCTA front image, the display of the OCT tomographic image may be updated according to the position of the line. At this time, since the OCTA tomographic image at the corresponding position is also updated, the superimposed display of the information indicating the blood vessel region obtained from the OCTA tomographic image may be updated. Thereby, for example, the three-dimensional distribution and state of the blood vessel region can be effectively confirmed while easily confirming the positional relationship between the blood vessel region and the region of interest at an arbitrary position.
- the image quality of the OCTA tomographic image may be improved by an addition averaging process or the like of a plurality of OCTA tomographic images acquired at the corresponding positions instead of using the trained model for the image quality improvement.
- the OCT tomographic image may be a pseudo OCT tomographic image reconstructed as a cross section at an arbitrary position in the OCT volume data.
- the OCTA tomographic image may be a pseudo OCTA tomographic image reconstructed as a cross section at an arbitrary position in the OCTA volume data.
- the arbitrary position may be at least one arbitrary position, and may be configured to be changeable according to an instruction from the examiner. At this time, a plurality of pseudo tomographic images corresponding to a plurality of positions may be reconstructed.
- tomographic image for example, OCT tomographic image or OCTA tomographic image
- a plurality of tomographic images may be displayed.
- the tomographic images acquired at positions in different sub-scanning directions may be displayed, or the plurality of tomographic images obtained by, for example, cross-scanning may be displayed in high quality.
- images in different scanning directions may be displayed.
- a plurality of tomographic images obtained by, for example, a radial scan with high image quality a plurality of partially selected tomographic images (for example, two tomographic images at positions symmetrical with respect to a reference line) are displayed. ) May be displayed respectively.
- a plurality of tomographic images are displayed on the follow-up display screen (follow-up display screen), and instructions for improving the image quality and analysis results (for example, the thickness of a specific layer, etc.) are obtained by the same method as the above method. ) May be displayed.
- the plurality of tomographic images displayed may be a plurality of tomographic images obtained at different dates and times at a predetermined part of the eye to be inspected, or a plurality of tomographic images obtained at different times on the same examination day. May be good.
- the tomographic image may be subjected to high image quality processing based on the information stored in the database by the same method as the above method.
- the SLO image displayed on the same display screen may be displayed with high image quality.
- the front image of the brightness is displayed with high image quality, for example, the front image of the brightness displayed on the same display screen may be displayed with high image quality.
- a plurality of SLO images and front images having brightness are displayed on the display screen for follow-up observation, and instructions for improving the image quality and analysis results (for example, the thickness of a specific layer) are displayed by the same method as the above method. May be done.
- the image quality improving process may be executed on the SLO image or the front image having the brightness based on the information stored in the database by the same method as the above method.
- the display of the tomographic image, the SLO image, and the front image of the brightness is an example, and these images may be displayed in any mode depending on the desired configuration. Further, at least two or more of the OCTA front image, the tomographic image, the SLO image, and the brightness front image may be displayed with high image quality by one instruction.
- the display control unit 121 can display the high-quality image obtained by the high-quality processing on the display unit 116. If at least one of a plurality of conditions relating to the display of a high-quality image, the display of the analysis result, the depth range of the displayed front image, etc. is selected, the selection is made even if the display screen is changed. It may be configured so that the specified conditions are maintained.
- the display control unit 121 may control the display of various high-quality images, the above lines, information indicating the blood vessel region, and the like.
- the high image quality model may be used for at least one frame of the live moving image on the preview screen displayed on the display unit 116 by the display control unit 121.
- the trained model corresponding to each live moving image may be used.
- the front eye image used for the alignment process an image improved in image quality using a high image quality model for the front eye image may be used.
- the images whose image quality has been improved by using the image quality improvement model for each image may be used.
- the high image quality button when the high image quality button is pressed in response to an instruction from the examiner, a plurality of different types of live moving images (for example, anterior segment image, SLO image, tomographic image) are displayed (for example). (At the same time), it may be configured to be changed to display a high-quality moving image obtained by performing high-quality processing. At this time, the display of the high-quality moving image may be a continuous display of the high-quality image obtained by performing high-quality processing on each frame. Further, for example, since the feature amount of the image may be different for each type of image, a trained model for high image quality corresponding to each type of the target image for high image quality processing may be used.
- the high image quality button when the high image quality button is pressed in response to an instruction from the examiner, not only the high image quality processing of the anterior eye image is performed using the high image quality model corresponding to the anterior eye image, but also the SLO image is supported.
- the SLO image may also be configured to be processed for high image quality by using the high image quality model.
- the display when the high image quality button is pressed in response to an instruction from the examiner, the display is changed to the high image quality front eye image generated by using the high image quality model corresponding to the front eye image. Not only that, it may be configured to be changed to the display of the high-quality SLO image generated by using the high-quality model corresponding to the SLO image.
- the high image quality button when the high image quality button is pressed in response to an instruction from the examiner, not only the high image quality processing of the SLO image is performed by using the high image quality model corresponding to the SLO image, but also the tomographic image is supported.
- the tomographic image may also be configured to be processed for high image quality by using the high image quality model.
- the display when the high image quality button is pressed in response to an instruction from the examiner, the display is simply changed to the high image quality SLO image generated by using the high image quality model corresponding to the SLO image. Instead, the display may be changed to a high-quality tomographic image generated by using a high-quality model corresponding to the tomographic image.
- the line indicating the position of the tomographic image may be superimposed and displayed on the SLO image.
- the line may be configured to be movable on the SLO image according to an instruction from the examiner.
- the display of the high image quality button is in the active state, after the above line is moved, the tomographic image corresponding to the position of the current line is subjected to high image quality processing to obtain a high image quality tomographic image. It may be configured to change to display. Further, by displaying the high image quality button for each target image of the high image quality processing, the high image quality processing may be independently enabled for each image.
- control unit 117 scans (rescans) the partial region such as the artifact region obtained by the segmentation process or the like during the shooting or at the end of the shooting in response to the instruction regarding the start of the shooting.
- the means may be driven and controlled. Depending on the movement of the eye to be inspected, it may not be possible to take a good picture by one rescan.
- the drive may be controlled so that the rescan is repeated a predetermined number of times.
- the rescan may be terminated in response to an instruction from the operator (for example, after the shooting cancel button is pressed).
- it may be configured to save the shooting data until the rescan is completed according to the instruction from the operator.
- a confirmation dialog may be displayed after the shooting cancel button is pressed, and the shooting data may be saved or the shooting data may be discarded according to an instruction from the operator.
- the next rescan is not executed (although the current rescan is executed until it is completed), and it waits until there is an instruction (input) from the operator in the confirmation dialog.
- It may be configured as follows. Further, for example, when the information indicating the certainty of the object recognition result regarding the region of interest (for example, the numerical value indicating the ratio) exceeds the threshold value, each adjustment, shooting start, etc. may be automatically performed. Good. In addition, for example, when the information indicating the certainty of the object recognition result regarding the region of interest (for example, the numerical value indicating the ratio) exceeds the threshold value, each adjustment and the start of imaging can be executed according to the instruction from the examiner. It may be configured to change to the above state (release the execution prohibited state).
- the imaged object such as the retina of the eye E to be inspected has not yet been successfully imaged. Therefore, since the difference between the medical image input to the trained model and the medical image used as the training data is large, there is a possibility that a high-quality image cannot be obtained with high accuracy. Therefore, when the evaluation value such as the image quality evaluation of the tomographic image (B scan image) exceeds the threshold value, the display of the high-quality moving image (continuous display of the high-quality frame) may be automatically started. Further, when the evaluation value such as the image quality evaluation of the tomographic image exceeds the threshold value, the image quality enhancement button may be configured to be changed to a state (active state) that can be specified by the examiner.
- the high image quality button is a button for designating the execution of the high image quality processing. Of course, the high image quality button may be a button for instructing the display of a high image quality image.
- a different high image quality model may be prepared for each shooting mode having a different scan pattern or the like, and a learned model for high image quality corresponding to the selected shooting mode may be selected. Further, one high image quality model obtained by learning learning data including various medical images obtained in different imaging modes may be used.
- the scan pattern of the luminous flux used for measurement and the imaging site differ depending on the imaging mode. Therefore, for the trained model that uses the tomographic image as input data, a trained model is prepared for each shooting mode, and the trained model corresponding to the shooting mode selected according to the instruction of the operator is selected. It may be configured.
- the imaging mode may include, for example, a retinal imaging mode, an anterior segment imaging mode, a vitreous imaging mode, a macula imaging mode, an optic disc imaging mode, an OCTA imaging mode, and the like.
- the scan pattern may include 3D scan, radial scan, cross scan, circle scan, raster scan, Lissajous scan (scan along the Lissajous curve) and the like.
- the drive control unit controls the scanning means described above so that the measurement light is scanned a plurality of times in the same region (same position) of the eye to be inspected.
- raster scan, radial scan, cross scan, circle scan, Lissajous scan and the like can be set as the scan pattern.
- the trained model using the tomographic image as input data it is possible to perform training by using the tomographic image corresponding to the cross section in different directions as the training data.
- learning may be performed using a tomographic image of a cross section in the xz direction, a tomographic image of a cross section in the yz direction, or the like as training data.
- the necessity of executing the high image quality processing by the high image quality model is determined by the operator regarding the high image quality button provided on the display screen. It may be performed according to an instruction, or may be performed according to a setting stored in the storage unit 114 in advance. In addition, the fact that the image quality processing is performed using the trained model (high image quality model) may be displayed in the active state of the image quality button, or may be displayed on the display screen as a message to that effect. Good. Further, the execution of the high image quality processing may maintain the execution state at the time of the previous start-up of the ophthalmic apparatus, or may maintain the execution state at the time of the previous examination for each subject.
- the moving image to which various trained models such as the high image quality improvement model can be applied is not limited to the live moving image, and may be, for example, a moving image stored (saved) in the storage unit 114.
- a moving image obtained by aligning at least one frame of the tomographic moving image of the fundus stored (stored) in the storage unit 114 may be displayed on the display screen.
- a reference frame based on a condition such as the presence of the vitreous body on the frame as much as possible may be selected.
- each frame is a tomographic image (B scan image) in the XZ direction.
- a moving image in which another frame is aligned in the XZ direction with respect to the selected reference frame may be displayed on the display screen.
- a high-quality image (high-quality frame) sequentially generated by the high-quality engine may be continuously displayed for each at least one frame of the moving image.
- the same method may be applied to the alignment method in the X direction and the alignment method in the Z direction (depth direction), and all different methods may be applied. May be applied. Further, the alignment in the same direction may be performed a plurality of times by different methods, and for example, a precise alignment may be performed after performing a rough alignment. Further, as a method of alignment, for example, a plurality of alignments obtained by segmenting a tomographic image (B scan image) using a retinal layer boundary obtained by performing segmentation processing (coarse in the Z direction) and dividing the tomographic image.
- Alignment (precise in the X and Z directions) using the correlation information (similarity) between the region and the reference image, and a one-dimensional projected image generated for each tomographic image (B scan image) was used (in the X direction). ) Alignment, etc. (in the X direction) using a two-dimensional front image. Further, it may be configured so that the alignment is roughly performed in pixel units and then the precise alignment is performed in subpixel units.
- the high image quality improvement model may be updated by additional learning using the value of the ratio set (changed) according to the instruction from the examiner as the learning data. For example, if the examiner tends to set a high ratio of the input image to the high-quality image when the input image is relatively dark, the trained model will be additionally trained so as to have such a tendency. Thereby, for example, it can be customized as a trained model that can obtain the ratio of synthesis that suits the taste of the examiner. At this time, a button for deciding whether or not to use the set (changed) ratio value as the learning data for the additional learning according to the instruction from the examiner may be displayed on the display screen.
- the ratio determined by using the trained model may be set as the default value, and then the ratio value may be changed from the default value according to the instruction from the examiner.
- the high image quality model may be a trained model obtained by additionally learning learning data including at least one high image quality image generated by using the high image quality model. At this time, whether or not to use the high-quality image as the learning data for additional learning may be configured to be selectable according to the instruction from the examiner.
- the control unit 117 may generate a label image of the image acquired by photographing using a learned model for image segmentation, and perform image segmentation processing.
- the label image means a label image in which a region is labeled for each pixel of the tomographic image. Specifically, it is an image in which an arbitrary region is divided by a identifiable pixel value (hereinafter, label value) group among the region groups drawn in the acquired image.
- the specified arbitrary region includes a region of interest, a volume of interest (VOI: Volume Of Interest), and the like.
- the coordinate group of the pixel having an arbitrary label value from the image By specifying the coordinate group of the pixel having an arbitrary label value from the image, the coordinate group of the pixel that depicts the corresponding area such as the retinal layer in the image can be specified. Specifically, for example, when the label value indicating the ganglion cell layer constituting the retina is 1, the coordinate group having the pixel value of 1 among the pixel groups of the image is specified, and the coordinate group corresponds to the coordinate group from the image. Pixel group to be extracted. Thereby, the region of the ganglion cell layer in the image can be identified.
- the image segmentation process may include a process of reducing or enlarging the label image.
- the image complement processing method used for reducing or enlarging the label image shall use the nearest neighbor method or the like so as not to erroneously generate an undefined label value or a label value that should not exist at the corresponding coordinates. ..
- the image segmentation process is a process for specifying an area called ROI (Region Of Interest) or VOI, such as an organ or a lesion depicted in an image, for use in image diagnosis or image analysis.
- ROI Region Of Interest
- VOI a region of the group group constituting the retina
- the number of specified areas is 0.
- the number of the specified regions may be a plurality, or even one region surrounding the region groups so as to include the region groups. Good.
- the specified area group is output as information that can be used in other processing.
- the coordinate group of the pixel group constituting each of the specified region groups can be output as a numerical data group.
- a coordinate group indicating a rectangular region, an ellipsoid region, a rectangular parallelepiped region, an ellipsoid region, or the like including each of the specified region groups can be output as a numerical data group.
- a coordinate group indicating a straight line, a curve, a plane, a curved surface, or the like corresponding to the boundary of the specified region group can be output as a numerical data group.
- a label image showing a specified region group can be output.
- FIG. 9 shows an example of the configuration of a trained model for image segmentation.
- the label image 1302 indicating the specified region group can be output.
- the machine learning model shown in FIG. 9 is composed of a plurality of layers responsible for processing and outputting an input value group.
- the types of layers included in the configuration of the machine learning model include a convolution layer, a Downsampling layer, an Upsampling layer, and a Merger layer.
- the convolutional layer is a layer that performs convolutional processing on the input value group according to parameters such as the kernel size of the set filter, the number of filters, the stride value, and the dilation value.
- the number of dimensions of the kernel size of the filter may be changed according to the number of dimensions of the input image.
- the downsampling layer is a layer that performs processing to reduce the number of output value groups to less than the number of input value groups by thinning out or synthesizing the input value groups. Specifically, as such a process, for example, there is a Max Pooling process.
- the upsampling layer is a layer that performs processing to increase the number of output value groups to be larger than the number of input value groups by duplicating the input value group or adding the interpolated value from the input value group. Specifically, as such a process, for example, there is a linear interpolation process.
- the composite layer is a layer in which a value group such as an output value group of a certain layer or a pixel value group constituting an image is input from a plurality of sources, and the processing is performed by concatenating or adding them.
- the degree to which the tendency trained from the teacher data can be reproduced in the output data may differ. That is, in many cases, the appropriate parameters differ depending on the embodiment, and therefore, the values can be changed to preferable values as needed.
- the CNN can obtain better characteristics by changing the configuration of the CNN.
- Better characteristics include, for example, output of more accurate alignment position information, shorter processing time, shorter training time for machine learning models, and the like.
- the CNN configuration used in this modification is a U-net having a function of an encoder composed of a plurality of layers including a plurality of downsampling layers and a function of a decoder composed of a plurality of layers including a plurality of upsampling layers. It is a type machine learning model.
- position information spatial information
- a decoder composed of a plurality of layers including a plurality of upsampling layers.
- It is a type machine learning model.
- position information spatial information
- a plurality of layers configured as encoders is displayed in layers of the same dimension (layers corresponding to each other) in a plurality of layers configured as a decoder. ) Is configured (eg, using a skip connection).
- a batch normalization layer or an activation layer using a normalized linear function may be incorporated after the convolutional layer. Good.
- a normalized linear function Rectifier Liner Unit
- a CNN U-net type machine learning model
- a model combining CNN and LSTM, an FCN (Full Convolutional Network), or an FCN (Full Convolutional Network), or SegNet and the like can be used.
- a machine learning model or the like that performs object recognition can also be used according to a desired configuration.
- a machine learning model for recognizing an object for example, RCNN (Region CNN), fastRCNN, or fasterRCNN can be used.
- a machine learning model that recognizes an object in units of regions can also be used.
- YOLO You Only Look Access
- SSD Single Shot Detector, or Single Shot MultiBox Detector
- the tomographic image acquired by OCT is used as input data, and the label image in which the area is labeled for each pixel of the tomographic image is used as output data.
- Label images include, for example, inner limiting membrane (ILM), nerve fiber layer (NFL), ganglion cell layer (GCL), photoreceptor inner segment outer segment junction (ISOS), retinal pigment epithelial layer (RPE), Bruch. Labeled images with labels such as membrane (BM) and choroid can be used.
- Other regions include, for example, the vitreous body, sclera, outer plexiform layer (OPL), outer nuclear layer (ONL), inner nuclear layer (IPL), inner nuclear layer (INL), cornea, anterior chamber, and iris. And an image with a label such as a crystalline lens may be used.
- OPL outer plexiform layer
- OPL outer nuclear layer
- IPL inner nuclear layer
- INL inner nuclear layer
- INL inner nuclear layer
- cornea anterior chamber
- iris inner nuclear layer
- an image with a label such as a crystalline lens
- the input data of the machine learning model for image segmentation is not limited to tomographic images. It may be an anterior segment image, an SLO image, an OCTA image, or the like.
- various images can be used as input data, and label images in which region names and the like are labeled for each pixel of various images can be used as output data.
- the output data may be an image labeled with a peripheral portion of the optic disc, Disc, Cup, or the like.
- the label image used as the output data may be an image in which each region is labeled in the tomographic image by a doctor or the like, or an image in which each region is labeled by the rule-based region detection process. There may be. However, if machine learning is performed using a label image that is not properly labeled as the output data of the training data, the image obtained by using the trained model trained using the training data is also properly labeled. There is a possibility that the label image will not be used. Therefore, by removing the pair containing such a label image from the training data, it is possible to reduce the possibility that an inappropriate label image is generated by using the trained model.
- the rule-based region detection process refers to a detection process that utilizes a known regularity such as the regularity of the shape of the retina.
- the control unit 117 can be expected to detect a specific region of various images at high speed and with high accuracy by performing image segmentation processing using such a trained model for image segmentation.
- a trained model for image segmentation may also be prepared for each type of various images as input data. Further, for the OCTA front image and the En-Face image, a trained model may be prepared for each depth range for generating an image. Further, the trained model for image segmentation may also be one in which the image for each imaging site (for example, the center of the macula and the center of the optic nerve head) is trained, or the model is trained regardless of the imaging site. You may.
- additional learning may be performed using the data manually modified according to the instruction of the operator as training data. Further, the determination of the necessity of additional learning and the determination of whether or not to transmit the data to the server may be performed by the same method. In these cases as well, it can be expected that the accuracy of each process can be improved and the process can be performed according to the tendency of the examiner's preference.
- control unit 117 detects a partial region of the eye E to be inspected (for example, a region of interest, an artifact region, an abnormal region, etc.) using the trained model, the control unit 117 performs predetermined image processing for each detected partial region. Can also be applied. As an example, the case of detecting at least two partial regions of the vitreous region, the retinal region, and the choroid region will be described. In this case, when performing image processing such as contrast adjustment on at least two detected partial regions, adjustments suitable for each region can be performed by using different image processing parameters. By displaying an image in which adjustments suitable for each region are performed, the operator can more appropriately diagnose a disease or the like in each partial region. Note that the configuration using different image processing parameters for each detected partial region is similarly applied to the partial region of the eye E to be inspected obtained by detecting the partial region of the eye E to be inspected without using the trained model. You may.
- the display control unit 121 in the various embodiments and modifications described above may display analysis results such as a desired layer thickness and various blood vessel densities on the report screen of the display screen after taking the tomographic image.
- the site of interest may be, for example, a vortex vein or the like, which is an outlet of a blood vessel (an example of a blood vessel in a partial depth range of a choroidal region) in the Haller layer to the outside of the eye.
- the parameters related to the site of interest include, for example, the number of vortex veins (for example, the number for each region), the distance from the optic nerve head to each vortex vein, the angle at which each vortex vein centered on the optic nerve head is located, and the like. It may be. This makes it possible to accurately diagnose, for example, various diseases (for example, choroidal neovascularization) related to Pachychoroid (thickened choroid).
- the various analysis results described above can be displayed as accurate analysis results.
- the artifact is, for example, a false image region generated by light absorption by a blood vessel region or the like, a projection artifact, a band-shaped artifact in a front image generated in the main scanning direction of the measured light depending on the state of the eye to be inspected (movement, blinking, etc.). There may be. Further, the artifact may be any image loss region as long as it is randomly generated for each image taken on a medical image of a predetermined portion of the subject.
- the display control unit 121 may display the value (distribution) of the parameter relating to the region including at least one of the various artifacts (copy loss region) as described above on the display unit 116 as the analysis result. Further, the value (distribution) of the parameter relating to the region including at least one such as drusen, new blood vessel, vitiligo (hard vitiligo), and abnormal site such as pseudo-drusen may be displayed as the analysis result. Further, the comparison result obtained by comparing the standard value or standard range obtained by using the standard database with the analysis result may be displayed.
- the analysis result may be displayed in an analysis map, a sector showing statistical values corresponding to each divided area, or the like.
- the analysis result may be generated by using a trained model (analysis result generation engine, trained model for analysis result generation) obtained by learning the analysis result of the medical image as training data. ..
- the trained model is trained using training data including a medical image and an analysis result of the medical image, training data including a medical image and an analysis result of a medical image of a type different from the medical image, and the like. It may be obtained by.
- the training data for performing image analysis may include a label image generated by using the trained model for image segmentation processing and an analysis result of a medical image using the label image.
- the control unit 117 can function as an example of an analysis result generation unit that generates an analysis result of a tomographic image from the result of image segmentation processing by using, for example, a trained model for generating an analysis result.
- the trained model is a training data including input data in which a plurality of medical images of different types of predetermined parts are set, such as an En-Face image and a motion contrast front image (En-Face image of OCTA) described later. It may be obtained by learning using.
- the analysis result obtained by using the high-quality image generated by using the high-quality model may be displayed.
- the input data included in the training data may be a high-quality image generated by using the trained model for high image quality, or may be a set of a low-quality image and a high-quality image. May be good.
- the training data may be an image in which at least a part of an image whose image quality has been improved by using the trained model has been manually or automatically modified.
- the training data includes, for example, at least analysis values (for example, average value, median value, etc.) obtained by analyzing the analysis area, a table including the analysis values, an analysis map, the position of the analysis area such as a sector in the image, and the like.
- the information including one may be the data labeled (annotated) with the input data as the correct answer data (for supervised learning).
- the analysis result obtained by using the trained model for generating the analysis result may be displayed.
- the estimation unit 119 in the above-described embodiment and modification can output an accurate estimation result by using, for example, an image to which various artifact reduction processes as described above are applied for the estimation process. it can.
- the display control unit 121 may display the estimation result on the image at the position of the specified abnormal portion or the like, or may display the state or the like of the abnormal portion by characters or the like.
- the display control unit 121 may display a classification result (for example, Curtin classification) of an abnormal site or the like as a diagnosis result separately from the estimation result for the disease.
- the classification result for example, information indicating the certainty of each abnormal part (for example, a numerical value indicating the ratio) may be displayed.
- diagnosis result information necessary for the doctor to confirm the diagnosis may be displayed as a diagnosis result.
- advice such as additional shooting can be considered.
- the diagnosis result may be information on the future medical treatment policy of the subject.
- the diagnosis result is, for example, the diagnosis name, the type and state (degree) of the lesion (abnormal site), the position of the lesion in the image, the position of the lesion with respect to the region of interest, the findings (interpretation findings, etc.), and the basis of the diagnosis name (affirmation).
- Medical support information, etc.) and grounds for denying the diagnosis name may be included in the information.
- a diagnosis result that is more probable than the diagnosis result such as the diagnosis name input in response to the instruction from the examiner may be displayed as medical support information.
- the types of medical images that can be the basis of the diagnosis result may be displayed in an identifiable manner.
- the basis of the diagnosis result is a map (attention map, activation map) that visualizes the features extracted by the trained model, for example, a color map (heat map) that shows the features in color. Good.
- the heat map may be superimposed and displayed on the medical image used as the input data.
- the heat map is, for example, a method for visualizing a region (a region with a large gradient) that contributes greatly to the output value of the predicted (estimated) class, such as Grad-CAM (Gradient-weighted Class Activation Mapping) or Guided Grade. -Can be obtained using CAM or the like.
- Grad-CAM Gradient-weighted Class Activation Mapping
- Guided Grade Guided Grade
- the diagnosis result may be generated by using a trained model (diagnosis result generation engine, trained model for generation of diagnosis result) obtained by learning the diagnosis result of the medical image as training data. .. Further, the trained model is obtained by learning using training data including a medical image and a diagnosis result of the medical image, and training data including a medical image and a diagnosis result of a medical image of a type different from the medical image. It may be obtained.
- a trained model diagnostic result generation engine, trained model for generation of diagnosis result
- the trained model is obtained by learning using training data including a medical image and a diagnosis result of the medical image, and training data including a medical image and a diagnosis result of a medical image of a type different from the medical image. It may be obtained.
- the training data may include a label image generated by using the trained model for image segmentation processing and a diagnosis result of a medical image using the label image.
- the control unit 117 can function as an example of a diagnosis result generation unit that generates a diagnosis result of a tomographic image from the result of image segmentation processing by using, for example, a learned model for generating a diagnosis result. ..
- the input data included in the training data may be a high-quality image generated by using the trained model for high image quality, or may be a set of a low-quality image and a high-quality image. May be good.
- the training data may be an image in which at least a part of an image whose image quality has been improved by using the trained model has been manually or automatically modified.
- the learning data includes, for example, the diagnosis name, the type and state (degree) of the lesion (abnormal site), the position of the lesion in the image, the position of the lesion with respect to the region of interest, the findings (interpretation findings, etc.), and the basis of the diagnosis name (affirmation).
- Information including at least one such as (general medical support information, etc.) and grounds for denying the diagnosis name (negative medical support information), etc. are labeled (annotated) in the input data as correct answer data (for supervised learning). Data may be used.
- the diagnosis result obtained by using the trained model for generating the diagnosis result may be displayed.
- a trained model may be prepared for each information used as input data or for each type of information, and the diagnosis result may be acquired using the trained model.
- the information output from each trained model may be statistically processed to determine the final diagnostic result.
- the ratio of the information output from each trained model may be added for each type of information, and the information having a higher total ratio than the other information may be determined as the final diagnosis result.
- the statistical processing is not limited to the calculation of the total, and may be the calculation of the average value or the median value.
- the diagnosis result may be determined by using information having a higher ratio than other information (information having the highest ratio).
- the diagnosis result may be determined using the information of the ratio that is equal to or more than the threshold value among the information output from each trained model.
- the diagnosis result may be determined from the information output from each trained model according to the instruction (selection) of the operator.
- the display control unit 121 may display the information output from each trained model and the ratio thereof side by side on the display unit 116.
- the operator may be configured to determine the selected information as a diagnosis result, for example, by selecting information having a higher ratio than other information.
- the diagnosis result may be determined by using the machine learning model from the information output from each trained model.
- the machine learning algorithm may be a different type of machine learning algorithm from the machine learning algorithm used to generate the diagnostic result, for example, a neural network, a support vector machine, an adaboost, a Bayesian network, or a random.
- a forest or the like may be used.
- the learning of the various trained models described above may be not only supervised learning (learning with labeled learning data) but also semi-supervised learning.
- semi-supervised learning for example, after multiple classifiers (classifiers) perform supervised learning, unlabeled learning data is identified (classified) and the identification result (classification result) is determined according to the reliability. This is a method in which (for example, an identification result whose certainty is equal to or higher than a threshold value) is automatically labeled (annotated) and learning is performed using the labeled learning data.
- Semi-supervised learning may be, for example, co-training (or multi-training).
- the trained model for generating the diagnosis result uses, for example, a first discriminator that identifies a medical image of a normal subject and a second discriminator that identifies a medical image including a specific lesion. It may be a trained model obtained by semi-supervised learning (for example, co-training). The purpose is not limited to diagnostic purposes, but may be, for example, imaging support.
- the second classifier may, for example, identify a medical image including a partial area such as a region of interest or an artifact region.
- the display control unit 121 has an object recognition result (object detection) of a partial region such as a region of interest, an artifact region, and an abnormal region as described above on the report screen of the display screen.
- the result) and the segmentation result may be displayed.
- a rectangular frame or the like may be superimposed and displayed around the object on the image.
- colors and the like may be superimposed and displayed on the object in the image.
- the object recognition result and the segmentation result are learned models (object recognition engine, for object recognition) obtained by learning the learning data in which the information indicating the object recognition and the segmentation is used as the correct answer data and labeled (annotated) on the medical image.
- analysis result generation and diagnosis result generation may be obtained by using the above-mentioned object recognition result and segmentation result.
- analysis result generation or diagnosis result generation processing may be performed on a region of interest obtained by object recognition or segmentation processing.
- control unit 117 may use a hostile generative network (GAN: Generative Adversarial Networks) or a variational autoencoder (VAE: Variational Auto-Encoder).
- GAN Generative Adversarial Networks
- VAE Variational Auto-Encoder
- DCGAN Deep Convolutional GAN
- a generator obtained by learning the generation of a medical image
- VAE Variational Auto-Encoder
- the classifier encodes the input medical image into a latent variable, and the generator generates a new medical image based on the latent variable. After that, the difference between the input medical image and the generated new medical image can be extracted (detected) as an abnormal part.
- VAE the input medical image is encoded by an encoder to be a latent variable, and the latent variable is decoded by a decoder to generate a new medical image. After that, the difference between the input medical image and the generated new medical image can be extracted as an abnormal part.
- control unit 117 may detect an abnormal part by using a convolutional autoencoder (CAE).
- CAE convolutional autoencoder
- CAE convolutional autoencoder
- the same medical image is learned as input data and output data at the time of learning.
- a medical image having no abnormal part is output according to the learning tendency.
- the difference between the medical image input to the CAE and the medical image output from the CAE can be extracted as an abnormal part.
- the control unit 117 uses information on the difference between the medical image obtained by using the hostile generation network or the autoencoder and the medical image input to the hostile generation network or the autoencoder as information on the abnormal part. Can be generated.
- the control unit 117 can be expected to detect the abnormal portion at high speed and with high accuracy. For example, even if it is difficult to collect many medical images including abnormal parts as learning data in order to improve the detection accuracy of abnormal parts, a relatively large number of medical images of normal subjects that are easy to collect are used as learning data. Can be used. Therefore, for example, learning for accurately detecting an abnormal portion can be performed efficiently.
- the autoencoder includes VAE, CAE, and the like.
- the control unit 117 provides information on the difference between a medical image obtained from various medical images using a hostile generation network or an autoencoder and a medical image input to the hostile generation network or the autoencoder. It can be generated as information about the abnormal part.
- the display control unit 121 relates to a difference between a medical image obtained from various medical images by using a hostile generation network or an autoencoder and a medical image input to the hostile generation network or the autoencoder. The information can be displayed on the display unit 116 as information on the abnormal portion.
- the trained model for generating the diagnosis result may be a trained model obtained by training with training data including input data in which a plurality of different types of medical images of a predetermined part of the subject are set. Good.
- training data including input data in which a plurality of different types of medical images of a predetermined part of the subject are set.
- the input data included in the training data for example, input data in which a motion contrast front image of the fundus and a luminance front image (or a luminance tom image) are set can be considered.
- input data included in the training data for example, input data in which a tomographic image (B scan image) of the fundus and a color fundus image (or a fluorescent fundus image) are set can be considered.
- the plurality of medical images of different types may be anything as long as they are acquired by different modality, different optical systems, different principles, or the like.
- the trained model for generating the diagnosis result may be a trained model obtained by learning from the training data including the input data including a plurality of medical images of different parts of the subject.
- the input data included in the training data for example, input data in which a tomographic image of the fundus (B scan image) and a tomographic image of the anterior segment of the eye (B scan image) are considered as a set can be considered.
- the input data included in the training data for example, input data in which a three-dimensional OCT image (three-dimensional tomographic image) of the macula of the fundus and a circle scan (or raster scan) tomographic image of the optic nerve head of the fundus are set. Is also possible.
- the input data included in the learning data may be different parts of the subject and a plurality of different types of medical images.
- the input data included in the training data may be, for example, input data in which a tomographic image of the anterior segment of the eye and a color fundus image are set.
- the above-mentioned trained model may be a trained model obtained by learning from training data including input data including a set of a plurality of medical images having different shooting angles of view of a predetermined portion of the subject.
- the input data included in the learning data may be a combination of a plurality of medical images obtained by time-dividing a predetermined portion into a plurality of regions, such as a panoramic image.
- the input data included in the learning data may be input data in which a plurality of medical images of different dates and times of a predetermined part of the subject are set.
- the display screen on which at least one of the above-mentioned estimation result, analysis result, diagnosis result, object recognition result, and segmentation result is displayed is not limited to the report screen.
- a display screen is, for example, at least one display screen such as a shooting confirmation screen, a display screen for follow-up observation, and a preview screen for various adjustments before shooting (a display screen on which various live moving images are displayed). It may be displayed in. For example, by displaying at least one result obtained by using the above-described trained model on the shooting confirmation screen, the operator can confirm the accurate result even immediately after shooting.
- a frame surrounding the recognized object may be configured to be superimposed and displayed on the live moving image.
- the information indicating the certainty of the object recognition result for example, the numerical value indicating the ratio
- the color of the frame surrounding the object may be changed or highlighted. Good. This allows the examiner to easily identify the object on the live video.
- the trained model for generating the correct answer data for generating the correct answer data such as labeling (annotation) may be used.
- the trained model for generating the correct answer data may be obtained by (sequentially) additionally learning the correct answer data obtained by labeling (annotating) the examiner. That is, the trained model for generating correct answer data may be obtained by additional learning of training data using the data before labeling as input data and the data after labeling as output data. Further, in a plurality of consecutive frames such as a moving image, the result of the frame judged to have low accuracy is corrected in consideration of the results of object recognition and segmentation of the preceding and following frames. May be good.
- the corrected result may be additionally learned as correct answer data.
- the feature amount is an example of a map (attention map, activation map) in which the examiner visualizes the feature amount extracted by the trained model on the medical image.
- the image labeled (annotated) may be additionally learned as input data while checking the color map (heat map) showing the above in color. For example, in a heat map on a layer just before outputting the result in the trained model, if the part to be noted is different from the intent of the examiner, label the part that the examiner thinks to be noticed (annotation). You may additionally learn the medical image.
- the trained model is a partial region on the medical image, and the feature amount of the partial region having a relatively large influence on the output result of the trained model is prioritized over the other regions ( Additional learning can be done (with weight).
- Machine learning includes, for example, deep learning consisting of a multi-layer neural network. Further, for example, a convolutional neural network can be used for at least a part of the multi-layer neural network. Further, a technique related to an autoencoder (self-encoder) may be used for at least a part of a multi-layer neural network. Further, a technique related to backpropagation (error backpropagation method) may be used for learning. Further, for learning, a method (dropout) in which each unit (each neuron or each node) is randomly inactivated may be used.
- a method may be used in which the data transmitted to each layer of the multi-layer neural network is normalized before the activation function (for example, the ReLu function) is applied.
- the machine learning is not limited to deep learning, and any learning using a model capable of extracting (expressing) the features of learning data such as images by learning may be used.
- the machine learning model refers to a learning model based on a machine learning algorithm such as deep learning.
- the trained model is a model in which a machine learning model by an arbitrary machine learning algorithm is trained (learned) in advance using appropriate learning data.
- the trained model does not require further learning, and additional learning can be performed.
- the learning data is composed of a pair of input data and output data (correct answer data).
- the learning data may be referred to as teacher data, or the correct answer data may be referred to as teacher data.
- the GPU can perform efficient calculations by processing more data in parallel. Therefore, when learning is performed a plurality of times using a learning model such as deep learning, it is effective to perform processing on the GPU. Therefore, in this modification, the GPU is used in addition to the CPU for the processing by the control unit 117, which is an example of the learning unit (not shown). Specifically, when executing a learning program including a learning model, learning is performed by the CPU and the GPU collaborating to perform calculations. The processing of the learning unit may be performed only by the CPU or GPU. Further, the processing unit (estimation unit 119) that executes the processing using the various trained models described above may also use the GPU in the same manner as the learning unit. Further, the learning unit may include an error detecting unit and an updating unit (not shown).
- the error detection unit obtains an error between the output data output from the output layer of the neural network and the correct answer data according to the input data input to the input layer.
- the error detection unit may calculate the error between the output data from the neural network and the correct answer data by using the loss function.
- the update unit updates the coupling weighting coefficient between the nodes of the neural network based on the error obtained by the error detection unit so that the error becomes small.
- This updating unit updates the coupling weighting coefficient and the like by using, for example, the backpropagation method.
- the error backpropagation method is a method of adjusting the coupling weighting coefficient between the nodes of each neural network so that the above error becomes small.
- the function of an encoder composed of a plurality of layers including a plurality of downsampling layers and a plurality of layers including a plurality of upsampling layers A U-net type machine learning model having a decoder function consisting of is applicable.
- position information spatial information
- a plurality of layers configured as encoders is displayed in layers of the same dimension (layers corresponding to each other) in a plurality of layers configured as a decoder. ) Is configured (eg, using a skip connection).
- machine learning model used for the above-mentioned object recognition for example, FCN (Full Convolutional Network), SegNet, or the like can be used.
- a machine learning model that recognizes an object in a region unit according to a desired configuration may be used.
- RCNN Registered CNN
- fastRCNN fastRCNN
- fasterRCNN fasterRCNN
- YOLO You Only Look Object
- SSD Single Shot Detector or Single Shot MultiBox Detector
- the machine learning model may be, for example, a capsule network (Capsule Network; CapsNet).
- each unit (each neuron or each node) is configured to output a scalar value, for example, a spatial positional relationship (relative position) between features in an image. It is configured to reduce spatial information about. Thereby, for example, learning can be performed so as to reduce the influence of local distortion and translation of the image.
- each unit (each capsule) is configured to output spatial information as a vector, so that, for example, spatial information is retained. Thereby, for example, learning can be performed in which the spatial positional relationship between the features in the image is taken into consideration.
- the various trained models described above may be used for at least one frame of the live video.
- the trained model corresponding to each live moving image may be used.
- the processing time can be shortened, so that the examiner can obtain highly accurate information before the start of shooting. Therefore, for example, failure of re-imaging can be reduced, so that the accuracy and efficiency of diagnosis can be improved.
- the plurality of live moving images may be, for example, a moving image of the anterior segment for alignment in the XYZ directions, and a frontal moving image of the fundus for focusing adjustment or OCT focus adjustment of the fundus observation optical system. Further, the plurality of live moving images may be, for example, a tomographic moving image of the fundus for coherence gate adjustment of OCT (adjustment of the optical path length difference between the measured optical path length and the reference optical path length).
- OCT adjustment of the optical path length difference between the measured optical path length and the reference optical path length.
- a value for example, a contrast value or an intensity value
- a threshold value for example.
- it may be configured to perform various adjustments such as OCT focus adjustment so as to reach a peak value).
- OCT focus adjustment so as to reach a peak value.
- the OCT so that a predetermined retinal layer such as a vitreous region or RPE detected by using a trained model for object recognition or a trained model for segmentation is at a predetermined position in the depth direction.
- Coherence gate adjustments may be configured to be performed.
- the control unit 117 can generate a high-quality moving image by performing high-quality processing on the moving image using the trained model.
- the drive control unit (not shown) is a reference mirror or the like so that a partial area such as a region of interest obtained by segmentation processing or the like is at a predetermined position in the display area while a high-quality moving image is displayed. It is possible to drive and control the optical member for changing the imaging range of. In such a case, the drive control unit can automatically perform the alignment process so that the desired region becomes a predetermined position in the display region based on highly accurate information.
- the optical member for changing the photographing range may be, for example, an optical member for adjusting the coherence gate position, and specifically, a reference mirror for reflecting reference light.
- the coherence gate position can be adjusted by an optical member that changes the optical path length difference between the measurement optical path length and the reference optical path length, and the optical member can change, for example, the optical path length of the measurement light (not shown). It may be a mirror or the like.
- the optical member for changing the photographing range may be, for example, a stage portion (not shown).
- the drive control unit drives the scanning means so that a partial area such as an artifact area obtained by segmentation processing or the like is photographed (rescanned) again during or at the end of photographing. You may control it.
- each adjustment and the start of imaging can be executed according to the instruction from the examiner. It may be configured to change to the above state (release the execution prohibited state).
- the moving image to which the various trained models described above can be applied is not limited to the live moving image, and may be, for example, a moving image stored (stored) in the storage unit 114.
- a moving image obtained by aligning at least one frame of the tomographic moving image of the fundus stored (stored) in the storage unit 114 may be displayed on the display screen.
- a reference frame based on a condition such as the presence of the vitreous body on the frame as much as possible may be selected.
- each frame is a tomographic image (B scan image) in the XZ direction.
- a moving image in which another frame is aligned in the XZ direction with respect to the selected reference frame may be displayed on the display screen.
- a high-quality image (high-quality frame) sequentially generated by the trained model for high image quality may be continuously displayed for each at least one frame of the moving image.
- the same method may be applied to the alignment method in the X direction and the alignment method in the Z direction (depth direction), and all different methods may be applied. May be applied. Further, the alignment in the same direction may be performed a plurality of times by different methods, and for example, a precise alignment may be performed after performing a rough alignment. Further, as a method of alignment, for example, a plurality of alignments obtained by segmenting a tomographic image (B scan image) using a retinal layer boundary obtained by segmentation (coarse in the Z direction) and dividing the tomographic image.
- the imaged object such as the retina of the eye to be inspected has not yet been successfully imaged. Therefore, since the difference between the medical image input to the trained model and the medical image used as the training data is large, there is a possibility that a high-quality image cannot be obtained with high accuracy. Therefore, when the evaluation value such as the image quality evaluation of the tomographic image (B scan) exceeds the threshold value, the display of the high-quality moving image (continuous display of the high-quality frame) may be automatically started. Further, when the evaluation value such as the image quality evaluation of the tomographic image (B scan) exceeds the threshold value, the image quality enhancement button may be configured to be changed to a state (active state) that can be specified by the examiner.
- a state active state
- a trained model for high image quality is prepared for each shooting mode having a different scan pattern, and the trained model for high image quality corresponding to the selected shooting mode is selected. May be done. Further, one trained model for high image quality obtained by learning learning data including various medical images obtained in different imaging modes may be used.
- the trained model after the execution of the additional learning is evaluated, and if there is no problem, the preliminary trained model may be replaced with the trained model after the execution of the additional learning. If there is a problem, a preliminary trained model may be used.
- a trained model for classification for classifying a high-quality image obtained by the trained model for high image quality with another type of image is used. It may be used.
- the trained model for classification uses, for example, a plurality of images including a high-quality image and a low-quality image obtained by the trained model for high image quality as input data, and the types of these images are labeled (annotation). It may be a trained model obtained by training training data including the obtained data as correct answer data.
- the image type of the input data at the time of estimation is displayed together with the information (for example, a numerical value indicating the ratio) indicating the certainty of each type of image included in the correct answer data at the time of learning.
- the input data of the trained model for classification includes overlay processing of a plurality of low-quality images (for example, averaging processing of a plurality of low-quality images obtained by alignment). It may include a high-quality image in which high contrast and noise reduction are performed.
- the trained model after the execution of the additional learning for example, the trained model after the execution of the additional learning and the trained model before the execution of the additional learning (preliminary trained model) are used and the same.
- a plurality of high-quality images obtained from the above images may be compared, or the analysis results of the plurality of high-quality images may be compared.
- the comparison result of the plurality of high-quality images (an example of change due to additional learning) or the comparison result of the analysis result of the plurality of high-quality images (an example of change due to additional learning) is within a predetermined range. It may be determined whether or not, and the determination result may be displayed.
- the trained model obtained by learning for each imaging site may be selectively used.
- the control unit 117 may have a selection means for selecting one of the plurality of trained models.
- the control unit 117 may have a control means for executing additional learning on the selected trained model.
- the control means searches for data in which the imaged part corresponding to the selected trained model and the photographed image of the imaged part are paired according to the instruction from the examiner, and the data obtained by the search is the learning data. Can be executed as additional training for the selected trained model.
- the imaging region corresponding to the selected trained model may be acquired from the information in the header of the data or manually input by the examiner.
- the data search may be performed from a server of an external facility such as a hospital or a research institute via a network, for example. As a result, additional learning can be efficiently performed for each imaged part by using the photographed image of the imaged part corresponding to the trained model.
- the selection means and the control means may be composed of software modules executed by a processor such as a CPU or MPU of the control unit 117. Further, the selection means and the control means may be configured by a circuit that performs a specific function such as an ASIC, an independent device, or the like.
- the validity of the learning data for additional learning may be detected by confirming the consistency by digital signature or hashing. As a result, the learning data for additional learning can be protected. At this time, if the validity of the training data for additional learning cannot be detected as a result of confirming the consistency by digital signature or hashing, a warning to that effect is given and additional learning is performed using the training data. Make it not exist.
- the server may be in any form such as a cloud server, a fog server, an edge server, etc., regardless of its installation location.
- the image management system may be configured so that the transaction of data including medical images between servers of a plurality of facilities is managed by a distributed network. Further, the image management system may be configured to connect a plurality of blocks in which the transaction history and the hash value of the previous block are recorded together in a time series.
- a technique for confirming consistency even if a cipher that is difficult to calculate even using a quantum computer such as a quantum gate method (for example, lattice-based cryptography, quantum cryptography by quantum key distribution, etc.) is used. Good.
- the image management system may be a device and a system that receives and stores an image taken by a photographing device or an image processed image.
- the image management system may transmit an image in response to a request from the connected device, perform image processing on the saved image, or request an image processing request from another device. it can.
- the image management system can include, for example, an image storage communication system (PACS).
- the image management system includes a database that can store various information such as information on the subject and shooting time associated with the received image.
- the image management system is connected to a network and can send and receive images, convert images, and send and receive various information associated with saved images in response to requests from other devices. ..
- the GPU can perform efficient calculations by processing more data in parallel, it is possible to perform processing on the GPU when learning is performed multiple times using a learning model such as deep learning. It is valid.
- the additional learning process may be performed by the GPU, the CPU, or the like in collaboration with each other.
- the instruction from the examiner may be an instruction by voice or the like in addition to a manual instruction (for example, an instruction using a user interface or the like).
- a machine learning model including a voice recognition model speech recognition engine, trained model for voice recognition
- the manual instruction may be an instruction by character input or the like using a keyboard, a touch panel or the like.
- a machine learning model including a character recognition model character recognition engine, trained model for character recognition
- the instruction from the examiner may be an instruction by a gesture or the like.
- a machine learning model including a gesture recognition model gesture recognition engine, learned model for gesture recognition
- the instruction from the examiner may be the result of the examiner's line-of-sight detection on the display screen of the display unit 116.
- the line-of-sight detection result may be, for example, a pupil detection result using a moving image of the examiner obtained by photographing from the periphery of the display screen on the display unit 116.
- the object recognition engine as described above may be used for the pupil detection from the moving image.
- the instruction from the examiner may be an instruction by an electroencephalogram, a weak electric signal flowing through the body, or the like.
- the training data character data or voice data (waver data) indicating instructions for displaying the results of the processing of the various trained models as described above are used as input data, and various trained data have been trained. It may be learning data in which the execution instruction for actually displaying the result or the like obtained by the processing of the model on the display unit 116 is the correct answer data. Further, the learning data may be learning data in which, for example, an execution command for whether or not to automatically set the shooting parameters and an execution command for changing the button for the command to the active state are correct data. Good.
- the learning data may be any data as long as the instruction content and the execution instruction content indicated by the character data, the voice data, or the like correspond to each other.
- voice data may be converted into character data by using an acoustic model, a language model, or the like.
- the waveform data obtained by the plurality of microphones may be used to perform a process of reducing the noise data superimposed on the voice data.
- the instruction by characters or voice and the instruction by a mouse or a touch panel may be configured to be selectable according to the instruction from the examiner. In addition, on / off of instructions by characters or voice may be selectably configured according to instructions from the examiner.
- machine learning includes deep learning as described above, and for at least a part of a multi-layer neural network, for example, a recurrent neural network (RNN: Recurrent Neural Network) can be used.
- RNN Recurrent Neural Network
- RNN which is a neural network that handles time series information
- LSTM Long short-term memory
- FIGS. 11A and 11B a Long short-term memory
- FIG. 10A shows the structure of the RNN, which is a machine learning model.
- the RNN 3520 has a loop structure in the network, inputs data x t 3510 at time t, and outputs data h t 3530. Since the RNN3520 has a loop function in the network, the current state can be inherited to the next state, so that time-series information can be handled.
- FIG. 10B shows an example of input / output of the parameter vector at time t.
- the data x t 3510 contains N pieces of data (Params1 to ParamsN). Further, the data h t 3530 output from the RNN 3520 includes N data (Params1 to ParamsN) corresponding to the input data.
- LSTM may be used.
- the RSTM can learn long-term information by including a forgetting gate, an input gate, and an output gate.
- FIG. 11A shows the structure of the LSTM.
- the information that the network takes over at the next time t is the internal state c t-1 of the network called the cell and the output data h t-1 .
- the lowercase letters (c, h, x) in the figure represent vectors.
- FIG. 11B shows the details of RSTM3540.
- FG indicates a forgetting gate network
- IG indicates an input gate network
- OG indicates an output gate network, each of which is a sigmoid layer. Therefore, a vector in which each element has a value of 0 to 1 is output.
- the oblivion gate network FG determines how much past information is retained, and the input gate network IG determines which value to update.
- the CU is a cell update candidate network and is an activation function tanh layer. This creates a vector of new candidate values to be added to the cell.
- the output gate network OG selects the cell candidate element and selects how much information to convey at the next time.
- LSTM model is a basic form, it is not limited to the network shown here. You may change the coupling between the networks. QRNN (Quasi Recurrent Neural Network) may be used instead of RSTM. Further, the machine learning model is not limited to the neural network, and boosting, a support vector machine, or the like may be used. Further, when the instruction from the examiner is input by characters, voice, or the like, a technique related to natural language processing (for example, Sequence to Sequence) may be applied. At this time, as a technique related to natural language processing, for example, a model output for each input sentence may be applied.
- a technique related to natural language processing for example, a model output for each input sentence may be applied.
- the various trained models described above are not limited to the instructions from the examiner, and may be applied to the output to the examiner. Further, a dialogue engine (dialogue model, trained model for dialogue) that responds to the examiner with an output in characters or voice may be applied.
- a dialogue engine dialogue model, trained model for dialogue
- a learned model obtained by pre-learning document data by unsupervised learning may be used.
- a learned model obtained by further transfer learning (or fine tuning) of a learned model obtained by pre-learning may be used.
- BERT Bidirectional Encoder Representations from Transformers
- a model capable of extracting (expressing) the context (feature amount) by itself by predicting a specific word in a sentence from both the left and right contexts may be applied.
- a model capable of determining the relationship (continuity) of two sequences (sentences) in the input time series data may be applied.
- a Transformer Encoder is used for the hidden layer, and a model in which a vector sequence is input and output may be applied.
- the instruction from the examiner to which this modification is applicable is for changing the display of various images and analysis results as described in the various embodiments and modifications described above, and for generating an En-Face image. Selection of depth range, selection of whether to use as training data for additional learning, selection of trained model, output (display, transmission, etc.) and storage of results obtained using various trained models, etc. Any instruction may be used as long as it is at least one instruction.
- the instruction from the examiner to which this modification is applicable may be an instruction before photography as well as an instruction after photography. For example, an instruction regarding various adjustments and an instruction regarding setting of various imaging conditions. , It may be an instruction regarding the start of shooting. Further, the instruction from the examiner to which this modification is applicable may be an instruction regarding a change (screen transition) of the display screen.
- the machine learning model may be a machine learning model that combines a machine learning model related to images such as CNN and a machine learning model related to time series data such as RNN.
- a machine learning model for example, it is possible to learn the relationship between the feature amount related to an image and the feature amount related to time series data.
- the input layer side of the machine learning model is CNN and the output layer side is RNN, for example, a medical image is used as input data, and sentences related to the medical image (for example, presence / absence of lesion, type of lesion, recommendation of next examination). Etc.) may be used as output data for training.
- medical information related to medical images is automatically explained in sentences, so that even an examiner with little medical experience can easily grasp medical information related to medical images.
- the input layer side of the machine learning model is RNN and the output layer side is CNN
- medical texts such as lesions, findings, and diagnoses are used as input data, and medical images corresponding to the medical texts are output. Learning may be performed using the learning data as data. This makes it possible, for example, to easily search for medical images related to the case that the examiner wants to confirm.
- any language may be configured to be selectable according to an instruction from the examiner.
- any language may be configured to be automatically selectable by using a trained model that automatically recognizes the type of language.
- the automatically selected language type may be configured to be modifiable according to an instruction from the examiner.
- the above-mentioned technology related to natural language processing for example, Sequence to Sequence
- Sequence to Sequence may be applied to the machine translation engine.
- the machine-translated sentence may be input to the character recognition engine or the like.
- the sentences output from the various trained models described above may be input to the machine translation engine, and the sentences output from the machine translation engine may be output.
- the various trained models described above may be used in combination.
- the characters corresponding to the instructions from the examiner are input to the character recognition engine, and the voice obtained from the input characters is input to another type of machine learning engine (for example, a machine translation engine). May be done.
- characters output from other types of machine learning engines may be input to the character recognition engine, and the voice obtained from the input characters may be output.
- the voice corresponding to the instruction from the examiner is input to the voice recognition engine, and the characters obtained from the input voice are input to another type of machine learning engine (for example, a machine translation engine). It may be configured in.
- the voice output from another type of machine learning engine may be input to the voice recognition engine, and the characters obtained from the input voice may be displayed on the display unit 116.
- the output to the examiner can be selected from the output by characters and the output by voice according to the instruction from the examiner.
- the input by characters or the input by voice can be selected as the instruction from the examiner according to the instruction from the examiner.
- the various configurations described above may be adopted by selection according to instructions from the examiner.
- a label image, a high-quality image, or the like related to the image acquired by the main shooting may be stored in the storage unit 114 in response to an instruction from the operator.
- an instruction from the operator for saving a high-quality image when registering the file name, as a recommended file name, any part of the file name (for example, the first part, or In the last part), a file name including information (for example, characters) indicating that the image is generated by processing using a trained model for high image quality (high image quality processing) is given by the operator. It may be displayed in an editable state according to the instruction. Similarly, for the label image and the like, a file name including information that is an image generated by processing using the trained model may be displayed.
- the displayed image is a high-quality image generated by processing using the high-quality model.
- the display shown may be displayed together with a high-quality image. In this case, the operator can easily identify from the display that the displayed high-quality image is not the image itself acquired by shooting, thereby reducing erroneous diagnosis and improving diagnostic efficiency. be able to.
- the display indicating that the image is a high-quality image generated by the process using the high-quality model is any mode as long as the input image and the high-quality image generated by the process can be distinguished. It may be one.
- the display may be displayed with the result. For example, when displaying the analysis result of the segmentation result using the trained model for image segmentation processing, the display indicating that the analysis result is based on the result using the trained model for image segmentation is analyzed. It may be displayed with the result.
- the display screen such as the report screen may be saved in the storage unit 114 as image data in response to an instruction from the operator.
- the report screen may be saved in the storage unit 114 as one image in which a high-quality image or the like and a display indicating that these images are images generated by processing using the trained model are arranged side by side. ..
- the display unit shows what kind of learning data the high-quality model has learned. It may be displayed at 116.
- the display may include an explanation of the types of input data and correct answer data of the learning data, and an arbitrary display regarding correct answer data such as an imaging part included in the input data and correct answer data. It should be noted that even for processing using the various trained models described above, such as image segmentation processing, the display unit 116 displays a display indicating what kind of training data the trained model of that type was trained by. It may be displayed.
- information for example, characters
- the portion superimposed on the image may be any region (for example, the edge of the image) that does not overlap with the region in which the region of interest to be photographed is displayed.
- the non-overlapping areas may be determined and superimposed on the determined areas. It should be noted that not only the processing using the high image quality model but also the image obtained by the processing using the various trained models described above such as the image segmentation processing may be processed in the same manner.
- the initial display screen of the report screen is set by default so that the high image quality processing button or the like is in the active state (high image quality processing is on), it is set to high according to the instruction from the examiner.
- the report image corresponding to the report screen including the image quality image may be configured to be transmitted to the server.
- the button is set to the active state by default, at the end of the inspection (for example, when the shooting confirmation screen or preview screen is changed to the report screen according to the instruction from the inspector).
- the report image corresponding to the report screen including the high-quality image and the like may be configured to be (automatically) transmitted to the server.
- various settings in the default settings for example, the depth range for generating the En-Face image on the initial display screen of the report screen, the presence / absence of superimposition of the analysis map, whether or not the image is high quality, and the display screen for follow-up observation.
- the report image generated based on (settings related to at least one such as whether or not) may be configured to be transmitted to the server. It should be noted that the same processing may be performed when the button represents the switching of the image segmentation processing.
- an image obtained by the first type of trained model for example, an image showing an analysis result such as a high-quality image or an analysis map.
- An image showing a predetermined region detection result, an image showing a segmentation result may be input to a trained model of a second type different from the first type.
- the result of processing the second type of trained model for example, estimation result, analysis result, diagnosis result, predetermined region detection result, segmentation result
- the results obtained by processing the first type of trained model are used.
- an image to be input to the trained model of the second type different from the first type may be generated.
- the generated image is likely to be an image suitable as an image to be processed using the second type of trained model. Therefore, an image obtained by inputting the generated image into the trained model of the second type (for example, a high-quality image, an image showing an analysis result such as an analysis map, an image showing a predetermined area detection result, a segmentation result). The accuracy of the image) can be improved.
- the generation (or display) of each processing result using these trained models can be generated. It may be configured to run. At this time, for example, in response to an instruction from the examiner, the generation (or display) of each processing result using these learned models may be collectively (interlockedly) executed.
- the type of image to be input for example, high-quality image, object recognition result, segmentation result, similar case image
- the type of processing result to be generated (or displayed) for example, high-quality image, estimation result, diagnosis result, analysis).
- the result, the object recognition result, the segmentation result, the similar case image), the type of input and the type of output (for example, characters, voice, language) and the like may be selectably configured according to the instruction from the examiner.
- the input type may be configured to be automatically selectable by using a trained model that automatically recognizes the input type.
- the output type may be configured to be automatically selectable so as to correspond to the input type (for example, the same type).
- the automatically selected type may be configured to be modifiable according to an instruction from the examiner.
- at least one trained model may be configured to be selected according to the selected type.
- how to combine the plurality of trained models may be determined according to the selected type.
- the type of the image to be input and the type of the processing result to be generated (or displayed) may be configured to be differently selectable, or if they are the same, they may be selected differently. It may be configured to output prompting information to the examiner.
- each trained model may be executed anywhere. For example, some of the plurality of trained models may be configured to be used by a cloud server, and others may be configured to be used by another server such as a fog server or an edge server.
- the network in the facility the site including the facility, the area including a plurality of facilities, etc.
- the network is configured to enable wireless communication, for example, it is assigned only to the facility, the site, the area, etc.
- the reliability of the network may be improved by configuring so as to use radio waves in a dedicated wavelength band.
- the network may be configured by wireless communication capable of high speed, large capacity, low delay, and multiple simultaneous connections.
- the information wirelessly received by the device related to surgery or treatment may be the amount of movement (vector) of the optical system or optical member as described above.
- the device related to surgery or treatment is automatically controlled. It may be configured to be. Further, for example, for the purpose of supporting the operation by the examiner, it may be configured as automatic control (semi-automatic control) with the permission of the examiner.
- a similar case image search using an external database stored in a server or the like may be performed using the analysis result, the diagnosis result, etc. obtained by the processing of the trained model as described above as a search key. Further, a similar case image search using an external database stored in a server or the like may be performed using an object recognition result, a segmentation result, or the like obtained by processing various trained models as described above as a search key. If a plurality of medical images stored in the database are already managed by machine learning or the like with the feature amounts of the plurality of medical images attached as incidental information, the medical images themselves may be used. A similar case image search engine (similar case image search model, learned model for similar case image search) as a search key may be used.
- the control unit 117 uses a trained model for searching for similar case images (different from the trained model for high image quality) to search various medical images for similar case images related to the medical images. It can be carried out. Further, for example, the display control unit 121 can display the similar case image obtained from various medical images by using the learned model for searching the similar case image on the display unit 116.
- the similar case image is, for example, an image having a feature amount similar to the feature amount of the medical image input to the trained model. Further, the similar case image is, for example, an image having a feature amount similar to the feature amount of the partial area such as the abnormal part when the medical image input to the trained model includes a partial area such as an abnormal part. ..
- a trained model for searching similar case images is additionally learned by using learning data including an image selected according to an instruction from an examiner and a feature amount of the image among a plurality of similar case images. It may be configured to be.
- the training data of various trained models is not limited to the data obtained by using the ophthalmologic device itself that actually performs imaging, but the data obtained by using the same type of ophthalmic device or the same type according to a desired configuration. It may be data obtained by using an ophthalmic apparatus or the like.
- the trained model may be composed of, for example, a CPU, a software module executed by a processor such as an MPU, GPU, or FPGA, or a circuit or the like that performs a specific function such as an ASIC.
- these learned models may be provided in a device or the like of another server connected to the control unit 117.
- the control unit 117 can use the trained model by connecting to a server or the like provided with the trained model via an arbitrary network such as the Internet.
- the server provided with the trained model may be, for example, a cloud server, a fog server, an edge server, or the like.
- the network in the facility, the site including the facility, the area including a plurality of facilities, etc. is configured to enable wireless communication, for example, it is assigned only to the facility, the site, the area, etc.
- the reliability of the network may be improved by configuring so as to use radio waves in a dedicated wavelength band.
- the network may be configured by wireless communication capable of high speed, large capacity, low delay, and multiple simultaneous connections.
- the medical image processed by the control unit 117 includes images acquired using any modality (imaging device, imaging method).
- the medical image to be processed may include a medical image acquired by an arbitrary imaging device or the like, or an image created by a medical image processing device or a medical image processing method.
- the medical image to be processed is an image of a predetermined part of the subject (subject), and the image of the predetermined part includes at least a part of the predetermined part of the subject.
- the medical image may include other parts of the subject.
- the medical image may be a still image or a moving image, and may be a black-and-white image or a color image.
- the medical image may be an image showing the structure (morphology) of a predetermined part or an image showing the function thereof.
- the image showing the function includes, for example, an OCTA image, a Doppler OCT image, an fMRI image, and an image showing blood flow dynamics (blood flow volume, blood flow velocity, etc.) such as an ultrasonic Doppler image.
- the predetermined part of the subject may be determined according to the subject to be imaged, and the human eye (eye to be examined), brain, lung, intestine, heart, pancreas, kidney, liver and other organs, head, chest, etc. Includes any part such as legs and arms.
- the medical image relating to the eye to be inspected was used for the estimation process.
- the subject relating to the medical image used for the estimation process in the various embodiments and modifications described above is not limited to the subject to be examined, and may be a subject having symmetry in the left-right direction, the up-down direction, or the left-right up-down direction. It may be another organ such as the lung.
- the subjects related to the various embodiments and modifications described above are not limited to the subjects having symmetry.
- the imaging device may have, for example, an endoscope or the like.
- the medical image may be a tomographic image of the subject or a frontal image.
- the front image is, for example, an SLO image of the fundus or anterior segment of the eye, a fundus image photographed by fluorescence, and data acquired by OCT (three-dimensional OCT data) in at least a part of the range in the depth direction of the imaged object.
- OCT three-dimensional OCT data
- En-Face images generated using.
- the En-Face image is an OCTA En-Face image (motion contrast front image) generated by using data in at least a part of the depth direction of the shooting target for three-dimensional OCTA data (three-dimensional motion contrast data). ) May be.
- three-dimensional OCT data and three-dimensional motion contrast data are examples of three-dimensional medical image data.
- the motion contrast data is data indicating a change between a plurality of volume data obtained by controlling the measurement light to be scanned a plurality of times in the same region (same position) of the eye to be inspected.
- the volume data is composed of a plurality of tomographic images obtained at different positions.
- motion contrast data can be obtained as volume data by obtaining data showing changes between a plurality of tomographic images obtained at substantially the same position at different positions.
- the motion contrast front image is also referred to as an OCTA front image (OCTA En-Face image) relating to OCTA angiography (OCTA) for measuring the movement of blood flow, and the motion contrast data is also referred to as OCTA data.
- the motion contrast data can be obtained, for example, as a decorrelation value, a variance value, or a maximum value divided by a minimum value (maximum value / minimum value) between two tomographic images or corresponding interference signals. , It may be obtained by any known method.
- the two tomographic images can be obtained, for example, by controlling the measurement light to be scanned a plurality of times in the same region (same position) of the eye to be inspected.
- the time interval time interval between one scan (one B scan) and the next scan (next B scan).
- the time interval may be changed so as to be instructed by the examiner.
- one of the motion contrast images may be selectably configured from a plurality of motion contrast images corresponding to a plurality of preset time intervals according to an instruction from the examiner.
- the time interval when the motion contrast data is acquired may be associated with the motion contrast data so that the motion contrast data can be stored in the storage unit 114.
- the display control unit 121 may display the time interval when the motion contrast data is acquired and the motion contrast image corresponding to the motion contrast data on the display unit 116.
- the time interval may be automatically determined, or at least one candidate for the time interval may be determined.
- the time interval may be determined (output) from the motion contrast image.
- a machine learning model for example, a plurality of motion contrast images corresponding to a plurality of time intervals are used as input data, and the difference from the plurality of time intervals to the time interval when a desired motion contrast image is acquired is correctly answered. Learning as data It can be obtained by learning the data.
- the En-Face image is, for example, a front image generated by projecting data in the range between two layer boundaries in the XY directions.
- the front image is at least a part of the depth range of the volume data (three-dimensional tomographic image) obtained by using optical interference, and is the data corresponding to the depth range determined based on the two reference planes. Is projected or integrated on a two-dimensional plane.
- the En-Face image is a frontal image generated by projecting the data corresponding to the depth range determined based on the detected retinal layer among the volume data onto a two-dimensional plane.
- a representative value of data within the depth range is set as a pixel value on the two-dimensional plane.
- the representative value can include a value such as an average value, a median value, or a maximum value of pixel values within a range in the depth direction of a region surrounded by two reference planes.
- the depth range related to the En-Face image is, for example, a range including a predetermined number of pixels in a deeper direction or a shallower direction with respect to one of the two layer boundaries relating to the detected retinal layer. May be good.
- the depth range related to the En-Face image may be, for example, a range changed (offset) according to the instruction of the operator from the range between the two layer boundaries regarding the detected retinal layer. Good.
- the imaging device is a device for capturing an image used for diagnosis.
- the photographing device detects, for example, a device that obtains an image of a predetermined part by irradiating a predetermined part of the subject with radiation such as light or X-rays, electromagnetic waves, ultrasonic waves, or the like, or radiation emitted from the subject.
- the imaging devices according to the various embodiments and modifications described above include at least an X-ray imaging device, a CT device, an MRI device, a PET device, a SPECT device, an SLO device, an OCT device, an OCTA device, and a fundus. Includes cameras, endoscopes, etc.
- the configuration according to each of the above-described embodiments and modifications can be applied to these imaging devices.
- the movement of the subject corresponding to the above-mentioned movement of the eye to be predicted may be, for example, the movement of the face or body, the movement of the heart (heartbeat), or the like.
- the OCT apparatus may include a time domain OCT (TD-OCT) apparatus and a Fourier domain OCT (FD-OCT) apparatus.
- the Fourier domain OCT apparatus may include a spectral domain OCT (SD-OCT) apparatus and a wavelength sweep type OCT (SS-OCT) apparatus.
- the OCT apparatus may include a Line-OCT apparatus (or SS-Line-OCT apparatus) using line light.
- the OCT apparatus may include a Full Field-OCT apparatus (or SS-Full Field-OCT apparatus) using area light.
- the OCT apparatus may include a Doppler-OCT apparatus.
- the SLO device and the OCT device may include a wave surface compensation SLO (AO-SLO) device and a wave surface compensation OCT (AO-OCT) device using an adaptive optics system.
- the SLO device and the OCT device may include a polarized SLO (PS-SLO) device, a polarized OCT (PS-OCT) device, and the like for visualizing information on polarization phase difference and polarization elimination.
- the SLO device and the OCT device may include a pathological microscope SLO device, a pathological microscope OCT device, and the like.
- the SLO device and the OCT device may include a handheld type SLO device, a handheld type OCT device, and the like.
- the SLO device and the OCT device may include a catheter SLO device, a catheter OCT device and the like. Further, the SLO device and the OCT device may include a head-mounted SLO device, a head-mounted OCT device, and the like. Further, the SLO device and the OCT device may include a binocular type SLO device, a binocular type OCT device, and the like. Further, the SLO device and the OCT device may be capable of changing the shooting angle of view with a configuration capable of optical scaling. Further, the SLO device can acquire a color image or a fluorescence image by using each of the RGB light sources and having a configuration in which one light receiving element receives time-divisionally or a plurality of light receiving elements simultaneously receive light. May be good.
- control unit 117 may be configured as a part of the OCT device, or the control unit 117 may be configured as a separate body from the OCT device. In this case, the control unit 117 may be connected to an imaging device such as an OCT device via the Internet or the like. Further, the configuration of the OCT apparatus is not limited to the above configuration, and a part of the configuration included in the OCT apparatus may be a configuration in which, for example, an SLO imaging unit or the like is separate from the OCT apparatus.
- the technique disclosed in the present specification can be implemented as, for example, a system, an apparatus, a method, a program, a recording medium (storage medium), or the like. Specifically, it may be applied to a system composed of a plurality of devices (for example, a host computer, an interface device, an imaging device, a web application, etc.), or it may be applied to a device composed of one device. good.
- a system composed of a plurality of devices (for example, a host computer, an interface device, an imaging device, a web application, etc.), or it may be applied to a device composed of one device. good.
- a recording medium (or storage medium) in which a software program code (computer program) that realizes the functions of the above-described embodiment is recorded is supplied to the system or device.
- the storage medium is a computer-readable storage medium.
- the computer or CPU or MPU
- the program code itself read from the recording medium realizes the function of the above-described embodiment, and the recording medium on which the program code is recorded constitutes the technique disclosed in the present specification.
- the technique disclosed herein supplies a program that realizes one or more of the functions of the above-described embodiments and modifications to a system or device via a network or storage medium, and the computer of the system or device supplies the program. It can also be realized by the process of reading and executing the program.
- a computer may have one or more processors or circuits and may include multiple separate computers or a network of separate processors or circuits to read and execute computer executable instructions.
- the processor or circuit may include a central processing unit (CPU), a microprocessing unit (MPU), a graphics processing unit (GPU), an application specific integrated circuit (ASIC), or a field programmable gateway (FPGA). Also, the processor or circuit may include a digital signal processor (DSP), a data flow processor (DFP), or a neural processing unit (NPU).
- CPU central processing unit
- MPU microprocessing unit
- GPU graphics processing unit
- ASIC application specific integrated circuit
- FPGA field programmable gateway
- DSP digital signal processor
- DFP data flow processor
- NPU neural processing unit
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physiology (AREA)
- Ophthalmology & Optometry (AREA)
- Data Mining & Analysis (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Evolutionary Computation (AREA)
- Cardiology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Vascular Medicine (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- General Engineering & Computer Science (AREA)
- Nursing (AREA)
- Business, Economics & Management (AREA)
Abstract
本明細書に開示の情報処理装置は、眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段と、前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正手段と、を備える。
Description
本明細書の開示は、情報処理装置、情報処理方法、情報処理システム及びプログラムに関する。
疾患のスクリーニングや診断には一般X線撮影法、X線コンピュータ断層撮影法、核磁気共鳴画像法、超音波検査法、陽電子放出断層撮影法あるいは単一光子放射断層撮影法などを用いた多様な画像診断装置が用いられ、生体の様々な部位を撮影している。
特に、眼は体外から直接血管を観察できる唯一の部位で、眼の検査を通して糖尿病性網膜症、加齢黄斑変性症といった眼疾患の診断が行われている。また、眼疾患にとどまらず、動脈硬化や糖尿病などの生活習慣病の早期診断や、例えば脳梗塞や認知症のリスク判定など様々な疾患のスクリーニングへの応用が検討されている。例えば、眼科検査装置を用いて疾患のリスクを判定する技術が知られている。特許文献1は眼科検査装置から得られた検査データを解析することにより、特定疾患のリスクを示すリスク情報を生成することを開示している。
しかしながら、画像診断装置や眼科検査装置などで撮影された生体画像から得られる情報だけでは、十分なリスク判定精度を得ることが難しかった。
本明細書の開示は、上記課題に鑑み、疾患のリスク判定における判定精度を向上させることを目的の一つとする。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本明細書の開示の他の目的の1つとして位置付けることができる。
本明細書に開示の情報処理装置は、
眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段と、
前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正手段と、を備える。
眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段と、
前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正手段と、を備える。
本明細書の開示によれば、疾患のリスク判定における判定精度を向上させることができる。
本実施形態に係る情報処理装置は、画像診断装置や眼科検査装置で撮影された生体画像(被検体の医用画像)と他の検査等で得られた生体情報に基づいて疾患のリスク推定を行うことを特徴とする。
以下、添付図面に従って本明細書に開示の情報処理装置の好ましい実施形態について詳説する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、本明細書に開示の情報処理装置の技術的範囲は、特許請求の範囲によって確定されるのであって、以下の個別の実施形態によって限定されるわけではない。また、本明細書の開示は下記実施形態に限定されるものではなく、本明細書の開示の趣旨に基づき種々の変形(各実施形態の有機的な組合せを含む)が可能であり、それらを本明細書の開示の範囲から除外するものではない。即ち、後述する各実施形態及びその変形例を組み合わせた構成も全て本明細書に開示の実施形態に含まれるものである。
なお、以下の実施形態においては、疾患のリスク推定に用いる生体画像を撮像する撮像装置として眼底カメラを用いた場合を代表例として説明するが、これに限定されるものでなく、他の画像診断装置や眼科検査装置であっても好適に適用できる。例えば、リスク推定を行う疾患に応じて、眼底や前眼部の画像を撮影可能な光干渉断層撮影装置(OCT装置)など他の眼科検査装置を用いてもよい。また、一般X線撮影法、X線コンピュータ断層撮影法、核磁気共鳴画像法、超音波検査法、陽電子放出断層撮影法、単一光子放射断層撮影法など疾患のスクリーニングや診断に用いられる画像診断装置を用いてもよい。
[第1の実施形態]
図1は、本実施形態に係る情報処理装置を含む情報処理システム100の全体構成を示す図である。
図1は、本実施形態に係る情報処理装置を含む情報処理システム100の全体構成を示す図である。
情報処理システム100は、眼底カメラ101、生体情報検査装置102、クラウドサーバ103、情報処理装置104を含み構成される。
眼底カメラ101は、疾患のリスク推定に用いる生体画像である眼底画像を撮影する。
眼底カメラ101での撮影には、例えば、近赤外光を用いてもよい。一般に、撮影の際には被検者の眼の位置や体動や瞬き、異物の画像への混入など、静止画像の品質を低下させる要因がある。そのため、撮影時の画像が画像特徴量の算出に不適の場合、再度取り直しが必要となるが、従来の眼底カメラで用いられる可視光によるフラッシュ撮影では縮瞳が起こり、再撮影までにある程度時間が必要となる。そのため、近赤外光を用いることによって縮瞳を避けることができ、連続的な繰り返しの撮影が可能となる。また、近赤外光を用いることにより縮瞳することなく動画像を撮影することも容易となる。
もしくは、眼底カメラ101での撮影に、微弱な可視光を用いてもよい。上述のように、一般に撮影の際には被検者の眼の位置や体動や瞬き、異物の画像への混入など、静止画像の品質を低下させる要因があり、撮影時の画像が画像特徴量の算出に不適の場合、再度取り直しが必要となる。しかしながら、従来の眼底カメラで用いられる可視光によるフラッシュ撮影では縮瞳が起こり、再撮影までにある程度時間が必要となる。そのため、微弱な可視光を用いることによって、縮瞳を避けることができ、連続的な繰り返しの撮影が可能となる。また、微弱な可視光を用いることにより縮瞳することなく動画像を撮影できる。
または、眼底カメラ101での撮影に、前眼部の位置検索に用いる観察光と同じ光源もしくは同じ照度の光源を用いてもよい。
なお、上記は、あくまで例示であって、眼底画像を取得できれば撮影手法は上記に限定されない。
本実施形態では、眼底カメラ101により撮影された眼底画像は、一旦、生体情報検査装置102に送信される。送信方法はUSBなどの有線もしくはWi-Fi(Wireless Fidelity)(登録商標)やBluetooth(登録商標)などの無線通信手段が使用される。なお、眼底画像は、生体情報検査装置102を介さずにクラウドサーバ103に送信されてもよいし、情報処理装置104に送信されてもよい。
生体情報検査装置102は、疾患のリスク推定に用いる生体情報を取得する。生体情報検査装置102は、例えば、被検者の身長、体重、体脂肪率、収縮期血圧、拡張期血圧、不規則脈波、心拍数あるいは体温等の生体情報を測定できる。なお、生体情報は必ずしも検査や測定などから取得する必要はなく、例えば、喫煙習慣の有無や病歴などをユーザからの入力により取得してもよい。さらに、例えば、被検者の血液から血糖値、赤血球数、ヘモグロビン、尿酸などを測定する血液検査機能や、被検者の尿を検査する尿検査機能などを備えていてもよい。なお、血液検査や尿検査など生体由来の検体を用いる検査の場合には、図8に示すように、生体情報検査キット108を被検者に郵送などを通して提供する。そして、被検者が自ら検査した結果をパーソナルコンピュータ107や携帯情報端末106を介してクラウドサーバ103に保存してもよい。また、例えば、検体を用いない、血圧計109や体重計110で測定した血圧や体重などのデータも被検者が同様の手法によりクラウドサーバ103に保存してもよい。なお、上記の生体検査方法の種類やデータの受送信の流れは一例であってこれに限定されず、必要な生体情報を情報処理装置104に送信できればよい。
クラウドサーバ103は、眼底カメラ101で撮影された画像や生体情報検査装置102により取得された生体情報等のデータを記憶及び管理する。
情報処理装置104は、図2に示すように、その機能的な構成として、通信IF(Interface)111、ROM(Read Only Memory)112、RAM(Random Access Memory)113、記憶部114、操作部115、表示部116、及び制御部117を備える。
通信IF111は、LANカード等で実現され、外部装置(例えば、クラウドサーバ103)と情報処理装置104との間の通信を司る。ROM112は、不揮発性のメモリ等で実現され、各種プログラム等を記憶する。RAM113は、揮発性のメモリ等で実現され、各種情報を一時的に記憶する。記憶部114は、コンピュータ読み取り記憶媒体の一例であり、ハードディスクドライブ(HDD)やソリッドステイトドライブ(SSD)に代表される大容量情報記憶装置等で実現され、各種情報を記憶する。操作部115は、キーボードやマウス等で実現され、ユーザからの指示を装置に入力する。表示部116は、ディスプレイ等で実現され、各種情報をユーザに表示する。制御部117は、CPU(Central Processing Unit)やGPU(Graphical Processing Unit)等で実現され、情報処理装置104における各処理を統括制御する。
制御部117は、その機能的な構成として、取得部118、推定部119、補正部120及び表示制御部121を備える。
取得部118は、眼底カメラ101で撮影した被検者の眼底画像や生体情報検査装置102により取得された被検者の生体情報等のデータをクラウドサーバ103から読み取り取得する。なお、データは、必ずしもクラウドサーバ103から取得しなくてもよく、例えば、眼底カメラ101や生体情報検査装置102から直接送信されてきたデータを取得してもよい。
推定部119は、取得部118が取得した被検者の眼底画像から該被検者の疾患のリスクを推定(リスクの推定処理を実行)する。なお、本実施形態において、疾患のリスクとは、一定期間内に疾患を発症する確率を示す。疾患を発症する確率は、パーセント表示等のように定量的な表現でもよいし、リスクが高い、あるいは低い等のように定性的な表現でもよい。
補正部120は、推定部119により推定された疾患リスクの推定結果を補正し、最終的な疾患リスクを算出する。より具体的には、生体情報検査装置102により得られた複数の生体情報ごとに予め設定された各疾患に発症する確率の重みづけ係数を用いて、学習済モデルにより推定された疾患リスクの推定結果を補正する。すなわち、補正部120は、生体情報ごとに定められた所定の重みづけ係数を用いて、疾患に発症するリスクを補正する補正手段の一例に相当する。
表示制御部121は、補正部120が補正した最終的な疾患リスクの推定結果を表示部116に表示させる。
次に、本実施形態に係る情報処理装置104の疾患のリスク推定を行う処理手順について、図3のフローチャートを用いて説明する。
(S3000)(眼底画像の読み込み)
S3000において、取得部118は、クラウドサーバ103に記憶されてある眼底カメラ101により撮像された眼底画像を読み込み取得する。あるいは、眼底カメラ101から直接送信される眼底画像を取得する。
S3000において、取得部118は、クラウドサーバ103に記憶されてある眼底カメラ101により撮像された眼底画像を読み込み取得する。あるいは、眼底カメラ101から直接送信される眼底画像を取得する。
(S3010)(画像特徴量の算出)
S3010において、推定部119は、クラウドサーバ103から取得した眼底画像から疾患のリスクを推定するための特徴量を検出する。
S3010において、推定部119は、クラウドサーバ103から取得した眼底画像から疾患のリスクを推定するための特徴量を検出する。
もしくは、眼底カメラ101で撮影した動画像をクラウドサーバ103から取得し、その動画像から所望の画像特徴量を検出してもよい。一般に撮影の際には被検者の眼の位置や体動や瞬き、異物の画像への混入など、静止画像の品質を低下させる要因がある。そのため、動画像の中で画像品質に問題がなく、画像特徴量の算出に適した部分から画像特徴量を算出することにより、適切に疾患のリスクを推定できる。動画像中の至適部分の選定には、画像の明度やコントラスト、鮮鋭度やあらかじめ登録したパターンとのマッチングなどを適宜用いることが出来る。
検出される特徴量は、例えば血管の径、曲率、角度あるいは分岐などの欠陥部分の形態的な特徴や色情報が挙げられる。あるいは、例えば、出血や白斑などによる血管部分以外の異常な形状や画像コントラスト、色情報であってもよい。なお、リスク推定に用いられる特徴量はこれに限定されるものではなく様々な特徴量を用いることができる。
(S3020)(疾患のリスクを推定)
S3020において、推定部119は、S3010で検出された特徴量を学習済みモデルに入力することにより、疾患のリスクを推定する。すなわち、推定部119は、眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段の一例に相当する。より具体的には、学習済みモデルに対して被検者の眼底画像から得られる特徴量を入力することにより前記被検者が疾患を発症する確率を推定する推定手段の一例に相当する。
S3020において、推定部119は、S3010で検出された特徴量を学習済みモデルに入力することにより、疾患のリスクを推定する。すなわち、推定部119は、眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段の一例に相当する。より具体的には、学習済みモデルに対して被検者の眼底画像から得られる特徴量を入力することにより前記被検者が疾患を発症する確率を推定する推定手段の一例に相当する。
ここで、学習済みモデルとは、サポートベクターマシン等の機械学習アルゴリズムに従った機械学習モデルであって、予め適切な学習データを用いて学習を行った機械学習モデルを示す。なお、学習済みモデルは、それ以上の学習を行わないものではなく、追加の学習を行うこともできる。
学習データは、一つ以上の、入力データと出力データ(正解データ)とのペア群で構成される。本実施形態に係る学習済みモデルは、任意の学習アルゴリズムに従い、入力データ(眼底画像等の生体画像から検出される複数の特徴量に関するデータ)に対する出力データ(疾患のリスクに関するデータ)を学習データとして学習している。具体的には、例えば、眼底画像から検出される出血や白斑などによる血管部分以外の異常な形状と、糖尿病性網膜症を発症する確率との相関を学習する。あるいは、例えば、動脈径、静脈径、動脈径と静脈径の比、血管の分岐角度、前記分岐の非対称性、動脈静脈狭窄または血管の捻じれなどを示す血管の形態に関する特徴量と、該特徴量から評価される心血管疾患や脳卒中などを発症するリスクとの相関を学習する。なお、上述のように疾患を発症するリスクは、パーセンテージで出力されても良いし、高リスク、低リスクなどの定性的な複数のクラスに識別されて出力されてもよい。また、学習する入力データと出力データの相関は上記の組み合わせに限定されず、疾患のリスク推定に関係する種々の相関を学習できる。
また、学習済みモデルは、入力データと出力データを含むデータ集合に基づく学習を反復実行できる。
なお、本実施形態において、疾患リスクの推定を行う学習済みモデルは、情報処理装置104により生成されてもよいし、情報処理装置104とは異なる情報処理装置により生成されたモデルであってもよい。
情報処理装置104が疾患リスクの推定を行う学習済みモデルの生成も行う場合、情報処理装置104はさらに生成部(不図示)を備える。
生成部は、上述のように、任意の学習アルゴリズムに従い、入力データに対する出力データを教師データとして学習し、学習済みモデルを生成する。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。ニューラルネットワークを利用した深層学習を行う場合には、眼底画像と該眼底画像から評価される疾患を発症するリスクとを組にして学習することにより学習済みモデルを得る。例えば、網膜細動脈と呼ばれる血管は、サイズが細い人の方が太い人に比べて高血圧に発症するリスクが高いため、上記のように網膜細動脈が細いと評価される眼底画像に対して、高いリスクを学習データとして組にして学習を行う。
すなわち、推定部119は、眼底画像と該眼底画像から評価される疾患を発症するリスクとの関係を深層学習した学習済みモデルに対して、前記取得手段により取得された前記被検者の眼底画像を入力することにより前記被検者が疾患を発症するリスクを推定(リスクの推定処理を実行)する推定手段の一例に相当する。
なお、学習する入力データと出力データの関係は上記の組み合わせに限定されず、疾患のリスク推定に関係する種々の相関を学習できる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用できる。
なお、学習済モデルは、リスクを推定したい疾患に応じて複数生成しても良いし、1つの学習済モデルが複数の疾患のリスクを推定可能なように生成してもよい。
すなわち、推定部119は、眼底画像から取得される特徴量と該特徴量から評価される第1の疾患を発症するリスクとの関係および、眼底画像から取得される特徴量と該特徴量から評価される第2の疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、前記被検者が前記第1の疾患および前記第2の疾患を発症するリスクを推定する推定手段の一例に相当する。
あるいは、推定部119は、眼底画像から取得される特徴量と該特徴量から評価される第1の疾患を発症するリスクとの関係を学習した第1の学習済みモデルと、眼底画像から取得される特徴量と該特徴量から評価される第2の疾患を発症するリスクとの関係を学習した第2の学習済みモデルとを用いて、被検者が前記第1の疾患および前記第2の疾患を発症するリスクを推定する推定手段の一例に相当する。
(S3030)(推定結果の保存)
S3030において、情報処理装置104は、推定された疾患のリスクを記憶部114に保存する。あるいは、通信IF111を介してクラウドサーバ103に転送し、クラウドサーバ103に保存する。なお、記憶部114とクラウドサーバ104の両方に保存してもよい。
S3030において、情報処理装置104は、推定された疾患のリスクを記憶部114に保存する。あるいは、通信IF111を介してクラウドサーバ103に転送し、クラウドサーバ103に保存する。なお、記憶部114とクラウドサーバ104の両方に保存してもよい。
(S3040)(生体情報の読み込み)
S3040において、情報処理装置104は、クラウドサーバ103に記憶されてある生体情報検査装置102から得られた生体情報を読み込む。あるいは、生体情報検査装置102から直接送信される生体情報を取得する。
S3040において、情報処理装置104は、クラウドサーバ103に記憶されてある生体情報検査装置102から得られた生体情報を読み込む。あるいは、生体情報検査装置102から直接送信される生体情報を取得する。
(S3050)(推定結果の読み込み)
S3050において、取得部118は、記憶部114あるいはクラウドサーバ103に記憶されてある疾患リスクの推定結果を読み込む。
S3050において、取得部118は、記憶部114あるいはクラウドサーバ103に記憶されてある疾患リスクの推定結果を読み込む。
(S3060)(推定結果の補正)
S3060において、補正部120は、推定部119により推定された疾患リスクの推定結果を補正し、最終的な疾患リスクを算出する。より具体的には、生体情報検査装置102を用いて、測定・検査された複数の生体情報ごとにあらかじめ設定された各疾患に発症する確率の重みづけ係数を用いて、各疾患に発症する確率を補正する。例えば、被検者の血圧や身長・体重から求められる体格指数(BMI)に応じて発症する疾患を発症する確率が異なるので、眼底画像から取得される特徴量に基づき算出された確率を、生体情報に基づいて補正する。補正量は、疾患の罹患者と健常者を被検者とした眼底画像から取得される特徴量と生体情報の評価結果から算出された値を用いる。
S3060において、補正部120は、推定部119により推定された疾患リスクの推定結果を補正し、最終的な疾患リスクを算出する。より具体的には、生体情報検査装置102を用いて、測定・検査された複数の生体情報ごとにあらかじめ設定された各疾患に発症する確率の重みづけ係数を用いて、各疾患に発症する確率を補正する。例えば、被検者の血圧や身長・体重から求められる体格指数(BMI)に応じて発症する疾患を発症する確率が異なるので、眼底画像から取得される特徴量に基づき算出された確率を、生体情報に基づいて補正する。補正量は、疾患の罹患者と健常者を被検者とした眼底画像から取得される特徴量と生体情報の評価結果から算出された値を用いる。
その後、補正された確率を最終的なリスク推定結果として算出する。なお、発症する確率に複数の閾値を設定し、閾値を用いて複数のリスク段階のカテゴリーに分類し、分類されたカテゴリーを最終的なリスク推定結果としてもよい。例えば、疾患に発症する確率を「0~33%、34%~66%、67%~100%」の3段階に分け、それぞれを、「低リスク、中リスク、高リスク」というカテゴリーに分類する。なお、分類方法は、上記に限定されず、例えば2段階に分けても良いし、4段階以上でもよい。また、閾値の値も一例であって、これに限定されない。すなわち、出力される推定結果の出力方法は上記に限定されず、被検者が疾患の発症するリスクの程度を認識できるように出力されればよい。さらに、上記では補正した推定結果をカテゴリーに分類したが、学習済みモデルを学習する際に予め出力データを「低リスク、中リスク、高リスク」などの複数のクラスに分類して学習させ、S3020において疾患リスクを推定された段階で推定結果が分類された形で出力されるようにしてもよい。
(S3070)(補正された推定結果の保存)
S3070において、情報処理装置104は、補正された疾患のリスクを記憶部114に保存する。あるいは、通信IF111を介してクラウドサーバ103に転送し、クラウドサーバ103に保存する。なお、記憶部114とクラウドサーバ104の両方に保存してもよい。
S3070において、情報処理装置104は、補正された疾患のリスクを記憶部114に保存する。あるいは、通信IF111を介してクラウドサーバ103に転送し、クラウドサーバ103に保存する。なお、記憶部114とクラウドサーバ104の両方に保存してもよい。
(S3080)(結果の表示・プリント出力)
S3080において、表示制御部121は、推定された最終的な疾患リスクを表示部116に表示させる。あるいは、別体のプリンタに送信し、出力する。
S3080において、表示制御部121は、推定された最終的な疾患リスクを表示部116に表示させる。あるいは、別体のプリンタに送信し、出力する。
図4A~図4Fに疾患のリスク推定結果の表示例を示す。図4Aは、疾患のリスク段階として算出された疾患のリスク推定結果を高リスク、中リスク、低リスクの3段階に分類し表示した様子を示している。すなわち、表示制御手段121は、補正された疾患を発症するリスクを複数のクラスに分類して表示部に表示している。さらに、それぞれのカテゴリーがどのような状態を示しているのかについての説明を表示している。例えば、推定されたカテゴリーが「低リスク」の場合には、「発症するリスクが低い。健康な生活習慣を続けてください。」などの説明を表示する。なお、上記の説明は一例であって、上記に限定されない。さらに、必ずしも説明を併記しなくてもよく、高リスクと推定された場合など、被検者がその疾患についてより詳細に知りたい場合にのみ補足説明を行うタブなどを備えていてもよい。あるいは、簡易な説明のみを併記し、より詳細に知りたい場合に補足説明を行うタブなどを備えていてもよい。
また、疾患のリスク推定結果をグラフ表示してもよく、図4Bのように、レーダーチャートを用いて複数の疾患のリスク推定結果を示してもよいし、図4Cのように、棒グラフを用いて複数の疾患のリスク推定結果を示してもよい。なお、上記は一例であって、疾患のリスク推定結果を視覚的に二次元で表したものであれば形態は限定されない。
また、図4D~図4Fは、眼底カメラ101で撮影された眼底画像を表示した状態を示しており、例えば、図4A~図4Cの結果と並列表示することによって、疾患リスクの推定結果と眼底画像を同時に見られるようにしてもよい。すなわち、表示制御部121は、補正された疾患を発症するリスク推定結果を被検者の眼底画像と並列表示して表示してもよい。
具体的には、図4Dは、左右の眼の画像を並列表示した状態を示している。また、図4Eは、互いに異なる時刻に撮像された2つの画像(現在画像と過去画像)を並列表示した状態を示している。さらに、図4Fは、リスク推定にかかわる主な画像部分を示し、説明を加えたものの例を示している。すなわち、眼底画像における疾患と相関の高い部位を強調して表示している。
なお、表示方法はこれらに限定されるものではなくリスク推定結果の様々な表示方法や、他に撮影画像のみならず、生体情報やそれらの過去情報、経過推移などを用いた表示を行うことができる。さらに、情報処理装置104の表示部116に表示するだけでなく、生体情報検査装置102が備える表示部に推定結果を表示してもよい。あるいは、図7に示すように、検査システム専用のアプリケーションソフトウェアを携帯情報端末106にインストールする。これにより、受信された疾患のリスク推定結果や他の検査システムに係る情報を、アプリケーションソフトウェアを介して携帯情報端末106に表示可能にしてもよい。すなわち、推定結果を表示する装置は必ずしも情報処理装置104でなくてもよい。
また、表示部に疾患リスクの推定結果を表示するだけでなく、別体のプリンタに送信し、出力してもよい。
以上によって、情報処理装置104の処理が実施される。
上記によれば、被検者の疾患のリスクを推定する場合に、眼底画像から取得される特徴量によって推定された推定結果を、複数の生体情報ごとに予め設定された各疾患に発症する確率の重みづけ係数を用いて補正することにより、推定結果の精度を向上できる。また、疾患のリスク推定にあたって専門性を要さないため、ユーザによらず簡易に疾患のリスク推定を行うことができる。さらに、疾患のリスクを複数の段階に分類し、被検者にとって分かりやすい表示形態で推定結果を表示することにより、直感的に疾患のリスクを認識できる。また、検査対象となった眼底画像等の生体画像を推定結果と並列に表示することによって疾患の箇所を認識しやすくなる。
(変形例1)
第1の実施形態では、疾患のリスクを推定し、それらを表示あるいはプリント等の出力を行った。本変形例では、被検者が追加検査や適切な医療機関や診療科への受診、生活習慣指導などのコンサルテーションを受けることができるように、推定結果を医療機関等に送信する。
第1の実施形態では、疾患のリスクを推定し、それらを表示あるいはプリント等の出力を行った。本変形例では、被検者が追加検査や適切な医療機関や診療科への受診、生活習慣指導などのコンサルテーションを受けることができるように、推定結果を医療機関等に送信する。
図5は、医療機関130との連携や被検者へのアドバイスを行うシステムの構成を示したものである。
本実施形態の検査システムでは、予め登録した複数の医療機関130から疾患の種類やリスク推定結果に応じて、推奨する医療機関130や診療科をリスク推定結果とともに出力する。被検者は例えば上記の出力結果を生体情報検査装置102の表示部、プリント等、もしくは携帯情報端末106やパーソナルコンピュータ107で確認できる。
クラウドサーバ103には、疾患の種類、疾患のリスクの程度に応じた医療機関102や該当診療科が保存されている。そして、リスク推定結果に応じてクラウドサーバ103からこれらの情報を読み出すことにより、医療機関130や診療科を生体情報検査装置102、携帯情報端末106やパーソナルコンピュータ107に送り、被検者に提示できる。
さらに生体情報検査装置102、携帯情報端末106やパーソナルコンピュータ107上で当該医療機関130の予約を行うことができる。生体情報検査装置102には医療機関の予約を行うための予約用のアプリケーションソフトウェアがインストールされている。
また携帯情報端末106やパーソナルコンピュータ107で予約を行う場合には予約用のアプリケーションソフトウェアをダウンロードしてインストールする。
予約用のアプリケーションソフトウェアは、医療機関130の診療予約システム132と通信して被検者のIDと希望する予約日時を照会する。そして、診療予約システムに保存された最新の予約状況と照合して予約が可能であれば、診療予約システム132がIDでの予約を登録する。また、予約が完了した場合には受診にあわせて撮影画像、生体情報、リスク推定結果を医療機関130に転送できる。予約用のアプリケーションソフトウェア上で撮影画像、生体情報、リスク推定結果の転送を選択する。この操作により、撮影画像、生体情報、リスク推定結果などの情報がクラウドサーバ103から読み出され、セキュアに転送され医療機関130の診療予約システム132にある受診者情報記憶部133に保存される。
また、本実施形態の検査システムでは、本検査システムで得られた疾患リスクに応じて医師の診断やコンサルテーションをシステム上で受けることができる。例えば、眼底カメラ101の画像を用いたリスク推定結果として眼底疾患のリスクが高い場合には、当該眼底画像が医師に転送される。そして、それをもとに生体情報検査装置102に組み込まれた映像通信機能(映像通信可能なシステム)や、被検者の有する携帯情報端末106やパーソナルコンピュータ107を介して医師とフェース・トゥ・フェースの診断やコンサルテーションを受けることができる。
同様に他の疾患リスクが高い場合などには、追加検査や適切な医療機関や診療科の受診、生活習慣指導などのコンサルテーションを受けることができる。
さらに、本実施形態の検査システムでは、リスク推定結果や生体情報システム102で得られた結果などに基づいて、本検査システムにより直接生活習慣の改善、サプリメントや一般薬の摂取などを提案できる。
このとき、クラウドサーバ103には、疾患の種類、疾患のリスクの程度に応じた生活習慣の改善内容、推奨するサプリメント、一般薬が保存されている。
そして、リスク推定結果に応じてクラウドサーバ103からこれらの情報を読み出すことにより、前述した提案を生体情報検査装置102、携帯情報端末106やパーソナルコンピュータ107に送り、被検者に提示できる。
これらのサービスは上記のものに限定されるものではなく、上記リスク推定結果に応じて様々なサービスを提供できる。
[第2の実施形態]
第1の実施形態では、生体画像から得られる複数の特徴量を学習済みモデルに入力することにより推定された疾患のリスクを、生体検査により得られた生体情報ごとに予め設定された重みづけ係数を用いて補正することにより疾患のリスク推定の精度を向上させた。
第1の実施形態では、生体画像から得られる複数の特徴量を学習済みモデルに入力することにより推定された疾患のリスクを、生体検査により得られた生体情報ごとに予め設定された重みづけ係数を用いて補正することにより疾患のリスク推定の精度を向上させた。
一方、本実施形態では、眼底カメラ101で撮影された画像から得られた画像特徴量と疾患を発症する確率、及び生体情報検査装置102により得られた生体情報と、疾患を発症する確率を学習させた学習済みモデルを用いて疾患のリスクを推定する。
本実施形態における情報処理システムの全体構成は第1の実施形態と同様である。また本実施形態において用いる眼底カメラ101、生体情報検査装置102、クラウドサーバ103は第1の実施形態と同様である。
以下、図6を用いて本実施形態の処理工程を説明する。なお、S6000~S6040、S6070については、第1の実施形態と同様のため説明は省略する。
(S6050:疾患のリスクを推定)
S6050において、まず、取得部118は、クラウドサーバ103に保存された被検者の眼底画像から得られる特徴量と生体情報検査装置102を用いて測定・検査された生体情報を取得する。そして、推定部119は、取得部118により取得された特徴量と生体情報を予め生成された学習済みモデルに対して入力することにより、被検者が疾患に発症するリスクを推定(リスクの推定処理を実行)する。
S6050において、まず、取得部118は、クラウドサーバ103に保存された被検者の眼底画像から得られる特徴量と生体情報検査装置102を用いて測定・検査された生体情報を取得する。そして、推定部119は、取得部118により取得された特徴量と生体情報を予め生成された学習済みモデルに対して入力することにより、被検者が疾患に発症するリスクを推定(リスクの推定処理を実行)する。
具体的には、例えば、動脈径、静脈径、動脈径と静脈径の比、血管の分岐角度、前記分岐の非対称性、動脈静脈狭窄または血管の捻じれなどの眼底画像から得られる特徴量と血圧、BMI指数、年齢、性別、病歴または喫煙習慣の有無などの生体情報を入力データとして、該特徴量及び生体情報から評価される心血管疾患や脳血管疾患などの疾患を発症する確率との相関を学習する。
なお、学習する入力データと出力データの相関は上記の組み合わせに限定されず、疾患のリスク推定に関係する種々の相関を学習できる。
また、本実施形態において、疾患リスクの推定を行う学習済みモデルは、情報処理装置104により生成されてもよいし、情報処理装置104とは異なる情報処理装置により生成されたモデルであってもよい。
(S6060:推定結果の保存)
S6060において、情報処理装置104は、疾患のリスクの推定結果を記憶部114に保存する。あるいは、通信IF111を介してクラウドサーバ103に転送し、クラウドサーバ103に保存する。なお、記憶部114とクラウドサーバ104の両方に保存してもよい。
S6060において、情報処理装置104は、疾患のリスクの推定結果を記憶部114に保存する。あるいは、通信IF111を介してクラウドサーバ103に転送し、クラウドサーバ103に保存する。なお、記憶部114とクラウドサーバ104の両方に保存してもよい。
以上によって、情報処理装置104の処理が実施される。
上記によれば、被検者の疾患のリスクを推定する場合に、眼底画像から取得される特徴量及び生体検査により取得される生体情報から評価される疾患を発症する確率との相関を学習した学習済みモデルを用いることにより疾患のリスク推定の精度を向上できる。
(変形例2)
上述した様々な実施形態及び変形例において、被検体の疾患に関する推定処理に用いる学習済モデル(推定用の学習済モデル)を被検者毎に調整(チューニング)する学習を行い、その被検者専用の学習済モデルを生成してもよい。例えば、被検者の過去の検査において取得された断層画像を用いて、被検体の疾患を推定するための汎用的な学習済モデルの転移学習を行い、その被検者専用の学習済モデルを生成することができる。被検者専用の学習済モデルを被検者のIDと紐付けて記憶部114やサーバ等の外部装置に記憶させておくことで、制御部117は、被検者の現在の検査を行う際に、被検者のIDに基づいて被検者専用の学習済モデルを特定し、利用することができる。被検者専用の学習済モデルを用いることで、被検者毎の疾患に関する推定精度を向上させることができる。
上述した様々な実施形態及び変形例において、被検体の疾患に関する推定処理に用いる学習済モデル(推定用の学習済モデル)を被検者毎に調整(チューニング)する学習を行い、その被検者専用の学習済モデルを生成してもよい。例えば、被検者の過去の検査において取得された断層画像を用いて、被検体の疾患を推定するための汎用的な学習済モデルの転移学習を行い、その被検者専用の学習済モデルを生成することができる。被検者専用の学習済モデルを被検者のIDと紐付けて記憶部114やサーバ等の外部装置に記憶させておくことで、制御部117は、被検者の現在の検査を行う際に、被検者のIDに基づいて被検者専用の学習済モデルを特定し、利用することができる。被検者専用の学習済モデルを用いることで、被検者毎の疾患に関する推定精度を向上させることができる。
(変形例3)
上述した様々な実施形態及び変形例において、制御部117は、撮影により取得した画像等を用いて様々な画像処理を行ってよい。例えば、制御部117は、撮影により取得した画像について、高画質化用の学習済モデル(高画質化モデル)を用いて画質を改善した高画質画像を生成してもよい。ここで、画質の改善とは、ノイズの低減や、撮影対象を観察しやすい色や階調への変換、解像度や空間分解能の向上、及び解像度の低下を抑えた画像サイズの拡大等を含む。
上述した様々な実施形態及び変形例において、制御部117は、撮影により取得した画像等を用いて様々な画像処理を行ってよい。例えば、制御部117は、撮影により取得した画像について、高画質化用の学習済モデル(高画質化モデル)を用いて画質を改善した高画質画像を生成してもよい。ここで、画質の改善とは、ノイズの低減や、撮影対象を観察しやすい色や階調への変換、解像度や空間分解能の向上、及び解像度の低下を抑えた画像サイズの拡大等を含む。
高画質化用の機械学習モデルとしては、例えばCNN等を用いることができる。また、高画質化モデルの学習データとしては、前眼画像やSLO画像等の各種画像を入力データとし、入力された画像に対応する、例えば高画質化処理を施した高画質な画像を出力データとする。ここで、高画質化処理とは、空間的に同じ位置を複数回撮影した画像について位置合わせを行い、それら位置合わせ済みの画像を加算平均処理することが挙げられる。なお、高画質化処理は加算平均処理に限られず、例えば、平滑化フィルタを用いた処理や最大事後確率推定処理(MAP推定処理)、階調変換処理等であってもよい。また、高画質化処理された画像としては、例えば、ノイズ除去とエッジ強調などのフィルタ処理を行った画像でもよいし、低輝度な画像から高輝度な画像とするようなコントラストが調整された画像を用いてもよい。さらに、高画質化モデルに係る学習データの出力データは、高画質な画像であればよいため、入力データである断層画像を撮影した際のOCT装置よりも高性能なOCT装置を用いて撮影された画像や、高負荷な設定により撮影された画像であってもよい。
ただし、適切に高画質化処理が行われていない画像を学習データの出力データとして用いて機械学習を行うと、当該学習データを用いて学習した学習済モデルを用いて得た画像も適切に高画質化処理が行われていない画像となってしまう可能性がある。そのため、そのような画像を含むペアを教師データから取り除くことで、学習済モデルを用いて適切でない画像が生成される可能性を低減させることができる。
制御部117は、このような高画質化モデルを用いて高画質化処理を行うことで、精度良く高画質化された画像をより高速に取得することができる。
なお、高画質化モデルは、入力データである各種画像の種類毎に用意されてもよい。例えば、前眼画像用の高画質化モデルや、SLO画像用の高画質化モデル、断層画像用の高画質化モデル、OCTA正面画像用の高画質化モデル等が用意されてよい。また、OCTA正面画像やEn-Face画像については、画像を生成するための深度範囲毎に高画質化モデルが用意されてもよい。例えば、表層用の高画質化モデルや深層用の高画質化モデル等が用意されてよい。さらに、高画質化モデルは、撮影部位(例えば、黄斑部中心、視神経乳頭部中心)毎の画像について学習を行ったものでもよいし、撮影部位に関わらず学習を行ったものであってもよい。
このとき、例えば、眼底OCTA正面画像を学習データとして学習して得た高画質化モデルを用いて、眼底OCTA正面画像を高画質化し、さらに、前眼OCTA正面画像を学習データとして学習して得た高画質化モデルを用いて、前眼OCTA正面画像を高画質化してもよい。また、高画質化モデルは、撮影部位を関わらず学習を行ったものであってもよい。ここで、例えば、眼底OCTA正面画像及び前眼OCTA正面画像は、撮影対象である血管の分布の様子が互いに比較的類似していることがある。このように、撮影対象の様子が互いに比較的類似しているような複数の種類の医用画像では、互いの特徴量が比較的類似していることがある。そこで、例えば、眼底OCTA正面画像を学習データとして学習して得た高画質化モデルを用いて、眼底OCTA正面画像を高画質化するだけでなく、前眼OCTA正面画像も高画質化可能に構成されてもよい。また、例えば、前眼OCTA正面画像を学習データとして学習して得た高画質化モデルを用いて、前眼OCTA正面画像を高画質化するだけでなく、眼底OCTA正面画像も高画質化可能に構成されてもよい。すなわち、眼底OCTA正面画像と前眼OCTA正面画像との少なくとも一つの種類の正面画像を学習データとして学習して得た高画質化モデルを用いて、眼底OCTA正面画像と前眼OCTA正面画像との少なくとも一つの種類の正面画像を高画質化可能に構成されてもよい。
ここで、眼底撮影可能なOCT装置において、前眼も撮影可能である場合を考える。このとき、OCTAのEn-Face画像には、例えば、眼底撮影モードにおいては眼底OCTA正面画像が適用され、また、前眼部撮影モードにおいては前眼OCTA正面画像が適用されてもよい。このとき、高画質化ボタンが押下されると、例えば、眼底撮影モードにおいては、OCTAのEn-Face画像の表示領域において、低画質の眼底OCTA正面画像と高画質の眼底OCTA正面画像とのうち一方の表示が他方の表示に変更されるように構成されてもよい。また、高画質化ボタンが押下されると、例えば、前眼部撮影モードにおいては、OCTAのEn-Face画像の表示領域において、低画質の前眼OCTA正面画像と高画質の前眼OCTA正面画像とのうち一方の表示が他方の表示に変更されるように構成されてもよい。
なお、眼底撮影可能なOCT装置において、前眼も撮影可能とする場合に、前眼アダプタが装着可能に構成されてもよい。また、前眼アダプタを用いずに、OCT装置の光学系が被検眼の眼軸長程度の距離、移動可能に構成されてもよい。このとき、OCT装置のフォーカス位置が前眼に結像する程度、正視側に大きく変更可能に構成されてもよい。
また、断層画像には、例えば、眼底撮影モードにおいては眼底OCT断層画像が適用され、また、前眼部撮影モードにおいては前眼OCT断層画像が適用されてもよい。また、上述した眼底OCTA正面画像及び前眼OCTA正面画像の高画質化処理は、例えば、眼底OCT断層画像及び前眼OCT断層画像の高画質化処理として適用することも可能である。このとき、高画質化ボタンが押下されると、例えば、眼底撮影モードにおいては、断層画像の表示領域において、低画質の眼底OCT断層画像と高画質の眼底OCT断層画像とのうち一方の表示が他方の表示に変更されるように構成されてもよい。また、高画質化ボタンが押下されると、例えば、前眼部撮影モードにおいては、断層画像の表示領域において、低画質の前眼OCT断層画像と高画質の前眼OCT断層画像とのうち一方の表示が他方の表示に変更されるように構成されてもよい。
また、断層画像には、例えば、眼底撮影モードにおいては眼底OCTA断層画像が適用され、また、前眼部撮影モードにおいては前眼OCTA断層画像が適用されてもよい。また、上述した眼底OCTA正面画像及び前眼OCTA正面画像の高画質化処理は、例えば、眼底OCTA断層画像及び前眼OCTA断層画像の高画質化処理として適用することも可能である。このとき、例えば、眼底撮影モードにおいては、断層画像の表示領域において、眼底OCTA断層画像における血管領域(例えば、閾値以上のモーションコントラストデータ)を示す情報が、対応する位置の眼底OCT断層画像に重畳して表示されるように構成されてもよい。また、例えば、前眼部撮影モードにおいては、断層画像の表示領域において、前眼OCTA断層画像における血管領域を示す情報が、対応する位置の前眼OCT断層画像に重畳して表示されてもよい。
このように、例えば、複数の種類の医用画像の特徴量(撮影対象の様子)が互いに比較的類似していると考えられるような場合には、複数の種類の医用画像の少なくとも一つの種類の医用画像を学習データとして学習して得た高画質化モデルを用いて、複数の種類の医用画像の少なくとも一つの種類の医用画像を高画質化可能に構成されてもよい。これにより、例えば、共通の学習済モデル(共通の高画質化モデル)を用いて、複数の種類の医用画像の高画質化を実行可能に構成することができる。
なお、眼底撮影モードの表示画面と前眼部撮影モードの表示画面とは、同じ表示レイアウトであってもよいし、それぞれの撮影モードに対応する表示レイアウトであってもよい。眼底撮影モードと前眼部撮影モードとで、撮影条件や解析条件等の種々の条件が同じであってもよいし、異なっていてもよい。
ここで、高画質化処理の対象画像は、例えば、(複数の深度範囲に対応する)複数のOCTA正面画像(OCTAのEn-Face画像、モーションコントラストのEn-Face画像)であってもよい。また、高画質化処理の対象画像は、例えば、1つの深度範囲に対応する1つのOCTA正面画像であってもよい。また、高画質化処理の対象画像は、OCTA正面画像の代わりに、例えば、輝度の正面画像(輝度のEn-Face画像)、あるいはBスキャン画像であるOCT断層画像やモーションコントラストデータの断層画像(OCTA断層画像)であってもよい。また、高画質化処理の対象画像は、OCTA正面画像だけでなく、例えば、輝度の正面画像及びBスキャン画像であるOCT断層画像やモーションコントラストデータの断層画像(OCTA断層画像)等の種々の医用画像であってもよい。すなわち、高画質化処理の対象画像は、例えば、表示部116の表示画面上に表示されている種々の医用画像の少なくとも1つであればよい。このとき、例えば、画像の種類毎に画像の特徴量が異なる場合があるため、高画質化処理の対象画像の各種類に対応する高画質化用の学習済モデルが用いられてもよい。例えば、検者からの指示に応じて高画質化ボタンが押下されると、OCTA正面画像に対応する高画質化用の学習済モデルを用いてOCTA正面画像を高画質化処理するだけでなく、OCT断層画像に対応する高画質化用の学習済モデルを用いてOCT断層画像も高画質化処理するように構成されてもよい。また、例えば、検者からの指示に応じて高画質化ボタンが押下されると、OCTA正面画像に対応する高画質化用の学習済モデルを用いて生成された高画質なOCTA正面画像の表示に変更されるだけでなく、OCT断層画像に対応する高画質化用の学習済モデルを用いて生成された高画質なOCT断層画像の表示に変更されるように構成されてもよい。このとき、OCT断層画像の位置を示すラインがOCTA正面画像に重畳表示されるように構成されてもよい。また、上記ラインは、検者からの指示に応じてOCTA正面画像上で移動可能に構成されてもよい。また、高画質化ボタンの表示がアクティブ状態である場合には、上記ラインが移動された後に、現在のラインの位置に対応するOCT断層画像を高画質化処理して得た高画質なOCT断層画像の表示に変更されるように構成されてもよい。また、高画質化処理の対象画像毎に高画質化ボタンが表示されることで、画像毎に独立して高画質化処理可能に構成されてもよい。
また、OCTA断層画像における血管領域(例えば、閾値以上のモーションコントラストデータ)を示す情報が、対応する位置のBスキャン画像であるOCT断層画像に重畳して表示されてもよい。このとき、例えば、OCT断層画像が高画質化されると、対応する位置のOCTA断層画像が高画質化されてもよい。そして、高画質化して得たOCTA断層画像における血管領域を示す情報が、高画質化して得たOCT断層画像に重畳して表示されてもよい。なお、血管領域を示す情報は、色等の識別可能な情報であれば何でもよい。また、血管領域を示す情報の重畳表示と非表示とが検者からの指示に応じて変更可能に構成されてもよい。また、OCT断層画像の位置を示すラインがOCTA正面画像上で移動されると、ラインの位置に応じてOCT断層画像の表示が更新されてもよい。このとき、対応する位置のOCTA断層画像も更新されるため、OCTA断層画像から得られる血管領域を示す情報の重畳表示が更新されてもよい。これにより、例えば、任意の位置において、血管領域と注目領域との位置関係を容易に確認しながら、血管領域の3次元の分布や状態を効果的に確認することができる。また、OCTA断層画像の高画質化は、高画質化用の学習済モデルを用いる代わりに、対応する位置で取得した複数のOCTA断層画像の加算平均処理等による高画質化処理であってもよい。また、OCT断層画像は、OCTボリュームデータにおける任意の位置の断面として再構成された疑似OCT断層画像であってもよい。また、OCTA断層画像は、OCTAボリュームデータにおける任意の位置の断面として再構成された疑似OCTA断層画像であってもよい。なお、任意の位置は、少なくとも1つの任意の位置であればよく、また、検者からの指示に応じて変更可能に構成されてもよい。このとき、複数の位置に対応する複数の疑似断層画像が再構成されるように構成されてもよい。
なお、表示される断層画像(例えば、OCT断層画像あるいはOCTA断層画像)は、1つだけ表示されてもよいし、複数表示されてもよい。複数の断層画像が表示される場合には、それぞれ異なる副走査方向の位置で取得された断層画像が表示されてもよいし、例えばクロススキャン等により得られた複数の断層画像を高画質化して表示する場合には、異なる走査方向の画像がそれぞれ表示されてもよい。また、例えばラジアルスキャン等により得られた複数の断層画像を高画質化して表示する場合には、一部選択された複数の断層画像(例えば基準ラインに対して互いに対称な位置の2つの断層画像)がそれぞれ表示されてもよい。さらに、経過観察用の表示画面(フォローアップ用の表示画面)に複数の断層画像を表示し、上述の方法と同様の手法により高画質化の指示や解析結果(例えば、特定の層の厚み等)の表示が行われてもよい。このとき、表示される複数の断層画像は、被検眼の所定部位の異なる日時に得た複数の断層画像であってもよいし、同一検査日の異なる時間に得た複数の断層画像であってもよい。また、上述の方法と同様の手法によりデータベースに保存されている情報に基づいて断層画像に高画質化処理を実行してもよい。
同様に、SLO画像を高画質化して表示する場合には、例えば、同一の表示画面に表示されるSLO画像を高画質化して表示してもよい。さらに、輝度の正面画像を高画質化して表示する場合には、例えば、同一の表示画面に表示される輝度の正面画像を高画質化して表示してよい。さらに、経過観察用の表示画面に複数のSLO画像や輝度の正面画像を表示し、上述の方法と同様の手法により高画質化の指示や解析結果(例えば、特定の層の厚み等)の表示が行われてもよい。また、上述の方法と同様の手法によりデータベースに保存されている情報に基づいてSLO画像や輝度の正面画像に高画質化処理を実行してもよい。なお、断層画像、SLO画像、及び輝度の正面画像の表示は例示であり、これらの画像は所望の構成に応じて任意の態様で表示されてよい。また、OCTA正面画像、断層画像、SLO画像、及び輝度の正面画像の少なくとも2つ以上が、一度の指示で高画質化され表示されてもよい。
このような構成により、高画質化処理して得た高画質画像を表示制御部121が表示部116に表示させることができる。なお、高画質画像の表示、解析結果の表示、表示される正面画像の深度範囲等に関する複数の条件のうち少なくとも1つの条件が選択されている場合には、表示画面が遷移されても、選択された条件が維持されるように構成されてもよい。なお、各種高画質画像や上記ライン、血管領域を示す情報等の表示の制御は、表示制御部121によって行われてよい。
また、高画質化モデルは、表示制御部121によって表示部116に表示されるプレビュー画面において、ライブ動画像のすくなくとも1つのフレーム毎に用いられてもよい。このとき、プレビュー画面において、異なる部位や異なる種類の複数のライブ動画像が表示されている場合には、各ライブ動画像に対応する学習済モデルが用いられるように構成されてもよい。例えば、アライメント処理に用いる前眼画像について、前眼画像用の高画質化モデルを用いて高画質化された画像を用いてもよい。同様に各種画像における所定領域の検出処理について用いられる各種画像について、それぞれの画像用の高画質化モデルを用いて高画質化された画像を用いてもよい。
このとき、例えば、検者からの指示に応じて高画質化ボタンが押下された場合には、異なる種類の複数のライブ動画像(例えば、前眼画像、SLO画像、断層画像)の表示を(同時に)、それぞれ高画質化処理されることにより得た高画質動画像の表示に変更されるように構成されてもよい。このとき、高画質動画像の表示は、各フレームを高画質化処理して得た高画質画像の連続表示であってもよい。また、例えば、画像の種類毎に画像の特徴量が異なる場合があるため、高画質化処理の対象画像の各種類に対応する高画質化用の学習済モデルが用いられてもよい。例えば、検者からの指示に応じて高画質化ボタンが押下されると、前眼画像に対応する高画質化モデルを用いて前眼画像を高画質化処理するだけでなく、SLO画像に対応する高画質化モデルを用いてSLO画像も高画質化処理するように構成されてもよい。また、例えば、検者からの指示に応じて高画質化ボタンが押下されると、前眼画像に対応する高画質化モデルを用いて生成された高画質な前眼画像の表示に変更されるだけでなく、SLO画像に対応する高画質化モデルを用いて生成された高画質なSLO画像の表示に変更されるように構成されてもよい。また、例えば、検者からの指示に応じて高画質化ボタンが押下されると、SLO画像に対応する高画質化モデルを用いてSLO画像を高画質化処理するだけでなく、断層画像に対応する高画質化モデルを用いて断層画像も高画質化処理するように構成されてもよい。また、例えば、検者からの指示に応じて高画質化ボタンが押下されると、SLO画像に対応する高画質化モデルを用いて生成された高画質なSLO画像の表示に変更されるだけでなく、断層画像に対応する高画質化モデルを用いて生成された高画質な断層画像の表示に変更されるように構成されてもよい。このとき、断層画像の位置を示すラインがSLO画像に重畳表示されるように構成されてもよい。また、上記ラインは、検者からの指示に応じてSLO画像上で移動可能に構成されてもよい。また、高画質化ボタンの表示がアクティブ状態である場合には、上記ラインが移動された後に、現在のラインの位置に対応する断層画像を高画質化処理して得た高画質な断層画像の表示に変更されるように構成されてもよい。また、高画質化処理の対象画像毎に高画質化ボタンが表示されることで、画像毎に独立して高画質化処理可能に構成されてもよい。
これにより、例えば、ライブ動画像であっても、処理時間を短縮することができるため、検者は撮影開始前に精度の高い情報を得ることができる。このため、例えば、プレビュー画面を確認しながら操作者がアライメント位置を修正する場合に、再撮影の失敗等を低減することができるため、診断の精度や効率を向上させることができる。また、制御部117は、撮影開始に関する指示に応じて、撮影の途中あるいは撮影の最後に、セグメンテーション処理等により得たアーチファクト領域等の部分領域が再度撮影(リスキャン)されるように、上述した走査手段を駆動制御してもよい。なお、被検眼の動き等の状態によっては、1回のリスキャンでは上手く撮影できない場合があるため、所定の回数のリスキャンが繰り返されるように駆動制御されてもよい。このとき、所定の回数のリスキャンの途中でも、操作者からの指示に応じて(例えば、撮影キャンセルボタンの押下後に)リスキャンが終了されるように構成されてもよい。このとき、操作者からの指示に応じてリスキャンが終了されるまでの撮影データが保存されるように構成されてもよい。なお、例えば、撮影キャンセルボタンの押下後に確認ダイアログが表示され、撮影データの保存か、撮影データの破棄かを、操作者からの指示に応じて選択可能に構成されてもよい。また、例えば、撮影キャンセルボタンの押下後には、(現在のリスキャンは完了するまで実行されるが)次のリスキャンは実行されずに、確認ダイアログにおける操作者からの指示(入力)があるまで待機するように構成されてもよい。また、例えば、注目部位に関する物体認識結果の確からしさを示す情報(例えば、割合を示す数値)が閾値を超えた場合には、各調整や撮影開始等を自動的に行うように構成されてもよい。また、例えば、注目部位に関する物体認識結果の確からしさを示す情報(例えば、割合を示す数値)が閾値を超えた場合には、各調整や撮影開始等を検者からの指示に応じて実行可能な状態に変更(実行禁止状態を解除)するように構成されてもよい。
ここで、オートアライメント中では、被検眼Eの網膜等の撮影対象がまだ上手く撮像できていない可能性がある。このため、学習済モデルに入力される医用画像と学習データとして用いられた医用画像との違いが大きいために、精度良く高画質画像が得られない可能性がある。そこで、断層画像(Bスキャン画像)の画質評価等の評価値が閾値を超えたら、高画質動画像の表示(高画質フレームの連続表示)を自動的に開始するように構成してもよい。また、断層画像の画質評価等の評価値が閾値を超えたら、高画質化ボタンを検者が指定可能な状態(アクティブ状態)に変更するように構成されてもよい。なお、高画質化ボタンは、高画質化処理の実行を指定するためのボタンである。もちろん、高画質化ボタンは、高画質画像の表示を指示するためのボタンであってもよい。
また、スキャンパターン等が異なる撮影モード毎に異なる高画質化モデルを用意して、選択された撮影モードに対応する高画質化用の学習済モデルが選択されるように構成されてもよい。また、異なる撮影モードで得た様々な医用画像を含む学習データを学習して得た1つの高画質化モデルが用いられてもよい。
ここで、眼科装置、例えばOCT装置では、撮影モード毎に測定に用いる光束のスキャンパターンや撮影部位が異なる。そのため、断層画像を入力データとする学習済モデルに関しては、撮影モード毎に学習済モデルを用意し、操作者の指示に応じて選択された撮影モードに対応する学習済モデルが選択されるように構成してもよい。この場合、撮影モードとしては、例えば、網膜撮影モード、前眼部撮影モード、硝子体撮影モード、黄斑部撮影モード、及び視神経乳頭部撮影モード、OCTA撮影モード等が含まれてよい。また、スキャンパターンとしては、3Dスキャン、ラジアルスキャン、クロススキャン、サークルスキャン、ラスタスキャン、及びリサージュスキャン(リサージュ曲線に沿った走査)等が含まれてよい。なお、OCTA撮影モードでは、被検眼の同一領域(同一位置)において測定光が複数回走査されるように、駆動制御部(不図示)が上述した走査手段を制御する。OCTA撮影モードでも、スキャンパターンとして、例えばラスタスキャンや、ラジアルスキャン、クロススキャン、サークルスキャン、リサージュスキャン等を設定することができる。また、断層画像を入力データとする学習済モデルに関しては、異なる方向の断面に応じた断層画像を学習データに用いて学習を行うことができる。例えば、xz方向の断面の断層画像やyz方向の断面の断層画像等を学習データに用いて学習を行ってよい。
なお、高画質化モデルによる高画質化処理の実行(又は高画質化処理して得た高画質画像の表示)の要否の判断は、表示画面に設けられる高画質化ボタンについて、操作者の指示に応じて行われてもよいし、予め記憶部114に記憶されている設定に応じて行われてもよい。なお、学習済モデル(高画質化モデル)を用いた高画質化処理である旨を高画質化ボタンのアクティブ状態等で表示してもよいし、その旨をメッセージとして表示画面に表示させてもよい。また、高画質化処理の実行は、眼科装置の前回の起動時における実行状態を維持してもよいし、被検者毎に前回の検査時の実行状態を維持してもよい。
また、高画質化モデル等の種々の学習済モデルを適用可能な動画像は、ライブ動画像に限らず、例えば、記憶部114に記憶(保存)された動画像であってもよい。このとき、例えば、記憶部114に記憶(保存)された眼底の断層動画像の少なくとも1つのフレーム毎に位置合わせして得た動画像が表示画面に表示されてもよい。例えば、硝子体を好適に観察したい場合には、まず、フレーム上に硝子体ができるだけ存在する等の条件を基準とする基準フレームを選択してもよい。このとき、各フレームは、XZ方向の断層画像(Bスキャン画像)である。そして、選択された基準フレームに対して他のフレームがXZ方向に位置合わせされた動画像が表示画面に表示されてもよい。このとき、例えば、動画像の少なくとも1つのフレーム毎に高画質化エンジンにより順次生成された高画質画像(高画質フレーム)を連続表示させるように構成されてもよい。
なお、上述したフレーム間の位置合わせの手法としては、X方向の位置合わせの手法とZ方向(深度方向)の位置合わせの手法とは、同じ手法が適用されても良いし、全て異なる手法が適用されてもよい。また、同一方向の位置合わせは、異なる手法で複数回行われてもよく、例えば、粗い位置合わせを行った後に、精密な位置合わせが行われてもよい。また、位置合わせの手法としては、例えば、断層画像(Bスキャン画像)をセグメンテーション処理して得た網膜層境界を用いた(Z方向の粗い)位置合わせ、断層画像を分割して得た複数の領域と基準画像との相関情報(類似度)を用いた(X方向やZ方向の精密な)位置合わせ、断層画像(Bスキャン画像)毎に生成した1次元投影像を用いた(X方向の)位置合わせ、2次元正面画像を用いた(X方向の)位置合わせ等がある。また、ピクセル単位で粗く位置合わせが行われてから、サブピクセル単位で精密な位置合わせが行われるように構成されてもよい。
また、高画質化モデルは、検者からの指示に応じて設定(変更)された割合の値を学習データとする追加学習により更新されてもよい。例えば、入力画像が比較的暗いときに、高画質画像に対する入力画像の割合を検者が高く設定する傾向にあれば、学習済モデルはそのような傾向となるように追加学習することになる。これにより、例えば、検者の好みに合った合成の割合を得ることができる学習済モデルとしてカスタマイズすることができる。このとき、設定(変更)された割合の値を追加学習の学習データとして用いるか否かを、検者からの指示に応じて決定するためのボタンが表示画面に表示されていてもよい。また、学習済モデルを用いて決定された割合をデフォルトの値とし、その後、検者からの指示に応じて割合の値をデフォルトの値から変更可能となるように構成されてもよい。また、高画質化モデルは、高画質化モデルを用いて生成された少なくとも1つの高画質画像を含む学習データを追加学習して得た学習済モデルであってもよい。このとき、高画質画像を追加学習用の学習データとして用いるか否かを、検者からの指示により選択可能に構成されてもよい。
(変形例4)
上述した様々な実施形態及び変形例において、制御部117は、撮影により取得した画像について、画像セグメンテーション用の学習済モデルを用いてラベル画像を生成し、画像セグメンテーション処理を行ってもよい。ここでラベル画像とは、当該断層画像について画素毎に領域のラベルが付されたラベル画像をいう。具体的には、取得された画像に描出されている領域群のうち、任意の領域を特定可能な画素値(以下、ラベル値)群によって分けている画像のことである。ここで、特定される任意の領域には関心領域や関心体積(VOI:Volume Of Interest)等が含まれる。
上述した様々な実施形態及び変形例において、制御部117は、撮影により取得した画像について、画像セグメンテーション用の学習済モデルを用いてラベル画像を生成し、画像セグメンテーション処理を行ってもよい。ここでラベル画像とは、当該断層画像について画素毎に領域のラベルが付されたラベル画像をいう。具体的には、取得された画像に描出されている領域群のうち、任意の領域を特定可能な画素値(以下、ラベル値)群によって分けている画像のことである。ここで、特定される任意の領域には関心領域や関心体積(VOI:Volume Of Interest)等が含まれる。
画像から任意のラベル値を持つ画素の座標群を特定すると、画像中において対応する網膜層等の領域を描出している画素の座標群を特定できる。具体的には、例えば、網膜を構成する神経節細胞層を示すラベル値が1である場合、画像の画素群のうち画素値が1である座標群を特定し、画像から該座標群に対応する画素群を抽出する。これにより、当該画像における神経節細胞層の領域を特定できる。
なお、画像セグメンテーション処理には、ラベル画像に対する縮小又は拡大処理を実施する処理が含まれてもよい。このとき、ラベル画像の縮小又は拡大に用いる画像補完処理手法は、未定義のラベル値や対応する座標に存在しないはずのラベル値を誤って生成しないような、最近傍法等を使うものとする。
画像セグメンテーション処理とは、画像に描出された臓器や病変といった、ROI(Region Of Interest)やVOIと呼ばれる領域を、画像診断や画像解析に利用するために特定する処理のことである。例えば、画像セグメンテーション処理によれば、後眼部を撮影対象としたOCTの撮影によって取得された画像から、網膜を構成する層群の領域群を特定することができる。なお、画像に特定すべき領域が描出されていなければ特定される領域の数は0である。また、画像に特定すべき複数の領域群が描出されていれば、特定される領域の数は複数であってもよいし、又は、該領域群を含むように囲む領域1つであってもよい。
特定された領域群は、その他の処理において利用可能な情報として出力される。具体的には、例えば、特定された領域群のそれぞれを構成する画素群の座標群を数値データ群として出力することができる。また、例えば、特定された領域群のそれぞれを含む矩形領域や楕円領域、長方体領域、楕円体領域等を示す座標群を数値データ群として出力することもできる。さらに、例えば、特定された領域群の境界にあたる直線や曲線、平面、又は曲面等を示す座標群を数値データ群として出力することもできる。また、例えば、特定された領域群を示すラベル画像を出力することもできる。
ここで、画像セグメンテーション用の機械学習モデルとしては、例えば、畳み込みニューラルネットワーク(CNN)を用いることができる。ここで、図9を参照して、本変形例に係る機械学習モデルを、CNNで構成する例について説明する。図9は、画像セグメンテーション用の学習済モデルの構成の一例を示している。当該学習済モデルの例では、例えば、断層画像1301が入力されると、特定された領域群を示すラベル画像1302を出力することができる。
図9に示す機械学習モデルは、入力値群を加工して出力する処理を担う複数の層群によって構成される。なお、当該機械学習モデルの構成に含まれる層の種類としては、畳み込み(Convolution)層、ダウンサンプリング(Downsampling)層、アップサンプリング(Upsampling)層、及び合成(Merger)層がある。
畳み込み層は、設定されたフィルタのカーネルサイズ、フィルタの数、ストライドの値、ダイレーションの値等のパラメータに従い、入力値群に対して畳み込み処理を行う層である。なお、入力される画像の次元数に応じて、フィルタのカーネルサイズの次元数も変更してもよい。
ダウンサンプリング層は、入力値群を間引いたり、合成したりすることによって、出力値群の数を入力値群の数よりも少なくする処理を行う層である。具体的には、このような処理として、例えば、Max Pooling処理がある。
アップサンプリング層は、入力値群を複製したり、入力値群から補間した値を追加したりすることによって、出力値群の数を入力値群の数よりも多くする処理を行う層である。具体的には、このような処理として、例えば、線形補間処理がある。
合成層は、ある層の出力値群や画像を構成する画素値群といった値群を、複数のソースから入力し、それらを連結したり、加算したりして合成する処理を行う層である。
なお、ニューラルネットワークを構成する層群やノード群に対するパラメータの設定が異なると、教師データからトレーニングされた傾向を出力データに再現可能な程度が異なる場合があるので注意が必要である。つまり、多くの場合、実施する際の形態に応じて適切なパラメータは異なるので、必要に応じて好ましい値に変更することができる。
また、上述したようなパラメータを変更するという方法だけでなく、CNNの構成を変更することによって、CNNがより良い特性を得られる場合がある。より良い特性とは、例えば、より精度の高いアライメント位置の情報を出力したり、処理時間が短かったり、機械学習モデルのトレーニングにかかる時間が短かったりする等である。
なお、本変形例で用いるCNNの構成は、複数のダウンサンプリング層を含む複数の階層からなるエンコーダーの機能と、複数のアップサンプリング層を含む複数の階層からなるデコーダーの機能とを有するU-net型の機械学習モデルである。U-net型の機械学習モデルでは、エンコーダーとして構成される複数の階層において曖昧にされた位置情報(空間情報)を、デコーダーとして構成される複数の階層において、同次元の階層(互いに対応する階層)で用いることができるように(例えば、スキップコネクションを用いて)構成される。
図示しないが、CNNの構成の変更例として、例えば、畳み込み層の後にバッチ正規化(Batch Normalization)層や、正規化線形関数(Rectifier Linear Unit)を用いた活性化層を組み込む等をしてもよい。CNNのこれらのステップを通して、撮影画像の特徴を抽出することができる。
なお、本変形例に係る機械学習モデルとしては、例えば、図9で示したようなCNN(U-net型の機械学習モデル)、CNNとLSTMを組み合わせたモデル、FCN(Fully Convolutional Network)、又はSegNet等を用いることができる。また、所望の構成に応じて、物体認識を行う機械学習モデル等を用いることもできる。物体認識を行う機械学習モデルとしては、例えば、RCNN(Region CNN)、fastRCNN、又はfasterRCNNを用いることができる。さらに、領域単位で物体認識を行う機械学習モデルを用いることもできる。領域単位で物体認識を行う機械学習モデルとしては、YOLO(You Only Look Once)、又はSSD(Single Shot Detector、あるいはSingleShot MultiBox Detector)を用いることもできる。
また、画像セグメンテーション用の機械学習モデルの学習データは、OCTにより取得された断層画像を入力データとし、当該断層画像について画素毎に領域のラベルが付されたラベル画像を出力データとする。ラベル画像としては、例えば、内境界膜(ILM)、神経線維層(NFL)、神経節細胞層(GCL)、視細胞内節外節接合部(ISOS)、網膜色素上皮層(RPE)、ブルッフ膜(BM)、及び脈絡膜等のラベルが付されたラベル画像を用いることができる。なお、その他の領域として、例えば、硝子体、強膜、外網状層(OPL)、外顆粒層(ONL)、内網状層(IPL)、内顆粒層(INL)、角膜、前房、虹彩、及び水晶体等のラベルが付された画像を用いてもよい。
また、画像セグメンテーション用の機械学習モデルの入力データは断層画像に限られない。前眼画像やSLO画像、OCTA画像等であってもよい。この場合、学習データは、各種画像を入力データとし、各種画像の画素毎に領域名等がラベル付けされたラベル画像を出力データとすることができる。例えば、学習データの入力データがSLO画像である場合には、出力データは、視神経乳頭の周辺部、Disc、及びCup等のラベルが付された画像であってよい。
なお、出力データとして用いられるラベル画像は、医師等により断層画像において各領域にラベルが付された画像であってもよいし、ルールベースの領域検出処理により各領域にラベルが付された画像であってもよい。ただし、適切にラベル付けが行われていないラベル画像を学習データの出力データとして用いて機械学習を行うと、当該学習データを用いて学習した学習済モデルを用いて得た画像も適切にラベル付けが行われていないラベル画像となってしまう可能性がある。そのため、そのようなラベル画像を含むペアを学習データから取り除くことで、学習済モデルを用いて適切でないラベル画像が生成される可能性を低減させることができる。ここで、ルールベースの領域検出処理とは、例えば網膜の形状の規則性等の既知の規則性を利用した検出処理をいう。
制御部117は、このような画像セグメンテーション用の学習済モデルを用いて、画像セグメンテーション処理を行うことで、各種画像について特定の領域を高速に精度良く検出することが期待できる。なお、画像セグメンテーション用の学習済モデルも、入力データである各種画像の種類毎に用意されてもよい。また、OCTA正面画像やEn-Face画像については、画像を生成するための深度範囲毎に学習済モデルが用意されてもよい。さらに、画像セグメンテーション用の学習済モデルも、撮影部位(例えば、黄斑部中心、視神経乳頭部中心)毎の画像について学習を行ったものでもよいし、撮影部位を関わらず学習を行ったものであってもよい。
また、画像セグメンテーション用の学習済モデルについては、操作者の指示に応じて手動で修正されたデータを学習データとして追加学習が行われてもよい。また、追加学習の要否の判断やサーバにデータを送信するか否かの判断も同様の方法で行われてよい。これらの場合にも、各処理の精度を向上させたり、検者の好みの傾向に応じた処理を行えたりすることが期待できる。
さらに、制御部117は、学習済モデルを用いて、被検眼Eの部分領域(例えば、注目部位、アーチファクト領域、異常部位等)を検出する場合には、検出した部分領域毎に所定の画像処理を施すこともできる。例として、硝子体領域、網膜領域、及び脈絡膜領域のうちの少なくとも2つの部分領域を検出する場合について述べる。この場合には、検出された少なくとも2つの部分領域に対してコントラスト調整等の画像処理を施す際に、それぞれ異なる画像処理のパラメータを用いることで、各領域に適した調整を行うことができる。各領域に適した調整が行われた画像を表示することで、操作者は部分領域毎の疾病等をより適切に診断することができる。なお、検出された部分領域毎に異なる画像処理のパラメータを用いる構成については、学習済モデルを用いずに被検眼Eの部分領域を検出して求めた被検眼Eの部分領域について同様に適用されてもよい。
(変形例5)
上述した様々な実施形態及び変形例における表示制御部121は、断層画像撮影後に表示画面のレポート画面において、所望の層の層厚や各種の血管密度等の解析結果を表示させてもよい。また、視神経乳頭部、黄斑部、血管領域、毛細血管領域、動脈領域、静脈領域、神経線維束、硝子体領域、黄斑領域、脈絡膜領域、強膜領域、篩状板領域、網膜層境界、網膜層境界端部、視細胞、血球、血管壁、血管内壁境界、血管外側境界、神経節細胞、角膜領域、隅角領域、シュレム管等の少なくとも1つを含む注目部位に関するパラメータの値(分布)を解析結果として表示させてもよい。ここで、注目部位は、例えば、Haller層における血管(脈絡膜領域の一部の深度範囲における血管の一例)の眼外への流出口である渦静脈等であってもよい。このとき、注目部位に関するパラメータは、例えば、渦静脈の個数(例えば、領域毎の個数)や、視神経乳頭部から各渦静脈までの距離、視神経乳頭を中心とする各渦静脈の位置する角度等であってもよい。これにより、例えば、Pachychoroid(肥厚した脈絡膜)に関する種々の疾患(例えば、脈絡膜新生血管症)等を精度よく診断することが可能となる。また、例えば、各種のアーチファクトの低減処理が適用された医用画像を解析することで、上述した種々の解析結果を精度の良い解析結果として表示させることができる。なお、アーチファクトは、例えば、血管領域等による光吸収により生じる偽像領域や、プロジェクションアーチファクト、被検眼の状態(動きや瞬き等)によって測定光の主走査方向に生じる正面画像における帯状のアーチファクト等であってもよい。また、アーチファクトは、例えば、被検者の所定部位の医用画像上に撮影毎にランダムに生じるような写損領域であれば、何でもよい。また、表示制御部121は、上述したような様々なアーチファクト(写損領域)の少なくとも1つを含む領域に関するパラメータの値(分布)を解析結果として表示部116に表示させてもよい。また、ドルーゼン、新生血管、白斑(硬性白斑)、及びシュードドルーゼン等の異常部位等の少なくとも1つを含む領域に関するパラメータの値(分布)を解析結果として表示させてもよい。また、標準データベースを用いて得た標準値や標準範囲と、解析結果とを比較して得た比較結果が表示されてもよい。
上述した様々な実施形態及び変形例における表示制御部121は、断層画像撮影後に表示画面のレポート画面において、所望の層の層厚や各種の血管密度等の解析結果を表示させてもよい。また、視神経乳頭部、黄斑部、血管領域、毛細血管領域、動脈領域、静脈領域、神経線維束、硝子体領域、黄斑領域、脈絡膜領域、強膜領域、篩状板領域、網膜層境界、網膜層境界端部、視細胞、血球、血管壁、血管内壁境界、血管外側境界、神経節細胞、角膜領域、隅角領域、シュレム管等の少なくとも1つを含む注目部位に関するパラメータの値(分布)を解析結果として表示させてもよい。ここで、注目部位は、例えば、Haller層における血管(脈絡膜領域の一部の深度範囲における血管の一例)の眼外への流出口である渦静脈等であってもよい。このとき、注目部位に関するパラメータは、例えば、渦静脈の個数(例えば、領域毎の個数)や、視神経乳頭部から各渦静脈までの距離、視神経乳頭を中心とする各渦静脈の位置する角度等であってもよい。これにより、例えば、Pachychoroid(肥厚した脈絡膜)に関する種々の疾患(例えば、脈絡膜新生血管症)等を精度よく診断することが可能となる。また、例えば、各種のアーチファクトの低減処理が適用された医用画像を解析することで、上述した種々の解析結果を精度の良い解析結果として表示させることができる。なお、アーチファクトは、例えば、血管領域等による光吸収により生じる偽像領域や、プロジェクションアーチファクト、被検眼の状態(動きや瞬き等)によって測定光の主走査方向に生じる正面画像における帯状のアーチファクト等であってもよい。また、アーチファクトは、例えば、被検者の所定部位の医用画像上に撮影毎にランダムに生じるような写損領域であれば、何でもよい。また、表示制御部121は、上述したような様々なアーチファクト(写損領域)の少なくとも1つを含む領域に関するパラメータの値(分布)を解析結果として表示部116に表示させてもよい。また、ドルーゼン、新生血管、白斑(硬性白斑)、及びシュードドルーゼン等の異常部位等の少なくとも1つを含む領域に関するパラメータの値(分布)を解析結果として表示させてもよい。また、標準データベースを用いて得た標準値や標準範囲と、解析結果とを比較して得た比較結果が表示されてもよい。
また、解析結果は、解析マップや、各分割領域に対応する統計値を示すセクター等で表示されてもよい。なお、解析結果は、医用画像の解析結果を学習データとして学習して得た学習済モデル(解析結果生成エンジン、解析結果生成用の学習済モデル)を用いて生成されたものであってもよい。このとき、学習済モデルは、医用画像とその医用画像の解析結果とを含む学習データや、医用画像とその医用画像とは異なる種類の医用画像の解析結果とを含む学習データ等を用いた学習により得たものであってもよい。
また、画像解析を行うための学習データは、画像セグメンテーション処理用の学習済モデルを用いて生成されたラベル画像と、当該ラベル画像を用いた医用画像の解析結果とを含んだものでもよい。この場合、制御部117は、例えば、解析結果生成用の学習済モデルを用いて、画像セグメンテーション処理の結果から、断層画像の解析結果を生成する、解析結果生成部の一例として機能することができる。さらに、学習済モデルは、後述のEn-Face画像及びモーションコントラスト正面画像(OCTAのEn-Face画像)のように、所定部位の異なる種類の複数の医用画像をセットとする入力データを含む学習データを用いた学習により得たものであってもよい。
また、高画質化モデルを用いて生成された高画質画像を用いて得た解析結果が表示されるように構成されてもよい。この場合、学習データに含まれる入力データとしては、高画質化用の学習済モデルを用いて生成された高画質画像であってもよいし、低画質画像と高画質画像とのセットであってもよい。なお、学習データは、学習済モデルを用いて高画質化された画像について、手動又は自動で少なくとも一部に修正が施された画像であってもよい。
また、学習データは、例えば、解析領域を解析して得た解析値(例えば、平均値や中央値等)、解析値を含む表、解析マップ、画像におけるセクター等の解析領域の位置等の少なくとも1つを含む情報を(教師あり学習の)正解データとして、入力データにラベル付け(アノテーション)したデータであってもよい。なお、操作者からの指示に応じて、解析結果生成用の学習済モデルを用いて得た解析結果が表示されるように構成されてもよい。
また、上述した実施形態及び変形例における推定部119は、例えば、上述したような各種のアーチファクトの低減処理が適用された画像を推定処理に用いることで、精度の良い推定結果を出力することができる。また、表示制御部121は、推定結果を、特定された異常部位等の位置を画像上に表示させてもよいし、異常部位の状態等を文字等によって表示させてもよい。さらに、表示制御部121は、疾患についての推定結果とは別に、異常部位等の分類結果(例えば、カーティン分類)を診断結果として表示させてもよい。また、分類結果としては、例えば、異常部位毎の確からしさを示す情報(例えば、割合を示す数値)が表示されてもよい。また、医師が診断を確定させる上で必要な情報が診断結果として表示されてもよい。上記必要な情報としては、例えば、追加撮影等のアドバイスが考えられる。例えば、OCTA画像における血管領域に異常部位が検出された場合には、OCTAよりも詳細に血管を観察可能な造影剤を用いた蛍光撮影を追加で行う旨が表示されてもよい。また、診断結果は、被検者の今後の診療方針等に関する情報であってもよい。また、診断結果は、例えば、診断名、病変(異常部位)の種類や状態(程度)、画像における病変の位置、注目領域に対する病変の位置、所見(読影所見等)、診断名の根拠(肯定的な医用支援情報等)、及び診断名を否定する根拠(否定的な医用支援情報)等の少なくとも1つを含む情報であってもよい。このとき、例えば、検者からの指示に応じて入力された診断名等の診断結果よりも確からしい診断結果を医用支援情報として表示させてもよい。また、複数の種類の医用画像が用いられた場合には、例えば、診断結果の根拠となり得る種類の医用画像が識別可能に表示されてもよい。また、診断結果の根拠としては、学習済モデルが抽出した特徴量を可視化したマップ(注意マップ、活性化マップ)で、例えば、特徴量をカラーで示したカラーマップ(ヒートマップ)であってもよい。このとき、例えば、入力データとした医用画像にヒートマップを重畳表示させてもよい。なお、ヒートマップは、例えば、予測(推定)されるクラスの出力値への寄与が大きい領域(勾配が大きい領域)を可視化する手法であるGrad-CAM(Gradient-weighted Class Activation Mapping)やGuided Grad-CAM等を用いて得ることができる。
なお、診断結果は、医用画像の診断結果を学習データとして学習して得た学習済モデル(診断結果生成エンジン、診断結果生成用の学習済モデル)を用いて生成されたものであってもよい。また、学習済モデルは、医用画像とその医用画像の診断結果とを含む学習データや、医用画像とその医用画像とは異なる種類の医用画像の診断結果とを含む学習データ等を用いた学習により得たものであってもよい。
また、学習データは、画像セグメンテーション処理用の学習済モデルを用いて生成されたラベル画像と、当該ラベル画像を用いた医用画像の診断結果とを含んだものでもよい。この場合、制御部117は、例えば、診断結果生成用の学習済モデルを用いて、画像セグメンテーション処理の結果から、断層画像の診断結果を生成する、診断結果生成部の一例として機能することができる。
さらに、高画質化用の学習済モデルを用いて生成された高画質画像を用いて得た診断結果が表示されるように構成されてもよい。この場合、学習データに含まれる入力データとしては、高画質化用の学習済モデルを用いて生成された高画質画像であってもよいし、低画質画像と高画質画像とのセットであってもよい。なお、学習データは、学習済モデルを用いて高画質化された画像について、手動又は自動で少なくとも一部に修正が施された画像であってもよい。
また、学習データは、例えば、診断名、病変(異常部位)の種類や状態(程度)、画像における病変の位置、注目領域に対する病変の位置、所見(読影所見等)、診断名の根拠(肯定的な医用支援情報等)、診断名を否定する根拠(否定的な医用支援情報)等の少なくとも1つを含む情報を(教師あり学習の)正解データとして、入力データにラベル付け(アノテーション)したデータを用いてもよい。なお、検者からの指示に応じて、診断結果生成用の学習済モデルを用いて得た診断結果が表示されるように構成されてもよい。
なお、入力データとして用いる情報毎又は情報の種類毎に学習済モデルを用意し、学習済モデルを用いて、診断結果を取得してもよい。この場合、各学習済モデルから出力された情報に統計的な処理を行い、最終的な診断結果を決定してもよい。例えば、各学習済モデルから出力された情報の割合を各種類の情報毎に加算し、他の情報よりも割合の合計が高い情報を最終的な診断結果として決定してもよい。なお、統計的な処理は合計の算出に限られず、平均値や中央値の算出等であってもよい。また、例えば、各学習済モデルから出力された情報のうち、他の情報よりも割合の高い情報(最も割合の高い情報)を用いて診断結果を決定してもよい。同様に、各学習済モデルから出力された情報のうち、閾値以上である割合の情報を用いて診断結果を決定してもよい。
また、操作者の指示(選択)に応じて、決定された診断結果の良否の判定(承認)が可能に構成されてもよい。また、操作者の指示(選択)に応じて、各学習済モデルから出力された情報から診断結果を決定してもよい。このとき、例えば、表示制御部121が、各学習済モデルから出力された情報及びその割合を並べて表示部116に表示させてもよい。そして、操作者が、例えば、他の情報よりも割合の高い情報を選択することにより、選択された情報を診断結果として決定するように構成されてもよい。さらに、各学習済モデルから出力された情報から、機械学習モデルを用いて、診断結果を決定してもよい。この場合には、機械学習アルゴリズムとして、診断結果生成に用いられた機械学習アルゴリズムとは異なる種類の機械学習アルゴリズムであってもよく、例えば、ニューラルネットワーク、サポートベクターマシン、アダブースト、ベイジアンネットワーク、又はランダムフォレスト等を用いてよい。
なお、上述した種々の学習済モデルの学習は、教師あり学習(ラベル付きの学習データで学習)だけでなく、半教師あり学習であってもよい。半教師あり学習は、例えば、複数の識別器(分類器)がそれぞれ教師あり学習を行った後、ラベルのない学習データを識別(分類)し、識別結果(分類結果)の信頼度に応じて(例えば、確からしさが閾値以上の識別結果を)自動的にラベル付け(アノテーション)し、ラベル付けされた学習データで学習を行う手法である。半教師あり学習は、例えば、共訓練(Co-Training、あるいはMultiview)であってもよい。このとき、診断結果生成用の学習済モデルは、例えば、正常な被検体の医用画像を識別する第1の識別器と、特定の病変を含む医用画像を識別する第2の識別器とを用いて半教師あり学習(例えば、共訓練)して得た学習済モデルであってもよい。なお、診断目的に限らず、例えば撮影支援等を目的としてもよい。この場合、第2の識別器は、例えば、注目部位やアーチファクト領域等の部分領域を含む医用画像を識別するものであってもよい。
また、上述した様々な実施形態及び変形例に係る表示制御部121は、表示画面のレポート画面において、上述したような注目部位、アーチファクト領域、及び異常部位等の部分領域の物体認識結果(物体検出結果)やセグメンテーション結果を表示させてもよい。このとき、例えば、画像上の物体の周辺に矩形の枠等を重畳して表示させてもよい。また、例えば、画像における物体上に色等を重畳して表示させてもよい。なお、物体認識結果やセグメンテーション結果は、物体認識やセグメンテーションを示す情報を正解データとして医用画像にラベル付け(アノテーション)した学習データを学習して得た学習済モデル(物体認識エンジン、物体認識用の学習済モデル、セグメンテーションエンジン、セグメンテーション用の学習済モデル)を用いて生成されたものであってもよい。なお、上述した解析結果生成や診断結果生成は、上述した物体認識結果やセグメンテーション結果を利用することで得られたものであってもよい。例えば、物体認識やセグメンテーションの処理により得た注目部位に対して解析結果生成や診断結果生成の処理を行ってもよい。
また、異常部位を検出する場合には、制御部117は、敵対的生成ネットワーク(GAN:Generative Adversarial Netwoks)や変分オートエンコーダー(VAE:Variational Auto-Encoder)を用いてもよい。例えば、医用画像の生成を学習して得た生成器と、生成器が生成した新たな医用画像と本物の医用画像との識別を学習して得た識別器とからなるDCGAN(Deep Convolutional GAN)を機械学習モデルとして用いることができる。
DCGANを用いる場合には、例えば、識別器が入力された医用画像をエンコードすることで潜在変数にし、生成器が潜在変数に基づいて新たな医用画像を生成する。その後、入力された医用画像と生成された新たな医用画像との差分を異常部位として抽出(検出)することができる。また、VAEを用いる場合には、例えば、入力された医用画像をエンコーダーによりエンコードすることで潜在変数にし、潜在変数をデコーダーによりデコードすることで新たな医用画像を生成する。その後、入力された医用画像と生成された新たな医用画像像との差分を異常部位として抽出することができる。
さらに、制御部117は、畳み込みオートエンコーダー(CAE:Convolutional Auto-Encoder)を用いて、異常部位を検出してもよい。CAEを用いる場合には、学習時に入力データ及び出力データとして同じ医用画像を学習させる。これにより、推定時に異常部位がある医用画像をCAEに入力すると、学習の傾向に従って異常部位がない医用画像が出力される。その後、CAEに入力された医用画像とCAEから出力された医用画像の差分を異常部位として抽出することができる。
これらの場合、制御部117は、敵対的生成ネットワーク又はオートエンコーダーを用いて得た医用画像と、該敵対的生成ネットワーク又はオートエンコーダーに入力された医用画像との差に関する情報を異常部位に関する情報として生成することができる。これにより、制御部117は、高速に精度よく異常部位を検出することが期待できる。例えば、異常部位の検出精度の向上のために異常部位を含む医用画像を学習データとして数多く集めることが難しい場合であっても、比較的に数多く集め易い正常な被検体の医用画像を学習データとして用いることができる。このため、例えば、異常部位を精度よく検出するための学習を効率的に行うことができる。ここで、オートエンコーダーには、VAEやCAE等が含まれる。また、敵対的生成ネットワークの生成部の少なくとも一部がVAEで構成されてもよい。これにより、例えば、同じようなデータを生成してしまう現象を低減しつつ、比較的鮮明な画像を生成することができる。例えば、制御部117は、種々の医用画像から敵対的生成ネットワーク又はオートエンコーダーを用いて得た医用画像と、該敵対的生成ネットワーク又は該オートエンコーダーに入力された医用画像との差に関する情報を、異常部位に関する情報として生成することができる。また、例えば、表示制御部121は、種々の医用画像から敵対的生成ネットワーク又はオートエンコーダーを用いて得た医用画像と、該敵対的生成ネットワーク又は該オートエンコーダーに入力された医用画像との差に関する情報を、異常部位に関する情報として表示部116に表示させることができる。
また、特に診断結果生成用の学習済モデルは、被検者の所定部位の異なる種類の複数の医用画像をセットとする入力データを含む学習データにより学習して得た学習済モデルであってもよい。このとき、学習データに含まれる入力データとして、例えば、眼底のモーションコントラスト正面画像及び輝度正面画像(あるいは輝度断層画像)をセットとする入力データが考えられる。また、学習データに含まれる入力データとして、例えば、眼底の断層画像(Bスキャン画像)及びカラー眼底画像(あるいは蛍光眼底画像)をセットとする入力データ等も考えられる。また、異なる種類の複数の医療画像は、異なるモダリティ、異なる光学系、又は異なる原理等により取得されたものであれば何でもよい。
また、特に診断結果生成用の学習済モデルは、被検者の異なる部位の複数の医用画像をセットとする入力データを含む学習データにより学習して得た学習済モデルであってもよい。このとき、学習データに含まれる入力データとして、例えば、眼底の断層画像(Bスキャン画像)と前眼部の断層画像(Bスキャン画像)とをセットとする入力データが考えられる。また、学習データに含まれる入力データとして、例えば、眼底の黄斑の三次元OCT画像(三次元断層画像)と眼底の視神経乳頭のサークルスキャン(又はラスタスキャン)断層画像とをセットとする入力データ等も考えられる。
なお、学習データに含まれる入力データは、被検者の異なる部位及び異なる種類の複数の医用画像であってもよい。このとき、学習データに含まれる入力データは、例えば、前眼部の断層画像とカラー眼底画像とをセットとする入力データ等が考えられる。また、上述した学習済モデルは、被検者の所定部位の異なる撮影画角の複数の医用画像をセットとする入力データを含む学習データにより学習して得た学習済モデルであってもよい。また、学習データに含まれる入力データは、パノラマ画像のように、所定部位を複数領域に時分割して得た複数の医用画像を貼り合わせたものであってもよい。このとき、パノラマ画像のような広画角画像を学習データとして用いることにより、狭画角画像よりも情報量が多い等の理由から画像の特徴量を精度良く取得できる可能性があるため、処理の結果を向上することができる。また、学習データに含まれる入力データは、被検者の所定部位の異なる日時の複数の医用画像をセットとする入力データであってもよい。
また、上述した推定結果と解析結果と診断結果と物体認識結果とセグメンテーション結果とのうち少なくとも1つの結果が表示される表示画面は、レポート画面に限らない。このような表示画面は、例えば、撮影確認画面、経過観察用の表示画面、及び撮影前の各種調整用のプレビュー画面(各種のライブ動画像が表示される表示画面)等の少なくとも1つの表示画面に表示されてもよい。例えば、上述した学習済モデルを用いて得た上記少なくとも1つの結果を撮影確認画面に表示させることにより、操作者は、撮影直後であっても精度の良い結果を確認することができる。
また、例えば、特定の物体が認識されると、認識された物体を囲う枠がライブ動画像に重畳表示させるように構成されてもよい。このとき、物体認識結果の確からしさを示す情報(例えば、割合を示す数値)が閾値を超えた場合には、例えば、物体を囲う枠の色が変更される等のように強調表示されてもよい。これにより、検者は、物体をライブ動画上で容易に識別することができる。
なお、上述した様々な学習済モデルの学習に用いられる正解データの生成には、ラベル付け(アノテーション)等の正解データを生成するための正解データ生成用の学習済モデルが用いられてもよい。このとき、正解データ生成用の学習済モデルは、検者がラベル付け(アノテーション)して得た正解データを(順次)追加学習することにより得られたものであってもよい。すなわち、正解データ生成用の学習済モデルは、ラベル付け前のデータを入力データとし、ラベル付け後のデータを出力データとする学習データを追加学習することにより得られたものであってもよい。また、動画像等のような連続する複数フレームにおいて、前後のフレームの物体認識やセグメンテーション等の結果を考慮して、結果の精度が低いと判定されたフレームの結果を修正するように構成されてもよい。このとき、検者からの指示に応じて、修正後の結果を正解データとして追加学習するように構成されてもよい。また、例えば、結果の精度が低い医用画像については、検者が該医用画像上に、学習済モデルが抽出した特徴量を可視化したマップ(注意マップ、活性化マップ)の一例である、特徴量をカラーで示したカラーマップ(ヒートマップ)を確認しながらラベル付け(アノテーション)した画像を入力データとして追加学習するように構成されてもよい。例えば、学習済モデルにおける結果を出力する直前等のレイヤー上のヒートマップにおいて、注目すべき箇所が検者の意図と異なる場合には、検者が注目すべきと考える箇所にラベル付け(アノテーション)した医用画像を追加学習してもよい。これにより、例えば、学習済モデルは、医用画像上の部分領域であって、学習済モデルの出力結果に対して比較的影響が大きな部分領域の特徴量を、他の領域よりも優先して(重みを付けて)追加学習することができる。
ここで、上述した様々な学習済モデルは、学習データを用いた機械学習により得ることができる。機械学習には、例えば、多階層のニューラルネットワークから成る深層学習(Deep Learning)がある。また、多階層のニューラルネットワークの少なくとも一部には、例えば、畳み込みニューラルネットワークを用いることができる。また、多階層のニューラルネットワークの少なくとも一部には、オートエンコーダー(自己符号化器)に関する技術が用いられてもよい。また、学習には、バックプロパゲーション(誤差逆伝搬法)に関する技術が用いられてもよい。また、学習には、各ユニット(各ニューロン、あるいは各ノード)をランダムに不活性化する手法(ドロップアウト)が用いられてもよい。また、学習には、多階層のニューラルネットワークの各層に伝わったデータを、活性化関数(例えばReLu関数)が適用される前に、正規化する手法(バッチ正規化)が用いられてもよい。ただし、機械学習としては、深層学習に限らず、画像等の学習データの特徴量を学習によって自ら抽出(表現)可能なモデルを用いた学習であれば何でもよい。ここで、機械学習モデルとは、ディープラーニング等の機械学習アルゴリズムによる学習モデルをいう。また、学習済モデルとは、任意の機械学習アルゴリズムによる機械学習モデルに対して、事前に適切な学習データを用いてトレーニングした(学習を行った)モデルである。ただし、学習済モデルは、それ以上の学習を行わないものではなく、追加の学習を行うこともできるものとする。また、学習データとは、入力データ及び出力データ(正解データ)のペアで構成される。ここで、学習データを教師データという場合もあるし、あるいは、正解データを教師データという場合もある。
なお、GPUは、データをより多く並列処理することで効率的な演算を行うことができる。このため、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合には、GPUで処理を行うことが有効である。そこで、本変形例では、学習部(不図示)の一例である制御部117による処理には、CPUに加えてGPUを用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPUとGPUが協働して演算を行うことで学習を行う。なお、学習部の処理は、CPU又はGPUのみにより演算が行われてもよい。また、上述した様々な学習済モデルを用いた処理を実行する処理部(推定部119)も、学習部と同様にGPUを用いてもよい。また、学習部は、不図示の誤差検出部と更新部とを備えてもよい。誤差検出部は、入力層に入力される入力データに応じてニューラルネットワークの出力層から出力される出力データと、正解データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データと正解データとの誤差を計算するようにしてもよい。また、更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。
また、上述した物体認識や、セグメンテーション、高画質化等に用いられる機械学習モデルとしては、複数のダウンサンプリング層を含む複数の階層からなるエンコーダーの機能と、複数のアップサンプリング層を含む複数の階層からなるデコーダーの機能とを有するU-net型の機械学習モデルが適用可能である。U-net型の機械学習モデルでは、エンコーダーとして構成される複数の階層において曖昧にされた位置情報(空間情報)を、デコーダーとして構成される複数の階層において、同次元の階層(互いに対応する階層)で用いることができるように(例えば、スキップコネクションを用いて)構成される。
また、上述した物体認識や、セグメンテーション、高画質化等に用いられる機械学習モデルとしては、例えば、FCN(Fully Convolutional Network)、又はSegNet等を用いることもできる。また、所望の構成に応じて領域単位で物体認識を行う機械学習モデルを用いてもよい。物体認識を行う機械学習モデルとしては、例えば、RCNN(Region CNN)、fastRCNN、又はfasterRCNNを用いることができる。さらに、領域単位で物体認識を行う機械学習モデルとして、YOLO(You Only Look Once)、又はSSD(Single Shot Detector、あるいはSingle Shot MultiBox Detector)を用いることもできる。
また、機械学習モデルは、例えば、カプセルネットワーク(Capsule Network;CapsNet)でもよい。ここで、一般的なニューラルネットワークでは、各ユニット(各ニューロン、あるいは各ノード)はスカラー値を出力するように構成されることによって、例えば、画像における特徴間の空間的な位置関係(相対位置)に関する空間情報が低減されるように構成されている。これにより、例えば、画像の局所的な歪みや平行移動等の影響が低減されるような学習を行うことができる。一方、カプセルネットワークでは、各ユニット(各カプセル)は空間情報をベクトルとして出力するように構成されることよって、例えば、空間情報が保持されるように構成されている。これにより、例えば、画像における特徴間の空間的な位置関係が考慮されたような学習を行うことができる。
(変形例6)
上述した様々な実施形態及び変形例におけるプレビュー画面において、ライブ動画像の少なくとも1つのフレーム毎に上述した種々の学習済モデルが用いられるように構成されてもよい。このとき、プレビュー画面において、異なる部位や異なる種類の複数のライブ動画像が表示されている場合には、各ライブ動画像に対応する学習済モデルが用いられるように構成されてもよい。これにより、例えば、ライブ動画像であっても、処理時間を短縮することができるため、検者は撮影開始前に精度の高い情報を得ることができる。このため、例えば、再撮影の失敗等を低減することができるため、診断の精度や効率を向上させることができる。
上述した様々な実施形態及び変形例におけるプレビュー画面において、ライブ動画像の少なくとも1つのフレーム毎に上述した種々の学習済モデルが用いられるように構成されてもよい。このとき、プレビュー画面において、異なる部位や異なる種類の複数のライブ動画像が表示されている場合には、各ライブ動画像に対応する学習済モデルが用いられるように構成されてもよい。これにより、例えば、ライブ動画像であっても、処理時間を短縮することができるため、検者は撮影開始前に精度の高い情報を得ることができる。このため、例えば、再撮影の失敗等を低減することができるため、診断の精度や効率を向上させることができる。
なお、複数のライブ動画像は、例えば、XYZ方向のアライメントのための前眼部の動画像、及び眼底観察光学系のフォーカス調整やOCTフォーカス調整のための眼底の正面動画像であってよい。また、複数のライブ動画像は、例えば、OCTのコヒーレンスゲート調整(測定光路長と参照光路長との光路長差の調整)のための眼底の断層動画像等であってもよい。このようなプレビュー画像が表示される場合、上述した物体認識用の学習済モデルやセグメンテーション用の学習済モデルを用いて検出された領域が所定の条件を満たすように、上述した各種調整が行われるように制御部117を構成してもよい。例えば、物体認識用の学習済モデルやセグメンテーション用の学習済モデルを用いて検出された硝子体領域やRPE等の所定の網膜層等に関する値(例えば、コントラスト値あるいは強度値)が閾値を超える(あるいはピーク値になる)ように、OCTフォーカス調整等の各種調整が行われるように構成されてもよい。また、例えば、物体認識用の学習済モデルやセグメンテーション用の学習済モデルを用いて検出された硝子体領域やRPE等の所定の網膜層が深さ方向における所定の位置になるように、OCTのコヒーレンスゲート調整が行われるように構成されてもよい。
これらの場合には、制御部117は、学習済モデルを用いて、動画像について高画質化処理を行って、高画質な動画像を生成することができる。また、駆動制御部(不図示)は、高画質な動画像が表示された状態で、セグメンテーション処理等により得た注目部位等の部分領域が表示領域における所定の位置になるように、参照ミラー等の撮影範囲を変更するための光学部材を駆動制御することができる。このような場合には、駆動制御部は、精度の高い情報に基づいて、所望される領域が表示領域の所定の位置になるように自動的にアライメント処理を行うことができる。なお、撮影範囲を変更する光学部材としては、例えばコヒーレンスゲート位置を調整する光学部材であってよく、具体的には参照光を反射する参照ミラーであってよい。また、コヒーレンスゲート位置は、測定光路長及び参照光路長の光路長差を変更する光学部材によって調整されることができ、当該光学部材は、例えば、不図示の測定光の光路長を変更するためのミラー等であってもよい。なお、撮影範囲を変更する光学部材は、例えばステージ部(不図示)であってもよい。また、駆動制御部、撮影開始に関する指示に応じて、撮影の途中あるいは撮影の最後に、セグメンテーション処理等により得たアーチファクト領域等の部分領域が再度撮影(リスキャン)されるように、走査手段を駆動制御してもよい。また、例えば、注目部位に関する物体認識結果の確からしさを示す情報(例えば、割合を示す数値)が閾値を超えた場合には、各種調整や撮影開始等を自動的に行うように構成されてもよい。また、例えば、注目部位に関する物体認識結果の確からしさを示す情報(例えば、割合を示す数値)が閾値を超えた場合には、各調整や撮影開始等を検者からの指示に応じて実行可能な状態に変更(実行禁止状態を解除)するように構成されてもよい。
また、上述した種々の学習済モデルを適用可能な動画像は、ライブ動画像に限らず、例えば、記憶部114に記憶(保存)された動画像であってもよい。このとき、例えば、記憶部114に記憶(保存)された眼底の断層動画像の少なくとも1つのフレーム毎に位置合わせして得た動画像が表示画面に表示されてもよい。例えば、硝子体を好適に観察したい場合には、まず、フレーム上に硝子体ができるだけ存在する等の条件を基準とする基準フレームを選択してもよい。このとき、各フレームは、XZ方向の断層画像(Bスキャン像)である。そして、選択された基準フレームに対して他のフレームがXZ方向に位置合わせされた動画像が表示画面に表示されてもよい。このとき、例えば、動画像の少なくとも1つのフレーム毎に高画質化用の学習済モデルにより順次生成された高画質画像(高画質フレーム)を連続表示させるように構成してもよい。
なお、上述したフレーム間の位置合わせの手法としては、X方向の位置合わせの手法とZ方向(深度方向)の位置合わせの手法とは、同じ手法が適用されてもよいし、全て異なる手法が適用されてもよい。また、同一方向の位置合わせは、異なる手法で複数回行われてもよく、例えば、粗い位置合わせを行った後に、精密な位置合わせが行われてもよい。また、位置合わせの手法としては、例えば、断層画像(Bスキャン像)をセグメンテーション処理して得た網膜層境界を用いた(Z方向の粗い)位置合わせ、断層画像を分割して得た複数の領域と基準画像との相関情報(類似度)を用いた(X方向やZ方向の精密な)位置合わせ、断層画像(Bスキャン像)毎に生成した1次元投影像を用いた(X方向の)位置合わせ、2次元正面画像を用いた(X方向の)位置合わせ等がある。また、ピクセル単位で粗く位置合わせが行われてから、サブピクセル単位で精密な位置合わせが行われるように構成されてもよい。
ここで、各種の調整中では、被検眼の網膜等の撮影対象がまだ上手く撮像できていない可能性がある。このため、学習済モデルに入力される医用画像と学習データとして用いられた医用画像との違いが大きいために、精度良く高画質画像が得られない可能性がある。そこで、断層画像(Bスキャン)の画質評価等の評価値が閾値を超えたら、高画質動画像の表示(高画質フレームの連続表示)を自動的に開始するように構成してもよい。また、断層画像(Bスキャン)の画質評価等の評価値が閾値を超えたら、高画質化ボタンを検者が指定可能な状態(アクティブ状態)に変更するように構成されてもよい。
また、例えば、スキャンパターン等が異なる撮影モード毎に異なる高画質化用の学習済モデルを用意して、選択された撮影モードに対応する高画質化用の学習済モデルが選択されるように構成されてもよい。また、異なる撮影モードで得た様々な医用画像を含む学習データを学習して得た1つの高画質化用の学習済モデルが用いられてもよい。
(変形例7)
上述した実施形態及び変形例においては、各種学習済モデルが追加学習の実行中である場合、追加学習の実行中の学習済モデル自体を用いて出力(推論・予測)することが難しい可能性がある。このため、追加学習の実行中の学習済モデルに対する学習データ以外の医用画像の入力を禁止するように構成されることがよい。また、追加学習の実行前の学習済モデルと同じ学習済モデルをもう一つ予備の学習済モデルとして用意してもよい。このとき、追加学習の実行中には、予備の学習済モデルに対する学習データ以外の医用画像の入力が実行可能なように構成されることがよい。そして、追加学習が完了した後に、追加学習の実行後の学習済モデルを評価し、問題がなければ、予備の学習済モデルから追加学習の実行後の学習済モデルに置き換えればよい。また、問題があれば、予備の学習済モデルが用いられるようにしてもよい。
上述した実施形態及び変形例においては、各種学習済モデルが追加学習の実行中である場合、追加学習の実行中の学習済モデル自体を用いて出力(推論・予測)することが難しい可能性がある。このため、追加学習の実行中の学習済モデルに対する学習データ以外の医用画像の入力を禁止するように構成されることがよい。また、追加学習の実行前の学習済モデルと同じ学習済モデルをもう一つ予備の学習済モデルとして用意してもよい。このとき、追加学習の実行中には、予備の学習済モデルに対する学習データ以外の医用画像の入力が実行可能なように構成されることがよい。そして、追加学習が完了した後に、追加学習の実行後の学習済モデルを評価し、問題がなければ、予備の学習済モデルから追加学習の実行後の学習済モデルに置き換えればよい。また、問題があれば、予備の学習済モデルが用いられるようにしてもよい。
なお、追加学習の実行後の学習済モデルの評価としては、例えば、高画質化用の学習済モデルで得た高画質画像を他の種類の画像と分類するための分類用の学習済モデルが用いられてもよい。分類用の学習済モデルは、例えば、高画質化用の学習済モデルで得た高画質画像と低画質画像とを含む複数の画像を入力データとし、これらの画像の種類がラベル付け(アノテーション)されたデータを正解データとして含む学習データを学習して得た学習済モデルであってもよい。このとき、推定時(予測時)の入力データの画像の種類が、学習時の正解データに含まれる画像の種類毎の確からしさを示す情報(例えば、割合を示す数値)と合わせて表示されてもよい。なお、分類用の学習済モデルの入力データとしては、上記の画像以外にも、複数の低画質画像の重ね合わせ処理(例えば、位置合わせして得た複数の低画質画像の平均化処理)等によって、高コントラスト化やノイズ低減等が行われたような高画質な画像が含まれてもよい。また、追加学習の実行後の学習済モデルの評価としては、例えば、追加学習の実行後の学習済モデルと追加学習の実行前の学習済モデル(予備の学習済モデル)とをそれぞれ用いて同一の画像から得た複数の高画質画像を比較、あるいは該複数の高画質画像の解析結果を比較してもよい。このとき、例えば、該複数の高画質画像の比較結果(追加学習による変化の一例)、あるいは該複数の高画質画像の解析結果の比較結果(追加学習による変化の一例)が所定の範囲であるか否かを判定し、判定結果が表示されてもよい。
また、撮影部位毎に学習して得た学習済モデルを選択的に利用できるようにしてもよい。具体的には、第1の撮影部位(例えば、前眼部、後眼部等)を含む学習データを用いて得た第1の学習済モデルと、第1の撮影部位とは異なる第2の撮影部位を含む学習データを用いて得た第2の学習済モデルと、を含む複数の学習済モデルを用意することができる。そして、制御部117は、これら複数の学習済モデルのいずれかを選択する選択手段を有してもよい。このとき、制御部117は、選択された学習済モデルに対して追加学習を実行する制御手段を有してもよい。制御手段は、検者からの指示に応じて、選択された学習済モデルに対応する撮影部位と該撮影部位の撮影画像とがペアとなるデータを検索し、検索して得たデータを学習データとする学習を、選択された学習済モデルに対して追加学習として実行することができる。なお、選択された学習済モデルに対応する撮影部位は、データのヘッダの情報から取得したり、検者により手動入力されたりしたものであってよい。また、データの検索は、例えば、病院や研究所等の外部施設のサーバ等からネットワークを介して行われてよい。これにより、学習済モデルに対応する撮影部位の撮影画像を用いて、撮影部位毎に効率的に追加学習することができる。
なお、選択手段及び制御手段は、制御部117のCPUやMPU等のプロセッサーによって実行されるソフトウェアモジュールにより構成されてよい。また、選択手段及び制御手段は、ASIC等の特定の機能を果たす回路や独立した装置等によって構成されてもよい。
また、追加学習用の学習データを、病院や研究所等の外部施設のサーバ等からネットワークを介して取得する際には、改ざんや、追加学習時のシステムトラブル等による信頼性低下を低減することが有用である。そこで、デジタル署名やハッシュ化による一致性の確認を行うことで、追加学習用の学習データの正当性を検出してもよい。これにより、追加学習用の学習データを保護することができる。このとき、デジタル署名やハッシュ化による一致性の確認した結果として、追加学習用の学習データの正当性が検出できなかった場合には、その旨の警告を行い、その学習データによる追加学習を行わないものとする。なお、サーバは、その設置場所を問わず、例えば、クラウドサーバ、フォグサーバ、エッジサーバ等のどのような形態でもよい。
また、上述したような一致性の確認によるデータの保護は、追加学習用の学習データに限らず、医用画像を含むデータに適用可能である。また、複数の施設のサーバの間の医用画像を含むデータの取引が分散型のネットワークにより管理されるように画像管理システムが構成されてもよい。また、取引履歴と、前のブロックのハッシュ値とが一緒に記録された複数のブロックを時系列につなぐように画像管理システムが構成されてもよい。なお、一致性の確認等を行うための技術としては、量子ゲート方式等の量子コンピュータを用いても計算が困難な暗号(例えば、格子暗号、量子鍵配送による量子暗号等)が用いられてもよい。ここで、画像管理システムは、撮影装置によって撮影された画像や画像処理された画像を受信して保存する装置及びシステムであってもよい。また、画像管理システムは、接続された装置の要求に応じて画像を送信したり、保存された画像に対して画像処理を行ったり、画像処理の要求を他の装置に要求したりすることができる。画像管理システムとしては、例えば、画像保存通信システム(PACS)を含むことができる。また、画像管理システムは、受信した画像とともに関連付けられた被検者の情報や撮影時間などの各種情報も保存可能なデータベースを備える。また、画像管理システムはネットワークに接続され、他の装置からの要求に応じて、画像を送受信したり、画像を変換したり、保存した画像に関連付けられた各種情報を送受信したりすることができる。
なお、各種学習済モデルについて、追加学習を行う際には、GPUを用いて高速に処理を行うことができる。GPUは、データをより多く並列処理することで効率的な演算を行うことができるため、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはGPUで処理を行うことが有効である。なお、追加学習の処理は、GPUとCPU等が協働して行ってもよい。
(変形例8)
上述した様々な実施形態及び変形例において、検者からの指示は、手動による指示(例えば、ユーザーインターフェース等を用いた指示)以外にも、音声等による指示であってもよい。このとき、例えば、機械学習により得た音声認識モデル(音声認識エンジン、音声認識用の学習済モデル)を含む機械学習モデルが用いられてもよい。また、手動による指示は、キーボードやタッチパネル等を用いた文字入力等による指示であってもよい。このとき、例えば、機械学習により得た文字認識モデル(文字認識エンジン、文字認識用の学習済モデル)を含む機械学習モデルが用いられてもよい。また、検者からの指示は、ジェスチャー等による指示であってもよい。このとき、機械学習により得たジェスチャー認識モデル(ジェスチャー認識エンジン、ジェスチャー認識用の学習済モデル)を含む機械学習モデルが用いられてもよい。
上述した様々な実施形態及び変形例において、検者からの指示は、手動による指示(例えば、ユーザーインターフェース等を用いた指示)以外にも、音声等による指示であってもよい。このとき、例えば、機械学習により得た音声認識モデル(音声認識エンジン、音声認識用の学習済モデル)を含む機械学習モデルが用いられてもよい。また、手動による指示は、キーボードやタッチパネル等を用いた文字入力等による指示であってもよい。このとき、例えば、機械学習により得た文字認識モデル(文字認識エンジン、文字認識用の学習済モデル)を含む機械学習モデルが用いられてもよい。また、検者からの指示は、ジェスチャー等による指示であってもよい。このとき、機械学習により得たジェスチャー認識モデル(ジェスチャー認識エンジン、ジェスチャー認識用の学習済モデル)を含む機械学習モデルが用いられてもよい。
また、検者からの指示は、表示部116における表示画面上の検者の視線検出結果等であってもよい。視線検出結果は、例えば、表示部116における表示画面の周辺から撮影して得た検者の動画像を用いた瞳孔検出結果であってもよい。このとき、動画像からの瞳孔検出は、上述したような物体認識エンジンを用いてもよい。また、検者からの指示は、脳波、体を流れる微弱な電気信号等による指示であってもよい。
このような場合、例えば、学習データとしては、上述したような種々の学習済モデルの処理による結果の表示の指示を示す文字データ又は音声データ(波形データ)等を入力データとし、種々の学習済モデルの処理による結果等を実際に表示部116に表示させるための実行命令を正解データとする学習データであってもよい。また、学習データとしては、例えば、撮影パラメータの自動設定を行うか否かの実行命令及び当該命令用のボタンをアクティブ状態に変更するための実行命令等を正解データとする学習データであってもよい。なお、学習データとしては、例えば、文字データ又は音声データ等が示す指示内容と実行命令内容とが互いに対応するものであれば何でもよい。また、音響モデルや言語モデル等を用いて、音声データから文字データに変換してもよい。また、複数のマイクで得た波形データを用いて、音声データに重畳しているノイズデータを低減する処理を行ってもよい。また、文字又は音声等による指示と、マウス又はタッチパネル等による指示とを、検者からの指示に応じて選択可能に構成されてもよい。また、文字又は音声等による指示のオン・オフを、検者からの指示に応じて選択可能に構成されてもよい。
ここで、機械学習には、上述したような深層学習があり、また、多階層のニューラルネットワークの少なくとも一部には、例えば、再帰型ニューラルネットワーク(RNN:Recurrernt Neural Network)を用いることができる。ここで、本変形例に係る機械学習モデルの一例として、時系列情報を扱うニューラルネットワークであるRNNに関して、図10A及び図10Bを参照して説明する。また、RNNの一種であるLong short-term memory(以下、LSTM)に関して、図11A及び図11Bを参照して説明する。
図10Aは、機械学習モデルであるRNNの構造を示す。RNN3520は、ネットワークにループ構造を持ち、時刻tにおいてデータxt3510を入力し、データht3530を出力する。RNN3520はネットワークにループ機能を持つため、現時刻の状態を次の状態に引き継ぐことが可能であるため、時系列情報を扱うことができる。図10Bには時刻tにおけるパラメータベクトルの入出力の一例を示す。データxt3510にはN個(Params1~ParamsN)のデータが含まれる。また、RNN3520より出力されるデータht3530には入力データに対応するN個(Params1~ParamsN)のデータが含まれる。
しかし、RNNでは誤差逆伝搬時に長期時間の情報を扱うことができないため、LSTMが用いられることがある。LSTMは、忘却ゲート、入力ゲート、及び出力ゲートを備えることで長期時間の情報を学習することができる。ここで、図11AにLSTMの構造を示す。LSTM3540において、ネットワークが次の時刻tに引き継ぐ情報は、セルと呼ばれるネットワークの内部状態ct-1と出力データht-1である。なお、図の小文字(c、h、x)はベクトルを表している。
次に、図11BにLSTM3540の詳細を示す。図11Bにおいて、FGは忘却ゲートネットワーク、IGは入力ゲートネットワーク、OGは出力ゲートネットワークを示し、それぞれはシグモイド層である。そのため、各要素が0から1の値となるベクトルを出力する。忘却ゲートネットワークFGは過去の情報をどれだけ保持するかを決め、入力ゲートネットワークIGはどの値を更新するかを判定するものである。CUは、セル更新候補ネットワークであり、活性化関数tanh層である。これは、セルに加えられる新たな候補値のベクトルを作成する。出力ゲートネットワークOGは、セル候補の要素を選択し次の時刻にどの程度の情報を伝えるか選択する。
なお、上述したLSTMのモデルは基本形であるため、ここで示したネットワークに限らない。ネットワーク間の結合を変更してもよい。LSTMではなく、QRNN(Quasi Recurrent Neural Network)を用いてもよい。さらに、機械学習モデルは、ニューラルネットワークに限定されるものではなく、ブースティングやサポートベクターマシン等が用いられてもよい。また、検者からの指示が文字又は音声等による入力の場合には、自然言語処理に関する技術(例えば、Sequence to Sequence)が適用されてもよい。このとき、自然言語処理に関する技術としては、例えば、入力される文章毎に出力されるモデルが適用されてもよい。また、上述した種々の学習済モデルは、検者からの指示に限らず、検者に対する出力に適用されてもよい。また、検者に対して文字又は音声等による出力で応答する対話エンジン(対話モデル、対話用の学習済モデル)が適用されてもよい。
また、自然言語処理に関する技術としては、文書データを教師なし学習により事前学習して得た学習済モデルが用いられてもよい。また、自然言語処理に関する技術としては、事前学習して得た学習済モデルをさらに目的に応じて転移学習(あるいはファインチューニング)して得た学習済モデルが用いられてもよい。また、自然言語処理に関する技術としては、例えば、BERT(Bidirectional Encoder Representations from Transformers)が適用されてもよい。また、自然言語処理に関する技術としては、文章内の特定の単語を左右両方の文脈から予測することで、文脈(特徴量)を自ら抽出(表現)可能なモデルが適用されてもよい。また、自然言語処理に関する技術としては、入力される時系列データにおける2つのシーケンス(センテンス)の関係性(連続性)を判断可能なモデルが適用されてもよい。また、自然言語処理に関する技術としては、隠れ層にTransformerのEncoderが用いられ、ベクトルのシーケンスが入力、出力されるモデルが適用されてもよい。
ここで、本変形例が適用可能な検者からの指示は、上述した様々な実施形態及び変形例に記載のような種々の画像や解析結果の表示の変更、En-Face画像の生成のための深度範囲の選択、追加学習用の学習データとして用いるか否かの選択、学習済モデルの選択、種々の学習済モデルを用いて得た結果の出力(表示や送信等)や保存等、に関する少なくとも1つの指示であれば何でもよい。また、本変形例が適用可能な検者からの指示は、撮影後の指示だけでなく、撮影前の指示であってもよく、例えば、種々の調整に関する指示、種々の撮影条件の設定に関する指示、撮影開始に関する指示であってもよい。また、本変形例が適用可能な検者からの指示は、表示画面の変更(画面遷移)に関する指示であってもよい。
なお、機械学習モデルとしては、CNN等の画像に関する機械学習モデルとRNN等の時系列データに関する機械学習モデルとを組み合わせた機械学習モデルであってもよい。このような機械学習モデルでは、例えば、画像に関する特徴量と時系列データに関する特徴量との関係性を学習することができる。機械学習モデルの入力層側がCNNで、出力層側がRNNである場合には、例えば、医用画像を入力データとし、該医用画像に関する文章(例えば、病変の有無、病変の種類、次の検査のレコメンド等)を出力データとする学習データを用いて学習が行われてもよい。これにより、例えば、医用画像に関する医療情報が自動的に文章で説明されるため、医療経験が浅い検者であっても、医用画像に関する医療情報を容易に把握することができる。また、機械学習モデルの入力層側がRNNで、出力層側がCNNである場合には、例えば、病変、所見、診断等の医療に関する文章を入力データとし、該医療に関する文章に対応する医用画像を出力データとする学習データを用いて学習が行われてもよい。これにより、例えば、検者が確認したい症例に関係する医用画像を容易に検索することができる。
また、検者からの指示や検者に対する出力には、文字や音声等の文章を任意の言語に機械翻訳する機械翻訳エンジン(機械翻訳モデル、機械翻訳用の学習済モデル)が用いられてもよい。なお、任意の言語は、検者からの指示に応じて選択可能に構成されてもよい。また、任意の言語は、言語の種類を自動認識する学習済モデルを用いることで自動選択可能に構成されてもよい。また、自動選択された言語の種類を検者からの指示に応じて修正可能に構成されてもよい。機械翻訳エンジンには、例えば、上述した自然言語処理に関する技術(例えば、Sequence to Sequence)が適用されてもよい。例えば、機械翻訳エンジンに入力された文章が機械翻訳された後に、機械翻訳された文章を文字認識エンジン等に入力するように構成されてもよい。また、例えば、上述した種々の学習済モデルから出力された文章を機械翻訳エンジンに入力し、機械翻訳エンジンから出力された文章が出力されるように構成されてもよい。
また、上述した種々の学習済モデルが組み合わせて用いられてもよい。例えば、検者からの指示に対応する文字が文字認識エンジンに入力され、入力された文字から得た音声を他の種類の機械学習エンジン(例えば、機械翻訳エンジン等)に入力されるように構成されてもよい。また、例えば、他の種類の機械学習エンジンから出力された文字が文字認識エンジンに入力され、入力された文字から得た音声が出力されるように構成されてもよい。また、例えば、検者からの指示に対応する音声が音声認識エンジンに入力され、入力された音声から得た文字を他の種類の機械学習エンジン(例えば、機械翻訳エンジン等)に入力されるように構成されてもよい。また、例えば、他の種類の機械学習エンジンから出力された音声が音声認識エンジンに入力され、入力された音声から得た文字が表示部116に表示されるように構成されてもよい。このとき、検者に対する出力として文字による出力か音声による出力かを、検者からの指示に応じて選択可能に構成されてもよい。また、検者からの指示として文字による入力か音声による入力かを、検者からの指示に応じて選択可能に構成されてもよい。また、検者からの指示による選択によって、上述した種々の構成が採用されるようにしてもよい。
(変形例9)
本撮影により取得された画像に関するラベル画像や高画質画像等は、操作者からの指示に応じて記憶部114に保存されてもよい。このとき、例えば、高画質画像を保存するための操作者からの指示の後、ファイル名の登録の際に、推奨のファイル名として、ファイル名のいずれかの箇所(例えば、最初の箇所、又は最後の箇所)に、高画質化用の学習済モデルを用いた処理(高画質化処理)により生成された画像であることを示す情報(例えば、文字)を含むファイル名が、操作者からの指示に応じて編集可能な状態で表示されてもよい。なお、同様に、ラベル画像等についても、学習済モデルを用いた処理により生成された画像である情報を含むファイル名が表示されてもよい。
本撮影により取得された画像に関するラベル画像や高画質画像等は、操作者からの指示に応じて記憶部114に保存されてもよい。このとき、例えば、高画質画像を保存するための操作者からの指示の後、ファイル名の登録の際に、推奨のファイル名として、ファイル名のいずれかの箇所(例えば、最初の箇所、又は最後の箇所)に、高画質化用の学習済モデルを用いた処理(高画質化処理)により生成された画像であることを示す情報(例えば、文字)を含むファイル名が、操作者からの指示に応じて編集可能な状態で表示されてもよい。なお、同様に、ラベル画像等についても、学習済モデルを用いた処理により生成された画像である情報を含むファイル名が表示されてもよい。
また、レポート画面等の種々の表示画面において、表示部116に高画質画像を表示させる際に、表示されている画像が高画質化モデルを用いた処理により生成された高画質画像であることを示す表示が、高画質画像とともに表示されてもよい。この場合には、操作者は、当該表示によって、表示された高画質画像が撮影によって取得した画像そのものではないことが容易に識別できるため、誤診断を低減させたり、診断効率を向上させたりすることができる。なお、高画質化モデルを用いた処理により生成された高画質画像であることを示す表示は、入力画像と当該処理により生成された高画質画像とを識別可能な表示であればどのような態様のものでもよい。また、高画質化モデルを用いた処理だけでなく、上述したような種々の学習済モデルを用いた処理についても、その種類の学習済モデルを用いた処理により生成された結果であることを示す表示が、その結果とともに表示されてもよい。例えば、画像セグメンテーション処理用の学習済モデルを用いたセグメンテーション結果の解析結果を表示する際にも、画像セグメンテーション用の学習済モデルを用いた結果に基づいた解析結果であることを示す表示が、解析結果とともに表示されてもよい。
このとき、レポート画面等の表示画面は、操作者からの指示に応じて、画像データとして記憶部114に保存されてもよい。例えば、高画質画像等と、これらの画像が学習済モデルを用いた処理により生成された画像であることを示す表示とが並んだ1つの画像としてレポート画面が記憶部114に保存されてもよい。
また、高画質化モデルを用いた処理により生成された高画質画像であることを示す表示について、高画質化モデルがどのような学習データによって学習を行ったものであるかを示す表示が表示部116に表示されてもよい。当該表示としては、学習データの入力データと正解データの種類の説明や、入力データと正解データに含まれる撮影部位等の正解データに関する任意の表示を含んでよい。なお、例えば画像セグメンテーション処理等上述した種々の学習済モデルを用いた処理についても、その種類の学習済モデルがどのような学習データによって学習を行ったものであるかを示す表示が表示部116に表示されてもよい。
また、学習済モデルを用いた処理により生成された画像であることを示す情報(例えば、文字)を、画像等に重畳した状態で表示又は保存されるように構成されてもよい。このとき、画像上に重畳する箇所は、撮影対象となる注目部位等が表示されている領域には重ならない領域(例えば、画像の端)であればどこでもよい。また、重ならない領域を判定し、判定された領域に重畳させてもよい。なお、高画質化モデルを用いた処理だけでなく、例えば画像セグメンテーション処理等の上述した種々の学習済モデルを用いた処理により得た画像についても、同様に処理してよい。
また、レポート画面の初期表示画面として、高画質化処理ボタン等がアクティブ状態(高画質化処理がオン)となるようにデフォルト設定されている場合には、検者からの指示に応じて、高画質画像等を含むレポート画面に対応するレポート画像がサーバに送信されるように構成されてもよい。また、当該ボタンがアクティブ状態となるようにデフォルト設定されている場合には、検査終了時(例えば、検者からの指示に応じて、撮影確認画面やプレビュー画面からレポート画面に変更された場合)に、高画質画像等を含むレポート画面に対応するレポート画像がサーバに(自動的に)送信されるように構成されてもよい。このとき、デフォルト設定における各種設定(例えば、レポート画面の初期表示画面におけるEn-Face画像の生成のための深度範囲、解析マップの重畳の有無、高画質画像か否か、経過観察用の表示画面か否か等の少なくとも1つに関する設定)に基づいて生成されたレポート画像がサーバに送信されるように構成されてもよい。なお、当該ボタンが画像セグメンテーション処理の切り替えを表す場合に関しても、同様に処理されてよい。
(変形例10)
上述した実施形態及び変形例において、上述したような種々の学習済モデルのうち、第1の種類の学習済モデルで得た画像(例えば、高画質画像、解析マップ等の解析結果を示す画像、所定領域検出結果を示す画像、セグメンテーション結果を示す画像)を、第1の種類とは異なる第2の種類の学習済モデルに入力してもよい。このとき、第2の種類の学習済モデルの処理による結果(例えば、推定結果、解析結果、診断結果、所定領域検出結果、セグメンテーション結果)が生成されるように構成されてもよい。
上述した実施形態及び変形例において、上述したような種々の学習済モデルのうち、第1の種類の学習済モデルで得た画像(例えば、高画質画像、解析マップ等の解析結果を示す画像、所定領域検出結果を示す画像、セグメンテーション結果を示す画像)を、第1の種類とは異なる第2の種類の学習済モデルに入力してもよい。このとき、第2の種類の学習済モデルの処理による結果(例えば、推定結果、解析結果、診断結果、所定領域検出結果、セグメンテーション結果)が生成されるように構成されてもよい。
また、上述したような種々の学習済モデルのうち、第1の種類の学習済モデルの処理による結果(例えば、推定結果、解析結果、診断結果、所定領域検出結果、セグメンテーション結果)を用いて、第1の種類の学習済モデルに入力した画像から、第1の種類とは異なる第2の種類の学習済モデルに入力する画像を生成してもよい。このとき、生成された画像は、第2の種類の学習済モデルを用いて処理する画像として適した画像である可能性が高い。このため、生成された画像を第2の種類の学習済モデルに入力して得た画像(例えば、高画質画像、解析マップ等の解析結果を示す画像、所定領域検出結果を示す画像、セグメンテーション結果を示す画像)の精度を向上することができる。
なお、共通の画像が、第1の種類の学習済モデルと第2の種類の学習済モデルとに入力されることで、これらの学習済モデルを用いた各処理結果の生成(あるいは表示)を実行するように構成されてもよい。このとき、例えば、検者からの指示に応じて、これらの学習済モデルを用いた各処理結果の生成(あるいは表示)を一括して(連動して)実行するように構成されてもよい。また、入力させる画像の種類(例えば、高画質画像、物体認識結果、セグメンテーション結果、類似症例画像)、生成(あるいは表示)させる処理結果の種類(例えば、高画質画像、推定結果、診断結果、解析結果、物体認識結果、セグメンテーション結果、類似症例画像)、入力の種類や出力の種類(例えば、文字、音声、言語)等をそれぞれ検者からの指示に応じて選択可能に構成されてもよい。また、入力の種類は、入力の種類を自動認識する学習済モデルを用いることで自動選択可能に構成されてもよい。また、出力の種類は、入力の種類と対応する(例えば、同じ種類になる)ように自動選択可能に構成されてもよい。また、自動選択された種類を検者からの指示に応じて修正可能に構成されてもよい。このとき、選択された種類に応じて少なくとも1つの学習済モデルが選択されるように構成されてもよい。このとき、複数の学習済モデルが選択された場合には、選択された種類に応じて複数の学習済モデルの組み合わせ方(例えば、データを入力させる順番等)が決定されてもよい。なお、例えば、入力させる画像の種類と、生成(あるいは表示)させる処理結果の種類とが、異なるように選択可能に構成されてもよいし、同じである場合には異なるように選択することを促す情報を検者に対して出力するように構成されてもよい。また、各学習済モデルはどの場所で実行されてもよい。例えば、複数の学習済モデルのうちの一部がクラウドサーバで用いられ、他はフォグサーバやエッジサーバ等の別のサーバで用いられるように構成されてもよい。なお、施設内や、施設が含まれる敷地内、複数の施設が含まれる地域内等のネットワークを無線通信可能に構成する場合には、例えば、施設や、敷地、地域等に限定で割り当てられた専用の波長帯域の電波を用いるように構成することで、ネットワークの信頼性を向上させてもよい。また、高速や、大容量、低遅延、多数同時接続が可能な無線通信によりネットワークが構成されてもよい。これらにより、例えば、硝子体、白内障、緑内障、角膜屈折矯正、外眼等の手術や、レーザ光凝固等の治療が、遠隔であってもリアルタイムに支援することができる。このとき、例えば、これらの手術や治療に関する装置により得た種々の医用画像の少なくとも1つを無線により受信したフォグサーバやエッジサーバ等が種々の学習済モデルの少なくとも1つを用いて得た情報を手術や治療に関する装置に無線で送信するように構成されてもよい。また、例えば、手術や治療に関する装置に無線で受信した情報が、上述したような光学系や光学部材の移動量(ベクトル)であってもよく、この場合、手術や治療に関する装置が自動制御されるように構成されてもよい。また、例えば、検者による操作の支援を目的として、検者の許可を伴う自動制御(半自動制御)として構成されてもよい。
また、上述したような学習済モデルの処理による解析結果や診断結果等を検索キーとして、サーバ等に格納された外部のデータベースを利用した類似症例画像検索を行ってもよい。また、上述したような種々の学習済モデルの処理による物体認識結果やセグメンテーション結果等を検索キーとして、サーバ等に格納された外部のデータベースを利用した類似症例画像検索を行ってもよい。なお、データベースにおいて保存されている複数の医用画像が、既に機械学習等によって該複数の医用画像それぞれの特徴量を付帯情報として付帯された状態で管理されている場合等には、医用画像自体を検索キーとする類似症例画像検索エンジン(類似症例画像検索モデル、類似症例画像検索用の学習済モデル)が用いられてもよい。例えば、制御部117は、(高画質化用の学習済モデルとは異なる)類似症例画像検索用の学習済モデルを用いて、種々の医用画像から該医用画像に関連する類似症例画像の検索を行うことができる。また、例えば、表示制御部121は、種々の医用画像から類似症例画像検索用の学習済モデルを用いて得た類似症例画像を表示部116に表示させることができる。このとき、類似症例画像は、例えば、学習済モデルに入力された医用画像の特徴量と類似する特徴量の画像である。また、類似症例画像は、例えば、学習済モデルに入力された医用画像において異常部位等の部分領域が含まれる場合には、異常部位等の部分領域の特徴量と類似する特徴量の画像である。このため、例えば、類似症例画像を精度よく検索するための学習を効率的に行うことができるだけでなく、医用画像において異常部位が含まれる場合には、検者は異常部位の診断を効率よく行うことができる。また、複数の類似症例画像が検索されてもよく、特徴量が類似する順番が識別可能に複数の類似症例画像が表示されてもよい。また、複数の類似症例画像のうち、検者からの指示に応じて選択された画像と該画像との特徴量とを含む学習データを用いて、類似症例画像検索用の学習済モデルが追加学習されるように構成されてもよい。
また、各種学習済モデルの学習データは、実際の撮影を行う眼科装置自体を用いて得たデータに限られず、所望の構成に応じて、同型の眼科装置を用いて得たデータや、同種の眼科装置を用いて得たデータ等であってもよい。
なお、上述した実施形態及び変形例に係る各種学習済モデルは制御部117に設けられることができる。学習済モデルは、例えば、CPUや、MPU、GPU、FPGA等のプロセッサーによって実行されるソフトウェアモジュール等で構成されてもよいし、ASIC等の特定の機能を果たす回路等によって構成されてもよい。また、これら学習済モデルは、制御部117と接続される別のサーバの装置等に設けられてもよい。この場合には、制御部117は、インターネット等の任意のネットワークを介して学習済モデルを備えるサーバ等に接続することで、学習済モデルを用いることができる。ここで、学習済モデルを備えるサーバは、例えば、クラウドサーバや、フォグサーバ、エッジサーバ等であってよい。なお、施設内や、施設が含まれる敷地内、複数の施設が含まれる地域内等のネットワークを無線通信可能に構成する場合には、例えば、施設や、敷地、地域等に限定で割り当てられた専用の波長帯域の電波を用いるように構成することで、ネットワークの信頼性を向上させてもよい。また、高速や、大容量、低遅延、多数同時接続が可能な無線通信によりネットワークが構成されてもよい。
(変形例11)
上述した様々な実施形態及び変形例による制御部117によって処理される医用画像は、任意のモダリティ(撮影装置、撮影方法)を用いて取得された画像を含む。処理される医用画像は、任意の撮影装置等で取得された医用画像や、医用画像処理装置又は医用画像処理方法によって作成された画像を含むことができる。
上述した様々な実施形態及び変形例による制御部117によって処理される医用画像は、任意のモダリティ(撮影装置、撮影方法)を用いて取得された画像を含む。処理される医用画像は、任意の撮影装置等で取得された医用画像や、医用画像処理装置又は医用画像処理方法によって作成された画像を含むことができる。
さらに、処理される医用画像は、被検者(被検体)の所定部位の画像であり、所定部位の画像は被検者の所定部位の少なくとも一部を含む。また、当該医用画像は、被検者の他の部位を含んでもよい。また、医用画像は、静止画像又は動画像であってよく、白黒画像又はカラー画像であってもよい。さらに医用画像は、所定部位の構造(形態)を表す画像でもよいし、その機能を表す画像でもよい。機能を表す画像は、例えば、OCTA画像、ドップラーOCT画像、fMRI画像、及び超音波ドップラー画像等の血流動態(血流量、血流速度等)を表す画像を含む。なお、被検者の所定部位は、撮影対象に応じて決定されてよく、人眼(被検眼)、脳、肺、腸、心臓、すい臓、腎臓、及び肝臓等の臓器、頭部、胸部、脚部、並びに腕部等の任意の部位を含む。特に、上述した様々な実施形態及び変形例では、被検眼に係る医用画像を推定処理に用いた。これに関し、上述した様々な実施形態及び変形例に推定処理に用いられる医用画像に関する被検体は、被検眼に限られず、左右方向、上下方向、又は左右上下方向において対称性を有する被検体であればよく、例えば肺等の他の臓器であってもよい。ただし、上述した様々な実施形態及び変形例に関する被検体は、対称性を有する被検体に限られなくてよい。なお、被検体を肺等の臓器とする場合には、撮影装置は、例えば、内視鏡等の構成を有してよい。
また、医用画像は、被検者の断層画像であってもよいし、正面画像であってもよい。正面画像は、例えば、眼底又は前眼部のSLO画像、蛍光撮影された眼底画像、OCTで取得したデータ(3次元のOCTデータ)について撮影対象の深さ方向における少なくとも一部の範囲のデータを用いて生成したEn-Face画像を含む。En-Face画像は、3次元のOCTAデータ(3次元のモーションコントラストデータ)について撮影対象の深さ方向における少なくとも一部の範囲のデータを用いて生成したOCTAのEn-Face画像(モーションコントラスト正面画像)であってもよい。また、3次元のOCTデータや3次元のモーションコントラストデータは、3次元の医用画像データの一例である。
ここで、モーションコントラストデータとは、被検眼の同一領域(同一位置)において測定光が複数回走査されるように制御して得た複数のボリュームデータ間での変化を示すデータである。このとき、ボリュームデータは、異なる位置で得た複数の断層画像により構成される。そして、異なる位置それぞれにおいて、略同一位置で得た複数の断層画像の間での変化を示すデータを得ることで、モーションコントラストデータをボリュームデータとして得ることができる。なお、モーションコントラスト正面画像は、血流の動きを測定するOCTアンギオグラフィ(OCTA)に関するOCTA正面画像(OCTAのEn-Face画像)とも呼ばれ、モーションコントラストデータはOCTAデータとも呼ばれる。モーションコントラストデータは、例えば、2枚の断層画像又はこれに対応する干渉信号間の脱相関値、分散値、又は最大値を最小値で割った値(最大値/最小値)として求めることができ、公知の任意の方法により求められてよい。このとき、2枚の断層画像は、例えば、被検眼の同一領域(同一位置)において測定光が複数回走査されるように制御して得ることができる。なお、略同一位置を測定光が複数回走査されるように走査手段を制御する際に、一つの走査(一つのBスキャン)と次の走査(次のBスキャン)との時間間隔(タイムインターバル)が変更(決定)されるように構成されてもよい。これにより、例えば、血管の状態によって血流速度が異なる場合があっても、血管領域を精度よく可視化することができる。このとき、例えば、検者からの指示に応じて、上記時間間隔が変更可能に構成されてもよい。また、例えば、検者からの指示に応じて、予め設定されている複数の時間間隔に対応する複数のモーションコントラスト画像から、いずれかのモーションコントラスト画像が選択可能に構成されてもよい。また、例えば、モーションコントラストデータを取得した際の時間間隔と該モーションコントラストデータとを対応づけて記憶部114に記憶可能に構成されてもよい。また、例えば、表示制御部121、モーションコントラストデータを取得した際の時間間隔と該モーションコントラストデータに対応するモーションコントラスト画像とを表示部116に表示させてもよい。また、例えば、上記時間間隔が自動的に決定、あるいは上記時間間隔の少なくとも1つの候補が決定されるように構成されてもよい。このとき、例えば、機械学習モデルを用いて、モーションコントラスト画像から、上記時間間隔が決定(出力)されるように構成されてもよい。このような機械学習モデルは、例えば、複数の時間間隔に対応する複数のモーションコントラスト画像を入力データとし、該複数の時間間隔から所望のモーションコントラスト画像を取得した際の時間間隔までの差を正解データとする学習データを学習することにより得ることができる。
また、En-Face画像は、例えば、2つの層境界の間の範囲のデータをXY方向に投影して生成した正面画像である。このとき、正面画像は、光干渉を用いて得たボリュームデータ(3次元の断層画像)の少なくとも一部の深度範囲であって、2つの基準面に基づいて定められた深度範囲に対応するデータを2次元平面に投影又は積算して生成される。En-Face画像は、ボリュームデータのうちの、検出された網膜層に基づいて決定された深度範囲に対応するデータを2次元平面に投影して生成された正面画像である。なお、2つの基準面に基づいて定められた深度範囲に対応するデータを2次元平面に投影する手法としては、例えば、当該深度範囲内のデータの代表値を2次元平面上の画素値とする手法を用いることができる。ここで、代表値は、2つの基準面に囲まれた領域の深さ方向の範囲内における画素値の平均値、中央値又は最大値などの値を含むことができる。また、En-Face画像に係る深度範囲は、例えば、検出された網膜層に関する2つの層境界の一方を基準として、より深い方向又はより浅い方向に所定の画素数分だけ含んだ範囲であってもよい。また、En-Face画像に係る深度範囲は、例えば、検出された網膜層に関する2つの層境界の間の範囲から、操作者の指示に応じて変更された(オフセットされた)範囲であってもよい。
また、撮影装置とは、診断に用いられる画像を撮影するための装置である。撮影装置は、例えば、被検者の所定部位に光、X線等の放射線、電磁波、又は超音波等を照射することにより所定部位の画像を得る装置や、被写体から放出される放射線を検出することにより所定部位の画像を得る装置を含む。より具体的には、上述した様々な実施形態及び変形例に係る撮影装置は、少なくとも、X線撮影装置、CT装置、MRI装置、PET装置、SPECT装置、SLO装置、OCT装置、OCTA装置、眼底カメラ、及び内視鏡等を含む。なお、上述の各実施形態や変形例に係る構成を、これら撮影装置に適用することができる。この場合、上述の予測すべき被検眼の動きに対応する被検体の動きとしては、例えば、顔や体の動き、心臓の動き(心拍)等であってよい。
なお、OCT装置としては、タイムドメインOCT(TD-OCT)装置やフーリエドメインOCT(FD-OCT)装置を含んでよい。また、フーリエドメインOCT装置はスペクトラルドメインOCT(SD-OCT)装置や波長掃引型OCT(SS-OCT)装置を含んでよい。また、OCT装置は、ライン光を用いたLine-OCT装置(あるいはSS-Line-OCT装置)を含んでよい。また、OCT装置は、エリア光を用いたFull Field-OCT装置(あるいはSS-Full Field-OCT装置)を含んでよい。また、OCT装置は、Doppler-OCT装置を含んでよい。また、SLO装置やOCT装置として、波面補償光学系を用いた波面補償SLO(AO-SLO)装置や波面補償OCT(AO-OCT)装置等を含んでよい。また、SLO装置やOCT装置として、偏光位相差や偏光解消に関する情報を可視化するための偏光SLO(PS-SLO)装置や偏光OCT(PS-OCT)装置等を含んでよい。また、SLO装置やOCT装置として、病理顕微鏡SLO装置や病理顕微鏡OCT装置等を含んでよい。また、SLO装置やOCT装置として、ハンドヘルド型のSLO装置やハンドヘルド型のOCT装置等を含んでよい。また、SLO装置やOCT装置として、カテーテルSLO装置やカテーテルOCT装置等を含んでよい。また、SLO装置やOCT装置として、ヘッドマウント型のSLO装置やヘッドマウント型のOCT装置等を含んでよい。また、SLO装置やOCT装置として、双眼鏡型のSLO装置や双眼鏡型のOCT装置等を含んでよい。また、SLO装置やOCT装置は、光学変倍可能な構成によって、撮影画角を変更可能なものであってもよい。また、SLO装置は、RGBの各光源を用いて、1つの受光素子で時分割に受光する構成又は複数の受光素子で同時に受光する構成によって、カラー画像や蛍光画像を取得可能なものであってもよい。
また、上述の実施形態及び変形例では、制御部117はOCT装置の一部として構成されてもよいし、制御部117はOCT装置と別体として構成されてもよい。この場合、制御部117は、OCT装置のような撮影装置等とインターネット等を介して接続されてもよい。また、OCT装置の構成は、上記の構成に限られず、OCT装置に含まれる構成の一部を、例えばSLO撮影部等をOCT装置と別体の構成としてもよい。
なお、上述した変形例に係る音声認識用や文字認識用、ジェスチャー認識用等の学習済モデルでは、時系列のデータを用いて学習を行っているため、入力される連続する時系列のデータ値間の傾きを特徴量の一部として抽出し、推定処理に用いているものと考えられる。このような学習済モデルは、具体的な数値の時間的な変化による影響を推定処理に用いることで、精度のよい推定を行うことができると期待される。また、上述の実施形態及び変形例に係る、推定処理用、高画質化用、セグメンテーション処理用、画像解析用、診断結果生成用の学習済モデルでも、断層画像の輝度値の大小、明部と暗部の順番や傾き、位置、分布、連続性等を特徴量の一部として抽出して、推定処理に用いているものと考えらえる。
[その他の実施形態]
また、本明細書に開示の技術は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インターフェイス機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、1つの機器からなる装置に適用しても良い。
また、本明細書に開示の技術は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インターフェイス機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、1つの機器からなる装置に適用しても良い。
また、本明細書に開示の技術の目的は、以下のようにすることによって達成されることはいうまでもない。すなわち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本明細書に開示の技術を構成することになる。
また、本明細書に開示の技術は、上述の実施形態及び変形例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1つ又は複数のプロセッサー若しくは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータ又は分離した複数のプロセッサー若しくは回路のネットワークを含みうる。
プロセッサー又は回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、又はフィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサー又は回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、又はニューラルプロセッシングユニット(NPU)を含みうる。
本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。
本願は、2019年8月30日提出の日本国特許出願特願2019-158973と2020年8月5日提出の日本国特許出願特願2020-132816を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。
Claims (28)
- 眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段と、
前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正手段と、
を備える情報処理装置。 - 前記推定手段は、前記眼底画像から取得される特徴量と該特徴量から評価される第1の疾患を発症するリスクとの関係および、前記眼底画像から取得される特徴量と該特徴量から評価される第2の疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、前記被検者が前記第1の疾患および前記第2の疾患を発症するリスクを推定する請求項1に記載の情報処理装置。
- 前記推定手段は、前記眼底画像から取得される特徴量と該特徴量から評価される第1の疾患を発症するリスクとの関係を学習した第1の学習済みモデルと、前記眼底画像から取得される特徴量と該特徴量から評価される第2の疾患を発症するリスクとの関係を学習した第2の学習済みモデルとを用いて、前記被検者が前記第1の疾患および前記第2の疾患を発症するリスクを推定する請求項1に記載の情報処理装置。
- 被検者の眼底画像を取得する取得手段をさらに備え、
前記推定手段は、前記学習済みモデルに対して前記被検者の眼底画像から得られる特徴量を入力することにより、前記被検者が疾患を発症するリスクとして確率を推定する請求項1乃至3のいずれか1項に記載の情報処理装置。 - 前記学習済みモデルは、前記眼底画像から取得される血管の形態と、前記血管の形態から評価される心血管疾患を発症するリスクとの関係を学習し、
前記補正手段は、前記被検者の血圧、BMI指数、年齢、性別、病歴または喫煙習慣の有無のうち少なくとも一つの生体情報を用いて補正する請求項1乃至4のいずれか1項に記載の情報処理装置。 - 前記血管の形態は、動脈径、静脈径、動脈径と静脈径の比、血管の分岐角度、前記分岐の非対称性、動脈静脈狭窄または血管の捻じれを示す特徴量のうち少なくとも一つを含む請求項5に記載の情報処理装置。
- 被検者の眼底を撮像した眼底画像を取得する取得手段と、
眼底画像と該眼底画像から評価される疾患を発症するリスクとの関係を深層学習した学習済みモデルに対して、前記取得された眼底画像を入力することにより、前記被検者が疾患を発症するリスクを推定する推定手段と、
前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正手段と、
を備える情報処理装置。 - 前記補正手段は、前記生体情報ごとに定められた所定の重みづけ係数を用いて、前記推定された疾患に発症するリスクを補正する請求項1乃至7のいずれか1項に記載の情報処理装置。
- 前記補正された疾患を発症するリスクを、表示部に表示させる表示制御手段を更に備える請求項1乃至8のいずれか1項に記載の情報処理装置。
- 前記表示制御手段は、前記補正された疾患を発症するリスクを、複数のクラスに分類した状態で前記表示部に表示させる請求項9に記載の情報処理装置。
- 前記表示制御手段は、前記補正された疾患を発症するリスクを、前記被検者の眼底画像と並列した状態で前記表示部に表示させる請求項9又は10に記載の情報処理装置。
- 前記表示制御手段は、前記補正された疾患を発症するリスクに対応する確率に基づいたグラフを、前記表示部に表示させる請求項9乃至11のいずれか1項に記載の情報処理装置。
- 前記表示制御手段は、前記疾患と相関の高い部位が強調された状態で、前記被検者の眼底画像を前記表示部に表示させる請求項9乃至12のいずれか1項に記載の情報処理装置。
- 前記表示制御手段は、前記補正された疾患を発症するリスク及び該疾患の種類に応じて推奨される医療機関を、前記表示部に表示させる請求項9乃至13のいずれか1項に記載の情報処理装置。
- 前記推奨された医療機関の予約が完了した場合には、前記疾患を発症するリスクの推定に用いられた眼底画像と、前記推定された疾患を発症するリスクの補正に用いられた生体情報と、前記推定された疾患を発症するリスクとを、前記推奨された医療機関のシステムを介して、前記推奨された医療機関に送信するように構成される請求項14に記載の情報処理装置。
- 前記補正された疾患を発症するリスク及び該疾患の種類に応じて、映像通信可能なシステムを介して、前記推奨された医療機関の医師の診断あるいはコンサルテーションを受けることができるように構成される請求項14又は15に記載の情報処理装置。
- 眼底画像から取得される特徴量および検査装置により取得される生体情報と、疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定手段と、
前記推定された疾患を発症するリスクを表示部に表示させる表示制御手段と、
を備える情報処理装置。 - 前記表示制御手段は、眼底画像を学習して得た解析結果生成用の学習済モデルを用いて生成された解析結果であって、前記疾患を発症するリスクの推定に用いられた眼底画像に関する解析結果を前記表示部に表示させる請求項9乃至17のいずれか1項に記載の情報処理装置。
- 前記表示制御手段は、眼底画像を学習して得た診断結果生成用の学習済モデルを用いて生成された診断結果であって、前記疾患を発症するリスクの推定に用いられた眼底画像に関する診断結果を前記表示部に表示させる請求項9乃至18のいずれか1項に記載の情報処理装置。
- 前記表示制御手段は、眼底画像が入力された敵対的生成ネットワーク又はオートエンコーダーを用いて生成された画像と、該敵対的生成ネットワーク又はオートエンコーダーに入力された眼底画像との差に関する情報を、異常部位に関する情報として前記表示部に表示させる請求項9乃至19のいずれか1項の記載の情報処理装置。
- 前記表示制御手段は、眼底画像を学習して得た類似症例画像検索用の学習済モデルを用いて検索された類似症例画像であって、前記疾患を発症するリスクの推定に用いられた眼底画像に関する類似症例画像を前記表示部に表示させる請求項9乃至20のいずれか1項に記載の情報処理装置。
- 前記表示制御手段は、眼底画像を学習して得た物体認識用の学習済モデルまたはセグメンテーション用の学習済モデルを用いて生成された物体検出結果またはセグメンテーション結果であって、前記疾患を発症するリスクの推定に用いられた眼底画像に関する物体検出結果またはセグメンテーション結果を、前記表示部に表示させる請求項9乃至21のいずれか1項に記載の情報処理装置。
- 前記疾患を発症するリスクの推定に関する検者からの指示は、文字認識用の学習済モデルと音声認識用の学習済モデルとジェスチャー認識用の学習済モデルとのうち少なくとも1つの学習済モデルを用いて得た情報である請求項1乃至22のいずれか1項に記載の情報処理装置。
- 被検者の眼底画像を撮影する眼科装置と、
前記被検者を検査し、生体情報を取得する検査装置と、
請求項1乃至23のいずれか1項に記載の情報処理装置と、
を備える情報処理システム。 - 眼底画像から取得される特徴量と該特徴量から評価される疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定工程と、
前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正工程と、
を含む情報処理方法。 - 眼底画像から取得される特徴量および検査装置により取得される生体情報と、疾患を発症するリスクとの関係を学習した学習済みモデルを用いて、被検者が疾患を発症するリスクを推定する推定工程と、
前記推定された疾患を発症するリスクを表示部に表示させる表示制御工程と、
を含む情報処理方法。 - 被検者の眼底を撮像した眼底画像を取得する取得工程と、
眼底画像と該眼底画像から評価される疾患を発症するリスクとの関係を学習した学習済みモデルに対して、前記取得された眼底画像を入力することにより、前記被検者が前記疾患を発症するリスクを推定する推定工程と、
前記推定された疾患を発症するリスクを、前記被検者の生体情報に基づいて補正する補正工程と、
を含む情報処理方法。 - 請求項1乃至23のいずれか1項に記載の情報処理装置の各手段を実行させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202080054715.9A CN114207736A (zh) | 2019-08-30 | 2020-08-06 | 信息处理装置、信息处理方法、信息处理系统和程序 |
KR1020227009247A KR20220051369A (ko) | 2019-08-30 | 2020-08-06 | 정보 처리 장치, 정보 처리 방법, 정보 처리 시스템 및 프로그램 |
EP20858643.8A EP4023143A4 (en) | 2019-08-30 | 2020-08-06 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING SYSTEM AND PROGRAM |
US17/680,064 US20220175325A1 (en) | 2019-08-30 | 2022-02-24 | Information processing apparatus, information processing method, information processing system, and program |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-158973 | 2019-08-30 | ||
JP2019158973 | 2019-08-30 | ||
JP2020-132816 | 2020-08-05 | ||
JP2020132816A JP2021039748A (ja) | 2019-08-30 | 2020-08-05 | 情報処理装置、情報処理方法、情報処理システム及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/680,064 Continuation US20220175325A1 (en) | 2019-08-30 | 2022-02-24 | Information processing apparatus, information processing method, information processing system, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021039339A1 true WO2021039339A1 (ja) | 2021-03-04 |
Family
ID=74684003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/030133 WO2021039339A1 (ja) | 2019-08-30 | 2020-08-06 | 情報処理装置、情報処理方法、情報処理システム及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220175325A1 (ja) |
EP (1) | EP4023143A4 (ja) |
KR (1) | KR20220051369A (ja) |
CN (1) | CN114207736A (ja) |
WO (1) | WO2021039339A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706451A (zh) * | 2021-07-07 | 2021-11-26 | 杭州脉流科技有限公司 | 颅内动脉瘤识别检测的方法、装置、系统和计算机可读存储介质 |
US20220198216A1 (en) * | 2020-12-17 | 2022-06-23 | Fujitsu Limited | Computer-readable recording medium storing image output program, image output method, and image output apparatus |
WO2022190891A1 (ja) * | 2021-03-11 | 2022-09-15 | ソニーグループ株式会社 | 情報処理システム及び情報処理方法 |
WO2022201729A1 (ja) * | 2021-03-22 | 2022-09-29 | ソニーグループ株式会社 | 画像診断システム及び画像診断方法 |
WO2022208581A1 (ja) * | 2021-03-29 | 2022-10-06 | 日本電気株式会社 | 学習装置、判定装置、学習済みモデル生成方法及び記録媒体 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11901080B1 (en) * | 2019-12-30 | 2024-02-13 | C/Hca, Inc. | Predictive modeling for user condition prediction |
JP2021117548A (ja) * | 2020-01-22 | 2021-08-10 | 富士通株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
TWI817121B (zh) * | 2021-05-14 | 2023-10-01 | 宏碁智醫股份有限公司 | 分類老年性黃斑部退化的程度的分類方法和分類裝置 |
JP7487144B2 (ja) * | 2021-06-09 | 2024-05-20 | 株式会社東芝 | 情報処理装置、方法及びプログラム |
WO2023178117A1 (en) * | 2022-03-14 | 2023-09-21 | O/D Vision Inc. | Systems and methods for artificial intelligence based blood pressure computation based on images of the outer eye |
CN114782337B (zh) * | 2022-04-08 | 2024-09-13 | 深圳平安智慧医健科技有限公司 | 基于人工智能的oct图像推荐方法、装置、设备及介质 |
US11766223B1 (en) * | 2022-05-05 | 2023-09-26 | Toku Eyes Limited | Systems and methods for processing of fundus images |
KR102706166B1 (ko) * | 2023-03-03 | 2024-09-13 | 주식회사 비쥬웍스 | 뇌신경질환을 예측하는 전자장치 및 그것의 동작방법 |
CN116636808B (zh) * | 2023-06-28 | 2023-10-31 | 交通运输部公路科学研究所 | 一种智能座舱驾驶员视觉健康度分析方法与装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063456A (ja) * | 2004-10-07 | 2005-03-10 | Mitsui Sumitomo Insurance Co Ltd | 疾患症状予測サーバ、疾患症状予測システム、疾患症状予測方法、及びプログラム |
JP2017000386A (ja) | 2015-06-09 | 2017-01-05 | 株式会社トプコン | 眼科検査装置及び眼科検査システム |
JP2017503561A (ja) * | 2013-12-18 | 2017-02-02 | ハートフロー, インコーポレイテッド | 患者固有の解剖学的構造の画像データから冠動脈プラークの脆弱性を予測するシステム及び方法 |
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
WO2018035473A2 (en) * | 2016-08-18 | 2018-02-22 | Google Llc | Processing fundus images using machine learning models |
JP2019082881A (ja) * | 2017-10-31 | 2019-05-30 | 富士フイルム株式会社 | 画像検索装置、方法およびプログラム |
JP2019118814A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社トプコン | 機械学習ガイド付き撮影システム |
WO2019150813A1 (ja) * | 2018-01-30 | 2019-08-08 | 富士フイルム株式会社 | データ処理装置及び方法、認識装置、学習データ保存装置、機械学習装置並びにプログラム |
JP2019158973A (ja) | 2018-03-08 | 2019-09-19 | 日本製鉄株式会社 | 試料保持具およびそれを備える分析装置 |
JP2020132816A (ja) | 2019-02-25 | 2020-08-31 | 互応化学工業株式会社 | 有機−無機複合材料、有機−無機複合成形物、有機−無機複合材料の製造方法及び有機−無機複合成形物の製造方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2018347610A1 (en) * | 2017-10-13 | 2020-05-07 | Ai Technologies Inc. | Deep learning-based diagnosis and referral of ophthalmic diseases and disorders |
CN118675728A (zh) * | 2017-12-20 | 2024-09-20 | 医鲸股份有限公司 | 用于辅助心血管疾病的诊断的方法和装置 |
-
2020
- 2020-08-06 CN CN202080054715.9A patent/CN114207736A/zh active Pending
- 2020-08-06 KR KR1020227009247A patent/KR20220051369A/ko not_active Application Discontinuation
- 2020-08-06 WO PCT/JP2020/030133 patent/WO2021039339A1/ja unknown
- 2020-08-06 EP EP20858643.8A patent/EP4023143A4/en active Pending
-
2022
- 2022-02-24 US US17/680,064 patent/US20220175325A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063456A (ja) * | 2004-10-07 | 2005-03-10 | Mitsui Sumitomo Insurance Co Ltd | 疾患症状予測サーバ、疾患症状予測システム、疾患症状予測方法、及びプログラム |
JP2017503561A (ja) * | 2013-12-18 | 2017-02-02 | ハートフロー, インコーポレイテッド | 患者固有の解剖学的構造の画像データから冠動脈プラークの脆弱性を予測するシステム及び方法 |
JP2017000386A (ja) | 2015-06-09 | 2017-01-05 | 株式会社トプコン | 眼科検査装置及び眼科検査システム |
WO2017094267A1 (ja) * | 2015-12-01 | 2017-06-08 | 株式会社Preferred Networks | 異常検出システム、異常検出方法、異常検出プログラム及び学習済モデル生成方法 |
WO2018035473A2 (en) * | 2016-08-18 | 2018-02-22 | Google Llc | Processing fundus images using machine learning models |
JP2019082881A (ja) * | 2017-10-31 | 2019-05-30 | 富士フイルム株式会社 | 画像検索装置、方法およびプログラム |
JP2019118814A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社トプコン | 機械学習ガイド付き撮影システム |
WO2019150813A1 (ja) * | 2018-01-30 | 2019-08-08 | 富士フイルム株式会社 | データ処理装置及び方法、認識装置、学習データ保存装置、機械学習装置並びにプログラム |
JP2019158973A (ja) | 2018-03-08 | 2019-09-19 | 日本製鉄株式会社 | 試料保持具およびそれを備える分析装置 |
JP2020132816A (ja) | 2019-02-25 | 2020-08-31 | 互応化学工業株式会社 | 有機−無機複合材料、有機−無機複合成形物、有機−無機複合材料の製造方法及び有機−無機複合成形物の製造方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220198216A1 (en) * | 2020-12-17 | 2022-06-23 | Fujitsu Limited | Computer-readable recording medium storing image output program, image output method, and image output apparatus |
WO2022190891A1 (ja) * | 2021-03-11 | 2022-09-15 | ソニーグループ株式会社 | 情報処理システム及び情報処理方法 |
WO2022201729A1 (ja) * | 2021-03-22 | 2022-09-29 | ソニーグループ株式会社 | 画像診断システム及び画像診断方法 |
WO2022208581A1 (ja) * | 2021-03-29 | 2022-10-06 | 日本電気株式会社 | 学習装置、判定装置、学習済みモデル生成方法及び記録媒体 |
CN113706451A (zh) * | 2021-07-07 | 2021-11-26 | 杭州脉流科技有限公司 | 颅内动脉瘤识别检测的方法、装置、系统和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4023143A4 (en) | 2023-08-30 |
KR20220051369A (ko) | 2022-04-26 |
CN114207736A (zh) | 2022-03-18 |
US20220175325A1 (en) | 2022-06-09 |
EP4023143A1 (en) | 2022-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021039339A1 (ja) | 情報処理装置、情報処理方法、情報処理システム及びプログラム | |
JP2021039748A (ja) | 情報処理装置、情報処理方法、情報処理システム及びプログラム | |
JP7229881B2 (ja) | 医用画像処理装置、学習済モデル、医用画像処理方法及びプログラム | |
JP7250653B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
US12040079B2 (en) | Medical image processing apparatus, medical image processing method and computer-readable medium | |
JP7269413B2 (ja) | 医用画像処理装置、医用画像処理システム、医用画像処理方法及びプログラム | |
JP7341874B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7413147B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7478216B2 (ja) | 眼科装置、眼科装置の制御方法、及びプログラム | |
US11922601B2 (en) | Medical image processing apparatus, medical image processing method and computer-readable medium | |
WO2020183791A1 (ja) | 画像処理装置および画像処理方法 | |
JP7362403B2 (ja) | 画像処理装置および画像処理方法 | |
WO2020202680A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2022155690A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7344847B2 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7194136B2 (ja) | 眼科装置、眼科装置の制御方法、及びプログラム | |
JP7332463B2 (ja) | 制御装置、光干渉断層撮影装置、光干渉断層撮影装置の制御方法、及びプログラム | |
JP2021164535A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
WO2020138128A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP7406901B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2021086560A (ja) | 医用画像処理装置、医用画像処理方法及びプログラム | |
JP2021069667A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2021119973A (ja) | 撮影装置、撮影方法、及びプログラム | |
JP2022121202A (ja) | 画像処理装置および画像処理方法 | |
JP2023010308A (ja) | 画像処理装置および画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20858643 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 20227009247 Country of ref document: KR Kind code of ref document: A |
|
ENP | Entry into the national phase |
Ref document number: 2020858643 Country of ref document: EP Effective date: 20220330 |