WO2023244008A1 - 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체 - Google Patents
딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체 Download PDFInfo
- Publication number
- WO2023244008A1 WO2023244008A1 PCT/KR2023/008178 KR2023008178W WO2023244008A1 WO 2023244008 A1 WO2023244008 A1 WO 2023244008A1 KR 2023008178 W KR2023008178 W KR 2023008178W WO 2023244008 A1 WO2023244008 A1 WO 2023244008A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- model
- deep learning
- dataset
- oct
- learning model
- Prior art date
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 50
- 201000010099 disease Diseases 0.000 title claims abstract description 31
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 31
- 238000012014 optical coherence tomography Methods 0.000 claims abstract description 145
- 238000003745 diagnosis Methods 0.000 claims abstract description 33
- 206010012688 Diabetic retinal oedema Diseases 0.000 claims description 51
- 201000011190 diabetic macular edema Diseases 0.000 claims description 51
- 208000030533 eye disease Diseases 0.000 claims description 49
- 208000002780 macular degeneration Diseases 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 26
- 208000022873 Ocular disease Diseases 0.000 claims description 21
- 206010064930 age-related macular degeneration Diseases 0.000 claims description 19
- 230000006403 short-term memory Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 3
- 210000005252 bulbus oculi Anatomy 0.000 abstract 1
- 230000006870 function Effects 0.000 description 27
- 230000004913 activation Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000013434 data augmentation Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000007787 long-term memory Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 206010025421 Macule Diseases 0.000 description 3
- 210000001525 retina Anatomy 0.000 description 3
- 208000005590 Choroidal Neovascularization Diseases 0.000 description 2
- 206010060823 Choroidal neovascularisation Diseases 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000002059 diagnostic imaging Methods 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 206010012689 Diabetic retinopathy Diseases 0.000 description 1
- 102100035593 POU domain, class 2, transcription factor 1 Human genes 0.000 description 1
- 101710084414 POU domain, class 2, transcription factor 1 Proteins 0.000 description 1
- 102100035591 POU domain, class 2, transcription factor 2 Human genes 0.000 description 1
- 101710084411 POU domain, class 2, transcription factor 2 Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/14—Arrangements specially adapted for eye photography
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/10—Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
- A61B3/14—Arrangements specially adapted for eye photography
- A61B3/145—Arrangements specially adapted for eye photography by video means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10101—Optical tomography; Optical coherence tomography [OCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
Definitions
- machine learning is being actively applied to image analysis and classification, and mainly in the medical field, research is being conducted on disease diagnosis, prediction, and treatment proposals based on machine learning using patient X-ray, CT, and MRI images. It is being done.
- OCT imaging is a medical imaging technology that utilizes optical scattering media using near-infrared light to capture three-dimensional images with micrometer resolution.
- Medical staff or machine learning devices can use OCT images to detect a patient's Age-related Macular Degeneration (AMD), Diabetic Macular Edema (DME), Drusen, and Diabetic Retinopathy.
- AMD Age-related Macular Degeneration
- DME Diabetic Macular Edema
- Drusen Drusen
- Diabetic Retinopathy Alternatively, various medical diagnoses may be made, such as Choroidal Neovascularization (CNV).
- CNV Choroidal Neovascularization
- the purpose of the present invention is to provide comprehensive diagnostic results for ophthalmic diseases through group classification of multiple OCT images, using multiple datasets for multiple OCT images to learn a deep learning model with a large number of test subjects. It provides a deep learning model learning method that inputs OCT images and outputs the probability of ocular disease or normality as a diagnosis result, a method of diagnosing ocular disease using a deep learning model, and a computer-readable recording medium on which a program to perform the same is recorded. .
- the deep learning model learning method of the present invention performs optical coherence tomography (OCT) on the eyes of patients with unspecified eye diseases by at least one processor, and uses a plurality of pre-labeled eye diseases.
- a first dataset acquisition step in which dog OCT images are acquired as a first dataset;
- a first diagnostic model learning step in which a first diagnostic model is learned by the at least one processor using the first dataset to diagnose an ophthalmic disease from a single OCT image of a subject;
- a second dataset acquisition step in which a plurality of ophthalmology-based OCT images are acquired as a second dataset by the at least one processor;
- a second dataset labeling step in which a plurality of OCT images in the second dataset are labeled by using the learned first diagnostic model by the at least one processor;
- the ophthalmic disease diagnosis method using the deep learning model of the present invention is performed on a plurality of OCT images obtained by optical coherence tomography (OCT) of the eye by at least one processor.
- a deep learning model learning step in which a deep learning model is learned using a plurality of data sets;
- an ophthalmic disease diagnosis step in which, by the at least one processor, a plurality of OCT images of the examinee are input to the deep learning model and the probability of ocular disease or normality is output as a diagnosis result.
- the deep learning model learning step involves performing optical coherence tomography (OCT) on the eyes of a patient with an unspecified ocular disease, and providing a plurality of OCT images with the ocular disease already labeled.
- OCT optical coherence tomography
- a first data set acquisition step obtained as 1 data set;
- a first diagnostic model learning step in which a first diagnostic model is learned using the first dataset to diagnose an eye disease from a single OCT image of a subject;
- a second dataset acquisition step in which a plurality of ophthalmology-based OCT images are acquired as a second dataset;
- a second data set labeling step in which a plurality of OCT images in the second data set are labeled using the learned first diagnostic model; After classifying the labeled second data set into a preset number, volume
- a classification dataset creation step in which a plurality of classification datasets of data formats are created; and a second diagnostic model learning step in which the plurality of classification datasets are used to learn a second diagnostic model so that ocular diseases can be diagnosed from the plurality of OCT images of the test subject.
- the present invention provides a computer-readable recording medium on which a program for performing a deep learning model learning method or an eye disease diagnosis method using a deep learning model is recorded.
- a first diagnostic model is learned through the first dataset, the second dataset is labeled through the learned first diagnostic model, and the labeled second dataset is classified into a set number.
- the present invention inputs multiple OCT images of the examinee into a deep learning model learned using multiple datasets of multiple OCT images and outputs the probability of ocular disease or normality as a diagnosis result, thereby creating a group for multiple OCT images.
- Classification has the remarkable effect of providing comprehensive diagnostic results for eye diseases.
- Figure 1 is a flowchart of the deep learning model learning method of the present invention.
- Figure 2 is a flowchart of an eye disease diagnosis method using the deep learning model of the present invention.
- Figure 3 is a diagram showing a fundus image (a) and an OCT image (b) according to an embodiment of the present invention.
- FIG. 4 is a diagram showing age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen eye disease according to an embodiment of the present invention.
- AMD age-related macular degeneration
- DME diabetic macular edema
- drusen eye disease drusen eye disease
- Figure 5 is a structural diagram of a first diagnostic model according to an embodiment of the present invention.
- Figure 1 is a flowchart of the deep learning model learning method of the present invention.
- Figure 2 is a flowchart of an eye disease diagnosis method using the deep learning model of the present invention.
- Figure 3 is a diagram showing an OCT image according to an embodiment of the present invention.
- Figure 4 is a diagram showing age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen eye disease according to an embodiment of the present invention.
- Figure 5 is a structural diagram of a first diagnostic model according to an embodiment of the present invention.
- Figure 6 is a structural diagram of a second diagnostic model according to an embodiment of the present invention.
- the present invention includes a computer-readable recording medium 120 on which a program for performing a deep learning model learning method or an eye disease diagnosis method using a deep learning model is recorded.
- the recording medium 120 may be, for example, a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, etc.
- the deep learning model learning method of the present invention or the ophthalmic disease diagnosis method using the deep learning model of the present invention can be implemented by at least one processor 110 in the computer device 100 reading the recording medium 120. .
- the deep learning model learning method of the present invention includes a first dataset acquisition step (S110), a feature extraction model learning step (S120), a second dataset acquisition step (S130), and a second dataset labeling step ( S140), classification data set creation step (S150), and second diagnostic model learning step (S160).
- optical coherence tomography is performed on the eyes of a patient with an unspecified eye disease by at least one processor 110, and the eye disease is previously labeled.
- a plurality of OCT images are acquired as the first dataset.
- the eye disease is characterized by including age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen.
- AMD age-related macular degeneration
- DME diabetic macular edema
- drusen drusen
- the first dataset includes eye disease patients who have been previously diagnosed by a medical staff with at least one of Age-related Macular Degeneration (AMD), Diabetic Macular Edema (DME), and Drusen.
- the horizontal/vertical cross-section of the retina and macula in the eye may include an OCT image captured through an OCT device.
- 40,000 images per second may be taken from the intraocular tissue of an eye disease patient with an axial resolution of 3.9m pixels and a horizontal resolution of 5.7m pixels.
- the corresponding tissue may be an object to be classified in the OCT image.
- images may be collected in BMP file format, and multiple OCT images may be preprocessed using an image data augmentation technique.
- the image data augmentation technique is one of the preprocessing processes, in which low-quality OCT images that may have a negative impact on learning are inspected before the learning process and can be initially deleted, and then the background of the image or the location of the object is changed. This is a technique that enables learning of various types of objects by modifying their shape, size, etc.
- a plurality of OCT images in the first dataset are previously labeled as one of age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen, and are classified as eye diseases for the corresponding OCT images. It is in a state where it can be confirmed, and because it has been preprocessed using the image data augmentation technique, it is a data state optimized for model learning.
- AMD age-related macular degeneration
- DME diabetic macular edema
- drusen drusen
- the first dataset is used to diagnose an ophthalmic disease from a single OCT image of the subject by the at least one processor 110 to create a first diagnostic model. This is learned.
- the first diagnostic model may include a neural network network including a plurality of dense blocks at the front and a plurality of fully-connected (FC) layers at the rear.
- FC fully-connected
- Figure 3 (a) is a fundus image taken with a black-and-white image-based fundus imaging device
- Figure 3 (b) is an OCT image taken with an optical coherence tomography (OCT) device.
- the input layer of the first diagnostic model may input an OCT image in which a cross-section of the fundus is photographed and divided into a preset input size, as shown in (b) of FIG. 3.
- the neural network is most preferably a DenseNet121 network based on the Tensorflow deep learning framework.
- the DenseNet121 network may include four dense blocks. Each dense block can directly connect all layers to each other and can have a kernel size of 1x1 or 3x3. And the first dense block is repeated 6 times, the second dense block is repeated 12 times, the third dense block is repeated 24 times, and the last dense block is repeated 16 times. You can.
- the first fully connected layer placed immediately behind the DenseNet121 network is to minimize information loss of information received from the DenseNet121 network. That is, the first fully connected layer can use batch-normalization and ReLU activation functions to minimize information loss and prevent local optimum problems.
- the second fully connected layer which is arranged in the order following the first fully connected layer, is for classifying objects in the OCT image. That is, the second fully connected layer can use a softmax activation function to perform multi-class classification of objects. Results can be obtained in the form of probabilities of eye diseases such as macular degeneration (AMD), diabetic macular edema (DME) and drusen, or normal.
- AMD macular degeneration
- DME diabetic macular edema
- drusen or normal.
- the output layer of the first diagnostic model has a preset output size and can finally output a result in the form of a probability output from the second fully connected layer.
- a multiple classification loss function (Categorical cross-entropy) may be used as a loss function, and a gradient descent optimization algorithm may be used. You can.
- a plurality of ophthalmology-based OCT images are acquired as a second data set by the at least one processor 110.
- the plurality of OCT images based on ophthalmology referred to in the present invention refers to OCT images of patients with ophthalmic diseases that have been approved by a review body such as the Institutional Review Board (IRB) among the OCT images for each ophthalmic disease stored in the medical institution server. . This is to improve accuracy and efficiency in learning the second diagnostic model.
- a review body such as the Institutional Review Board (IRB) among the OCT images for each ophthalmic disease stored in the medical institution server.
- the second dataset labeling step (S140) uses the first diagnostic model learned by the at least one processor 110 to label a plurality of OCT images in the second dataset. do.
- the OCT image acquired from the first data set acquisition step (S110) is already labeled and can identify the corresponding eye disease, but the OCT image acquired from the second dataset acquisition step (S130) is not labeled. Therefore, the relevant eye disease cannot be confirmed.
- the learned first diagnostic model is used to detect ophthalmic diseases such as macular degeneration (AMD) and diabetic macular edema (DME) for each OCT image in the second dataset. And the results can be output in the form of drusen or the probability of being normal, and the results can be labeled.
- AMD macular degeneration
- DME diabetic macular edema
- the labeled second data set is classified into a preset number by the at least one processor 110, and then a plurality of classification data sets in volume data format are generated. is created.
- the classification dataset can be created in the form of a matrix
- the column items are macular degeneration (AMD), diabetic macular edema (DME), and drusen or normal
- the row items are These are OCT images as many as the set number. If the number of settings is 27 as shown in [Table 1] below, a classification dataset in the form of a matrix can be created with 27 rows and 4 columns, excluding items.
- the volume data type classification dataset mentioned in the present invention is a matrix type classification dataset. Each cell where rows and columns overlap may contain the probability of an eye disease labeled with each OCT image through the first diagnosis model.
- the plurality of classification datasets are used to diagnose ophthalmic diseases from the plurality of OCT images of the test subject by the at least one processor 110, and a second A diagnostic model is learned.
- the fully connected (FC) model of the second diagnostic model may have a predetermined network size and include multiple fully connected layers. According to one embodiment of the present invention, five fully connected layers with a network size of 256 may be stacked. And before information is passed from one layer to the next, batch normalization (BN) and ReLU activation functions can be used. And to prevent local optimality problems, dropout can be set between fully connected layers, and the last fully connected layer can be used to select objects such as age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen. )
- the softmax activation function can be used to classify it as one of the following.
- the loss function used in the fully connected model of the second diagnostic model may be a multi-classification loss function (Categorical cross-entropy), and a gradient descent optimization algorithm may be used. It can be learned. Therefore, the fully connected (FC) model of the second diagnostic model can obtain results in the form of probabilities for eye diseases such as macular degeneration (AMD), diabetic macular edema (DME), and drusen.
- AMD macular degeneration
- DME diabetic macular edema
- drusen drusen.
- the network size of the first layer can be set to 128 and the second layer to 3 to minimize information loss. And dropouts can be set between each floor.
- the last fully connected layer of the long-term memory (LSTM) model uses a softmax activation function to classify objects as one of age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen. You can.
- the long short-term memory (LSTM) model can be learned using a root mean square function and a gradient descent optimization algorithm as a loss function.
- the deep learning model learning step (S100) includes a first data set acquisition step (S110), a first diagnostic model learning step (S120), a second dataset acquisition step (S130), and a first data set acquisition step (S110). 2 It may include a data set labeling step (S140), a classification dataset creation step (S150), and a second diagnostic model learning step (S160).
- OCT optical coherence tomography
- the first dataset is the eyes of an eye patient with at least one of age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen previously diagnosed by a medical staff.
- the horizontal/vertical cross sections of the retina and macula may include OCT images captured through an OCT device.
- 40,000 images per second may be taken from the intraocular tissue of an eye disease patient with an axial resolution of 3.9m pixels and a horizontal resolution of 5.7m pixels.
- the corresponding tissue may be an object to be classified in the OCT image.
- the input layer of the first diagnostic model may be a single OCT image processed in black and white and input in a three-dimensional form, as shown in (a) of FIG. 3.
- the three-dimensional form referred to in the present invention refers to the three-dimensional form of an object that is a combination of thousands of images of the same object taken using an OCT device.
- a single OCT image divided into a preset input size can be input to the DenseNet121 network.
- the neural network may be placed next to the input layer.
- the neural network is most preferably a DenseNet121 network based on the Tensorflow deep learning framework.
- the DenseNet121 network may include four dense blocks. Each dense block can directly connect all layers to each other and can have a kernel size of 1x1 or 3x3. And the first dense block is repeated 6 times, the second dense block is repeated 12 times, the third dense block is repeated 24 times, and the last dense block is repeated 16 times. You can.
- the output layer of the first diagnostic model has a preset output size and can finally output a result in the form of a probability output from the second fully connected layer.
- the network size of the first layer can be set to 128 and the second layer to 3 to minimize information loss. And dropouts can be set between each floor.
- the last fully connected layer of the long-term memory (LSTM) model uses a softmax activation function to classify objects as one of age-related macular degeneration (AMD), diabetic macular edema (DME), and drusen. You can.
- the long short-term memory (LSTM) model can be learned using a root mean square function and a gradient descent optimization algorithm as a loss function.
- a first diagnostic model is learned through a first dataset, a second dataset is labeled through the learned first diagnostic model, and labeling is performed.
- a second diagnostic model can be learned through a classification data set in which the second data set is classified into a set number. Accordingly, group classification of multiple OCT images is possible, providing a deep learning model that can provide comprehensive judgment on eye diseases.
- the multiple OCT images of the subject may be images of horizontal/vertical sections of the retina and macula in the eye taken through an OCT device.
- 40,000 images per second may be taken from the tissue within the eye of the subject with an axial resolution of 3.9m pixels and a horizontal resolution of 5.7m pixels.
- the corresponding tissue may be an object to be classified in the OCT image.
- aspects of the subject matter described herein may be described in the general context of computer-executable instructions, such as program modules or components that are executed by a computer.
- program modules or components include routines, programs, objects, and data structures that perform specific tasks or implement specific data types.
- aspects of the subject matter described herein may be practiced in distributed computing environments where tasks are performed by remote processing devices that are linked through a communications network.
- program modules may be located in both local and remote computer storage media, including memory storage devices.
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- Heart & Thoracic Surgery (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Eye Examination Apparatus (AREA)
Abstract
딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체는 적어도 하나의 프로세서에 의하여, 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)된 다수 개의 OCT이미지에 대한 복수 개의 데이터셋이 이용되어 딥러닝 모델이 학습되는 딥러닝 모델 학습 단계, 상기 적어도 하나의 프로세서에 의하여, 피검사자의 다수 개의 OCT이미지가 획득되는 이미지 획득단계 및 상기 적어도 하나의 프로세서에 의하여, 상기 딥러닝 모델에 피검사자의 다수 개의 OCT이미지가 입력되어 안과질환 또는 정상일 확률을 진단결과로 출력하는 안과질환 진단단계를 포함한다.
Description
본 발명은 의료 영상 데이터를 적용한 컴퓨터 비전(vision) 분야에 관한 것으로, 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체에 관한 것이다.
최근 기계학습 분야의 연구가 발전함에 따라 최근 의료 영상 분야와 기계학습 분야의 융합이 활발히 이루어지고 있다. 특히 이미지 분석 및 분류에 기계학습 적용이 활발히 이루어지고 있으며, 주로 의료 분야에서 환자의 엑스레이(X-ray), CT 및 MRI의 이미지를 활용한 기계학습이 내린 질병 진단, 예측, 치료 방법 제안 연구가 이루어지고 있다.
안과 분야에서는 안저(Fundus) 이미지와 광 간섭 단층 촬영(Optical Coherence Tomography; OCT) 이미지를 활용하여 안과 질병을 진단하고 치료 예후를 예측하고 있다. 여기서, OCT 이미지는 근적외선을 사용하여 광학 산란 매체를 활용하여 마이크로미터 해상도의 3차원 이미지를 캡처하는 의료 영상 기술이다. 의료진 또는 기계학습 장치는 OCT 이미지를 통해서 환자의 노화성 황반 변성(Age-related Macular Degeneration; AMD), 당뇨성 황반부종(Diabetic Macular Edema; DME), 드루젠(Drusen), 당뇨 망막증(Diabetic Retinopathy) 또는 맥락막 신생혈관(Choroidal Neovascularization; CNV)과 같은 다양한 의학적 진단을 내릴 수 있다.
다만, 의료진은 20여 장 남짓한 다수의 OCT 이미지를 확인하여 종합적으로 판독하나, 관련문헌 1과 같은 종래 기계학습 장치는 단일 이미지를 기반으로 판독함으로 판독결과가 편파적이고 정확도가 상당히 떨어지는 기술적 한계가 존재한다. 그리고 의료진은 다수의 OCT 이미지에 대하여 종합적으로 판독할 수 있으나, 의료진 간 판독결과가 서로 불일치하거나 상충될 수 있고 의료진의 학습과 경험을 통해 뚜렷한 한두 가지 결과를 지목하여 치료 방법을 선택하게 되어 판독결과의 객관성이 떨어지는 한계가 존재한다.
이에 본 출원인은, 다수 개의 OCT 이미지를 이용한 기계학습 모델을 구현하여 보다 정확하고 객관적인 안과질환에 대한 진단결과를 제시할 수 있는 기술을 제시하고자 한다.
본 발명은 상기와 같은 문제점을 해결하기 위한 것으로 단일 OCT 이미지에 대한 개별분류가 아닌, 다수 개의 OCT 이미지에 대한 집단분류가 가능하도록 제1 데이터셋을 통해서 제1 진단모델이 학습되고, 학습된 제1 진단모델을 통해서 제2 데이터셋이 라벨링되고, 라벨링된 제2 데이터셋이 설정개수로 분류된 분류 데이터셋을 통해서 제2 진단모델이 학습되는 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체를 얻고자 하는 것을 목적으로 한다.
본 발명의 목적은 다수 개의 OCT 이미지에 대한 집단분류를 통해서 종합적인 안과질환에 대한 진단결과를 제공할 수 있도록 다수 개의 OCT 이미지에 대한 복수 개의 데이터셋이 이용되어 학습된 딥러닝 모델에 피검사자의 다수 개의 OCT 이미지가 입력되어 안과질환 또는 정상일 확률을 진단결과로 출력하는 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체를 제공하는 것이다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있다.
상기 목적을 달성하기 위하여, 본 발명의 딥러닝 모델 학습 방법은 적어도 하나의 프로세서에 의하여, 불특정 안과질환자의 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)되고 안과질환이 기 라벨링된 다수 개의 OCT 이미지가 제1 데이터셋으로 획득되는 제1 데이터셋 획득단계; 상기 적어도 하나의 프로세서에 의하여, 피검사자의 단일 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 제1 데이터셋이 이용되어 제1 진단모델이 학습되는 제1 진단모델 학습단계; 상기 적어도 하나의 프로세서에 의하여, 안과학 기반의 다수 개의 OCT 이미지가 제2 데이터셋으로 획득되는 제2 데이터셋 획득단계; 상기 적어도 하나의 프로세서에 의하여, 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 다수 개의 OCT 이미지가 라벨링(Labeling)되는 제2 데이터셋 라벨링단계; 상기 적어도 하나의 프로세서에 의하여, 라벨링된 상기 제2 데이터셋을 기 설정된 설정개수로 분류한 후 볼륨 데이터 형식의 다수 개의 분류 데이터셋이 생성되는 분류 데이터셋 생성단계; 및 상기 적어도 하나의 프로세서에 의하여, 피검사자의 다수 개의 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 다수 개의 분류 데이터셋이 이용되어 제2 진단모델이 학습되는 제2 진단모델 학습단계;를 제공한다.
또한 상기 목적을 달성하기 위하여, 본 발명의 딥러닝 모델을 이용한 안과질환 진단 방법은 적어도 하나의 프로세서에 의하여, 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)된 다수 개의 OCT 이미지에 대한 복수 개의 데이터셋이 이용되어 딥러닝 모델이 학습되는 딥러닝 모델 학습단계; 상기 적어도 하나의 프로세서에 의하여, 피검사자의 다수 개의 OCT 이미지가 획득되는 이미지 획득단계; 및 상기 적어도 하나의 프로세서에 의하여, 상기 딥러닝 모델에 피검사자의 다수 개의 OCT 이미지가 입력되어 안과질환 또는 정상일 확률을 진단결과로 출력하는 안과질환 진단단계;를 제공한다.
본 발명의 딥러닝 모델을 이용한 안과질환 진단 방법에 있어서 상기 딥러닝 모델 학습단계는, 불특정 안과질환자의 안구를 대상으로 광 간섭 단층 촬영(OCT)되고 안과질환이 기 라벨링된 다수 개의 OCT 이미지가 제1 데이터셋으로 획득되는 제1 데이터셋 획득단계; 피검사자의 단일 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 제1 데이터셋이 이용되어 제1 진단모델이 학습되는 제1 진단모델 학습단계; 안과학 기반의 다수 개의 OCT 이미지가 제2 데이터셋으로 획득되는 제2 데이터셋 획득단계; 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 다수 개의 OCT 이미지가 라벨링(Labeling)되는 제2 데이터셋 라벨링단계;라벨링된 상기 제2 데이터셋을 기 설정된 설정개수로 분류한 후 볼륨 데이터 형식의 다수 개의 분류 데이터셋이 생성되는 분류 데이터셋 생성단계; 및 피검사자의 다수 개의 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 다수 개의 분류 데이터셋이 이용되어 제2 진단모델이 학습되는 제2 진단모델 학습단계;를 제공한다.
또한 상기 목적을 달성하기 위하여, 본 발명은 딥러닝 모델 학습 방법 또는 딥러닝 모델을 이용한 안과질환 진단 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이상과 같이 본 발명에 의하면, 제1 데이터셋을 통해서 제1 진단모델이 학습되고, 학습된 제1 진단모델을 통해서 제2 데이터셋이 라벨링되고, 라벨링된 제2 데이터셋이 설정개수로 분류된 분류 데이터셋을 통해서 제2 진단모델이 학습됨으로써, 단일 OCT 이미지에 대한 개별분류가 아닌, 다수 개의 OCT 이미지에 대한 집단분류가 가능한 효과가 있다.
본 발명은 다수 개의 OCT 이미지에 대한 복수 개의 데이터셋이 이용되어 학습된 딥러닝 모델에 피검사자의 다수 개의 OCT 이미지가 입력되어 안과질환 또는 정상일 확률을 진단결과로 출력함으로써, 다수 개의 OCT 이미지에 대한 집단분류를 통해서 종합적인 안과질환에 대한 진단결과를 제공하는 현저한 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 상세한 설명 및 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 딥러닝 모델 학습 방법 흐름도이다.
도 2는 본 발명의 딥러닝 모델을 이용한 안과질환 진단 방법 흐름도이다.
도 3은 본 발명의 일실시예에 따른 안저 이미지(a)와 OCT 이미지(b)를 표시한 도면이다.
도 4는 본 발명의 일실시예에 따른 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 안과질환을 표시한 도면이다.
도 5는 본 발명의 일실시예에 따른 제1 진단모델 구조도이다.
도 6은 본 발명의 일실시예에 따른 제2 진단모델 구조도이다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
다르게 정의되지 않는 한 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 딥러닝 모델 학습 방법 흐름도이다. 도 2는 본 발명의 딥러닝 모델을 이용한 안과질환 진단 방법 흐름도이다. 도 3은 본 발명의 일실시예에 따른 OCT 이미지를 표시한 도면이다. 도 4는 본 발명의 일실시예에 따른 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 안과질환을 표시한 도면이다. 도 5는 본 발명의 일실시예에 따른 제1 진단모델 구조도이다. 도 6은 본 발명의 일실시예에 따른 제2 진단모델 구조도이다.
우선, 본 발명은 딥러닝 모델 학습 방법 또는 딥러닝 모델을 이용한 안과질환 진단 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체(120)를 포함한다. 상기 기록매체(120)는 예컨대, CD, DVD, 하드디스크, 블루레이 디스크, USB, 메모리 카드, ROM 등일 수 있다. 그리고 본 발명의 딥러닝 모델 학습 방법 또는 본 발명의 딥러닝 모델을 이용한 안과질환 진단 방법은 컴퓨터 장치(100) 내 적어도 하나의 프로세서(110)가 상기 기록매체(120)를 읽음으로써 구현될 수 있다.
딥러닝 모델 학습 방법
도 1을 보면, 본 발명의 딥러닝 모델 학습 방법은 제1 데이터셋 획득단계(S110), 특징 추출모델 학습단계(S120), 제2 데이터셋 획득단계(S130), 제2 데이터셋 라벨링단계(S140), 분류 데이터셋 생성단계(S150) 및 제2 진단모델 학습단계(S160)를 포함한다.
보다 구체적으로, 상기 제1 데이터셋 획득단계(S110)는 적어도 하나의 프로세서(110)에 의하여, 불특정 안과질환자의 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)되고 안과질환이 기 라벨링된 다수 개의 OCT 이미지가 제1 데이터셋으로 획득된다.
도 4를 보면, 상기 안과질환은, 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen)을 포함하는 것을 특징으로 한다.
즉, 상기 제1 데이터셋은 노화성 황반 변성(Age-related Macular Degeneration; AMD), 당뇨성 황반부종(Diabetic Macular Edema; DME) 및 드루젠(Drusen) 중 적어도 하나를 의료진으로부터 기 진단받은 안과질환자의 안구에서 망막과 황반의 수평/수직 단면이 OCT 장치를 통해서 촬영된 OCT 이미지를 포함할 수 있다. 본 발명의 일실시예에 따르면 안과질환자의 안구 내 조직에서 3.9m 픽셀(Pixel)의 축 해상도와 5.7m 픽셀(Pixel)의 가로 해상도로 초당 40,000개가 촬영된 이미지일 수 있다. 그리고 해당 조직이 OCT 이미지 내 분류하고자 하는 객체일 수 있다.
한편, 상기 제1 데이터셋 획득단계(S110)는 BMP 파일 형식으로 이미지가 수집될 수 있고, 데이터 증대(Image Data Augmentation) 기법을 이용하여 다수 개의 OCT 이미지가 전처리될 수 있다. 여기서, 데이터 증대(Image Data Augmentation) 기법은 전처리 과정 중 하나로 학습 과정 이전에 학습에 악영향을 미칠 수 있는 품질 낮은 OCT 이미지가 검수되어 1차적으로 삭제될 수 있고, 이후에 이미지의 배경이나 객체의 위치나 크기 등의 변형을 주어 객체의 다양한 형태의 학습이 가능하도록 하는 기법이다.
다시 말하면, 상기 제1 데이터셋 내 다수 개의 OCT 이미지는 노화성 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 중 하나로 기 라벨링(Labeling) 되어 해당 OCT 이미지에 대한 안과질환을 확인할 수 있는 상태이고, 데이터 증대(Image Data Augmentation) 기법을 이용하여 전처리된 상태임으로, 모델 학습에 최적화되어 있는 데이터 상태이다.
다음으로, 상기 제1 진단모델 학습단계(S120)는 상기 적어도 하나의 프로세서(110)에 의하여, 피검사자의 단일 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 제1 데이터셋이 이용되어 제1 진단모델이 학습된다.
도 5를 보면, 상기 제1 진단모델은 전방에 다수 개의 밀집 블록(Dense block)을 포함하는 신경망 네트워크와 후방에 복수 개의 완전연결(Fully-Connected; FC) 층을 포함할 수 있다.
보다 구체적으로, 도 3의 (a)는 흑백 이미지 기반의 안저 촬영기로 촬영된 안저 이미지이고, 도 3의 (b)는 광 간섭 단층 촬영(OCT) 장치로 촬영된 OCT 이미지이다. 상기 제1 진단모델의 입력 층은 상기 도 3의 (b)와 같이 안저의 단면이 촬영되고 기 설정된 입력 크기(Input size)로 분할된 OCT 이미지가 입력될 수 있다.
입력 층 다음은 상기 신경망 네트워크가 배치될 수 있다. 여기서, 상기 신경망 네트워크는 Tensorflow 딥러닝 프레임워크 기반의 DenseNet121 네트워크인 것이 가장 바람직하다. 본 발명의 일실시예에 따른 상기 DenseNet121 네트워크는 4개의 밀집 블록(Dense block)을 포함할 수 있다. 각각의 밀집 블록(Dense block)은 모든 레이어를 서로 직접적으로 연결할 수 있고, 1x1, 3x3 커널 크기를 가질 수 있다. 그리고 첫 번째 밀집 블록(Dense block)은 6회, 두 번째 밀집 블록(Dense block)은 12회, 세 번째 밀집 블록(Dense block)은 24회 및 마지막 밀집 블록(Dense block)은 16회 반복 학습할 수 있다.
다음으로, 상기 DenseNet121 네트워크의 바로 후방에 배치되는 제1 완전연결 층은 DenseNet121 네트워크로부터 전달받은 정보의 정보 손실을 최소화하기 위함이다. 즉, 상기 제1 완전연결 층은 정보 손실을 최소화하고 지역적 최적(Local optimum) 문제를 방지하기 위해서 배치 정규화(Batch-Normalization)와 ReLU 활성화 함수가 이용될 수 있다.
상기 제1 완전연결 층 다음 순서로 배치되는 제2 완전연결 층은 OCT 이미지 내에서 객체를 분류하기 위함이다. 즉, 상기 제2 완전연결 층은 객체를 다중 분류(Multi-class classification)하기 위해서 softmax 활성화 함수가 이용될 수 있다. 안과질환인 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 또는 정상일 확률의 형태로 결과를 얻을 수 있다.
마지막으로, 상기 제1 진단모델의 출력 층은 기 설정된 출력 크기(Output size)를 갖고 상기 제2 완전연결 층으로부터 출력된 확률 형태의 결과를 최종적으로 출력할 수 있다.
또한, 상기 제1 진단모델 학습단계(S120)는 손실 함수(Loss function)로 다중 분류 손실 함수(Categorical cross-entropy)가 이용될 수 있고, 경사 하강법 최적화 알고리즘(Gradient descent optimization algorithm)이 이용될 수 있다.
다음으로, 상기 제2 데이터셋 획득단계(S130)는 상기 적어도 하나의 프로세서(110)에 의하여, 안과학 기반의 다수 개의 OCT 이미지가 제2 데이터셋으로 획득된다.
본 발명에서 언급하는 안과학 기반의 다수 개의 OCT 이미지는 의료기관 서버에 저장된 안과질환자별 OCT 이미지 중에서 임상연구심의윤리위원회(Institutional Review Board; IRB)와 같은 심의기관의 승인을 받은 안과질환자의 OCT 이미지를 일컫는다. 이는, 제2 진단모델의 학습에 정확성 및 효율성을 향상시키기 위함이다.
다음으로, 상기 제2 데이터셋 라벨링단계(S140)는 상기 적어도 하나의 프로세서(110)에 의하여, 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 다수 개의 OCT 이미지가 라벨링(Labeling)된다.
즉, 상기 제1 데이터셋 획득단계(S110)로부터 획득된 OCT 이미지는 기 라벨링되어 해당 안과질환을 확인할 수 있는 상태이나, 상기 제2 데이터셋 획득단계(S130)로부터 획득된 OCT 이미지는 라벨링 되지 않은 것으로 해당 안과질환을 확인할 수 없는 상태이다. 그리고 상기 제2 데이터셋 라벨링단계(S140)는 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 각각의 OCT 이미지에 대해서 안과질환인 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 또는 정상일 확률의 형태로 결과가 출력되어 해당 결과가 라벨링될 수 있다.
다음으로, 상기 분류 데이터셋 생성단계(S150)는 상기 적어도 하나의 프로세서(110)에 의하여, 라벨링된 상기 제2 데이터셋을 기 설정된 설정개수로 분류한 후 볼륨 데이터 형식의 다수 개의 분류 데이터셋이 생성된다.
본 발명의 일실시예에 따르면 상기 분류 데이터셋을 행렬 형태로 생성될 수 있고, 열의 항목은 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 또는 정상이고 행의 항목은 상기 설정개수만큼의 OCT 이미지이다. 만약, 하기 [표 1]과 같이 설정개수가 27개라면 항목을 제외하고 27행 4열로 행렬 형태의 분류 데이터셋이 생성될 수 있다. 즉, 본 발명에서 언급하는 볼륨 데이터 형식의 분류 데이터셋은 행렬 형태의 분류 데이터셋이다. 행과 열이 겹치는 각각의 칸에는 상기 제1 진단모델을 통해서 각각의 OCT 이미지가 라벨링된 안과질환에 대한 확률이 포함될 수 있다.
AMD | DME | Drusen | 정상 | |
OCT 1 | 0.5 | 0.30 | 0.1 | 0.1 |
OCT 2 | 0.1 | 0.8 | 0.05 | 0.05 |
OCT 3 | 0.1 | 0.05 | 0.15 | 0.7 |
. . . |
. . . |
. . . |
. . . |
. . . |
OCT 27 | 0.3 | 0.3 | 0.4 | 0 |
다음으로, 상기 제2 진단모델 학습단계(S160)는 상기 적어도 하나의 프로세서(110)에 의하여, 피검사자의 다수 개의 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 다수 개의 분류 데이터셋이 이용되어 제2 진단모델이 학습된다.
즉, 상기 제1 진단모델은 단일 OCT 이미지에 대한 개별분류를 위한 것이라면, 상기 제2 진단모델은 다수 개의 OCT 이미지에 대한 집단분류를 위한 것이다. 도 6을 보면, 집단분류를 위해서 상기 제2 진단모델은, 완전연결(Fully-Connected; FC) 모델, 장단기 메모리(Long Short-Term Memory; LSTM) 모델 및 합성곱 신경망(Convolutional Neural Network; CNN) 모델 중 하나를 포함할 수 있다. 각 모델은 의존성 없이 독립적으로 실행하여 각각의 결과를 도출하게 되는데, 이때 학습 정확도가 높은 하나의 모델만이 채택될 수 있다.
우선, 상기 제2 진단모델의 완전연결(FC) 모델은 소정의 네트워크 크기를 갖고 다수 개의 완전연결 층이 구비될 수 있다. 본 발명의 일실시예에 따르면 네트워크 크기가 256인 완전연결 층이 5개로 쌓여있을 수 있다. 그리고 한 층에서 다음 층으로 정보가 전달되기 전 배치 정규화(BN)와 ReLU 활성화 함수가 이용될 수 있다. 그리고 지역적 최적 문제를 방지하기 위해서 완전연결 층 간 드롭아웃(Dropout)이 설정될 수 있고, 마지막 완전연결 층은 객체를 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 중 하나로 분류하기 위해서 softmax 활성화 함수가 이용될 수 있다. 그리고 상기 제2 진단모델의 완전연결 모델에 사용된 손실 함수(Loss function)는 다중 분류 손실 함수(Categorical cross-entropy)가 이용될 수 있고, 경사 하강법 최적화 알고리즘(Gradient descent optimization algorithm)이 이용되어 학습될 수 있다. 따라서 상기 제2 진단모델의 완전연결(FC) 모델은 안과질환인 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen)에 대한 확률의 형태로 결과를 얻을 수 있다.
또한, 상기 제2 진단모델의 장단기 메모리(LSTM) 모델은 상기 다수 개의 분류 데이터셋이 하나씩 입력될 수 있다. 이때, 상술한 바와 같이 하나의 분류 데이터셋 내에는 설정개수만큼의 OCT 이미지가 포함되어 있는데, 상기 장단기 메모리(LSTM) 모델은 하나의 분류 데이터셋 내 다수 개의 OCT 이미지가 연속적인 것으로 인식할 수 있다. 또한, 장단기 메모리(LSTM) 모델은 복수 개의 양방향 장단기 메모리(LSTM)와 복수 개의 완전연결(FC) 층을 포함할 수 있다. 본 발명의 일실시예에 따르면, 2개의 장단기 메모리(LSTM)를 포함하고, 첫 번째 층은 128, 두 번째 층은 256으로 네트워크 크기가 설정될 수 있다. 그리고 2개의 완전연결(FC) 층을 포함하고, 첫 번째 층은 정보 손실을 최소화하기 위해서 128, 두 번째 층은 3으로 네트워크 크기가 설정될 수 있다. 그리고 각 층 사이에는 드롭아웃(Dropout)이 설정될 수 있다. 마지막으로, 상기 장단기 메모리(LSTM) 모델의 마지막 완전연결 층은 객체를 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 중 하나로 분류하기 위해서 softmax 활성화 함수가 이용될 수 있다. 상기 장단기 메모리(LSTM) 모델은 손실 함수(Loss function)로써 평균 제곱근 함수와 경사 하강법 최적화 알고리즘(Gradient descent optimization algorithm)이 이용되어 학습될 수 있다.
또한, 상기 제2 진단모델의 합성곱 신경망(CNN) 모델은 상기 다수 개의 분류 데이터셋에 각각 포함된 다수 개의 OCT 이미지를 2차원 이미지로 간주할 수 있다. 그리고 합성곱 신경망(CNN) 모델 역시 다수 개의 층이 구비될 수 있다. 본 발명의 일실시예에 따르면 4개의 층이 구비될 수 있고, 층과 각 층 사이에 드롭아웃(Dropout)이 설정될 수 있다. 첫 번째 층과 세 번째 층이 64, 두 번째 층은 256 네트워크 크기를 가질 수 있고, 첫 번째 내지 세 번째 층에서는 ReLU 활성화 함수가 이용될 수 있다. 상기 합성곱 신경망(CNN)의 마지막 층은 객체를 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 중 하나로 분류하기 위해서 softmax 활성화 함수가 이용될 수 있다.
따라서 본 발명의 딥러닝 모델 학습 방법에 따르면, 제1 데이터셋을 통해서 제1 진단모델이 학습되고, 학습된 제1 진단모델을 통해서 제2 데이터셋이 라벨링되고, 라벨링된 제2 데이터셋이 설정개수로 분류된 분류 데이터셋을 통해서 제2 진단모델이 학습됨으로써, 다수 개의 OCT 이미지에 대한 집단분류가 가능하여 종합적인 안과질환에 대한 판단을 제공할 수 있는 딥러닝 모델을 제공할 수 있는 현저한 효과가 있다.
딥러닝 모델을 이용한 안과질환 진단 방법
도 2를 보면, 본 발명의 딥러닝 모델을 이용한 안과질환 진단 방법은 딥러닝 모델 학습단계(S100), 이미지 획득단계(S200) 및 상기 안과질환 진단단계(S300)를 포함한다.
보다 구체적으로, 상기 딥러닝 모델 학습단계(S100)는 적어도 하나의 프로세서(110)에 의하여, 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)된 다수 개의 OCT 이미지에 대한 복수 개의 데이터셋이 이용되어 딥러닝 모델이 학습된다.
상기 딥러닝 모델이 학습되기 위해서, 상기 딥러닝 모델 학습단계(S100)는 제1 데이터셋 획득단계(S110), 제1 진단모델 학습단계(S120), 제2 데이터셋 획득단계(S130), 제2 데이터셋 라벨링단계(S140), 분류 데이터셋 생성단계(S150) 및 제2 진단모델 학습단계(S160)를 포함할 수 있다.
우선, 상기 제1 데이터셋 획득단계(S110)는 불특정 안과질환자의 안구를 대상으로 광 간섭 단층 촬영(OCT)되고 안과질환이 기 라벨링된 다수 개의 OCT 이미지가 제1 데이터셋으로 획득될 수 있다.
도 4를 보면, 상기 안과질환은, 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen)을 포함하는 것을 특징으로 한다.
상기 제1 데이터셋은 노화성 황반 변성(Age-related Macular Degeneration; AMD), 당뇨성 황반부종(Diabetic Macular Edema; DME) 및 드루젠(Drusen) 중 적어도 하나를 의료진으로부터 기 진단받은 안과질환자의 안구에서 망막과 황반의 수평/수직 단면이 OCT 장치를 통해서 촬영된 OCT 이미지를 포함할 수 있다. 본 발명의 일실시예에 따르면 안과질환자의 안구 내 조직에서 3.9m 픽셀(Pixel)의 축 해상도와 5.7m 픽셀(Pixel)의 가로 해상도로 초당 40,000개가 촬영된 이미지일 수 있다. 그리고 해당 조직이 OCT 이미지 내 분류하고자 하는 객체일 수 있다.
한편, 상기 제1 데이터셋 획득단계(S110)는 BMP 파일 형식으로 이미지가 수집될 수 있고, 데이터 증대(Image Data Augmentation) 기법을 이용하여 다수 개의 OCT 이미지가 전처리될 수 있다. 여기서, 데이터 증대(Image Data Augmentation) 기법은 전처리 과정 중 하나로 학습 과정 이전에 학습에 악영향을 미칠 수 있는 품질 낮은 OCT 이미지가 검수되어 1차적으로 삭제될 수 있고, 이후에 이미지의 배경이나 객체의 위치나 크기 등의 변형을 주어 객체의 다양한 형태의 학습이 가능하도록 하는 기법이다.
다시 말하면, 상기 제1 데이터셋 내 다수 개의 OCT 이미지는 노화성 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 중 하나로 기 라벨링(Labeling) 되어 해당 OCT 이미지에 대한 안과질환을 확인할 수 있는 상태이고, 데이터 증대(Image Data Augmentation) 기법을 이용하여 전처리된 상태임으로, 모델 학습에 최적화되어 있는 데이터 상태이다.
다음으로, 상기 제1 진단모델 학습단계(S120)는 피검사자의 단일 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 제1 데이터셋이 이용되어 제1 진단모델이 학습될 수 있다.
도 5를 보면, 상기 제1 진단모델은 전방에 다수 개의 밀집 블록(Dense block)을 포함하는 신경망 네트워크와 후방에 복수 개의 완전연결(Fully-Connected; FC) 층을 포함할 수 있다.
상기 제1 진단모델의 입력 층은 도 3의 (a)와 같이 단일 OCT 이미지가 흑백 처리되어 3차원의 형태로 입력될 수 있다. 본 발명에서 언급하는 3차원의 형태는 OCT 장치를 통해서 동일한 객체에 대해서 수천 장을 촬영하였으므로 이를 조합한 객체의 입체적인 형태를 일컫는다. 그리고 도 3의 (b)와 같이 기 설정된 입력 크기(Input size)로 분할된 단일 OCT 이미지가 상기 DenseNet121 네트워크에 입력될 수 있다.
그리고 입력 층 다음은 상기 신경망 네트워크가 배치될 수 있다. 여기서, 상기 신경망 네트워크는 Tensorflow 딥러닝 프레임워크 기반의 DenseNet121 네트워크인 것이 가장 바람직하다. 본 발명의 일실시예에 따른 상기 DenseNet121 네트워크는 4개의 밀집 블록(Dense block)을 포함할 수 있다. 각각의 밀집 블록(Dense block)은 모든 레이어를 서로 직접적으로 연결할 수 있고, 1x1, 3x3 커널 크기를 가질 수 있다. 그리고 첫 번째 밀집 블록(Dense block)은 6회, 두 번째 밀집 블록(Dense block)은 12회, 세 번째 밀집 블록(Dense block)은 24회 및 마지막 밀집 블록(Dense block)은 16회 반복 학습할 수 있다.
그리고 상기 DenseNet121 네트워크의 바로 후방에 배치되는 제1 완전연결 층은 DenseNet121 네트워크로부터 전달받은 정보의 정보 손실을 최소화하기 위함이다. 즉, 상기 제1 완전연결 층은 정보 손실을 최소화하고 지역적 최적(Local optimum) 문제를 방지하기 위해서 배치 정규화(Batch-Normalization)와 ReLU 활성화 함수가 이용될 수 있다.
그리고 상기 제1 완전연결 층 다음 순서로 배치되는 제2 완전연결 층은 OCT 이미지 내에서 객체를 분류하기 위함이다. 즉, 상기 제2 완전연결 층은 객체를 다중 분류(Multi-class classification)하기 위해서 softmax 활성화 함수가 이용될 수 있다. 안과질환인 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 또는 정상일 확률의 형태로 결과를 얻을 수 있다.
마지막으로, 상기 제1 진단모델의 출력 층은 기 설정된 출력 크기(Output size)를 갖고 상기 제2 완전연결 층으로부터 출력된 확률 형태의 결과를 최종적으로 출력할 수 있다.
한편, 상기 제1 진단모델 학습단계(S120)는 손실 함수(Loss function)로 다중 분류 손실 함수(Categorical cross-entropy)가 이용될 수 있고, 경사 하강법 최적화 알고리즘(Gradient descent optimization algorithm)이 이용될 수 있다.
다음으로, 상기 제2 데이터셋 획득단계(S130)는 안과학 기반의 다수 개의 OCT 이미지가 제2 데이터셋으로 획득된다.
본 발명에서 언급하는 안과학 기반의 다수 개의 OCT 이미지는 의료기관 서버에 저장된 안과질환자별 OCT 이미지 중에서 임상연구심의윤리위원회(Institutional Review Board; IRB)와 같은 심의기관의 승인을 받은 안과질환자의 OCT 이미지를 일컫는다. 이는, 제2 진단모델의 학습에 정확성 및 효율성을 향상시키기 위함이다.
다음으로, 상기 제2 데이터셋 라벨링단계(S140)는 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 다수 개의 OCT 이미지가 라벨링(Labeling)될 수 있다.
즉, 상기 제1 데이터셋 획득단계(S110)로부터 획득된 OCT 이미지는 기 라벨링되어 해당 안과질환을 확인할 수 있는 상태이나, 상기 제2 데이터셋 획득단계(S130)로부터 획득된 OCT 이미지는 라벨링 되지 않은 것으로 해당 안과질환을 확인할 수 없는 상태이다. 그리고 상기 제2 데이터셋 라벨링단계(S140)는 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 각각의 OCT 이미지에 대해서 안과질환인 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 또는 정상일 확률의 형태로 결과가 출력되어 해당 결과가 라벨링될 수 있다.
다음으로, 상기 분류 데이터셋 생성단계(S150)는 라벨링된 상기 제2 데이터셋을 기 설정된 설정개수로 분류한 후 볼륨 데이터 형식의 다수 개의 분류 데이터셋이 생성될 수 있다.
본 발명의 일실시예에 따르면 상기 분류 데이터셋을 행렬 형태로 생성될 수 있고, 열의 항목은 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen) 또는 정상이고 행의 항목은 상기 설정개수만큼의 OCT 이미지이다. 만약, 상기 [표 1]과 같이 설정개수가 27개라면 항목을 제외하고 27행 4열로 행렬 형태의 분류 데이터셋이 생성될 수 있다. 즉, 본 발명에서 언급하는 볼륨 데이터 형식의 분류 데이터셋은 행렬 형태의 분류 데이터셋이다. 행과 열이 겹치는 각각의 칸에는 상기 제1 진단모델을 통해서 각각의 OCT 이미지가 라벨링된 안과질환에 대한 확률이 포함될 수 있다.
다음으로, 상기 제2 진단모델 학습단계(S160)는 피검사자의 다수 개의 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 다수 개의 분류 데이터셋이 이용되어 제2 진단모델이 학습될 수 있다.
즉, 상기 제1 진단모델은 단일 OCT 이미지에 대한 개별분류를 위한 것이라면, 상기 제2 진단모델은 다수 개의 OCT 이미지에 대한 집단분류를 위한 것이다. 도 6을 보면, 집단분류를 위해서 상기 제2 진단모델은, 완전연결(Fully-Connected; FC) 모델, 장단기 메모리(Long Short-Term Memory; LSTM) 모델 및 합성곱 신경망(Convolutional Neural Network; CNN) 모델 중 하나를 포함할 수 있다. 각 모델은 다수 개의 분류 데이터셋이 이용되어 각각 학습될 수 있다. 따라서 학습된 상기 제2 진단모델은 각 모델을 포함하는 만큼 다수 개의 OCT 이미지에 대한 집단분류의 결과를 다수 개 출력할 수 있다.
우선, 상기 제2 진단모델의 완전연결(FC) 모델은 소정의 네트워크 크기를 갖고 다수 개의 완전연결 층이 구비될 수 있다. 본 발명의 일실시예에 따르면 네트워크 크기가 256인 완전연결 층이 5개로 쌓여있을 수 있다. 그리고 한 층에서 다음 층으로 정보가 전달되기 전 배치 정규화(BN)와 ReLU 활성화 함수가 이용될 수 있다. 그리고 지역적 최적 문제를 방지하기 위해서 완전연결 층 간 드롭아웃(Dropout)이 설정될 수 있고, 마지막 완전연결 층은 객체를 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 중 하나로 분류하기 위해서 softmax 활성화 함수가 이용될 수 있다. 그리고 상기 제2 진단모델의 완전연결(FC) 모델에 사용된 손실 함수(Loss function)는 다중 분류 손실 함수(Categorical cross-entropy)가 이용될 수 있고, 경사 하강법 최적화 알고리즘(Gradient descent optimization algorithm)이 이용되어 학습될 수 있다. 따라서 상기 제2 진단모델의 완전연결(FC) 모델은 안과질환인 황반 변성(AMD), 당뇨성 황반부종(DME) 및 드루젠(Drusen)에 대한 확률의 형태로 결과를 얻을 수 있다.
또한, 상기 제2 진단모델의 장단기 메모리(LSTM) 모델은 상기 다수 개의 분류 데이터셋이 하나씩 입력될 수 있다. 이때, 상술한 바와 같이 하나의 분류 데이터셋 내에는 설정개수만큼의 OCT 이미지가 포함되어 있는데, 상기 장단기 메모리(LSTM) 모델은 하나의 분류 데이터셋 내 다수 개의 OCT 이미지가 연속적인 것으로 인식할 수 있다. 또한, 장단기 메모리(LSTM) 모델은 복수 개의 양방향 장단기 메모리(LSTM)와 복수 개의 완전연결(FC) 층을 포함할 수 있다. 본 발명의 일실시예에 따르면, 2개의 장단기 메모리(LSTM)를 포함하고, 첫 번째 층은 128, 두 번째 층은 256으로 네트워크 크기가 설정될 수 있다. 그리고 2개의 완전연결(FC) 층을 포함하고, 첫 번째 층은 정보 손실을 최소화하기 위해서 128, 두 번째 층은 3으로 네트워크 크기가 설정될 수 있다. 그리고 각 층 사이에는 드롭아웃(Dropout)이 설정될 수 있다. 마지막으로, 상기 장단기 메모리(LSTM) 모델의 마지막 완전연결 층은 객체를 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 중 하나로 분류하기 위해서 softmax 활성화 함수가 이용될 수 있다. 상기 장단기 메모리(LSTM) 모델은 손실 함수(Loss function)로써 평균 제곱근 함수와 경사 하강법 최적화 알고리즘(Gradient descent optimization algorithm)이 이용되어 학습될 수 있다.
또한, 상기 제2 진단모델의 합성곱 신경망(CNN) 모델은 상기 다수 개의 분류 데이터셋에 각각 포함된 다수 개의 OCT 이미지를 2차원 이미지로 간주할 수 있다. 그리고 합성곱 신경망(CNN) 모델 역시 다수 개의 층이 구비될 수 있다. 본 발명의 일실시예에 따르면 4개의 층이 구비될 수 있고, 층과 각 층 사이에 드롭아웃(Dropout)이 설정될 수 있다. 첫 번째 층과 세 번째 층이 64, 두 번째 층은 256 네트워크 크기를 가질 수 있고, 첫 번째 내지 세 번째 층에서는 ReLU 활성화 함수가 이용될 수 있다. 상기 합성곱 신경망(CNN)의 마지막 층은 객체를 노화성 황반 변성(AMD), 당뇨성 황반부종(DME), 드루젠(Drusen) 중 하나로 분류하기 위해서 softmax 활성화 함수가 이용될 수 있다.
실질적으로 다수의 의료진은 20여 장 남짓한 다수의 OCT 이미지를 각각 확인하고 각자가 판독한 결과를 공유하여 최종적으로 환자의 안과질환을 진단하게 된다. 다만, 다수의 의료진은 각자의 학습과 경험을 통해서 판독하게 됨으로 서로 상충되는 판독결과를 도출할 수 있고, 이에 따라 판독결과의 객관성이 떨어진다. 그리고 종래 딥러닝 모델은 단일 OCT 이미지를 통해서 하나의 판독결과를 도출함으로, 실질적으로 다수의 의료진이 판독결과를 제공하는 방식과 상이하고, 편파적인 판독결과가 나올 가능성이 높아 정확성이 떨어지는 문제점이 존재한다.
이러한 문제를 해결하기 위해서 본 발명의 상기 딥러닝 모델 학습단계(S100)는 제1 데이터셋을 통해서 제1 진단모델이 학습되고, 학습된 제1 진단모델을 통해서 제2 데이터셋이 라벨링되고, 라벨링된 제2 데이터셋이 설정개수로 분류된 분류 데이터셋을 통해서 제2 진단모델이 학습될 수 있다. 이에 따라, 다수 개의 OCT 이미지에 대한 집단분류가 가능하여 종합적인 안과질환에 대한 판단을 제공할 수 있는 딥러닝 모델을 제공할 수 있다.
다음으로, 상기 이미지 획득단계(S200)는 상기 적어도 하나의 프로세서(110)에 의하여, 피검사자의 다수 개의 OCT 이미지가 획득된다.
본 발명에서 언급하는 피검사자는 안과질환이 의심되거나, 안과질환을 조기에 확인하고자 하는 사람을 일컫는다.
피검사자의 다수 개의 OCT 이미지는 안구에서 망막과 황반의 수평/수직 단면이 OCT 장치를 통해서 촬영된 이미지일 수 있다. 본 발명의 일실시예에 따르면 피검사자의 안구 내 조직에서 3.9m 픽셀(Pixel)의 축 해상도와 5.7m 픽셀(Pixel)의 가로 해상도로 초당 40,000개가 촬영된 이미지일 수 있다. 그리고 해당 조직이 OCT 이미지 내 분류하고자 하는 객체일 수 있다.
다음으로, 상기 안과질환 진단단계(S300)는 상기 적어도 하나의 프로세서(110)에 의하여, 상기 딥러닝 모델에 피검사자의 다수 개의 OCT 이미지가 입력되어 안과질환 또는 정상일 확률을 진단결과로 출력한다.
상기 딥러닝 모델 내 제2 진단모델은 상술한 바와 같이 완전연결(Fully-Connected; FC) 모델, 장단기 메모리(Long Short-Term Memory; LSTM) 모델 및 합성곱 신경망(Convolutional Neural Network; CNN) 모델 중 하나를 포함할 수 있다. 상기 안과질환 진단단계(S300)는 임의의 분류 데이터셋 내 다수 개의 OCT 이미지가 입력되면 완전연결(FC) 모델에서 안과잘환 또는 정상일 확률을 FC 진단결과로 출력하고, 장단기 메모리(LSTM) 모델에서 안과질환 또는 정상일 확률을 LSTM 진단결과로 출력하고, 합성곱 신경망(CNN) 모델에서 안과질환 또는 정상일 확률을 CNN 진단결과로 출력할 수 있다.
만약, 하나의 모델만이 상기 제2 진단모델 내 포함된다면 다수 개의 OCT 이미지에 대한 집단분류의 결과를 하나만 출력할 수 있다. 또는, 각 모델이 상기 제2 진단모델에 포함되는 만큼 다수 개의 OCT 이미지에 대한 집단분류의 결과를 다수 개 출력할 수 있다. 상기 안과질환 진단단계(S300)는 집단분류의 결과가 다수 개가 출력되는 경우 FC 진단결과, LSTM 진단결과 및 CNN 진단결과에서 각 안과질환 또는 정상의 확률을 기반으로 피검사자의 최종 안과질환을 진단하는 진단결과를 출력할 수 있다.
따라서 본 발명에 의하면, 딥러닝 모델을 이용한 안과질환 진단 방법은 제1 데이터셋을 통해서 제1 진단모델이 학습되고, 학습된 제1 진단모델을 통해서 제2 데이터셋이 라벨링되고, 라벨링된 제2 데이터셋이 설정개수로 분류된 분류 데이터셋을 통해서 제2 진단모델이 학습됨으로써, 단일 OCT 이미지에 대한 개별분류가 아닌, 다수 개의 OCT 이미지에 대한 집단분류가 가능하여 종합적인 안과질환에 대한 진단결과를 제공할 수 있는 현저한 효과가 있다.
실시예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 기술 언어, 또는 이들의 임의의 조합에 의해 구현될 수 있다. 소프트웨어, 펌웨어, 미들웨어 또는 마이크로코드로 구현되는 경우, 필요한 작업을 수행하는 프로그램 코드 또는 코드 세그먼트들은 컴퓨터 판독 가능 저장 매체에 저장되고 하나 이상의 프로세서에 의해 실행될 수 있다.
그리고 본 명세서에 설명된 주제의 양태들은 컴퓨터에 의해 실행되는 프로그램 모듈 또는 컴포넌트와 같은 컴퓨터 실행 가능 명령어들의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈 또는 컴포넌트들은 특정 작업을 수행하거나 특정 데이터 형식을 구현하는 루틴, 프로그램, 객체, 데이터 구조를 포함한다. 본 명세서에 설명된 주제의 양태들은 통신 네트워크를 통해 링크되는 원격 처리 디바이스들에 의해 작업들이 수행되는 분산 컴퓨팅 환경들에서 실시될 수도 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 디바이스들을 포함하는 로컬 및 원격 컴퓨터 저장 매체에 둘 다에 위치할 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 으로 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (9)
- 적어도 하나의 프로세서에 의하여, 불특정 안과질환자의 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)되고 안과질환이 기 라벨링된 다수 개의 OCT 이미지가 제1 데이터셋으로 획득되는 제1 데이터셋 획득단계;상기 적어도 하나의 프로세서에 의하여, 피검사자의 단일 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 제1 데이터셋이 이용되어 제1 진단모델이 학습되는 제1 진단모델 학습단계;상기 적어도 하나의 프로세서에 의하여, 안과학 기반의 다수 개의 OCT 이미지가 제2 데이터셋으로 획득되는 제2 데이터셋 획득단계;상기 적어도 하나의 프로세서에 의하여, 학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 다수 개의 OCT 이미지가 라벨링(Labeling)되는 제2 데이터셋 라벨링단계;상기 적어도 하나의 프로세서에 의하여, 라벨링된 상기 제2 데이터셋을 기 설정된 설정개수로 분류한 후 볼륨 데이터 형식의 다수 개의 분류 데이터셋이 생성되는 분류 데이터셋 생성단계; 및상기 적어도 하나의 프로세서에 의하여, 피검사자의 다수 개의 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 다수 개의 분류 데이터셋이 이용되어 제2 진단모델이 학습되는 제2 진단모델 학습단계;를 포함하는 딥러닝 모델 학습 방법.
- 제1항에 있어서,상기 제1 진단모델은,전방에 다수 개의 밀집 블록(Dense block)을 포함하는 신경망 네트워크와 후방에 복수 개의 완전연결(Fully-Connected; FC) 층을 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
- 제1항에 있어서,상기 제2 진단모델은,완전연결(Fully-Connected; FC) 모델, 장단기 메모리(Long Short-Term Memory; LSTM) 모델 및 합성곱 신경망(Convolutional Neural Network; CNN) 모델 중 하나를 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
- 제1항에 있어서,상기 안과질환은,노화성 황반 변성(Age-related Macular Degeneration; AMD), 당뇨성 황반부종(Diabetic Macular Edema; DME) 및 드루젠(Drusen)을 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
- 적어도 하나의 프로세서에 의하여, 안구를 대상으로 광 간섭 단층 촬영(Optical Coherence Tomography; OCT)된 다수 개의 OCT 이미지에 대한 복수 개의 데이터셋이 이용되어 딥러닝 모델이 학습되는 딥러닝 모델 학습단계;상기 적어도 하나의 프로세서에 의하여, 피검사자의 다수 개의 OCT 이미지가 획득되는 이미지 획득단계; 및상기 적어도 하나의 프로세서에 의하여, 상기 딥러닝 모델에 피검사자의 다수 개의 OCT 이미지가 입력되어 안과질환 또는 정상일 확률을 진단결과로 출력하는 안과질환 진단단계;를 포함하고,상기 딥러닝 모델 학습단계는,불특정 안과질환자의 안구를 대상으로 광 간섭 단층 촬영(OCT)되고 안과질환이 기 라벨링된 다수 개의 OCT 이미지가 제1 데이터셋으로 획득되는 제1 데이터셋 획득단계;피검사자의 단일 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 제1 데이터셋이 이용되어 제1 진단모델이 학습되는 제1 진단모델 학습단계;안과학 기반의 다수 개의 OCT 이미지가 제2 데이터셋으로 획득되는 제2 데이터셋 획득단계;학습된 상기 제1 진단모델이 이용되어 상기 제2 데이터셋 내 다수 개의 OCT 이미지가 라벨링(Labeling)되는 제2 데이터셋 라벨링단계;라벨링된 상기 제2 데이터셋을 기 설정된 설정개수로 분류한 후 볼륨 데이터 형식의 다수 개의 분류 데이터셋이 생성되는 분류 데이터셋 생성단계; 및피검사자의 다수 개의 OCT 이미지로부터 안과질환을 진단할 수 있도록 상기 다수 개의 분류 데이터셋이 이용되어 제2 진단모델이 학습되는 제2 진단모델 학습단계;를 포함하는 것을 특징으로 하는 딥러닝 모델을 이용한 안과질환 진단 방법.
- 제 5항에 있어서,상기 제1 진단모델은,전방에 다수 개의 밀집 블록(Dense block)을 포함하는 신경망 네트워크와 후방에 복수 개의 완전연결(Fully-Connected; FC) 층을 포함하는 것을 특징으로 하는 딥러닝 모델을 이용한 안과질환 진단 방법.
- 제 5항에 있어서,상기 제2 진단모델은,완전연결(Fully-Connected; FC) 모델, 장단기 메모리(Long Short-Term Memory; LSTM) 모델 및 합성곱 신경망(Convolutional Neural Network; CNN) 모델 중 하나를 포함하는 것을 특징으로 하는 딥러닝 모델을 이용한 안과질환 진단 방법.
- 제 5항에 있어서,상기 안과질환은,노화성 황반 변성(Age-related Macular Degeneration; AMD), 당뇨성 황반부종(Diabetic Macular Edema; DME) 및 드루젠(Drusen)을 포함하는 것을 특징으로 하는 딥러닝 모델을 이용한 안과질환 진단 방법.
- 제1항 내지 제8항 중 어느 한 항의 딥러닝 모델 학습 방법 또는 딥러닝 모델을 이용한 안과질환 진단 방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0072515 | 2022-06-15 | ||
KR1020220072515A KR20230172106A (ko) | 2022-06-15 | 2022-06-15 | 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023244008A1 true WO2023244008A1 (ko) | 2023-12-21 |
Family
ID=89191639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2023/008178 WO2023244008A1 (ko) | 2022-06-15 | 2023-06-14 | 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20230172106A (ko) |
WO (1) | WO2023244008A1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018171177A (ja) * | 2017-03-31 | 2018-11-08 | 大日本印刷株式会社 | 眼底画像処理装置 |
KR101977645B1 (ko) * | 2017-08-25 | 2019-06-12 | 주식회사 메디웨일 | 안구영상 분석방법 |
KR20210026597A (ko) * | 2019-08-30 | 2021-03-10 | 국민대학교산학협력단 | 안구 영상 내 혈관 분할을 이용한 자동 질환 판단 장치 및 그 방법 |
JP2021164535A (ja) * | 2020-04-06 | 2021-10-14 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
-
2022
- 2022-06-15 KR KR1020220072515A patent/KR20230172106A/ko unknown
-
2023
- 2023-06-14 WO PCT/KR2023/008178 patent/WO2023244008A1/ko unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018171177A (ja) * | 2017-03-31 | 2018-11-08 | 大日本印刷株式会社 | 眼底画像処理装置 |
KR101977645B1 (ko) * | 2017-08-25 | 2019-06-12 | 주식회사 메디웨일 | 안구영상 분석방법 |
KR20210026597A (ko) * | 2019-08-30 | 2021-03-10 | 국민대학교산학협력단 | 안구 영상 내 혈관 분할을 이용한 자동 질환 판단 장치 및 그 방법 |
JP2021164535A (ja) * | 2020-04-06 | 2021-10-14 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
JIYEON KIM, YONGSEOP HAN, WOONGSUP LEE, TAESEEN KANG, SEONGJIN LEE, KYONG HOON KIM, YEONGSEOP LEE, JIN HYUN KIM: "Automated one-hot eye diseases diagnostic framework using deep-learning techniques", TRANSACTIONS OF THE KOREAN INSTITUTE OF ELECTRICAL ENGINEERS, KOREA, vol. 70, no. 7, 1 July 2021 (2021-07-01), KOREA , pages 1036 - 1043, XP009551579, ISSN: 1975-8359, DOI: 10.5370/KIEE.2021.70.7.1036 * |
Also Published As
Publication number | Publication date |
---|---|
KR20230172106A (ko) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Multi-modal retinal image classification with modality-specific attention network | |
Bawankar et al. | Sensitivity and specificity of automated analysis of single-field non-mydriatic fundus photographs by Bosch DR Algorithm—Comparison with mydriatic fundus photography (ETDRS) for screening in undiagnosed diabetic retinopathy | |
WO2019083129A1 (ko) | 피검체에 대한 안저 영상의 판독을 지원하는 방법 및 이를 이용한 장치 | |
Bader Alazzam et al. | [Retracted] Identification of Diabetic Retinopathy through Machine Learning | |
WO2019240567A1 (ko) | 전안부 질환 진단 시스템 및 이를 이용한 진단 방법 | |
WO2019231102A1 (ko) | 피검체의 안저 영상을 분류하는 방법 및 이를 이용한 장치 | |
Nasir et al. | Deep DR: detection of diabetic retinopathy using a convolutional neural network | |
WO2020231007A2 (ko) | 의료기계 학습 시스템 | |
WO2019098415A1 (ko) | 자궁경부암에 대한 피검체의 발병 여부를 판정하는 방법 및 이를 이용한 장치 | |
WO2022085986A1 (ko) | 안과 질환 진단을 위한 딥러닝 기반의 안저 영상 분류 장치 및 방법 | |
Wang et al. | Transfer learning for retinal vascular disease detection: a pilot study with diabetic retinopathy and retinopathy of prematurity | |
Reethika et al. | Diabetic retinopathy detection using statistical features | |
Kamal et al. | A comprehensive review on the diabetic retinopathy, glaucoma and strabismus detection techniques based on machine learning and deep learning | |
Cardozo et al. | Dataset of fundus images for the diagnosis of ocular toxoplasmosis | |
WO2023244008A1 (ko) | 딥러닝 모델 학습 방법, 딥러닝 모델을 이용한 안과질환 진단 방법 및 이를 수행하는 프로그램이 기록된 컴퓨터 판독이 가능한 기록매체 | |
Ali et al. | Cataract disease detection used deep convolution neural network | |
Mugglestone et al. | Diagnostic performance on briefly presented mammographic images | |
WO2020246676A1 (ko) | 자궁경부암 자동 진단 시스템 | |
Lokuarachchi et al. | Detection of red lesions in retinal images using image processing and machine learning techniques | |
CN111951950B (zh) | 基于深度学习的三维数据医疗分类系统 | |
Rajesh et al. | A comprehensive review on automatic diagnosis of diabetic maculopathy in retinal fundus images | |
Kiresur et al. | Automatic detection of diabetic retinopathy in fundus image: a survey | |
Gandhimathi et al. | Detection of neovascularization in proliferative diabetic retinopathy fundus images. | |
Joshi et al. | Automated detection of malarial retinopathy in retinal fundus images obtained in clinical settings | |
WO2023140469A1 (ko) | 병적 근시 진단 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23824222 Country of ref document: EP Kind code of ref document: A1 |