WO2023182785A1 - 학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템 - Google Patents

학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템 Download PDF

Info

Publication number
WO2023182785A1
WO2023182785A1 PCT/KR2023/003751 KR2023003751W WO2023182785A1 WO 2023182785 A1 WO2023182785 A1 WO 2023182785A1 KR 2023003751 W KR2023003751 W KR 2023003751W WO 2023182785 A1 WO2023182785 A1 WO 2023182785A1
Authority
WO
WIPO (PCT)
Prior art keywords
diagnostic
value
values
model
image
Prior art date
Application number
PCT/KR2023/003751
Other languages
English (en)
French (fr)
Inventor
신규보
김종찬
Original Assignee
주식회사 타이로스코프
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 타이로스코프 filed Critical 주식회사 타이로스코프
Publication of WO2023182785A1 publication Critical patent/WO2023182785A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/14Arrangements specially adapted for eye photography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Definitions

  • the present invention relates to a disease diagnosis method using a learned model and a system for performing the same.
  • diagnosis results may differ depending on the experience or inclination of the medical professional.
  • a diagnostic model is created for each medical practitioner, and if necessary, the final predicted disease diagnosis value is selected by a majority vote of the result values of each diagnostic model.
  • the problem that the contents disclosed by this application are intended to solve is to provide a learning model that can reduce accuracy loss while considering judgment values for each diagnostic subject.
  • Another problem that the contents disclosed by this application are intended to solve is to provide a learning model that can predict diseases using images acquired with a digital camera that can be used by the general public rather than a professional medical diagnostic device.
  • Another problem that the contents disclosed by this application are intended to solve is to provide a system that allows the general public to monitor the clinical activity score for thyroid ophthalmopathy without the help of a doctor and without visiting the hospital directly.
  • acquiring a face image including an eye area Obtaining a plurality of result values using the facial image and a diagnostic model predicting eye-related symptoms, the plurality of result values including a plurality of prediction values and one sum prediction value; and determining whether the eye-related symptom exists based on the predicted sum of the plurality of result values, wherein the diagnostic model is configured to allow two or more different diagnostic subjects to diagnose the same diagnostic subject in one diagnostic image.
  • a plurality of judgment values that independently determine whether the eye-related symptom exists and a consensus value that determines the eye-related symptom by mutual agreement between the diagnostic subjects on the same diagnosis object are generated using multi-labeled learning data, and the plurality of judgment values that independently determine whether the eye-related symptom exists are
  • a symptom prediction method can be provided.
  • the sum value may correspond to a small number of decision values among the plurality of decision values.
  • the loss weight for the node from which the consensus prediction value is output may be set higher than the loss weight for each node from which the prediction values are output.
  • the step of obtaining the plurality of result values includes performing preprocessing on an eye region on the face image; and obtaining the plurality of result values using the preprocessed image and the diagnostic model.
  • the step of performing the preprocessing includes masking the pupils and skin for the face image when the eye-related symptom is at least one of the conjunctival hyperemia, the conjunctival edema, and the tear hill edema. It may include performing pre-processing, and if the eye-related symptom is at least one of eyelid edema and eyelid redness, pre-processing of masking an eye region for the face image.
  • the diagnostic subjects are three ophthalmologists with more than 15 years of experience, and the judgment values may include three values corresponding to each of the diagnostic subjects.
  • At least one of the judgment values and the sum value may be a value that the diagnostic subjects determine whether the eye-related symptom exists by actually facing the diagnostic subject.
  • At least one of the judgment values and the sum value may be a value at which the diagnostic subjects determine whether the eye-related symptom exists through a facial image of the diagnostic subject.
  • the consensus value may be determined after the diagnostic subjects respectively determine the judgment values.
  • the diagnostic model includes Convolution Neural Network (CNN), Vision Transformer, Support Vector Machine (SVM), Random Forest, Gradient Boosting Algorithm, Artificial Neural Network (ANN), and Deep Neural Network (DNN). ), RNN (Recurrent Neural Network), ResNet, VGG, GoogLeNet, and MobileNet.
  • CNN Convolution Neural Network
  • SVM Support Vector Machine
  • SVM Random Forest
  • Gradient Boosting Algorithm Artificial Neural Network
  • ANN Artificial Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • ResNet ResNet
  • VGG GoogLeNet
  • MobileNet MobileNet
  • the judgment values of each of the plurality of diagnostic subjects It is possible to create a diagnostic model that can reduce accuracy loss while taking these into account.
  • a diagnostic model capable of predicting the occurrence of a disease can be created using images acquired with a digital camera that can be used by the general public rather than a professional medical diagnostic device.
  • FIG. 1 is a diagram illustrating a system for diagnosing a disease according to an embodiment.
  • Figure 2 is a block diagram showing the configuration of a user device according to an embodiment.
  • Figure 3 is a diagram showing the configuration of a server according to one embodiment.
  • FIG. 4 is a diagram illustrating a process for obtaining a judgment value for each diagnostic subject according to an embodiment.
  • FIG. 5 is a diagram illustrating a process for obtaining an agreement value from a plurality of diagnostic subjects according to an embodiment.
  • FIG. 6 is a diagram illustrating learning data used to learn a diagnostic model according to an embodiment.
  • FIG. 7 is a diagram illustrating a process for predicting a disease using a learned diagnostic model according to an embodiment.
  • FIG. 8 is a diagram illustrating learning data used to learn a diagnostic model according to an embodiment.
  • FIG. 9 is a diagram illustrating a process for predicting a disease using a learned diagnostic model according to an embodiment.
  • FIG. 10 is a diagram illustrating learning data used to learn a diagnostic model according to an embodiment.
  • FIG. 11 is a diagram illustrating a process for predicting a disease using a learned diagnostic model according to an embodiment.
  • Figure 12 is a diagram showing a system for predicting a clinical activity score for thyroid ophthalmopathy according to an embodiment.
  • FIG. 13 and 14 are diagrams for explaining an image pre-processing process according to an embodiment.
  • Numbers (eg, first, second, etc.) used in the description of this specification are merely identifiers to distinguish one component from another component.
  • a specific process sequence may be performed differently from the described sequence.
  • two processes described in succession may be performed substantially at the same time, or may be performed in an order opposite to that in which they are described.
  • acquiring a face image including an eye region Obtaining a plurality of result values using the facial image and a diagnostic model predicting eye-related symptoms, the plurality of result values including a plurality of prediction values and one sum prediction value; and determining whether the eye-related symptom exists based on the predicted sum of the plurality of result values, wherein the diagnostic model is configured to allow two or more different diagnostic subjects to diagnose the same diagnostic subject in one diagnostic image.
  • a plurality of judgment values that independently determine whether the eye-related symptom exists and a consensus value that determines the eye-related symptom by mutual agreement between the diagnostic subjects on the same diagnosis object are generated using multi-labeled learning data, and the plurality of judgment values that independently determine whether the eye-related symptom exists are
  • a symptom prediction method can be provided.
  • the sum value may correspond to a small number of decision values among the plurality of decision values.
  • the loss weight for the node from which the consensus prediction value is output may be set higher than the loss weight for each node from which the prediction values are output.
  • the step of obtaining the plurality of result values includes performing preprocessing on an eye region on the face image; and obtaining the plurality of result values using the preprocessed image and the diagnostic model.
  • the step of performing the preprocessing includes masking the pupils and skin for the face image when the eye-related symptom is at least one of the conjunctival hyperemia, the conjunctival edema, and the tear hill edema. It may include performing pre-processing, and if the eye-related symptom is at least one of eyelid edema and eyelid redness, pre-processing of masking an eye region for the face image.
  • the diagnostic subjects are three ophthalmologists with more than 15 years of experience, and the judgment values may include three values corresponding to each of the diagnostic subjects.
  • At least one of the judgment values and the sum value may be a value that the diagnostic subjects determine whether the eye-related symptom exists by actually facing the diagnostic subject.
  • At least one of the judgment values and the sum value may be a value at which the diagnostic subjects determine whether the eye-related symptom exists through a facial image of the diagnostic subject.
  • the consensus value may be determined after the diagnostic subjects respectively determine the judgment values.
  • the diagnostic model includes Convolution Neural Network (CNN), Vision Transformer, Support Vector Machine (SVM), Random Forest, Gradient Boosting Algorithm, Artificial Neural Network (ANN), and Deep Neural Network (DNN). ), RNN (Recurrent Neural Network), ResNet, VGG, GoogLeNet, and MobileNet.
  • CNN Convolution Neural Network
  • SVM Support Vector Machine
  • SVM Random Forest
  • Gradient Boosting Algorithm Artificial Neural Network
  • ANN Artificial Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • ResNet ResNet
  • VGG GoogLeNet
  • MobileNet MobileNet
  • FIG. 1 is a diagram illustrating a diagnostic system 10 for diagnosing a disease according to an embodiment.
  • the diagnostic system 10 may perform disease diagnosis using information obtained on a person.
  • Information acquired about people may be of various types.
  • information acquired about a person may include various types of information, such as images of the entire or part of the person's body, sounds generated by the person, the person's biological signals, information related to the person's biological reactions, and information related to the person's behavior. It can be.
  • the diagnostic system 10 may predict the presence of a disease using an image taken of at least part of the user's body and a learned diagnostic model.
  • the diagnostic system 10 can predict the presence of a disease using sounds generated from the user's body and a learned diagnostic model.
  • the diagnostic system 10 may predict the presence of ophthalmopathy using a facial image taken of the user's face and a learned ophthalmopathy diagnosis model, but is not limited to this.
  • the diagnostic system 10 may include a user device 100 and a server 200.
  • User device 100 is a device that interacts directly and/or indirectly with a user.
  • the user device 100 may generate a diagnostic image by photographing a diagnostic target, which is at least a part of the user's body.
  • the user device 100 may transmit a diagnostic image captured by a diagnosis subject to the server 200, which will be described later. Specifically, the user device 100 may transmit a diagnostic image to the server 200 through wired and/or wireless data communication, and may also transmit the diagnostic image to the server 200 through another external device.
  • the user device 100 may receive information related to the diagnosis result from the server 200.
  • the user device 100 may provide information obtained from the server 200 to the user in a visual and/or auditory manner.
  • the user device 100 may include a user input device and/or a photographing device such as a smart phone, tablet, desktop, laptop, or digital camera.
  • a photographing device such as a smart phone, tablet, desktop, laptop, or digital camera.
  • the server 200 may predict the presence or absence of a disease and/or symptom for a diagnostic image using the learned diagnostic model.
  • the diagnostic image may be received directly from the user device 100, or may be received through an external device such as a relay device and/or another external server.
  • the server 200 may transmit the prediction result to the user device 100 and/or another external device.
  • the server 200 may obtain and store a diagnostic model learned from an external device. It is not limited to this, and the server 200 may generate a diagnostic model using a diagnostic image labeled with a label value as learning data.
  • server 200 and the user device 100 are described as being distinct from each other, the server 200 and the user device 100 may be implemented as one device.
  • Figure 2 is a block diagram showing the configuration of the user device 100 according to one embodiment.
  • the user device 100 may include a camera 110, a communication device 120, a user interface 130, a memory 140, and a processor 150.
  • the camera 110 is a digital camera and may include an image sensor and an image processing unit.
  • An image sensor is a device that converts an optical image into an electrical signal and may be composed of a chip with multiple photo diodes integrated.
  • the image sensor may include a charge coupled device (CCD), a complementary metal oxide semiconductor (CMOS), etc.
  • the image processing unit may process the captured results to generate image information.
  • the communication device 120 may transmit data and/or information to or receive data and/or information from the outside through wired and/or wireless communication.
  • the communication device 120 can perform bi-directional or unidirectional communication.
  • Communication device 120 may include a wireless communication module and/or a wired communication module.
  • the wireless communication module may include a Wi-Fi communication module, a cellular communication module, etc.
  • the user interface 130 may output various information according to control commands of the processor 150.
  • the user interface 130 may include a display that visually outputs information to the user.
  • the user interface 130 may include a speaker that audibly outputs information to the user.
  • the user interface 130 may include a vibration motor that tactilely outputs information to the user.
  • the user device 100 may receive various information required for operation of the user device 100 from the user through the user interface 130.
  • the user device 100 may receive information related to a disease and/or symptom from the user through the user interface 130, but is not limited thereto.
  • the memory 140 may store various processing programs, parameters for processing the programs, or data resulting from such processing.
  • the memory 140 may store instructions for operating the processor 150, which will be described later, and execution codes for implementing various preprocessing algorithms and/or learning models for diagnostic images.
  • the memory 140 may store diagnostic images acquired through the camera 110 and preprocessed diagnostic images.
  • the memory 140 includes non-volatile semiconductor memory, hard disk drive (HDD), solid state disk (SSD), silicon disk drive (SDD), flash memory, random access memory (RAM), read only memory (ROM), and EEPROM ( It can be implemented as Electrically Erasable Programmable Read-Only Memory) or other tangible, non-volatile recording media.
  • HDD hard disk drive
  • SSD solid state disk
  • SDD silicon disk drive
  • flash memory random access memory
  • RAM random access memory
  • ROM read only memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • the processor 150 can control the overall operation of the user device 100 and can operate according to instructions stored in the memory 140.
  • the processor 150 may control the camera 110 to capture a diagnostic image and store the diagnostic image in the memory 140 .
  • Diagnostic images may include all images related to the patient, such as body parts, face images, eye images, and full body images.
  • the processor 150 may process the diagnostic image using a preprocessing algorithm and/or a learning model stored in the memory 140.
  • the processor 150 may use different preprocessing algorithms and/or learning models depending on the diagnosis target, disease type, and symptom type. For example, if the symptom is related to the eyes, the processor 150 may perform preprocessing, such as cropping and/or masking part of the image so that the eye area is clearly visible. It is not limited to this, and the processor 150 may perform various preprocessing such as color correction and/or brightness correction of the image.
  • the processor 150 may transmit the image and/or the preprocessed image to the server 200 and/or an external device through the communication device 120.
  • the processor 150 may provide information received from the server 200 and/or an external device to the user through the output device 130.
  • the processor 150 includes a central processing unit (CPU), a graphics processing unit (GPU), a digital signal processor (DSP), a state machine, and a custom semiconductor (Application). It can be implemented with Specific Integrated Circuit (ASIC), Radio-Frequency Integrated Circuit (RFIC), and combinations thereof.
  • CPU central processing unit
  • GPU graphics processing unit
  • DSP digital signal processor
  • Application a state machine
  • ASIC Specific Integrated Circuit
  • RFIC Radio-Frequency Integrated Circuit
  • Figure 3 is a diagram showing the configuration of the server 200 according to one embodiment.
  • the server 200 may include a communication device 210, a memory 220, and a processor 230.
  • the communication device 210 may transmit and/or receive data and/or information externally through wired and/or wireless communication.
  • the communication device 210 can perform bi-directional or unidirectional communication.
  • Communication device 210 may include a wireless communication module and/or a wired communication module.
  • the wireless communication module may include a Wi-Fi communication module, a cellular communication module, etc.
  • the memory 220 may store various processing programs, parameters for performing processing of programs, parameters for performing such processing, or data resulting from such processing.
  • the memory 220 may store instructions for operating the processor 230, which will be described later, and execution codes for implementing various preprocessing algorithms and/or learning models for diagnostic images.
  • the preprocessing algorithm and/or learning model may include various preprocessing algorithms and/or learning models depending on the diagnosis target and/or disease.
  • the memory 220 may store diagnostic images received from the user device 100 and/or an external device.
  • the received diagnostic image may be a preprocessed image.
  • the learning model stored in the memory 220 may include a diagnostic model for predicting the presence or absence of a disease and/or symptom for a diagnostic image.
  • the memory 220 may store various types of diagnostic models for each diagnosis subject and/or diagnosis disease. Furthermore, the memory 220 may store various types of diagnostic models for the same disease. For example, a plurality of diagnostic models for diagnosing conjunctival congestion may be stored, and each diagnostic model may be a diagnostic model created using different algorithms and/or learning data.
  • the diagnostic model stored in the memory 220 may be a diagnostic model received from an external source or may be a diagnostic model generated by the server 200.
  • the memory 220 may store learning data and model creation algorithms used to create a diagnostic model. Specific details about the learning data will be described later.
  • the memory 220 includes non-volatile semiconductor memory, hard disk drive (HDD), solid state disk (SSD), silicon disk drive (SDD), flash memory, random access memory (RAM), read only memory (ROM), and EEPROM ( It can be implemented as Electrically Erasable Programmable Read-Only Memory) or other tangible, non-volatile recording media.
  • HDD hard disk drive
  • SSD solid state disk
  • SDD silicon disk drive
  • flash memory random access memory
  • RAM random access memory
  • ROM read only memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • the processor 230 can control the overall operation of the server 200 and can operate according to instructions stored in the memory 220.
  • the processor 230 may use the diagnostic model stored in the memory 220 to predict whether a disease and/or symptom exists in the diagnosis subject shown in the diagnostic image.
  • the processor 230 may generate various types of prediction results by applying different diagnostic models to one diagnostic image. As an example, the processor 230 uses each diagnostic model to diagnose conjunctival redness, conjunctival edema, eyelid redness, eyelid edema, and tear hill edema for one eye image to determine whether conjunctival redness and conjunctival edema are present. Various types of prediction results can be generated, such as eyelid redness, eyelid edema, and tear mound edema.
  • the processor 230 may generate various types of prediction results by applying one diagnostic model that predicts multiple types of diseases and/or symptoms to one diagnostic image.
  • the processor 230 uses a diagnostic model to diagnose at least two of conjunctival redness, conjunctival edema, redness of the eyelids, edema of the eyelids, and edema of the tear hill for one eye image. At least two or more prediction results can be generated among conjunctival edema, eyelid redness, eyelid edema, and tear hill edema.
  • the processor 230 may determine a diagnostic model to use for prediction based on the diagnostic image. For example, when the processor 230 determines that the diagnostic image is a face image, the processor 230 determines a diagnostic model that predicts a disease and/or symptom related to the face, and uses the determined diagnostic model to determine the disease and/or Symptoms can be predicted.
  • the processor 230 may perform preprocessing on the diagnostic image before using the diagnostic model.
  • the processor 230 may perform preprocessing on the diagnostic image using different preprocessing algorithms depending on the diagnosis subject and/or the diagnosed disease.
  • the processor 230 may crop only the face area in the diagnostic image when the diagnostic object and/or diagnostic disease is related to the user's face, and when the diagnostic object and/or diagnostic disease is related to the user's eyes, the processor 230 may crop only the facial area in the diagnostic image. You can crop only the eye area in the image.
  • the processor 230 may generate a diagnosis result based on a prediction result obtained using a diagnosis model.
  • the processor 230 uses each diagnostic model to diagnose conjunctival redness, conjunctival edema, eyelid redness, eyelid edema, and tear trough edema for eye images to determine whether conjunctival redness, conjunctival edema, Prediction results for eyelid redness, eyelid edema, and tear hill edema are obtained, and based on the obtained prediction results, diagnostic results including the Clinical Activity Score (CAS) for thyroid ophthalmopathy are obtained. can be created.
  • CAS Clinical Activity Score
  • the processor 230 may transmit the presence of a disease and/or diagnosis results to the user device 100 and/or an external device through the communication device 210.
  • the processor 230 may generate a diagnostic model using learning data and a model creation algorithm stored in the memory 220. Details related to the creation of a diagnostic model using learning data will be described later.
  • the processor 230 includes a central processing unit (CPU), a graphics processing unit (GPU), a digital signal processor (DSP), a state machine, and a custom semiconductor (Application). It can be implemented with Specific Integrated Circuit (ASIC), Radio-Frequency Integrated Circuit (RFIC), and combinations thereof.
  • CPU central processing unit
  • GPU graphics processing unit
  • DSP digital signal processor
  • Application a custom semiconductor
  • ASIC Specific Integrated Circuit
  • RFIC Radio-Frequency Integrated Circuit
  • the multi-label model may be a model created using training data in which a plurality of judgment values determined by each of a plurality of diagnostic subjects and a single sum value for one diagnostic image are multi-labeled.
  • a diagnostic image may refer to an image in which a diagnostic object appears.
  • a diagnostic image may be an image taken by a user of all or part of the user's body using a user device. It is not limited to this, and the diagnostic image may refer to various types of images showing the object to be diagnosed, such as camera images, X-ray images, CT (Computed Tomography) images, and MRI (Magnetic Resonance Imaging).
  • the diagnosis object may refer to an analysis object for determining the user's condition related to the disease and/or symptom.
  • the diagnosis target may be various types of objects such as the user's arms, legs, face, torso, and internal organs.
  • the diagnosis target may be determined more specifically, and may be determined in various ways and specifically depending on the disease to be diagnosed, such as the cornea, eyelid, and iris of the face.
  • a diagnostic subject may refer to a subject that derives information related to a disease and/or symptom from a diagnostic image.
  • the diagnosis subject may be a medical staff member, clinical manager, etc., but is not limited thereto.
  • the diagnosing subject may be determined from among subjects with a certain level of experience depending on the diagnosis subject and/or the diagnosed disease. For example, the average diagnostic accuracy of ophthalmologists with more than 15 years of experience in diagnosing ophthalmopathy is about 86.24%, the average diagnostic accuracy of full-time ophthalmologists with less than 5 years of experience is about 73.27%, and the average accuracy of ophthalmology residents is about 73.27%. It was confirmed through the survey that it was 56.04%. Accordingly, the diagnostic subject who derives information related to the disease and/or symptom to be used for learning a diagnostic model with ophthalmopathy as a diagnostic symptom is an ophthalmologist with more than 15 years of experience to ensure the accuracy of the diagnostic model. This may be desirable.
  • the judgment value may refer to information about the presence or absence of a disease and/or symptom determined by an individual diagnostic entity by independently analyzing a diagnostic image. For example, if the diagnostic image is an eye image and the target disease is conjunctival congestion, the judgment value may be information about whether the conjunctiva is congested.
  • the judgment value may be expressed as positive or negative for the disease and/or symptom, but is not limited thereto.
  • the judgment value may be expressed as the presence/absence of a disease, may be expressed as true or false, may be expressed as 1 or 0, or may be expressed as one of values divided into a plurality of classes.
  • the judgment value is determined by the diagnostic subject by independently analyzing the diagnostic image, and the judgment value may be different for each diagnostic subject.
  • the judgment value may be determined by the diagnosis subject face to face with the actual user.
  • the diagnosis subject may determine the judgment value by visually checking the actual user.
  • the diagnostic image may be obtained from the user after the diagnostic subject determines the judgment value, or may be obtained from the user before the diagnostic subject actually faces the user.
  • the consensus value may refer to information about the presence of a disease and/or symptom determined by a plurality of diagnostic subjects jointly analyzing and agreeing on the diagnostic image.
  • the consensus value may be a value determined by a plurality of diagnostic subjects discussing the same diagnostic image at the same time and/or in the same space.
  • the plurality of diagnostic subjects that determine the consensus value may mean the same diagnostic subject as the diagnostic subject that determined the judgment values. That is, a plurality of diagnostic subjects may independently analyze the diagnostic image to first determine judgment values, and then reach mutual agreement to determine a single consensus value.
  • the consensus value can be expressed in the same form as the judgment value.
  • the sum value may be expressed as positive or negative for the disease and/or symptom, but is not limited thereto.
  • the consensus value may be expressed as the presence/absence of a disease, may be expressed as true or false, may be expressed as 1 or 0, or may be expressed as one of values distinguished into a plurality of classes.
  • the consensus value may be determined by multiple diagnostic entities face to face with the actual user.
  • a plurality of diagnostic entities may visually check and discuss actual users to determine an agreement value.
  • the plurality of diagnostic entities may first independently analyze the actual user to determine a judgment value, and then discuss and agree with each other to determine the consensus value.
  • the diagnostic image may be obtained from the user after the plurality of diagnostic subjects have decided on the consensus value, or may be obtained from the user first before the plurality of diagnostic subjects actually face the user.
  • the label value refers to the value labeled in the diagnostic image when generating learning data used to create a diagnostic model. That is, the learning data may include a diagnostic image as learning input data and a label value as learning result data.
  • the label value may be the judgment value and/or the consensus value itself. It is not limited to this, and the label value may be a value determined based on a judgment value and/or a consensus value. For example, if the judgment value and/or the consensus value is a value indicating positive, the label value may be a value of 1, and if the judgment value and/or the consensus value is a value indicating negative, the label value may be a value of 0.
  • the specific label value is not limited to this and may be determined in various ways depending on the algorithm design of the diagnostic model.
  • the entity that determines the label value may be different from the diagnostic entity.
  • an artificial intelligence engineer may determine the label value based on the diagnostic subjects' judgment values and consensus values.
  • the server may determine a label value based on the judgment and consensus values and perform the task of labeling the diagnostic image.
  • the judgment values and the consensus value may be at least three, and the diagnostic image may be multi-labeled with at least three label values as learning data to be used to create a diagnostic model.
  • FIG. 4 is a diagram illustrating a process for obtaining a judgment value for each diagnostic subject according to an embodiment.
  • a plurality of diagnostic subjects 321, 322, and 323 independently diagnose a condition related to a disease and/or symptom with respect to the same diagnostic image 310 and provide their respective judgment values 331, 332, and 333. ) can be determined.
  • the judgment values 331, 332, and 333 are values determined independently by a plurality of diagnostic subjects 321, 322, and 323, and thus may be different values.
  • the first diagnosis subject 321 and the second diagnosis subject 322 may determine the test to be positive, and the third diagnosis subject 323 may judge the test to be negative.
  • FIG. 4 three diagnostic subjects 321, 322, and 323 are shown, but the present invention is not limited to this, and there may be two or four or more diagnostic subjects.
  • FIG. 5 is a diagram illustrating a process for obtaining an agreement value from a plurality of diagnostic subjects according to an embodiment.
  • a plurality of diagnostic subjects 321, 322, and 323 may mutually agree on a condition related to a disease and/or symptom for the diagnostic image 310 and determine a single consensus value 340.
  • a plurality of diagnostic subjects 321, 322, and 323 that diagnose the diagnostic image 310 in FIG. 5 and determine a consensus value 340 independently diagnose the diagnostic image 310 in FIG. 4 and determine the judgment values 331 and 332. , 333) may be the same as the plurality of diagnostic subjects (321, 322, 323) that decided.
  • the diagnostic image 310 diagnosed by a plurality of diagnostic subjects 321 , 322 , and 323 is used to determine the judgment values 331 , 332 , and 333 in FIG. 4 . It may be the same diagnostic image as the used diagnostic image 310.
  • each diagnostic subject (321, 322, 323) independently determines the judgment value (331, 332, 333) for whether the disease exists, and the same diagnostic subject (321, 322, 323)
  • a consensus value 340 can be determined by agreeing on whether the same diagnostic image 310 has a disease.
  • the diagnostic subjects 321, 322, and 323 may agree with each other at the same time and/or in the same space.
  • the consensus value 340 may be determined by a majority vote of the diagnostic entities 321, 322, and 323, or the minority judgment may determine the consensus value ( 340).
  • the consensus value 340 may be determined by a majority vote of the judgment values 331, 332, and 333 of the diagnostic subjects 321, 322, and 323.
  • FIG. 6 is a diagram illustrating learning data used to learn a diagnostic model according to an embodiment.
  • the learning data 350 used to generate the diagnostic model includes a diagnostic image 310, a plurality of judgment values 331, 332, and 333 labeled in the diagnostic image 310, and a sum value 340. may include. That is, the learning data 350 may be generated by multi-labeling the diagnostic image 310 with a plurality of data 360 including a plurality of judgment values 331, 332, and 333 and a consensus value 340.
  • multi-labeling means matching the judgment values (331, 332, 333) and the consensus value (340) of multiple diagnostic subjects (321, 322, 323) for the same symptom to one diagnostic image (310). You can.
  • the diagnostic image 310 may be learning input data
  • the plurality of multi-labeled judgment values 331, 332, 333 and the consensus value 340 may be learning result data.
  • the decision values 331, 332, and 333 and the sum value 340 themselves are shown as labeled in the diagnostic image 310, but the present invention is not limited thereto.
  • Label values corresponding to each of the judgment values 331, 332, and 333 and the consensus value 340 may be labeled in the diagnostic image 310.
  • the value 1 is determined as a label value for the value determined to have a disease
  • the value 0 is determined to be the label value for the value determined not to have a disease, so that the diagnostic image 310 can be labeled. .
  • the diagnostic image 310 may be labeled with the value [1, 0, 0, 1], but the specific label value and labeling method are not limited thereto.
  • the same diagnostic image 310 as the diagnostic image 310 used for diagnosis by a plurality of diagnostic subjects 321, 322, and 323 in FIGS. 4 and 5 is shown as being used as learning data, but the data is limited thereto. That is not the case.
  • the diagnostic image 310 used as learning data may be a diagnostic image on which separate preprocessing has been performed.
  • the diagnostic image used by multiple diagnostic subjects to diagnose a disease may be an image of the entire face, but if the disease is eye-related, the diagnostic image used as learning data is a crop of the eye area among the images of the entire face. It could be just one image.
  • diagnostic image itself to facilitate judgment, and when creating a diagnostic model, separate preprocessing is performed on the diagnostic image to exclude unnecessary judgment elements on the diagnostic image.
  • the accuracy of the generated diagnostic model can be improved.
  • the first to third judgment values 331, 332, 333 and the sum value 340 for one type of disease and/or symptom are shown as labeled on the diagnostic image 310. It is not limited. Decision values and a consensus value for at least two types of diseases and/or symptoms may be labeled in one diagnostic image.
  • the first to third judgment values and the first sum value for the first disease, and the fourth to sixth judgment values and the second sum value for the second disease may be multi-labeled in one diagnostic image.
  • the judgment values and the third consensus value may be multiple labeled in one diagnostic image, and the specific number of diseases is not limited to the above-mentioned range.
  • FIG. 7 is a diagram illustrating a process for predicting a disease using a learned diagnostic model according to an embodiment.
  • the diagnostic model 410 may be configured to output a plurality of prediction values 431, 432, 433, and 440 for the input diagnostic image 420.
  • the diagnostic model 410 includes prediction values 431, 432, 433 corresponding to the judgment values of each of the plurality of diagnostic subjects for the input diagnostic image 420, and a consensus corresponding to the sum of the plurality of diagnostic subjects. It may be configured to output a predicted value 440.
  • the diagnostic model 410 is
  • CNN Convolution Neural Network
  • Vision Transformer SVM (Support Vector Machine), Random Forest, Gradient Boosting Algorithm
  • ANN Artificial Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • ResNet VGG
  • GoogLeNet GoogLeNet and/or may be a model created using an algorithm such as MobileNet.
  • the diagnostic image 420 input to the diagnostic model 410 may be a diagnostic image that has undergone separate preprocessing performed on the diagnostic image used as learning data. That is, before inputting a diagnostic image into the diagnostic model 410, preprocessing is first performed on the diagnostic image, and the preprocessed diagnostic image may be input into the diagnostic model 410.
  • the diagnostic model 410 may be created using the learning data 350 described in FIG. 6, and during the learning process, the weight for the loss value may be set differently for each output node. Specifically, in learning the diagnostic model 410, the same loss weight may be set for each of a plurality of output nodes, but the loss weight may be set high for the output node corresponding to the consensus predicted value. For example, when there are four output nodes as shown in FIG. 7, each loss weight may be set to 0.25, but the loss weight for the node corresponding to the consensus prediction value 440 is set to 0.7 and the other prediction values ( The loss weights for nodes corresponding to 431, 432, and 433) may each be set to 0.1.
  • the loss weight for the node corresponding to the consensus prediction value 440 may be set to 0.5 and the loss weight for the nodes corresponding to the other prediction values 431, 432, and 433 may be set to 0.5/3, respectively.
  • the specific value for the loss weight is not limited to the above-described value, and the specific value for the loss weight may be determined by appropriately adjusting the value through experiment.
  • first to third prediction values 431, 432, 433 and a consensus prediction value 440 for one type of disease and/or symptom are shown as output from the diagnostic model 410. It is not limited to this. Predicted values and a sum predicted value for each of at least two or more types of diseases and/or symptoms may be output from one diagnostic model.
  • the diagnostic model uses a diagnostic image in which the first to third judgment values and the first consensus value for the first disease and the fourth to sixth judgment values and the second consensus value for the second disease are multi-labeled. When created, the diagnostic model can output prediction values and a consensus prediction value for each of the two types of diseases.
  • the diagnostic model may include first to third judgment values and a first consensus value for a first disease, fourth to sixth judgment values and a second consensus value for a second disease, and a first consensus value for a third disease.
  • the diagnostic model can output prediction values and a consensus prediction value for each of the three types of diseases, and the specific number of diseases is as described above. It is not limited to one range.
  • the final prediction value for determining the presence of a disease may be determined based on the prediction values 431, 432, and 433 output by the diagnostic model 410 and the consensus prediction value 440. As an example, the sum predicted value 440 among the output values may be determined as the final predicted value. Since one consensus prediction value 440 corresponding to the consensus value determined by agreement between a plurality of diagnostic subjects is used as the final prediction value, the final prediction value can be obtained without additional processing of the output value of the diagnostic model 410. Therefore, accuracy loss due to additional processing can be reduced.
  • each judgment value and consensus value of a plurality of diagnostic subjects are learned on one model, and the model is created using only one judgment value from each diagnostic subject or only one consensus value.
  • more information can be learned.
  • the diagnostic model can provide more information than when simply distinguishing between positives and negatives, such as definite positives, ambiguous positives, ambiguous negatives, and definite negatives. Information can be learned. In other words, the process by which each of the plurality of diagnostic subjects determines the judgment value can be reflected in the final predicted value, so prediction performance can be increased.
  • the judgment values of each of a plurality of diagnostic subjects are learned on one model, and the judgment values of each may affect each other during the learning process, so that the plurality of diagnostic subjects Some of these can compensate for errors that may occur in the process of determining judgment values, and the accuracy of prediction values corresponding to judgment values can be increased.
  • the final prediction value for determining the presence of a disease and/or symptom is a value obtained by weighting and summing the prediction values 431, 432, 433 and the consensus prediction value 440 output by the diagnostic model 410. It may be decided based on For example, if the sum of the prediction values 431, 432, 433 and the consensus prediction value 440 is greater than or equal to a threshold, it may be determined as positive, and if the sum of the values is less than the threshold, it may be judged as negative. Meanwhile, when setting the weight, the weight for the consensus prediction value 440 may be given a higher weight than the weight for the other prediction values 431, 432, and 433, and the values may be summed.
  • the final prediction value for determining disease may be determined by a majority vote of the prediction values 431, 432, and 433 output by the diagnostic model 410 and the consensus prediction value 440. For example, if the majority of the predicted values and the sum of the predicted values are positive, the final predicted value may be determined to be positive, and if the negative values are the majority, the final predicted value may be determined to be negative. Meanwhile, if the number of positive values and the number of negative values are the same, the final predicted value may be determined according to the predicted value of the sum.
  • the final prediction value for determining whether a disease exists may be determined based on the average value of the prediction values 431, 432, and 433 output by the diagnostic model 410 and the consensus prediction value 440. It is not limited to this, and the final prediction value for determining disease status is based on other statistical values obtained using the prediction values 431, 432, 433 output by the diagnostic model 410 and the consensus prediction value 440. This may be decided.
  • Diagnostic models that predict diseases and/or symptoms based on diagnostic images may exist in various ways depending on design purpose and design method.
  • the inventors of the present application conducted a performance test of the multi-label model according to the present disclosure using a symptom diagnosis model related to ophthalmopathy.
  • the diagnostic image is an image of the user's eyes
  • the diagnostic target is the eyelid
  • the judgment value is set to whether the eyelid is red.
  • the diagnostic subjects were set to be three ophthalmologists.
  • the first doctor model was learned only with the judgment values of the first doctor
  • the second doctor model was learned only with the judgment values of the second doctor
  • the third doctor model was learned only with the judgment values of the third doctor.
  • Performance experiments were conducted on the third doctor model and the consensus value model learned only from the consensus values of the first to third doctors.
  • the F1-score, accuracy, sensitivity, specificity, PPV, and NPV of the first to third predicted values and the consensus predicted value, which are the output values of the multi-label model generated according to an embodiment of the present disclosure, are shown in [Table 2] below. same.
  • the performance of the diagnostic model created using learning data in which diagnostic images are multi-labeled with the judgment values and consensus values of the first to third diagnostic subjects is better than the comparative model. You can check out the good stuff. Additionally, it can be seen that the best performance is achieved when the final prediction value is determined based on the sum prediction value output by the multi-label model. Meanwhile, even if the target disease of the tested ophthalmopathy diagnosis model is changed to another disease, it can be predicted to show a similar trend.
  • the diagnostic model is explained as being created using learning data in which the judgment values and consensus values of a plurality of diagnostic subjects are multi-labeled in the diagnostic image.
  • the diagnostic model is based on a consensus Excluding the values, only the judgment values of a plurality of diagnostic subjects may be generated using multi-labeled learning data in the diagnostic image, and even in this case, there may be significant improvement as described above.
  • FIG. 8 is a diagram illustrating learning data used to learn a diagnostic model according to an embodiment.
  • learning data 550 used to generate a diagnostic model may include a diagnostic image 510 and a plurality of judgment values 521, 522, and 523 labeled in the diagnostic image 510. That is, the learning data 550 may be generated by multi-labeling a plurality of data 560 on the diagnostic image 510.
  • multi-labeling may mean matching the judgment values 331, 332, 333 of a plurality of diagnostic subjects 321, 322, 323 for the same symptom to one diagnostic image 510.
  • the diagnostic image 510 may be learning input data
  • the plurality of multi-labeled judgment values 521, 522, and 523 may be learning result data. Since the diagnostic images and multiple judgment values have been described above, redundant explanations will be omitted.
  • first to third judgment values 521, 522, and 523 for one type of disease and/or symptom are shown as labeled on the diagnostic image 510, but the present invention is not limited thereto. Judgment values for at least two types of diseases and/or symptoms may be labeled in one diagnostic image, and since the specific details are similar to those described in FIG. 6, duplicate descriptions will be omitted.
  • FIG. 9 is a diagram illustrating a process for predicting a disease using a learned diagnostic model according to an embodiment.
  • the diagnostic model 610 may be configured to output a plurality of prediction values 631, 632, and 633 for the input diagnostic image 620. Specifically, the diagnostic model 610 may be configured to output prediction values 631, 632, and 633 corresponding to the judgment values of each of the plurality of diagnostic subjects for the input diagnostic image 620. Since the diagnostic model, diagnostic image, and prediction value have been described above, redundant description will be omitted.
  • first to third prediction values 631, 632, and 633 for one type of disease and/or symptom are shown to be output from the diagnostic model 610, but the present invention is not limited thereto. Predictive values for each of at least two types of diseases and/or symptoms may be output from one diagnostic model, and since the specific details are similar to those described in FIG. 7, duplicate descriptions will be omitted.
  • the inventors of the present application conducted a performance experiment of a multi-label model using only the judgment values of the diagnostic subjects according to the present disclosure using a symptom diagnosis model related to ophthalmopathy.
  • the diagnostic image is an image of the user's eyes
  • the diagnosis target is a tear hill
  • the judgment value is set to whether the tear hill is swollen.
  • the diagnostic subjects were set to be three ophthalmologists.
  • the first doctor model was learned only with the judgment values of the first doctor
  • the second doctor model was learned only with the judgment values of the second doctor
  • the third doctor model was learned only with the judgment values of the third doctor.
  • a performance experiment was conducted comparing the performance of each third pseudo model and the majority vote and consensus values of the output values of the first to third pseudo models.
  • the results of a performance experiment comparing the first to third prediction values which are the output values of the multi-label model generated according to an embodiment of the present disclosure, and the majority vote and consensus value of the first to third prediction values, are shown in [Table 4] below. It's the same.
  • the label smoothing model uses a label value for a consensus value determined by a plurality of diagnostic subjects for one diagnostic image, and determines the label value by considering a plurality of judgment values determined by each of the plurality of diagnostic subjects. Smoothing and the smoothed label value may be a model created using training data labeled in a diagnostic image.
  • the learning data used to create the diagnostic model will be described with reference to FIG. 10.
  • FIG. 10 is a diagram illustrating learning data used to learn a diagnostic model according to an embodiment.
  • a plurality of diagnostic subjects can independently diagnose a condition related to a disease and/or symptom with respect to the same diagnostic image 710 and determine judgment values 731, 732, and 733 for each diagnostic subject. there is. Additionally, a plurality of diagnostic subjects may mutually agree on a condition related to a disease and/or symptom for the same diagnostic image 710 and determine a single consensus value 720 .
  • the plurality of diagnostic subjects that determine the plurality of judgment values (731, 732, 733) may be the same diagnostic subjects as the plurality of diagnostic subjects that determine the consensus value (720), and the plurality of judgment values (731, 732, 733)
  • the diagnostic images 710 used to determine the consensus value 720 may be the same diagnostic images
  • the diagnostic images 710 used as learning data may be diagnostic images on which separate preprocessing has been performed. Therefore, duplicate explanations are omitted.
  • the label value labeled in the diagnostic image 710 may be a smoothed sum value 740 determined based on a plurality of judgment values 731, 732, and 733 and the sum value 720. For example, if the consensus value 720 is positive and the judgment values 731, 732, and 733 independently determined by the plurality of diagnostic subjects are unanimously positive, the smoothed consensus value 740 may be determined to be a value of 1. If the consensus value 720 is negative and the judgment values 731, 732, and 733 independently determined by the plurality of diagnostic subjects are unanimous, the smoothed consensus value 740 may be determined to be 0.
  • the smoothed consensus value 740 may be determined to be a value of 0.8. If the consensus value 720 is negative and the plurality of judgment values 731, 732, and 733 are not unanimous, the smoothed consensus value 740 may be determined to be a value of 0.2. It is not limited to this, and if the consensus value 720 is positive and the plurality of judgment values 731, 732, and 733 are not unanimous, the smoothed consensus value 740 may be determined to be a value of 0.7.
  • the smoothed consensus value 740 may be determined to be a value of 0.3. That is, the smoothed sum value 740 may be determined by appropriately adjusting the value in consideration of the distribution of the plurality of judgment values 720 based on the sum value 730, and is not limited to the above-described value.
  • FIG. 10 illustrates a case where there are three judgment values 720, that is, a case where there are three diagnostic subjects. However, this is not limited to this, and there may be two or four or more diagnostic subjects. In this case, the judgment value 720 may also be two or four or more.
  • the consensus value 720 for one type of disease and/or symptom and the smoothed consensus value 740 determined based on the first to third judgment values 731, 732, and 733 are displayed on the diagnostic image ( 710), but is not limited thereto.
  • At least two or more smoothed sum values determined based on the judgment values and sum values for each of at least two types of diseases and/or symptoms may be labeled in one diagnostic image.
  • the second smoothed sum value determined based on the information may be multi-labeled in one diagnostic image.
  • the second smoothed sum value determined based on the second smoothed sum value, the third sum value for the third disease, and the third smoothed sum value determined based on the seventh to ninth judgment values may be multi-labeled in one diagnostic image,
  • the specific number of diseases is not limited to the above-mentioned range.
  • FIG. 11 is a diagram illustrating a process for predicting a disease using a learned diagnostic model according to an embodiment.
  • the diagnostic model 810 may be configured to output a predicted value 830 corresponding to a smoothed sum value for the input diagnostic image 820.
  • the diagnostic model 810 may include Convolution Neural Network (CNN), Vision Transformer, Support Vector Machine (SVM), Random Forest, Gradient Boosting Algorithm, Artificial Neural Network (ANN), Deep Neural Network (DNN), and Recurrent Neural Network (RNN). It may be a model created using an algorithm such as Neural Network, ResNet, VGG, GoogLeNet, and/or MobileNet.
  • CNN Convolution Neural Network
  • SVM Support Vector Machine
  • Random Forest Random Forest
  • Gradient Boosting Algorithm Artificial Neural Network
  • ANN Artificial Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • the diagnostic image 820 input to the diagnostic model 810 may be a diagnostic image that has undergone separate preprocessing performed on the diagnostic image used as learning data, redundant description will be omitted.
  • a prediction value 830 for one type of disease and/or symptom is shown as being output from the diagnostic model 810, but the present invention is not limited thereto.
  • Predictive values for each of at least two or more types of diseases and/or symptoms may be output from one diagnostic model.
  • the diagnostic model may include a first smoothed sum value determined based on the first consensus value and the first to third judgment values for the first disease, the second consensus value for the second disease, and the fourth to sixth judgment values. If the second smoothed sum value determined based on the judgment values is generated using a multi-labeled diagnostic image, the diagnostic model may output prediction values for each of the two types of diseases.
  • the diagnostic model may include a first smoothed sum value determined based on the first consensus value and the first to third judgment values for the first disease, the second consensus value for the second disease, and the fourth to sixth judgment values.
  • a second smoothed sum value determined based on the judgment values, a third consensus value for the third disease, and a third smoothed sum value determined based on the seventh to ninth judgment values are used using a multi-labeled diagnostic image.
  • the diagnostic model can output prediction values for each of the three types of diseases, and the number of specific diseases is not limited to the above-mentioned range.
  • the final prediction value for determining whether a disease exists may be determined based on the prediction value 830 output by the diagnostic model 810.
  • the predicted value 830 corresponding to the smoothed consensus value determined by considering the judgment values and consensus values of the plurality of diagnostic subjects is used as the final predicted value, without additional processing of the output value of the diagnostic model 810. Since predicted values can be obtained, accuracy loss due to additional processing can be reduced.
  • the predicted value 830 obtained from the diagnostic model 810 is a predicted value corresponding to a smoothed sum value reflecting the judgment values of a plurality of diagnostic subjects, and the final predicted value may reflect the judgment values of the plurality of diagnostic subjects. You can.
  • Diagnostic models that predict diseases and/or symptoms based on diagnostic images may exist in various ways depending on design purpose and design method.
  • the inventors of the present application conducted a performance experiment of the label smoothing model according to the present disclosure using a symptom diagnosis model related to ophthalmopathy.
  • the diagnostic image is an image of the user's eyes
  • the diagnostic target is the eyelid
  • the judgment value is set to whether the eyelid is red.
  • the diagnostic subjects were set to be three ophthalmologists.
  • the first doctor model was learned only with the judgment values of the first doctor
  • the second doctor model was learned only with the judgment values of the second doctor
  • the third doctor model was learned only with the judgment values of the third doctor.
  • Performance experiments were conducted on the third doctor model and the consensus value model learned only from the consensus values of the first to third doctors.
  • the clinical activity score for thyroid ophthalmopathy can be determined by considering a total of 7 items. Specifically, the seven items are Redness of conjunctiva, Swelling of conjunctiva, Swelling of lacrimal caruncle, Redness of eyelid, and Swelling of eyelid. of eyelid), spontaneous retrobulbar pain, and pain during eye movement (Pain on attempted upward or downward gaze). Each symptom is assigned 1 point if positive and 0 points if negative. The final clinical activity score can be determined by adding up the total scores.
  • Figure 12 is a diagram illustrating a system 20 for predicting a clinical activity score for thyroid ophthalmopathy according to an embodiment.
  • the system (20) includes spontaneous pain in the posterior part of the mouth (Spontaneous retrobulbar pain) and pain during eye movement (Pain on attempted upward or downward gaze) among a total of 7 items considered in determining the clinical activity score for thyroid ophthalmopathy. Information about can be obtained from the user. Specifically, although not shown in FIG. 12, the system 20 displays a graphical user interface (GUI) for receiving user input on the display of the user device, and when the user inputs information into the user device, the system 20 (20) can obtain information about each symptom from the user device.
  • GUI graphical user interface
  • the system (20) measures conjunctival redness (Redness of conjunctiva), conjunctival edema (Swelling of conjunctiva), tear hill edema (Swelling of lacrimal caruncle), and eyelid redness (Redness of eyelid) among the clinical activity scores related to thyroid ophthalmopathy. ), and swelling of the eyelid can be predicted using diagnostic models that are independent of each other. Specifically, the score for each of the five symptoms can be predicted using a facial image showing the user's eyes obtained from the user device and five diagnostic models for predicting each symptom.
  • the system 20 may first obtain a facial image and/or eye image in which the user's eyes appear.
  • An eye image may refer to an image showing the conjunctiva, white of the eye, cornea, iris, eyelid, eyebrow, eyelash, externally exposed eyeball, eye outline, externally exposed cornea, externally exposed conjunctiva, etc.
  • the eye image may mean an image of the user's upper eyelid, lower eyelid, and eyeball exposed to the outside by the upper and lower eyelids.
  • the eye image may be obtained by the user directly taking a photo of the user's face using the user device, thereby obtaining the face image, and the user device transmitting the face image to the system 20.
  • a user acquires an image of the user's face using a user device, the user device performs pre-processing on the face image to obtain an eye image, and the user device transmits the eye image to the system 20, and the system (20) can acquire eye images.
  • a user may acquire an image of the user's face using a user device, the user device may transmit the face image to the system 20, and the system 20 may perform preprocessing on the face image to obtain an eye image. You can.
  • the present invention is not limited to this, and the user may directly obtain an eye image using the user device, and the user device may transmit the eye image to the system 20.
  • the user device may provide a shooting guide so that the user can easily capture a face image.
  • the shooting guide may be displayed on the display of the user device or provided to the user in the form of voice and/or sound.
  • the user device displays the outline of the face and/or the preferred eye position on a preview image obtained by photographing the user, allowing the user to easily and intuitively adjust the shooting angle, position, and/or direction of the user device. We can guide you.
  • the system 20 may obtain prediction values for each of the five symptoms using the first to fifth diagnostic models.
  • the first to fifth diagnostic models may be a conjunctival injection diagnostic model, a conjunctival edema diagnostic model, a tear mound edema diagnostic model, an eyelid edema diagnostic model, and an eyelid redness diagnostic model, respectively.
  • the system 20 may perform two different preprocessing on the acquired facial images before inputting them into the first to fifth diagnostic models. Specific preprocessing details will be described with reference to FIGS. 13 and 14.
  • FIG. 13 and 14 are diagrams for explaining an image pre-processing process according to an embodiment.
  • the system 20 may perform first preprocessing on images to be input into a model that diagnoses conjunctival injection, conjunctival edema, and tear trough edema, in which the eye area is the main judgment target.
  • the first preprocessing may refer to preprocessing for masking the pupil and skin, and the preprocessed image may be an eye region image.
  • the system 20 may perform a second preprocessing on images to be input into a model for diagnosing eyelid edema and eyelid redness, where the eyelid area is the main judgment target.
  • the second preprocessing may mean preprocessing for masking the eye area, and the preprocessed image may be an eyelid area image.
  • the system 20 may obtain first to fifth symptom prediction values by inputting each preprocessed image into the first to fifth diagnostic models, respectively.
  • the system 20 may obtain scores for conjunctival injection, conjunctival edema, tear mound edema, eyelid redness, and eyelid edema based on the first to fifth symptom prediction values and add up the obtained scores.
  • the system 20 can obtain a clinical activity score related to thyroid ophthalmopathy by further adding up the scores for spontaneous pain in the posterior part of the mouth and pain during eye movement obtained from the user.
  • the system 20 may transmit the obtained clinical activity score and/or thyroid ophthalmopathy-related information to the user device and/or other external device.
  • the system 20 may transmit a message indicating that there is a risk of thyroid ophthalmopathy to the user device when the obtained clinical activity score is above a reference value.
  • the system 20 may transmit a message to the user device informing the user to visit a hospital due to the risk of thyroid ophthalmopathy.
  • the user device may provide messages received from the system 20 to the user through a user interface.
  • the first to fifth diagnostic models used by the system 20 are models that diagnose symptoms using images, and the first to fifth diagnostic models may be implemented as the multi-label model and/or label smoothing model described above. . It is not limited to this, and the first to fifth diagnostic models may be implemented as various types of models that output prediction values based on images. Additionally, the first to fifth diagnostic models may not all be created using the same algorithm. That is, at least some of the first to fifth diagnostic models may be models generated using different algorithms, and all of them may be models generated using different algorithms.
  • how to determine learning data and/or evaluation data to use the diagnostic model for actual diagnosis is an element that must be considered to use the diagnostic model safely. Specifically, since the performance of a diagnostic model based on evaluation data must be above the standard to be used for actual diagnosis, a high standard may be necessary for determining evaluation data.
  • the judgment value and/or the agreement value included in the evaluation data for evaluating the performance of the diagnostic model may be the judgment value and/or the agreement value determined by the diagnostic subject by actually facing and diagnosing the patient.
  • the diagnostic image included in the evaluation data may be obtained from the patient after the diagnostic subject actually faces the patient and performs the diagnosis, or before the diagnostic subject actually faces the patient.
  • the judgment value and/or the consensus value to be labeled in the diagnostic image, which is evaluation data may not be a value determined by a plurality of diagnostic subjects through the diagnostic image, but may be a value determined by facing and diagnosing an actual patient. Since the content related to the diagnosis subject directly facing the user, diagnosing the user, and determining the judgment value and consensus value has been described above, redundant explanation will be omitted.
  • the judgment value and/or consensus value included in the learning data to be used for learning the diagnostic model may also be the judgment value and/or consensus value determined by the diagnostic subject actually facing and diagnosing the patient.
  • the learning data may include judgment values and/or consensus values determined by the diagnosing subject by diagnosing an image taken of a patient rather than an actual patient.
  • the judgment values included in the learning data may be values determined by the diagnosing subject by diagnosing the patient through images taken, and the consensus value may be a value determined by a majority vote of the judgment values.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Ophthalmology & Optometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Surgery (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Heart & Thoracic Surgery (AREA)

Abstract

본 개시는, 눈 영역을 포함하는 얼굴 이미지를 획득하는 단계; 얼굴 이미지와 눈 관련 증상을 예측하는 진단 모델을 이용하여 복수의 결과 값들을 획득하는 단계 - 복수의 결과 값은, 복수의 예측 값들 및 하나의 합의 예측 값을 포함함 -; 및 복수의 결과 값들 중 합의 예측 값에 기초하여 눈 관련 증상 여부를 판단하는 단계;를 포함하며, 진단 모델은, 하나의 진단 이미지에 서로 다른 둘 이상의 진단 주체들이 동일한 진단 대상에 대해 독립적으로 눈 관련 증상 여부를 결정한 복수의 판단 값들 및 진단 주체들이 동일한 진단 대상에 대해 서로 합의하여 눈 관련 증상 여부를 결정한 합의 값이 다중 라벨링된 학습 데이터를 이용하여 생성되며, 복수의 예측 값들은 복수의 판단 값들에 대응되고, 합의 예측 값은 합의 값에 대응되는, 증상 예측 방법에 관한 것이다.

Description

학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템
본 발명은 학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템에 관한 것이다.
의료 분야에서 질병 진단에 이용되는 학습 모델 들이 활발히 개발되고 있다.
질병 진단의 특성상 동일한 진단 대상에 대해서도 의료인의 경험칙 또는 성향에 따라 진단 결과가 상이할 수 있다.
이에 따라, 질병 진단을 위한 학습 모델 생성 시 의료인 구별 없이 단순히 진단 대상 정보 및 진단 결과 정보만을 학습 데이터로 이용하여 진단 모델을 학습시킬 경우, 진단 결과에 반영된 의료인마다의 서로 다른 경험칙 또는 성향이 학습 과정에서 희석되어 학습된 모델의 정확도가 떨어진다는 것이 잘 알려져 있는 통설이었다.
이에 따라, 학습 모델을 이용한 질병 진단 분야에서는 의료인 구별 없이 진단 모델을 만들기 보다 의료인마다의 진단 모델을 생성하고, 필요한 경우 각 진단 모델의 결과값들의 다수결 값으로 최종적으로 예측된 질병 진단 값으로 선택하는 시스템이 개발되곤 하였다.
그러나, 인공지능 모델의 정확도는 100%일 수 없고, 각 진단 모델의 결과값들을 이용한 질병 진단 값 예측 시스템은 정확하지 않은 예측 값들이 다수 이용되어 부정확성이 누적되기 때문에 최종 질병 진단의 정확성을 담보할 수 없는 문제가 있다.
이에 따라, 복수의 의료인들이 각각 판단한 진단 결과를 반영하면서도 정확도 손실을 줄인 최종 진단 값을 획득하는 방법이 개발될 필요가 있다.
본 출원에 의해 개시되는 내용들이 해결하고자 하는 과제는 진단 주체 별 판단 값들을 고려하면서도 정확도 손실을 줄일 수 있는 학습 모델을 제공하는 것이다.
본 출원에 의해 개시되는 내용들이 해결하고자 하는 다른 과제는 전문적인 의학 진단 기기가 아닌 일반인들이 사용할 수 있는 디지털 카메라로 획득된 이미지를 활용하여 질병을 예측할 수 있는 학습 모델을 제공하는 것이다.
본 출원에 의해 개시되는 내용들이 해결하고자 하는 또 다른 과제는 일반인들이 의사의 도움 없이 그리고 병원 직접 방문 없이 갑상선 안병증에 관한 임상활동점수를 모니터링할 수 있는 시스템을 제공하는 것이다.
본 출원이 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 출원에 의해 개시되는 기술이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 출원의 일 실시예에 의하면, 눈 영역을 포함하는 얼굴 이미지를 획득하는 단계; 상기 얼굴 이미지와 눈 관련 증상을 예측하는 진단 모델을 이용하여 복수의 결과 값들을 획득하는 단계 - 상기 복수의 결과 값은, 복수의 예측 값들 및 하나의 합의 예측 값을 포함함 -; 및 상기 복수의 결과 값들 중 상기 합의 예측 값에 기초하여 상기 눈 관련 증상 여부를 판단하는 단계;를 포함하며, 상기 진단 모델은, 하나의 진단 이미지에 서로 다른 둘 이상의 진단 주체들이 동일한 진단 대상에 대해 독립적으로 상기 눈 관련 증상 여부를 결정한 복수의 판단 값들 및 상기 진단 주체들이 상기 동일한 진단 대상에 대해 서로 합의하여 상기 눈 관련 증상 여부를 결정한 합의 값이 다중 라벨링된 학습 데이터를 이용하여 생성되며, 상기 복수의 예측 값들은 상기 복수의 판단 값들에 대응되고, 상기 합의 예측 값은 상기 합의 값에 대응되며, 상기 눈 관련 증상은, 결막 충혈, 결막 부종, 눈물언덕 부종, 눈꺼풀 발적 및 눈꺼풀 부종 중 적어도 하나인, 증상 예측 방법이 제공될 수 있다.
본 출원의 일 실시예에 의하면, 상기 학습 데이터 중 적어도 일부는, 상기 합의 값이 상기 복수의 판단 값들 중 소수의 판단 값과 대응될 수 있다.
본 출원의 일 실시예에 의하면, 상기 진단 모델은, 상기 학습 시 상기 합의 예측 값이 출력되는 노드에 대한 손실 가중치는 상기 예측 값들 이 출력되는 노드 각각에 대한 손실 가중치보다 높게 설정될 수 있다.
본 출원의 일 실시예에 의하면, 상기 복수의 결과 값들을 획득하는 단계는, 상기 얼굴 이미지에 대해 눈 영역에 대한 전처리를 수행하는 단계; 및 상기 전처리된 이미지와 상기 진단 모델을 이용하여 상기 복수의 결과 값들을 획득하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 의하면, 상기 전처리를 수행하는 단계는, 상기 눈 관련 증상이 상기 결막 충혈, 상기 결막 부종 및 상기 눈물언덕 부종 중 적어도 하나이면, 상기 얼굴 이미지에 대해 눈동자와 피부를 마스킹하는 전처리를 수행하는 단계;를 포함하며, 상기 눈 관련 증상이 상기 눈꺼풀 부종 및 눈꺼풀 발적 중 적어도 하나이면, 상기 얼굴 이미지에 대해 안구 영역을 마스킹하는 전처리를 수행하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 의하면, 상기 진단 주체들은, 15년 이상의 경력을 가지는 안과 전문의 3명이며, 상기 판단 값들은, 상기 진단 주체들 각각에 대응되는 3개의 값을 포함할 수 있다.
본 출원의 일 실시예에 의하면, 상기 판단 값들 및 상기 합의 값 중 적어도 하나는, 상기 진단 주체들이 상기 진단 대상을 실제로 대면하여 상기 눈 관련 증상 여부를 결정한 값일 수 있다.
본 출원의 일 실시예에 의하면, 상기 판단 값들 및 상기 합의 값 중 적어도 하나는, 상기 진단 주체들이 상기 진단 대상에 대한 얼굴 이미지를 통해 상기 눈 관련 증상 여부를 결정한 값일 수 있다.
본 출원의 일 실시예에 의하면, 상기 합의 값은,상기 진단 주체들이 상기 판단 값들을 각각 결정한 후 결정될 수 있다.
본 출원의 일 실시예에 의하면, 상기 진단 모델은, CNN(Convolution Neural Network), Vision Transformer, SVM(Support Vector Machine), Random Forest, Gradient Boosting Algorithm, ANN(Artificial Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), ResNet, VGG, GoogLeNet 및 MobileNet 중 적어도 하나의 알고리즘을 이용하여 생성될 수 있다.
본 발명의 과제의 해결 수단이 상술한 해결 수단들로 제한되는 것은 아니며, 언급되지 아니한 해결 수단들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 출원에 개시되는 내용에 의하면, 복수의 진단 주체들의 판단 값들과 진단 주체들의 합의 값을 진단 이미지에 다중 라벨링한 학습 데이터를 이용함으로써, 복수의 진단 주체들 각각의 판단 값들을 고려하면서도 정확도 손실을 줄일 수 있는 진단 모델이 생성될 수 있다.
본 출원에 의하여 개시되는 내용에 의하면, 복수의 진단 주체들의 합의 값에 진단 주체들의 판단 값들을 반영하여 결정된 라벨 값을 진단 이미지에 라벨링한 학습 데이터를 이용함으로써, 복수의 진단 주체들 각각의 판단 값들을 고려하면서도 정확도 손실을 줄일 수 있는 진단 모델을 생성할 수 있다.
본 출원에 의하여 개시되는 내용에 의하면, 전문적인 의학 진단 기기가 아닌 일반인들이 사용할 수 있는 디지털 카메라로 획득된 이미지를 활용하여 질병 발생 여부를 예측할 수 있는 진단 모델을 생성할 수 있다.
본 출원에 의해 개시되는 내용에 의하면, 일반인들이 의사의 도움 없이 그리고 병원 직접 방문 없이 갑상선 안병증에 관한 임상활동점수를 모니터링할 수 있는 시스템을 제공할 수 있다.
도 1은 일 실시예에 따른 질병을 진단하기 위한 시스템을 나타낸 도면이다.
도 2는 일 실시예에 따른 사용자 장치의 구성을 나타낸 블록도이다.
도 3은 일 실시예에 따른 서버의 구성을 나타낸 도면이다.
도 4는 일 실시예에 따른 진단 주체 별 판단 값을 획득하는 과정을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 복수의 진단 주체로부터 합의 값을 획득하는 과정을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 진단 모델의 학습에 이용되는 학습 데이터를 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 학습된 진단 모델을 이용하여 질병을 예측하는 과정을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 진단 모델의 학습에 이용되는 학습 데이터를 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 학습된 진단 모델을 이용하여 질병을 예측하는 과정을 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 진단 모델의 학습에 이용되는 학습 데이터를 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 학습된 진단 모델을 이용하여 질병을 예측하는 과정을 설명하기 위한 도면이다.
도 12는 일 실시예에 따른 갑상선 안병증에 관한 임상활동점수를 예측하기 위한 시스템을 나타낸 도면이다.
도 13 및 도 14는 일 실시예에 따른 이미지 전처리 과정을 설명하기 위한 도면이다.
본 명세서에 기재된 실시예는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상을 명확히 설명하기 위한 것이므로, 본 발명이 본 명세서에 기재된 실시예에 의해 한정되는 것은 아니며, 본 발명의 범위는 본 발명의 사상을 벗어나지 아니하는 수정예 또는 변형예를 포함하는 것으로 해석되어야 한다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하여 가능한 현재 널리 사용되고 있는 일반적인 용어를 선택하였으나 이는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 다만, 이와 달리 특정한 용어를 임의의 의미로 정의하여 사용하는 경우에는 그 용어의 의미에 관하여 별도로 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 한다.
본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
본 명세서에 첨부된 도면은 본 개시를 용이하게 설명하기 위한 것으로 도면에 도시된 형상은 본 개시의 이해를 돕기 위하여 필요에 따라 과장되어 표시된 것일 수 있으므로 본 개시가 도면에 의해 한정되는 것은 아니다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 공정 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 공정이 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.
본 명세서에서 본 발명과 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 이에 관한 자세한 설명은 필요에 따라 생략할 수도 있다.
본 개시의 일 실시예에 따르면, 눈 영역을 포함하는 얼굴 이미지를 획득하는 단계; 상기 얼굴 이미지와 눈 관련 증상을 예측하는 진단 모델을 이용하여 복수의 결과 값들을 획득하는 단계 - 상기 복수의 결과 값은, 복수의 예측 값들 및 하나의 합의 예측 값을 포함함 -; 및 상기 복수의 결과 값들 중 상기 합의 예측 값에 기초하여 상기 눈 관련 증상 여부를 판단하는 단계;를 포함하며, 상기 진단 모델은, 하나의 진단 이미지에 서로 다른 둘 이상의 진단 주체들이 동일한 진단 대상에 대해 독립적으로 상기 눈 관련 증상 여부를 결정한 복수의 판단 값들 및 상기 진단 주체들이 상기 동일한 진단 대상에 대해 서로 합의하여 상기 눈 관련 증상 여부를 결정한 합의 값이 다중 라벨링된 학습 데이터를 이용하여 생성되며, 상기 복수의 예측 값들은 상기 복수의 판단 값들에 대응되고, 상기 합의 예측 값은 상기 합의 값에 대응되며, 상기 눈 관련 증상은, 결막 충혈, 결막 부종, 눈물언덕 부종, 눈꺼풀 발적 및 눈꺼풀 부종 중 적어도 하나인, 증상 예측 방법이 제공될 수 있다.
본 출원의 일 실시예에 의하면, 상기 학습 데이터 중 적어도 일부는, 상기 합의 값이 상기 복수의 판단 값들 중 소수의 판단 값과 대응될 수 있다.
본 출원의 일 실시예에 의하면, 상기 진단 모델은, 상기 학습 시 상기 합의 예측 값이 출력되는 노드에 대한 손실 가중치는 상기 예측 값들 이 출력되는 노드 각각에 대한 손실 가중치보다 높게 설정될 수 있다.
본 출원의 일 실시예에 의하면, 상기 복수의 결과 값들을 획득하는 단계는, 상기 얼굴 이미지에 대해 눈 영역에 대한 전처리를 수행하는 단계; 및 상기 전처리된 이미지와 상기 진단 모델을 이용하여 상기 복수의 결과 값들을 획득하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 의하면, 상기 전처리를 수행하는 단계는, 상기 눈 관련 증상이 상기 결막 충혈, 상기 결막 부종 및 상기 눈물언덕 부종 중 적어도 하나이면, 상기 얼굴 이미지에 대해 눈동자와 피부를 마스킹하는 전처리를 수행하는 단계;를 포함하며, 상기 눈 관련 증상이 상기 눈꺼풀 부종 및 눈꺼풀 발적 중 적어도 하나이면, 상기 얼굴 이미지에 대해 안구 영역을 마스킹하는 전처리를 수행하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 의하면, 상기 진단 주체들은, 15년 이상의 경력을 가지는 안과 전문의 3명이며, 상기 판단 값들은, 상기 진단 주체들 각각에 대응되는 3개의 값을 포함할 수 있다.
본 출원의 일 실시예에 의하면, 상기 판단 값들 및 상기 합의 값 중 적어도 하나는, 상기 진단 주체들이 상기 진단 대상을 실제로 대면하여 상기 눈 관련 증상 여부를 결정한 값일 수 있다.
본 출원의 일 실시예에 의하면, 상기 판단 값들 및 상기 합의 값 중 적어도 하나는, 상기 진단 주체들이 상기 진단 대상에 대한 얼굴 이미지를 통해 상기 눈 관련 증상 여부를 결정한 값일 수 있다.
본 출원의 일 실시예에 의하면, 상기 합의 값은,상기 진단 주체들이 상기 판단 값들을 각각 결정한 후 결정될 수 있다.
본 출원의 일 실시예에 의하면, 상기 진단 모델은, CNN(Convolution Neural Network), Vision Transformer, SVM(Support Vector Machine), Random Forest, Gradient Boosting Algorithm, ANN(Artificial Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), ResNet, VGG, GoogLeNet 및 MobileNet 중 적어도 하나의 알고리즘을 이용하여 생성될 수 있다.
이하에서는 일 실시예에 따른 진단 시스템 및 진단 모델 생성 방법에 대해 설명한다.
1. 진단 시스템(10)의 구성
도 1은 일 실시예에 따른 질병을 진단하기 위한 진단 시스템(10)을 나타낸 도면이다.
일 실시예에 따른 진단 시스템(10)은 사람을 대상으로 획득된 정보를 이용하여 질병 진단을 수행할 수 있다. 사람을 대상으로 획득된 정보는 다양한 종류의 정보일 수 있다. 일 예로, 사람을 대상으로 획득된 정보는 사람 신체의 전체 또는 일부를 촬영한 이미지, 사람으로부터 발생되는 소리, 사람의 생체 신호, 사람의 생체 반응과 관련된 정보, 사람의 행동과 관련된 정보 등 다양한 정보가 될 수 있다.
이에 따라, 일 예로, 진단 시스템(10)은 사용자의 신체 중 적어도 일부를 촬영한 이미지와 학습된 진단 모델을 이용하여 질병 존재 여부를 예측할 수 있다. 다른 예로, 진단 시스템(10)은 사용자의 신체에서 발생한 소리와 학습된 진단 모델을 이용하여 질병 존재 여부를 예측할 수 있다. 구체적인 예를 들어, 진단 시스템(10)은 사용자의 얼굴을 촬영한 얼굴 이미지와 학습된 안병증 진단 모델을 이용하여 안병증 존재 여부를 예측할 수 있으며, 이에 한정되는 것은 아니다.
이하에서는, 설명의 편의를 위해 진단 시스템(10)은 이미지를 기반으로 질병을 진단하는 것을 가정하여 설명한다.
도 1을 참조하면, 진단 시스템(10)은 사용자 장치(100)와 서버(200)를 포함할 수 있다.
사용자 장치(100)는 사용자와 직접적으로 및/또는 간접적으로 상호작용하는 장치이다. 사용자 장치(100)는 사용자의 신체 중 적어도 일부인 진단 대상을 촬영하여 진단 이미지를 생성할 수 있다.
사용자 장치(100)는 진단 대상을 촬영한 진단 이미지를 후술할 서버(200)로 전송할 수 있다. 구체적으로, 사용자 장치(100)는 유선 및/또는 무선 데이터 통신 방식을 통해 서버(200)로 진단 이미지를 전송할 수 있으며, 다른 외부 장치를 통해 서버(200)로 진단 이미지를 전송할 수도 있다.
사용자 장치(100)는 서버(200)로부터 진단 결과와 관련된 정보를 수신할 수 있다. 사용자 장치(100)는 서버(200)로부터 획득한 정보를 사용자에게 시각적 및/또는 청각적인 방법으로 제공할 수 있다.
일 예로, 사용자 장치(100)는 스마트폰(smart phone), 태블릿(tablet), 데스크탑, 노트북, 디지털 카메라 등 사용자 입력 장치 및/또는 촬영 장치를 포함할 수 있다.
서버(200)는 학습된 진단 모델을 이용하여 진단 이미지에 대한 질병 및/또는 증상 존재 여부를 예측할 수 있다. 진단 이미지는 사용자 장치(100)로부터 직접 수신할 수 있으며, 중계 장치 및/또는 다른 외부 서버 등 외부 장치를 통해 수신할 수도 있다.
서버(200)는 예측 결과를 사용자 장치(100) 및/또는 다른 외부 장치에 전송할 수 있다.
서버(200)는 외부 장치로부터 학습된 진단 모델을 획득하여 저장할 수 있다. 이에 한정되는 것은 아니며, 서버(200)는 라벨 값이 라벨링된 진단 이미지를 학습 데이터로 이용하여 진단 모델을 생성할 수도 있다.
한편, 서버(200)와 사용자 장치(100)가 서로 구별되는 것으로 설명하였으나, 서버(200)와 사용자 장치(100)는 하나의 장치로 구현될 수도 있다.
2. 사용자 장치(100)의 구성
이하에서는 진단 시스템(10)의 구성 중 사용자 장치(100)의 구성에 대해 설명한다.
도 2는 일 실시예에 따른 사용자 장치(100)의 구성을 나타낸 블록도이다.
도 2를 참조하면, 사용자 장치(100)는 카메라(110), 통신 장치(120), 사용자 인터페이스(130), 메모리(140) 및 프로세서(150)를 포함할 수 있다.
카메라(110)는 디지털 카메라로, 이미지 센서와 영상처리부를 포함할 수 있다. 이미지 센서는 광학 영상(image)를 전기적 신호로 변환하는 장치로, 다수개의 광 다이오드(photo diode)가 집적된 칩으로 구성될 수 있다. 일 예로, 이미지 센서는 CCD(Charge Coupled Device), CMOS(Complementary Metal Oxide Semiconductor) 등을 포함할 수 있다. 한편, 영상처리부는 촬영된 결과를 영상 처리하여, 영상 정보를 생성할 수 있다.
통신 장치(120)는 유선 및/또는 무선 통신을 통해 데이터 및/또는 정보를 외부로 송신 또는 외부로부터 수신할 수 있다. 통신 장치(120)는 양방향(bi-directional) 또는 단방향 통신을 수행할 수 있다.
통신 장치(120)는 무선 통신 모듈 및/또는 유선 통신 모듈을 포함할 수 있다. 여기서, 무선 통신 모듈은 와이파이(Wi-Fi) 통신 모듈, 셀룰러 통신 모듈 등을 포함할 수 있다.
사용자 인터페이스(130)는 프로세서(150)의 제어 명령에 따라 각종 정보를 출력할 수 있다. 일 실시예에 따르면, 사용자 인터페이스(130)는 사용자에게 정보를 시각적으로 출력하는 디스플레이를 포함할 수 있다. 사용자 인터페이스(130)는 사용자에게 정보를 청각적으로 출력하는 스피커를 포함할 수 있다. 사용자 인터페이스(130)는 사용자에게 정보를 촉각적으로 출력하는 진동모터를 포함할 수 있다.
한편, 사용자 장치(100)는 사용자 인터페이스(130)를 통해 사용자로부터 사용자 장치(100)의 동작에 필요한 여러 정보를 입력 받을 수 있다. 일 예로, 사용자 장치(100)는 사용자 인터페이스(130)를 통해 사용자로부터 질병 및/또는 증상과 관련된 정보를 입력 받을 수 있으며, 이에 한정되는 것은 아니다.
메모리(140)는 각종 프로세싱 프로그램, 프로그램의 프로세싱을 수행하기 위한 파라미터 또는 이러한 프로세싱 결과 데이터 등을 저장할 수 있다. 예를 들어, 메모리(140)는 후술할 프로세서(150)의 동작을 위한 인스트럭션, 진단 이미지에 대한 다양한 전처리 알고리즘 및/또는 학습 모델들을 구현하기 위한 실행코드들을 저장할 수 있다. 나아가 메모리(140)는 상기 카메라(110)를 통해 획득되는 진단 이미지 및 전처리된 진단 이미지 등을 저장할 수 있다.
메모리(140)는 비휘발성 반도체 메모리, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), 플래시 메모리, RAM(Random Access Memory), ROM(Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory) 또는 그 외에 유형의 (tangible) 비휘발성의 기록 매체 등으로 구현될 수 있다.
프로세서(150)는 사용자 장치(100)의 전반적인 동작을 제어할 수 있으며, 메모리(140)에 저장된 인스트럭션에 따라 동작할 수 있다.
구체적으로, 프로세서(150)는 카메라(110)를 제어하여 진단 이미지를 촬영하고, 진단 이미지를 메모리(140)에 저장할 수 있다. 진단 이미지는 환자의 신체 부위, 얼굴 이미지, 눈 이미지, 전신 이미지 등 환자와 관련된 모든 이미지를 포함할 수 있다.
프로세서(150)는 메모리(140)에 저장된 전처리 알고리즘 및/또는 학습모델을 이용하여 진단 이미지를 처리할 수 있다. 프로세서(150)는 진단 대상, 질병 종류 및 증상 종류에 따라 서로 다른 전처리 알고리즘 및/또는 학습모델을 이용할 수 있다. 일 예로, 증상이 눈과 관련된 경우, 프로세서(150)는 눈 부위가 잘 나타나도록 이미지의 일부를 크롭 및/또는 마스킹하는 등의 전처리를 수행할 수 있다. 이에 한정되는 것은 아니며, 프로세서(150)는 이미지의 색 보정 및/또는 밝기 보정 등 다양한 전처리를 수행할 수 있다.
프로세서(150)는 통신 장치(120)를 통해 서버(200) 및/또는 외부 장치에 이미지 및/또는 전처리된 이미지를 전송할 수 있다.
프로세서(150)는 서버(200) 및/또는 외부 장치로부터 수신한 정보를 출력 장치(130)를 통해 사용자에게 제공할 수 있다.
프로세서(150)는 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 상태 기계(state machine), 주문형 반도체(Application Specific Integrated Circuit, ASIC), 무선 주파수 집적 회로(Radio-Frequency Integrated Circuit, RFIC) 및 이들의 조합 등으로 구현될 수 있다.
3. 서버(200)의 구성요소
이하에서는 진단 시스템(10)의 구성 중 서버(200)의 구성에 대해 설명한다.
도 3은 일 실시예에 따른 서버(200)의 구성을 나타낸 도면이다.
도 3을 참조하면, 서버(200)는 통신 장치(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다.
통신 장치(210)는 유선 및/또는 무선 통신을 통해 데이터 및/또는 정보를 외부로 송신 및/또는 외부로부터 수신할 수 있다. 통신 장치(210)는 양방향(bi-directional) 또는 단방향 통신을 수행할 수 있다.
통신 장치(210)는 무선 통신 모듈 및/또는 유선 통신 모듈을 포함할 수 있다. 여기서, 무선 통신 모듈은 와이파이(Wi-Fi) 통신 모듈, 셀룰러 통신 모듈 등을 포함할 수 있다.
메모리(220)는 각종 프로세싱 프로그램, 프로그램의 프로세싱을 수행하기 위한 파라미터 또는 이러한 프로세싱을 수행하기 위한 파라미터 또는 이러한 프로세싱 결과 데이터 등을 저장할 수 있다. 예를 들어, 메모리(220)는 후술할 프로세서(230)의 동작을 위한 인스트럭션, 진단 이미지에 대한 다양한 전처리 알고리즘 및/또는 학습 모델들을 구현하기 위한 실행코드들을 저장할 수 있다. 전처리 알고리즘 및/또는 학습 모델에는 진단 대상 및/또는 질병에 따라 다양한 전처리 알고리즘 및/또는 학습 모델이 포함될 수 있다.
메모리(220)는 사용자 장치(100) 및/또는 외부 장치로부터 수신한 진단 이미지를 저장할 수 있다. 수신한 진단 이미지는 전처리된 이미지일 수도 있다.
메모리(220)에 저장된 학습 모델에는 진단 이미지에 대한 질병 및/또는 증상 존재 여부를 예측하기 위한 진단 모델이 포함될 수 있다. 메모리(220)는 진단 대상 및/또는 진단 질병 별로 다양한 종류의 진단 모델을 저장할 수 있다. 나아가 메모리(220)는 동일한 질병에 대해서도 다양한 종류의 진단 모델을 저장할 수도 있다. 일 예로, 결막 충혈 여부를 진단하기 위한 진단 모델이 복수 개 저장되어 있을 수 있으며, 각각의 진단 모델은 서로 다른 알고리즘 및/또는 학습 데이터를 이용하여 생성된 진단 모델일 수 있다. 메모리(220)에 저장된 진단 모델은 외부로부터 수신한 진단 모델일 수 있으며, 서버(200)에서 생성한 진단 모델일 수도 있다.
메모리(220)는 진단 모델 생성에 이용되는 학습 데이터 및 모델 생성 알고리즘 등을 저장할 수 있다. 학습 데이터에 대한 구체적인 내용은 후술한다.
메모리(220)는 비휘발성 반도체 메모리, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), 플래시 메모리, RAM(Random Access Memory), ROM(Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory) 또는 그 외에 유형의 (tangible) 비휘발성의 기록 매체 등으로 구현될 수 있다.
프로세서(230)는 서버(200)의 전반적인 동작을 제어할 수 있으며, 메모리(220)에 저장된 인스트럭션에 따라 동작할 수 있다.
프로세서(230)는 메모리(220)에 저장된 진단 모델을 이용하여 진단 이미지에 나타난 진단 대상에 질병 및/또는 증상이 존재하는지 여부를 예측할 수 있다.
프로세서(230)는 하나의 진단 이미지에 대해 서로 다른 진단 모델을 적용함으로써, 다양한 종류의 예측 결과를 생성할 수도 있다. 일 예로, 프로세서(230)는 하나의 눈 이미지에 대해 결막의 충혈, 결막의 부종, 눈꺼풀의 발적, 눈꺼풀의 부종, 눈물언덕의 부종을 진단하는 각각의 진단 모델을 이용하여 결막 충혈 여부, 결막 부종 여부, 눈꺼풀 발적 여부, 눈꺼풀 부종 여부, 눈물언덕 부종 여부 등 다양한 종류의 예측 결과를 생성할 수 있다.
이에 한정되는 것은 아니며, 프로세서(230)는 하나의 진단 이미지에 대해 복수 종류의 질병 및/또는 증상을 예측하는 하나의 진단 모델을 적용함으로써, 다양한 종류의 예측 결과를 생성할 수도 있다. 일 예로, 프로세서(230)는 하나의 눈 이미지에 대해 결막의 충혈, 결막의 부종, 눈꺼풀의 발적, 눈꺼풀의 부종, 눈물언덕의 부종 중 적어도 둘 이상을 진단하는 하나의 진단 모델을 이용하여 결막 충혈 여부, 결막 부종 여부, 눈꺼풀 발적 여부, 눈꺼풀 부종 여부, 눈물언덕 부종 여부 중 적어도 둘 이상의 예측 결과를 생성할 수 있다.
프로세서(230)는 진단 이미지에 기초하여 예측에 이용할 진단 모델을 결정할 수도 있다. 일 예로, 프로세서(230)는 진단 이미지가 얼굴 이미지인 것을 판단한 경우, 프로세서(230)는 얼굴과 관련된 질병 및/또는 증상을 예측하는 진단 모델을 결정하고, 결정된 진단 모델을 이용하여 질병 및/또는 증상을 예측할 수 있다.
프로세서(230)는 진단 모델을 이용하기 전 진단 이미지에 대한 전처리를 수행할 수도 있다. 프로세서(230)는 진단 대상 및/또는 진단 질병에 따라 서로 다른 전처리 알고리즘이 이용하여 진단 이미지에 대한 전처리를 수행할 수 있다. 일 예로, 프로세서(230)는 진단 대상 및/또는 진단 질병이 사용자의 얼굴과 관련된 경우, 진단 이미지에서 얼굴 영역만 크롭할 수 있으며, 진단 대상 및/또는 진단 질병이 사용자의 눈과 관련된 경우, 진단 이미지에서 눈 영역만 크롭할 수 있다.
프로세서(230)는 진단 모델을 이용하여 획득한 예측 결과에 기초하여 진단 결과를 생성할 수도 있다. 일 예로, 프로세서(230)는 눈 이미지에 대해 결막의 충혈, 결막의 부종, 눈꺼풀의 발적, 눈꺼풀의 부종, 눈물언덕의 부종을 진단하는 각각의 진단 모델을 이용하여 결막 충혈 여부, 결막 부종 여부, 눈꺼풀 발적 여부, 눈꺼풀 부종 여부, 눈물언덕 부종 여부 각각에 대한 예측 결과를 획득하고, 획득한 예측 결과들에 기초하여 갑상선 안병증에 대한 임상활동점수(Clinical Activity Score, CAS)를 포함하는 진단 결과를 생성할 수 있다.
프로세서(230)는 질병 존재 여부 및/또는 진단 결과를 통신 장치(210)를 통해 사용자 장치(100) 및/또는 외부 장치로 전송할 수 있다.
프로세서(230)는 메모리(220)에 저장된 학습 데이터 및 모델 생성 알고리즘을 이용하여 진단 모델을 생성할 수도 있다. 학습 데이터를 이용한 진단 모델 생성과 관련된 내용은 후술한다.
프로세서(230)는 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 상태 기계(state machine), 주문형 반도체(Application Specific Integrated Circuit, ASIC), 무선 주파수 집적 회로(Radio-Frequency Integrated Circuit, RFIC) 및 이들의 조합 등으로 구현될 수 있다.
4. 진단 모델 1 - 멀티 라벨 모델
이하에서는 질병 및/또는 증상을 진단할 수 있는 멀티 라벨 모델과 관련된 구체적인 내용을 설명한다.
일 실시예에 따른 멀티 라벨 모델은 하나의 진단 이미지에 대해 복수의 진단 주체들 각각이 결정한 복수의 판단 값들 및 하나의 합의 값이 다중 라벨링된 학습 데이터를 이용하여 생성된 모델일 수 있다.
진단 이미지는 진단 대상이 나타난 이미지를 의미할 수 있다. 일 예로, 진단 이미지는 사용자가 사용자 장치를 이용하여 사용자의 신체의 전부 또는 일부를 촬영한 이미지일 수 있다. 이에 한정되는 것은 아니며, 진단 이미지는 카메라 이미지, X선 이미지, CT(Computed Tomography) 이미지, MRI(Magnetic Resonance Imaging) 등 진단하고자 하는 대상이 나타난 다양한 종류의 이미지를 의미할 수 있다.
진단 대상은 질병 및/또는 증상과 관련된 사용자의 상태를 판단하기 위한 분석 대상을 의미할 수 있다. 일 예로, 진단 대상은 사용자의 팔, 다리, 얼굴, 몸통, 내부 장기 등 다양한 종류의 대상이 될 수 있다. 진단 대상은 더 구체적으로 결정될 수도 있으며, 일 예로, 얼굴의 눈의 각막, 눈꺼풀, 홍채 등 진단하고자 하는 질병에 따라 다양하고 구체적으로 결정될 수도 있다.
진단 주체는 진단 이미지로부터 질병 및/또는 증상과 관련된 정보를 도출하는 주체를 의미할 수 있다. 일 예로, 진단 주체는 의료진, 임상관리자 등이 될 수 있으며, 이에 한정되는 것은 아니다. 하나의 진단 이미지에 대해 정보를 도출하는 진단 주체는 적어도 둘 이상일 수 있으며, 바람직하게는 세 명이 될 수 있다.
진단 주체는 진단 대상 및/또는 진단 질병에 따라 일정 수준 이상의 경력을 가지는 주체들 중 결정될 수도 있다. 일 예로, 안병증 진단 분야에서 15년 이상의 경력을 가지는 안과 전문의의 평균 진단 정확도는 86.24% 정도이고, 5년 미만의 경력을 가지는 안과 전임의의 평균 진단 정확도는 73.27% 정도이고, 안과 전공의의 평균 정확도는 56.04%인 것으로 조사를 통해 확인하였다. 이에 따라, 안병증을 진단 증상으로 하는 진단 모델의 학습에 이용될 질병 및/또는 증상과 관련된 정보를 도출하는 진단 주체는 진단 모델의 정확도를 보장하기 위해 15년 이상의 경력을 가지는 안과 전문의로 결정하는 것이 바람직할 수 있다.
판단 값은 개별 진단 주체가 진단 이미지를 독립적으로 분석하여 판단한 질병 및/또는 증상 여부에 대한 정보를 의미할 수 있다. 일 예로, 진단 이미지가 눈 이미지이고, 대상 질병이 결막의 충혈인 경우 판단 값은 결막이 충혈되었는지에 대한 정보일 수 있다.
판단 값은 질병 및/또는 증상에 대한 양성 또는 음성으로 표현될 수 있으며, 이에 한정되는 것은 아니다. 판단 값은 질병의 존재 유/무로 표현될 수도 있고, 참 또는 거짓으로 표현될 수도 있고, 1 또는 0으로 표현될 수도 있고, 복수의 클래스로 구별된 값 중 하나로 표현될 수도 있다.
판단 값은 진단 주체가 진단 이미지를 독립적으로 분석하여 판단하는 바, 진단 주체 별로 판단 값이 서로 상이할 수도 있다.
한편, 판단 값은 진단 주체가 실제 사용자를 대면하여 판단할 수도 있다. 구체적으로, 진단 주체는 실제 사용자를 육안으로 확인하여 판단 값을 결정할 수도 있다. 이 경우, 진단 이미지는 진단 주체가 판단 값을 결정한 이후 시점에 사용자로부터 획득되거나, 진단 주체가 실제 사용자를 대면하기 전에 사용자로부터 먼저 획득될 수도 있다.
합의 값은 복수의 진단 주체들이 진단 이미지를 함께 분석하고 합의하여 결정된 질병 및/또는 증상 여부에 대한 정보를 의미할 수 있다. 일 예로, 합의 값은 복수의 진단 주체들이 동일한 시간 및/또는 동일한 공간에서 동일한 진단 이미지를 대상으로 서로 논의하여 결정된 값일 수 있다.
합의 값을 결정하는 복수의 진단 주체들은 판단 값들을 결정한 진단 주체와 동일한 진단 주체를 의미할 수 있다. 즉, 복수의 진단 주체들이 진단 이미지에 대해 각자 독립적으로 분석하여 판단 값들을 먼저 결정하고, 이후 서로 합의하여 하나의 합의 값을 결정할 수 있다.
합의 값은 판단 값과 동일한 형태로 표현될 수 있다. 일 예로, 합의 값은 질병 및/또는 증상에 대한 양성 또는 음성으로 표현될 수 있으며, 이에 한정되는 것은 아니다. 합의 값은 질병의 존재 유/무로 표현될 수도 있고, 참 또는 거짓으로 표현될 수도 있고, 1 또는 0으로 표현될 수도 있고, 복수의 클래스로 구별된 값 중 하나로 표현될 수도 있다.
한편, 합의 값은 복수의 진단 주체가 실제 사용자를 대면하여 판단할 수도 있다. 구체적으로, 복수의 진단 주체는 실제 사용자를 육안으로 확인하고 논의하여 합의 값을 결정할 수도 있다. 이 경우, 복수의 진단 주체는 실제 사용자를 각자 독립적으로 먼저 분석하여 판단 값을 각자 결정하고, 이후 서로 논의하고 합의하여 합의 값을 결정할 수 있다. 이 경우 진단 이미지는 복수의 진단 주체가 합의 값을 결정한 이후 시점에 사용자로부터 획득되거나, 복수의 진단 주체가 실제 사용자를 대면하기 전에 사용자로부터 먼저 획득될 수도 있다.
라벨 값은 진단 모델을 생성하기 위해 이용되는 학습 데이터를 생성함에 있어서 진단 이미지에 라벨링되는 값을 의미한다. 즉, 학습 데이터는 학습 입력 데이터로서 진단 이미지를 포함하고, 학습 결과 데이터로서 라벨 값을 포함할 수 있다.
라벨 값은 판단 값 및/또는 합의 값 자체가 될 수도 있다. 이에 한정되는 것은 아니며, 라벨 값은 판단 값 및/또는 합의 값에 기초하여 결정된 값일 수 있다. 일 예로, 판단 값 및/또는 합의 값이 양성을 나타내는 값인 경우 라벨 값은 1 값이 될 수 있고, 판단 값 및/또는 합의 값이 음성을 나타내는 값인 경우 라벨 값은 0 값이 될 수 있다. 구체적인 라벨 값은 이에 한정되는 것은 아니며, 진단 모델의 알고리즘 설계에 따라 다양하게 결정될 수 있다.
한편, 라벨 값을 결정하는 주체는 진단 주체와 상이할 수 있다. 일 예로, 진단 주체들이 진단 이미지에 대한 판단 값 및 합의 값을 도출한 이후, 인공지능에 대한 엔지니어가 진단 주체들의 판단 값들 및 합의 값에 기초하여 라벨 값을 결정할 수 있다. 다른 예로, 진단 주체들이 판단 값 및 합의 값을 서버로 전송할 경우 서버가 판단 값 및 합의 값에 기초하여 라벨 값을 결정하고 진단 이미지에 라벨링하는 작업을 수행할 수도 있다.
판단 값들 및 합의 값은 적어도 셋 이상일 수 있는 바, 진단 모델을 생성하기 위해 이용될 학습 데이터로서 진단 이미지에는 적어도 셋 이상의 라벨 값이 다중 라벨링될 수 있다.
진단 모델을 생성하기 위해 이용되는 학습 데이터와 관련해서는 도 4 내지 도 6을 참조하여 설명한다.
도 4는 일 실시예에 따른 진단 주체 별 판단 값을 획득하는 과정을 설명하기 위한 도면이다.
도 4를 참조하면, 동일한 진단 이미지(310)에 대해 복수의 진단 주체(321, 322, 323)가 각자 독립적으로 질병 및/또는 증상과 관련된 상태를 진단하여 각자의 판단 값들(331, 332, 333)을 결정할 수 있다. 판단 값들(331, 332, 333)은 복수의 진단 주체(321, 322, 323)가 각자 독립적으로 판단한 값인 바 서로 상이한 값이 될 수도 있다. 일 예로, 제1 진단 주체(321) 및 제2 진단 주체(322)는 양성으로 판단하고, 제3 진단 주체(323)는 음성으로 판단할 수도 있다.
한편, 도 4에서는 세 명의 진단 주체(321, 322, 323)가 도시되어 있으나, 이에 한정되는 것은 아니며, 진단 주체는 두 명이거나 네 명 이상이 될 수도 있다.
도 5는 일 실시예에 따른 복수의 진단 주체로부터 합의 값을 획득하는 과정을 설명하기 위한 도면이다.
도 5를 참조하면, 복수의 진단 주체(321, 322, 323)는 진단 이미지(310)에 대한 질병 및/또는 증상과 관련된 상태를 서로 합의하여 하나의 합의 값(340)을 결정할 수 있다.
도 5에서 진단 이미지(310)를 진단하여 합의 값(340)을 결정하는 복수의 진단 주체(321, 322, 323)은 도 4에서 진단 이미지(310)를 독립적으로 진단하여 판단 값들(331, 332, 333)을 결정한 복수의 진단 주체(321, 322, 323)과 동일한 진단 주체일 수 있다.
도 5에서 복수의 진단 주체들(321, 322, 323)이 진단하는 진단 이미지(310)는 도 4에서 각 진단 주체들(321, 322, 323)이 판단 값(331, 332, 333) 결정에 이용한 진단 이미지(310)와 동일한 진단 이미지일 수 있다.
즉, 동일한 진단 이미지(310)에 대해 각 진단 주체(321, 322, 323)가 질병 여부에 대한 판단 값(331, 332, 333)을 독립적으로 결정하고, 동일한 진단 주체(321, 322, 323)가 동일한 진단 이미지(310)에 대한 질병 여부를 합의하여 합의 값(340)을 결정할 수 있다. 일 예로, 합의 값(340)을 결정함에 있어서 진단 주체들(321, 322, 323)은 동일한 시간 및/또는 동일한 공간에서 서로 합의할 수 있다. 구체적으로, 합의 값(340)은 진단 주체들(321, 322, 323)의 다수결로 결정될 수도 있으며, 또는 진단 주체들(321, 322, 323)의 논의 및 합의를 통해 소수의 판단이 합의 값(340)으로 결정될 수도 있다. 다른 예로, 합의 값(340)은 진단 주체들(321, 322, 323)의 판단 값들(331, 332, 333)의 다수결로 결정될 수도 있다.
도 6은 일 실시예에 따른 진단 모델의 학습에 이용되는 학습 데이터를 설명하기 위한 도면이다.
도 6을 참조하면, 진단 모델의 생성에 이용되는 학습 데이터(350)는 진단 이미지(310)와 진단 이미지(310)에 라벨링된 복수의 판단 값(331, 332, 333) 및 합의 값(340)을 포함할 수 있다. 즉, 학습 데이터(350)는 진단 이미지(310)에 복수의 판단 값들(331, 332, 333) 및 합의 값(340)을 포함하는 복수의 데이터(360)를 다중 라벨링하여 생성될 수 있다. 여기서 다중 라벨링은 동일한 증상에 대한 복수의 진단 주체(321, 322, 323) 각각의 판단 값들(331, 332, 333) 및 합의 값(340)을 하나의 진단 이미지(310)에 대응시키는 것을 의미할 수 있다. 이 경우 진단 이미지(310)는 학습 입력 데이터이고, 다중 라벨링 된 복수의 판단 값들(331, 332, 333) 및 합의 값(340)은 학습 결과 데이터일 수 있다.
도 6에서는 판단 값들(331, 332, 333) 및 합의 값(340) 자체가 진단 이미지(310)에 라벨링되는 것으로 도시되었으나, 이에 한정되는 것은 아니다. 판단 값들(331, 332, 333) 및 합의 값(340) 각각에 대응되는 라벨 값이 진단 이미지(310)에 라벨링될 수도 있다. 일 예로, 판단 값 및 합의 값 중 질병이 있는 것으로 결정된 값은 1 값이 라벨 값으로 결정되고, 질병이 없는 것으로 결정된 값은 0 값이 라벨 값으로 결정되어 진단 이미지(310)에 라벨링될 수 있다. 이 경우, 만약 제1 판단 값이 질병이 있는 것으로 결정된 값이고, 제2 판단 값이 질병이 없는 것으로 결정된 값이고, 제3 판단 값이 질병이 없는 것으로 결정된 값이고, 합의 값이 질병이 있는 것으로 결정된 값인 경우, 진단 이미지(310)에는 [1, 0, 0, 1] 값이 라벨링될 수도 있으며, 구체적인 라벨 값 및 라벨링 방법은 이에 한정되는 것은 아니다.
도 6에서는 도 4 및 도 5에서 복수의 진단 주체들(321, 322, 323)이 진단에 이용한 진단 이미지(310)와 동일한 진단 이미지(310)가 학습 데이터로 이용되는 것으로 도시되었으나, 이에 한정되는 것은 아니다. 학습 데이터로 이용되는 진단 이미지(310)는 별도의 전처리가 수행된 진단 이미지일 수도 있다. 일 예로, 복수의 진단 주체들이 질병 진단에 이용한 진단 이미지는 얼굴 전체에 대한 이미지일 수 있으나, 질병이 눈과 관련된 질병인 경우 학습 데이터로 이용되는 진단 이미지는 얼굴 전체에 대한 이미지 중 눈 영역을 크롭한 이미지일 수도 있다. 즉, 진단 주체들이 질병과 관련된 상태를 판단함에 있어서는 판단의 용이함을 위해 진단 이미지 자체를 이용할 수 있으며, 진단 모델을 생성함에 있어서는 진단 이미지에 별도의 전처리를 수행하여 진단 이미지 상의 불필요한 판단 요소를 배제함으로써 생성된 진단 모델의 정확도를 높일 수 있다.
한편, 도 6에서는 한 종류의 질병 및/또는 증상에 대한 제1 내지 제3 판단 값들(331, 332, 333) 및 합의 값(340)이 진단 이미지(310)에 라벨링되는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 적어도 두 종류 이상의 질병 및/또는 증상에 대한 판단 값들 및 합의 값이 하나의 진단 이미지에 라벨링될 수도 있다. 일 예로, 제1 질병에 대한 제1 내지 제3 판단 값들 및 제1 합의 값과, 제2 질병에 대한 제4 내지 제6 판단 값들 및 제2 합의 값이 하나의 진단 이미지에 다중 라벨링될 수도 있다. 다른 예로, 제1 질병에 대한 제1 내지 제3 판단 값들 및 제1 합의 값과, 제2 질병에 대한 제4 내지 제6 판단 값들 및 제2 합의 값과, 제3 질병에 대한 제7 내지 제9 판단 값들 및 제3 합의 값이 하나의 진단 이미지에 다중 라벨링될 수도 있으며, 구체적인 질병 수는 전술한 범위에 한정되는 것은 아니다.
도 7은 일 실시예에 따른 학습된 진단 모델을 이용하여 질병을 예측하는 과정을 설명하기 위한 도면이다.
도 7을 참조하면, 진단 모델(410)은 입력된 진단 이미지(420)에 대해 복수의 예측 값(431, 432, 433, 440)을 출력하도록 구성될 수 있다. 구체적으로, 진단 모델(410)은 입력된 진단 이미지(420)에 대해 복수의 진단 주체들 각각의 판단 값에 대응되는 예측 값들(431, 432 433) 및 복수의 진단 주체들의 합의 값에 대응되는 합의 예측 값(440)을 출력하도록 구성될 수 있다.
일 예로, 진단 모델(410)은
CNN(Convolution Neural Network), Vision Transformer, SVM(Support Vector Machine), Random Forest, Gradient Boosting Algorithm, ANN(Artificial Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), ResNet, VGG, GoogLeNet 및/또는 MobileNet 등의 알고리즘을 이용하여 생성된 모델일 수 있다.
한편, 진단 모델(410)에 입력되는 진단 이미지(420)는 학습 데이터로 이용되는 진단 이미지에 수행된 별도의 전처리가 수행된 진단 이미지일 수도 있다. 즉, 진단 모델(410)에 진단 이미지를 입력하기 전, 진단 이미지에 대한 전처리가 먼저 수행되고, 전처리가 수행된 진단 이미지가 진단 모델(410)에 입력될 수 있다.
도 7에서는 복수의 진단 주체들 각각의 판단 값에 대응되는 예측 값(431, 432, 433)이 세 가지 인 것으로 도시되었으나, 이는 진단 주체가 세 명이기 때문이며, 만약 진단 주체가 두 명 또는 네 명 이상인 경우 판단 값에 대응되는 예측 값은 두 가지 또는 네 가지 이상일 수도 있다.
진단 모델(410)은 도 6에서 설명한 학습 데이터(350)를 이용하여 생성될 수 있으며, 학습 과정에 있어서 출력 노드 별로 손실 값에 대한 가중치는 서로 다르게 설정될 수도 있다. 구체적으로, 진단 모델(410)의 학습에 있어서 복수의 출력 노드 각각에 대해 모두 동일한 손실 가중치가 설정될 수도 있으나, 합의 예측 값에 대응되는 출력 노드에 대해 손실 가중치가 높게 설정될 수도 있다. 일 예로, 도 7에서와 같이 출력 노드가 4개인 경우, 각각의 손실 가중치는 0.25로 설정될 수도 있으나, 합의 예측 값(440)에 대응되는 노드에 대한 손실 가중치는 0.7로 설정되고 다른 예측 값들(431, 432, 433)에 대응되는 노드에 대한 손실 가중치는 각각 0.1로 설정될 수도 있다. 또는, 합의 예측 값(440)에 대응되는 노드에 대한 손실 가중치는 0.5로 설정되고 다른 예측 값들(431, 432, 433)에 대응되는 노드들에 대한 손실 가중치는 각각 0.5/3으로 설정될 수도 있다. 손실 가중치에 대한 구체적인 값은 전술한 값에 한정되는 것은 아니며, 손실 가중치에 대한 구체적인 값은 실험을 통해 적절히 값을 조정하여 결정될 수도 있다.
한편, 도 7에서는 진단 모델(410)로부터 한 종류의 질병 및/또는 증상에 대한 제1 내지 제3 예측 값들(431, 432, 433) 및 합의 예측 값(440)이 출력되는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 적어도 두 종류 이상의 질병 및/또는 증상 각각에 대한 예측 값들 및 합의 예측 값이 하나의 진단 모델로부터 출력될 수도 있다. 일 예로, 진단 모델이 제1 질병에 대한 제1 내지 제3 판단 값들 및 제1 합의 값과, 제2 질병에 대한 제4 내지 제6 판단 값들 및 제2 합의 값이 다중 라벨링된 진단 이미지를 이용하여 생성된 경우, 진단 모델은 두 종류 질병 각각에 대한 예측 값들 및 합의 예측 값을 출력할 수 있다. 다른 예로, 진단 모델이 제1 질병에 대한 제1 내지 제3 판단 값들 및 제1 합의 값과, 제2 질병에 대한 제4 내지 제6 판단 값들 및 제2 합의 값과, 제3 질병에 대한 제7 내지 제9 판단 값들 및 제3 합의값이 다중 라벨링된 진단 이미지를 이용하여 생성된 경우, 진단 모델은 세 종류 질병 각각에 대한 예측 값들 및 합의 예측 값을 출력할 수 있으며, 구체적인 질병 수는 전술한 범위에 한정되는 것은 아니다.
질병 여부를 판단하기 위한 최종 예측 값은 진단 모델(410)이 출력한 예측 값들(431, 432, 433) 및 합의 예측 값(440)에 기초하여 결정될 수 있다. 일 예로, 출력된 값들 중 합의 예측 값(440)을 최종 예측 값으로 결정할 수 있다. 복수의 진단 주체들이 합의하여 결정된 합의 값에 대응되는 하나의 합의 예측 값(440)을 최종 예측 값으로 이용하는 바, 진단 모델(410)의 출력 값에 대한 추가 처리 과정 없이 최종 예측 값을 획득할 수 있으므로 추가 처리 과정에 의한 정확도 손실을 줄일 수 있다.
또한, 일 실시예에 따른 진단 모델(410)은 복수의 진단 주체들의 각각의 판단 값들과 합의 값이 하나의 모델 상에서 학습되는 바, 각 진단 주체의 판단 값 하나만 이용하거나 합의 값 하나만을 이용하여 모델이 학습되는 경우 보다 더 많은 정보를 학습할 수 있다. 구체적으로, 복수의 진단 주체들의 판단 값들이 학습 과정에서 합의 값에 영향을 미칠 수 있으므로, 진단 모델은 확실한 양성, 애매한 양성, 애매한 음성, 확실한 음성과 같이 단순히 양성 또는 음성만 구별했을 때보다 더 많은 정보를 학습할 수 있다. 즉, 복수의 진단 주체들 각각이 판단 값을 결정하는 과정이 최종 예측 값에 반영될 수 있는 바, 예측 성능이 상승될 수 있다.
또한, 일 실시예에 따른 진단 모델(410)은 복수의 진단 주체들 각각의 판단 값들이 하나의 모델 상에서 학습되는 바, 각각의 판단 값들이 학습 과정에서 서로 영향을 미칠 수 있으므로, 복수의 진단 주체들 중 일부가 판단 값 결정 과정에서 일으킬 수 있는 오류를 보완해줄 수 있어, 판단 값들에 대응되는 예측 값들의 정확도가 상승될 수 있다.
한편, 질병 및/또는 증상 여부를 판단하기 위한 최종 예측 값은 진단 모델(410)이 출력한 예측 값들(431, 432, 433) 및 합의 예측 값(440) 각각에 가중치를 부여하고 합산한 값에 기초하여 결정될 수도 있다. 일 예로, 예측 값들(431, 432, 433) 및 합의 예측 값(440)을 합산한 값이 임계 값 이상인 경우 양성으로 판단할 수 있고, 합산한 값이 임계 값 미만인 경우 음성으로 판단할 수 있다. 한편, 가중치를 설정함에 있어서 합의 예측 값(440)에 대한 가중치를 다른 예측 값들(431, 432, 433)에 대한 가중치보다 높게 부여하고 값들을 합산할 수도 있다.
한편, 질병 여부를 판단하기 위한 최종 예측 값은 진단 모델(410)이 출력한 예측 값들(431, 432, 433) 및 합의 예측 값(440)의 다수결로 결정될 수도 있다. 일 예로, 예측 값들과 합의 예측 값 전체에서 양성 값이 과반인 경우 최종 예측 값을 양성으로, 음성 값이 과반인 경우 최종 예측 값을 음성으로 판단할 수 있다. 한편, 양성 값의 수와 음성 값의 수가 동일한 경우에는 합의 예측 값에 따라 최종 예측 값을 결정할 수도 있다.
한편, 질병 여부를 판단하기 위한 최종 예측 값은 진단 모델(410)이 출력한 예측 값들(431, 432, 433) 및 합의 예측 값(440)의 평균 값에 기초하여 결정될 수도 있다. 이에 한정되는 것은 아니며, 질병 여부를 판단하기 위한 최종 예측 값은 진단 모델(410)이 출력한 예측 값들(431, 432, 433) 및 합의 예측 값(440)을 이용하여 획득된 다른 통계 값에 기초하여 결정될 수도 있다.
진단 이미지를 기반으로 질병 및/또는 증상을 예측하는 진단 모델은 설계 목적 및 설계 방법에 따라 다양하게 존재할 수 있다.
본 출원의 발명자들은 안병증과 관련된 증상 진단 모델을 이용하여 본 개시에 따른 멀티 라벨 모델의 성능 실험을 진행하였다. 구체적으로, 진단 이미지는 사용자의 눈 이미지이고, 진단 대상은 눈꺼풀이며, 판단 값은 눈꺼풀 발적 여부로 설정하였다.
진단 주체는 안과 의사 세 명으로 설정하였으며, 비교 실험으로 제1 의사의 판단 값만으로 학습된 제1 의사 모델, 제2 의사의 판단 값만으로 학습된 제2 의사 모델, 제3 의사의 판단 값만으로 학습된 제3 의사 모델, 제1 내지 제3 의사들의 합의 값만으로 학습된 합의 값 모델에 대한 성능 실험을 진행하였다.
각 모델은 1020장의 진단 이미지를 포함하는 학습 데이터와 ResNet 알고리즘를 이용하여 생성되었다. 구체적으로, 학습 데이터를 train:validation:test = 7:1:2 비율로 무작위로 나누어서 30번의 반복 실험을 진행하였다. 즉, 한 번의 실험에서는 train 데이터 714장, validation 데이터 102장, test 데이터 204장의 학습 데이터를 이용하여 각 모델을 생성하였다.
비교 대상 모델들의 F1-score, 정확도, 민감도, 특이도, PPV, NPV는 다음의 [표 1]과 같다.
F1-score 정확도(%) 민감도(%) 특이도(%) PPV(%) NPV(%)
제1 의사 모델 0.6170 71.03 68.25 72.39 58.74 81.61
제2 의사 모델 0.6345 74.46 66.73 78.33 62.11 82.54
제3 의사 모델 0.6217 71.93 68.40 73.54 59.08 82.44
합의 값 모델 0.6716 75.80 72.23 77.58 64.21 84.56
한편, 본 개시의 일 실시예에 따라 생성된 멀티 라벨 모델에 대한 성능 실험도 진행하였다.
멀티 라벨 모델은 제1 내지 제3 의사의 판단 값들 및 제1 내지 제3 의사들의 합의 값이 다중 라벨링된 진단 이미지 1020장를 포함하는 학습 데이터와 ResNet 알고리즘를 이용하여 생성되었다. 구체적으로, 학습 데이터를 train:validation:test = 7:1:2 비율로 무작위로 나누어서 30번의 반복 실험을 진행하였다. 즉, 한 번의 실험에서는 train 데이터 714장, validation 데이터 102장, test 데이터 204장의 학습 데이터를 이용하여 멀티 라벨 모델을 생성하였다. 진단 이미지는 상술한 각 모델을 생성하는 데 이용한 진단 이미지와 동일한 진단 이미지가 이용되었다.
본 개시의 일 실시예에 따라 생성된 멀티 라벨 모델의 출력 값인 제1 내지 제3 예측 값 및 합의 예측 값의 F1-score, 정확도, 민감도, 특이도, PPV, NPV는 다음의 [표 2]와 같다.
F1-score 정확도(%) 민감도(%) 특이도(%) PPV(%) NPV(%)
제1 예측 값 0.6171 72.66 64.01 77.13 60.84 80.35
제2 예측 값 0.6445 74.46 69.03 77.22 61.77 83.28
제3 예측 값 0.6239 73.61 64.54 78.23 62.59 81.24
합의 예측 값 0.6817 76.29 73.80 77.57 64.80 85.25
[표 1] 및 [표 2]를 참조하면, 제1 내지 제3 진단 주체들의 판단 값들과 합의 값을 진단 이미지에 다중 라벨링한 학습 데이터를 이용하여 생성된 진단 모델의 성능이 비교 대상 모델보다 더 좋은 것을 확인할 수 있다. 또한, 최종 예측 값을 멀티 라벨 모델이 출력한 합의 예측 값에 기초하여 결정할 경우 가장 좋은 성능을 나타내는 것을 확인할 수 있다. 한편, 실험을 진행한 안병증 진단 모델의 대상 질병이 다른 질병으로 변경되더라도 유사한 경향을 보일 것으로 예측될 수 있다.
한편, 도 6 및 도 7에서는 진단 모델이 진단 이미지에 복수의 진단 주체들의 판단 값들 및 합의 값이 다중 라벨링된 학습 데이터를 이용하여 생성되는 것으로 설명하였으나, 도 8 및 도 9와 같이 진단 모델은 합의 값을 제외하고 복수의 진단 주체들의 판단 값들만이 진단 이미지에 다중 라벨링된 학습 데이터를 이용하여 생성될 수도 있으며, 이 경우에도 상술한 바와 같은 유의미한 개선이 있을 수 있다.
구체적으로, 도 8은 일 실시예에 따른 진단 모델의 학습에 이용되는 학습 데이터를 설명하기 위한 도면이다.
도 8을 참조하면, 진단 모델의 생성에 이용되는 학습 데이터(550)는 진단 이미지(510)와 진단 이미지(510)에 라벨링된 복수의 판단 값(521, 522, 523)을 포함할 수 있다. 즉, 학습 데이터(550)는 진단 이미지(510)에 복수의 데이터(560)를 다중 라벨링하여 생성될 수 있다. 여기서 다중 라벨링은 동일한 증상에 대한 복수의 진단 주체(321, 322, 323) 각각의 판단 값들(331, 332, 333)을 하나의 진단 이미지(510)에 대응시키는 것을 의미할 수 있다. 이 경우 진단 이미지(510)는 학습 입력 데이터이고, 다중 라벨링 된 복수의 판단 값들(521, 522, 523)은 학습 결과 데이터일 수 있다. 진단 이미지 및 복수의 판단 값과 관련해서는 상술한 바 있으므로 중복 설명은 생략한다.
한편, 도 8에서는 한 종류의 질병 및/또는 증상에 대한 제1 내지 제3 판단 값들(521, 522, 523)이 진단 이미지(510)에 라벨링되는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 적어도 두 종류 이상의 질병 및/또는 증상에 대한 판단 값들이 하나의 진단 이미지에 라벨링될 수도 있으며, 구체적인 내용은 도 6에서 설명한 바와 유사하므로 중복 설명은 생략한다.
도 9는 일 실시예에 따른 학습된 진단 모델을 이용하여 질병을 예측하는 과정을 설명하기 위한 도면이다.
도 9를 참조하면, 진단 모델(610)은 입력된 진단 이미지(620)에 대해 복수의 예측 값(631, 632, 633)을 출력하도록 구성될 수 있다. 구체적으로, 진단 모델(610)은 입력된 진단 이미지(620)에 대해 복수의 진단 주체들 각각의 판단 값에 대응되는 예측 값들(631, 632, 633)을 출력하도록 구성될 수 있다. 진단 모델, 진단 이미지 및 예측 값과 관련해서는 상술한 바 있으므로 중복 설명은 생략한다.
한편, 도 9에서는 진단 모델(610)로부터 한 종류의 질병 및/또는 증상에 대한 제1 내지 제3 예측 값들(631, 632, 633)이 출력되는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 적어도 두 종류 이상의 질병 및/또는 증상 각각에 대한 예측 값들이 하나의 진단 모델로부터 출력될 수도 있으며, 구체적인 내용은 도7에서 설명한 바와 유사하므로 중복 설명은 생략한다.
본 출원의 발명자들은 안병증과 관련된 증상 진단 모델을 이용하여 본 개시에 따른 진단 주체들의 판단 값만을 이용한 멀티 라벨 모델의 성능 실험을 진행하였다. 구체적으로, 진단 이미지는 사용자의 눈 이미지이고, 진단 대상은 눈물언덕이며, 판단 값은 눈물언덕 부종 여부로 설정하였다.
진단 주체는 안과 의사 세 명으로 설정하였으며, 비교 실험으로 제1 의사의 판단 값만으로 학습된 제1 의사 모델, 제2 의사의 판단 값만으로 학습된 제2 의사 모델, 제3 의사의 판단 값만으로 학습된 제3 의사 모델 각각의 성능과, 제1 내지 제3 의사 모델들의 출력 값들의 다수결 값과 합의 값을 비교한 성능 실험을 진행하였다.
각 모델은 1020장의 진단 이미지를 포함하는 학습 데이터와 ResNet 알고리즘를 이용하여 생성되었다. 구체적으로, 학습 데이터를 train:validation:test = 7:1:2 비율로 무작위로 나누어서 30번의 반복 실험을 진행하였다. 즉, 한 번의 실험에서는 train 데이터 714장, validation 데이터 102장, test 데이터 204장의 학습 데이터를 이용하여 각 모델을 생성하였다.
비교 대상 실험의 F1-score, 정확도, 민감도, 특이도, PPV, NPV는 다음의 [표 3]과 같다.
F1-score 정확도(%) 민감도(%) 특이도(%) PPV(%) NPV(%)
제1 의사 모델 0.4276 76.49 52.81 81.61 40.98 89.20
제2 의사 모델 0.4409 94.02 46.53 96.89 51.14 96.83
제3 의사 모델 0.4276 80.13 51.29 84.96 41.62 91.35
다수결 값과 합의 값 비교 0.4562 88.15 43.67 94.22 54.01 92.51
한편, 본 개시의 일 실시예에 따른 세 명의 의사들의 판단 값만을 이용한 멀티 라벨 모델에 대한 성능 실험도 진행하였다.
멀티 라벨 모델은 제1 내지 제3 의사의 판단 값들이 다중 라벨링된 진단 이미지 1020장를 포함하는 학습 데이터와 ResNet 알고리즘를 이용하여 생성되었다. 구체적으로, 학습 데이터를 train:validation:test = 7:1:2 비율로 무작위로 나누어서 30번의 반복 실험을 진행하였다. 즉, 한 번의 실험에서는 train 데이터 714장, validation 데이터 102장, test 데이터 204장의 학습 데이터를 이용하여 멀티 라벨 모델을 생성하였다. 진단 이미지는 상술한 각 모델을 생성하는 데 이용한 진단 이미지와 동일한 진단 이미지가 이용되었다.
본 개시의 일 실시예에 따라 생성된 멀티 라벨 모델의 출력 값인 제1 내지 제3 예측 값 및 제1 내지 제3 예측 값들의 다수결 값과 합의 값을 비교한 성능 실험 결과는 다음의 [표 4]와 같다.
F1-score 정확도(%) 민감도(%) 특이도(%) PPV(%) NPV(%)
제1 예측 값 0.4427 78.59 48.61 85.37 45.14 88.52
제2 예측 값 0.4328 93.40 43.84 96.36 55.58 96.73
제3 예측 값 0.4459 81.93 49.39 87.40 44.31 91.14
다수결 값과 합의 값 비교 0.4814 86.70 52.40 91.37 49.96 93.49
[표 3] 및 [표 4]를 참조하면, 복수의 진단 주체들의 판단 값들을 다중 라벨링한 학습 데이터를 이용하여 생성된 진단 모델의 성능이 평균적으로 비교 대상 모델보다 더 좋은 것을 확인할 수 있다. 즉, 복수의 진단 주체들의 판단 값들을 진단 이미지에 다중 라벨링한 학습 데이터를 이용하여 진단 모델을 생성하는 것으로도 유의미한 개선이 있음을 확인할 수 있다.
5. 진단 모델 2 - 라벨 스무딩(smoothing) 모델
이하에서는 질병 및/또는 증상을 진단할 수 있는 라벨 스무딩 모델과 관련된 구체적인 내용을 설명한다.
일 실시예에 따른 라벨 스무딩 모델은 하나의 진단 이미지에 대해 복수의 진단 주체들에 결정한 합의 값에 대한 라벨 값을 이용하되, 복수의 진단 주체들 각각이 결정한 복수의 판단 값들을 고려하여 라벨 값을 스무딩(smoothing)하고 스무딩된 라벨 값이 진단 이미지에 라벨링된 학습 데이터를 이용하여 생성된 모델일 수 있다.
진단 이미지, 진단 대상, 진단 주체, 판단 값, 합의 값 및 라벨 값과 관련해서는 멀티 라벨 모델을 설명한 부분에서 설명한 바 있으므로 중복 설명은 생략한다.
진단 모델을 생성하기 위해 이용되는 학습 데이터와 관련해서는 도 10을 참조하여 설명한다.
도 10은 일 실시예에 따른 진단 모델의 학습에 이용되는 학습 데이터를 설명하기 위한 도면이다.
도 10을 참조하면, 먼저 복수의 진단 주체는 동일한 진단 이미지(710)에 대해 각자 독립적으로 질병 및/또는 증상과 관련된 상태를 진단하여 각 진단 주체 별 판단 값(731, 732, 733)을 결정할 수 있다. 그리고 복수의 진단 주체는 동일한 진단 이미지(710)에 대해 질병 및/또는 증상과 관련된 상태를 서로 합의하여 하나의 합의 값(720)을 결정할 수 있다.
복수의 판단 값들(731, 732, 733)을 결정하는 복수의 진단 주체는 합의 값(720)을 결정하는 복수의 진단 주체와 동일한 진단 주체일 수 있고, 복수의 판단 값들(731, 732, 733) 및 합의 값(720) 결정에 이용된 진단 이미지(710)는 서로 동일한 진단 이미지일 수 있고, 학습 데이터로 이용되는 진단 이미지(710)는 별도의 전처리가 수행된 진단 이미지일 수도 있음은 상술한 바 있으므로 중복 설명은 생략한다.
도 10을 참조하면, 진단 이미지(710)에 라벨링되는 라벨 값은 복수의 판단 값들(731, 732, 733) 및 합의 값(720)에 기초하여 결정된 스무딩된 합의 값(740)일 수 있다. 일 예로, 합의 값(720)이 양성이고, 복수의 진단 주체들이 각자 독립적으로 결정한 판단 값들(731, 732, 733)이 만장일치 양성인 경우 스무딩된 합의 값(740)은 1 값으로 결정될 수 있다. 합의 값(720)이 음성이고, 복수의 진단 주체들이 각자 독립적으로 결정한 판단 값들(731, 732, 733)이 만장일치 음성인 경우 스무딩된 합의 값(740)은 0 값으로 결정될 수 있다. 만약, 합의 값(720)이 양성이고, 복수의 판단 값들(731, 732, 733)이 만장일치가 아닌 경우 스무딩된 합의 값(740)은 0.8 값으로 결정될 수 있다. 만약, 합의 값(720)이 음성이고, 복수의 판단 값들(731, 732, 733)이 만장일치가 아닌 경우 스무딩된 합의 값(740)은 0.2 값으로 결정될 수 있다. 이에 한정되는 것은 아니며, 합의 값(720)이 양상이고, 복수의 판단 값들(731, 732, 733)이 만장일치가 아닌 경우 스무딩된 합의 값(740)은 0.7 값으로 결정될 수 있다. 한편, 합의 값(720)이 음성이고, 복수의 판단 값들(731, 732, 733)이 만장일치가 아닌 경우 스무딩된 합의 값(740)은 0.3 값으로 결정될 수 있다. 즉, 스무딩된 합의 값(740)은 합의 값(730)을 기준으로 복수의 판단 값들(720)의 분포를 고려하여 적절히 값을 조정하여 결정될 수 있으며, 전술한 값에 한정되는 것은 아니다.
한편, 도 10에서는 판단 값(720)이 세 개인 경우, 즉 진단 주체가 세 명인 경우를 도시하고 있으나, 이에 한정되는 것은 아니며, 진단 주체는 두 명이거나 네 명 이상이 될 수도 있다. 이 경우, 판단 값(720) 또한 두 개이거나 네 개 이상이 될 수 있다.
한편, 도 10에서는 한 종류의 질병 및/또는 증상에 대한 합의 값(720) 및 제1 내지 제3 판단 값들(731, 732, 733)에 기초하여 결정된 스무딩된 합의 값(740)이 진단 이미지(710)에 라벨링되는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 적어도 두 종류 이상의 질병 및/또는 증상 각각에 대한 판단 값들 및 합의 값에 기초하여 결정된 적어도 둘 이상의 스무딩된 합의 값이 하나의 진단 이미지에 라벨링될 수도 있다. 일 예로, 제1 질병에 대한 제1 합의 값 및 제1 내지 제3 판단 값들에 기초하여 결정된 제1 스무딩된 합의 값과, 제2 질병에 대한 제2 합의 값 및 제4 내지 제6 판단 값들에 기초하여 결정된 제2 스무딩된 합의 값이 하나의 진단 이미지에 다중 라벨링될 수도 있다. 다른 예로, 제1 질병에 대한 제1 합의 값 및 제1 내지 제3 판단 값들에 기초하여 결정된 제1 스무딩된 합의 값과, 제2 질병에 대한 제2 합의 값 및 제4 내지 제6 판단 값들에 기초하여 결정된 제2 스무딩된 합의 값과, 제3 질병에 대한 제3 합의 값 및 제7 내지 제9 판단 값들에 기초하여 결정된 제3 스무딩된 합의 값이 하나의 진단 이미지에 다중 라벨링될 수도 있으며, 구체적인 질병 수는 전술한 범위에 한정되는 것은 아니다.
도 11은 일 실시예에 따른 학습된 진단 모델을 이용하여 질병을 예측하는 과정을 설명하기 위한 도면이다.
도 11을 참조하면, 진단 모델(810)은 입력된 진단 이미지(820)에 대해 스무딩된 합의 값에 대응되는 예측 값(830)을 출력하도록 구성될 수 있다.
일 예로, 진단 모델(810)은 CNN(Convolution Neural Network), Vision Transformer, SVM(Support Vector Machine), Random Forest, Gradient Boosting Algorithm, ANN(Artificial Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), ResNet, VGG, GoogLeNet 및/또는 MobileNet 등의 알고리즘을 이용하여 생성된 모델일 수 있다.
한편, 진단 모델(810)에 입력되는 진단 이미지(820)는 학습 데이터로 이용되는 진단 이미지에 수행된 별도의 전처리가 수행된 진단 이미지일 수도 있음은 상술한 바 있으므로 중복 설명은 생략한다.
한편, 도 11에서는 진단 모델(810)로부터 한 종류의 질병 및/또는 증상에 대한 예측 값(830)이 출력되는 것으로 도시되어 있으나, 이에 한정되는 것은 아니다. 적어도 두 종류 이상의 질병 및/또는 증상 각각에 대한 예측 값이 하나의 진단 모델로부터 출력될 수도 있다. 일 예로, 진단 모델이 제1 질병에 대한 제1 합의 값 및 제1 내지 제3 판단 값들에 기초하여 결정된 제1 스무딩된 합의 값과, 제2 질병에 대한 제2 합의 값 및 제4 내지 제6 판단 값들에 기초하여 결정된 제2 스무딩된 합의 값이 다중 라벨링 된 진단 이미지를 이용하여 생성된 경우, 진단 모델은 두 종류 질병 각각에 대한 예측 값을 출력할 수 있다. 다른 예로, 진단 모델이 제1 질병에 대한 제1 합의 값 및 제1 내지 제3 판단 값들에 기초하여 결정된 제1 스무딩된 합의 값과, 제2 질병에 대한 제2 합의 값 및 제4 내지 제6 판단 값들에 기초하여 결정된 제2 스무딩된 합의 값과, 제3 질병에 대한 제3 합의 값 및 제7 내지 제9 판단 값들에 기초하여 결정된 제3 스무딩된 합의 값이 다중 라벨링 된 진단 이미지를 이용하여 생성된 경우, 진단 모델은 세 종류 질병 각각에 대한 예측 값을 출력할 수 있으며, 구체적인 질병 수는 전술한 범위에 한정되는 것은 아니다.
질병 여부를 판단하기 위한 최종 예측 값은 진단 모델(810)이 출력한 예측 값(830)에 기초하여 결정될 수 있다. 복수의 진단 주체들의 판단 값들 및 합의 값을 고려하여 결정된 스무딩된 합의 값에 대응되는 예측 값(830)이 최종 예측 값으로 이용되는 바, 진단 모델(810)의 출력 값에 대한 추가 처리 과정 없이 최종 예측 값을 획득할 수 있으므로, 추가 처리 과정에 의한 정확도 손실을 줄일 수 있다.
또한, 진단 모델(810)로부터 획득된 예측 값(830)은 복수의 진단 주체들의 판단 값이 반영된 스무딩된 합의 값에 대응되는 예측 값인 바, 최종 예측 값은 복수의 진단 주체들의 판단 값들을 반영할 수 있다.
진단 이미지를 기반으로 질병 및/또는 증상을 예측하는 진단 모델은 설계 목적 및 설계 방법에 따라 다양하게 존재할 수 있다.
본 출원의 발명자들은 안병증과 관련된 증상 진단 모델을 이용하여 본 개시에 따른 라벨 스무딩 모델의 성능 실험을 진행하였다. 구체적으로, 진단 이미지는 사용자의 눈 이미지이고, 진단 대상은 눈꺼풀이며, 판단 값은 눈꺼풀 발적 여부로 설정하였다.
진단 주체는 안과 의사 세 명으로 설정하였으며, 비교 실험으로 제1 의사의 판단 값만으로 학습된 제1 의사 모델, 제2 의사의 판단 값만으로 학습된 제2 의사 모델, 제3 의사의 판단 값만으로 학습된 제3 의사 모델, 제1 내지 제3 의사들의 합의 값만으로 학습된 합의 값 모델에 대한 성능 실험을 진행하였다.
각 모델은 1020장의 진단 이미지를 포함하는 학습 데이터와 ResNet 알고리즘를 이용하여 생성되었다. 구체적으로, 학습 데이터를 train:validation:test = 7:1:2 비율로 무작위로 나누어서 30번의 반복 실험을 진행하였다. 즉, 한 번의 실험에서는 train 데이터 714장, validation 데이터 102장, test 데이터 204장의 학습 데이터를 이용하여 각 모델을 생성하였다.
비교 대상 모델들의 F1-score, 정확도, 민감도, 특이도, PPV, NPV는 다음의 [표 5]와 같다. 이는 [표 1]과 동일한 실험 결과이다.
F1-score 정확도(%) 민감도(%) 특이도(%) PPV(%) NPV(%)
제1 의사 모델 0.6170 71.03 68.25 72.39 58.74 81.61
제2 의사 모델 0.6345 74.46 66.73 78.33 62.11 82.54
제3 의사 모델 0.6217 71.93 68.40 73.54 59.08 82.44
합의 값 모델 0.6716 75.80 72.23 77.58 64.21 84.56
한편, 본 개시의 일 실시예에 따른 라벨 스무딩 모델에 대한 성능 실험도 진행하였다.
라벨 스무딩 모델은 제1 내지 제3 의사들이 합의하여 결정한 합의 값 및 제1 내지 제3 의사들 각각의 결정한 판단 값들에 기초하여 1, 0.8, 0.2 또는 0 값이 스무딩된 합의 값으로 다중 라벨링된 진단 이미지 1020장를 포함하는 학습 데이터와 ResNet 알고리즘를 이용하여 생성되었다. 구체적으로, 학습 데이터를 train:validation:test = 7:1:2 비율로 무작위로 나누어서 30번의 반복 실험을 진행하였다. 즉, 한 번의 실험에서는 train 데이터 714장, validation 데이터 102장, test 데이터 204장의 학습 데이터를 이용하여 멀티 라벨 모델을 생성하였다. 진단 이미지는 상술한 각 모델을 생성하는 데 이용한 진단 이미지와 동일한 진단 이미지가 이용되었다.
본 개시의 일 실시예에 따라 생성된 라벨 스무딩 모델이 출력한 예측 값의 F1-score, 정확도, 민감도, 특이도, PPV, NPV는 다음의 [표 6]과 같다.
F1-score 정확도(%) 민감도(%) 특이도(%) PPV(%) NPV(%)
예측 값 0.6893 76.54 75.85 76.83 64.69 86.21
[표 5] 및 [표 6]을 참조하면, 라벨 스무딩 모델의 성능이 비교 대상 모델보다 더 좋은 것을 확인할 수 있다. 한편, 실험을 진행한 안병증 진단 모델의 대상 질병이 다른 질병으로 변경되더라도 유사한 경항을 보일 것으로 예측될 수 있다.
6. 갑상선 안병증에 관한 임상활동점수(Clinical Activity Score, CAS) 예측 시스템
이하에서는 상술한 진단 모델을 이용하여 갑상선 안병증에 관한 임상활동점수를 예측할 수 있는 시스템을 구체적으로 설명한다.
갑상선 안병증에 관한 임상활동점수는 총 7가지의 항목들을 고려하여 결정될 수 있다. 구체적으로, 7가지 항목은 결막의 충혈 (Redness of conjunctiva), 결막의 부종 (Swelling of conjunctiva), 눈물언덕의 부종 (Swelling of lacrimal caruncle), 눈꺼풀의 발적 (Redness of eyelid), 눈꺼풀의 부종 (Swelling of eyelid), 구후부의 자발적인 통증 (Spontaneous retrobulbar pain) 및 안구운동 시 통증 (Pain on attempted upward or downward gaze)을 포함하며, 각 증상마다 양성인 경우 1점을, 음성인 경우 0점을 할당하고, 총 점수를 합산하여 최종 임상활동점수가 결정될 수 있다.
도 12는 일 실시예에 따른 갑상선 안병증에 관한 임상활동점수를 예측하기 위한 시스템(20)을 나타낸 도면이다.
시스템(20)은 갑상선 안병증에 대한 임상활동점수를 판단함에 있어서 고려되는 총 7가지의 항목들 중 구후부의 자발적인 통증 (Spontaneous retrobulbar pain) 및 안구운동 시 통증 (Pain on attempted upward or downward gaze)에 대한 정보를 사용자로부터 획득할 수 있다. 구체적으로, 도 12에는 도시하지 않았으나, 시스템(20)은 사용자 입력을 받기 위한 그래피컬 유저 인터페이스(graphical user interface, GUI)를 사용자 장치의 디스플레이에 표시하고, 사용자가 사용자 장치에 정보를 입력하면, 시스템(20)은 사용자 장치로부터 각 증상에 대한 정보를 획득할 수 있다.
시스템(20)은 갑상선 안병증에 관한 임상활동점수 중 결막의 충혈 (Redness of conjunctiva), 결막의 부종 (Swelling of conjunctiva), 눈물언덕의 부종 (Swelling of lacrimal caruncle), 눈꺼풀의 발적 (Redness of eyelid), 및 눈꺼풀의 부종 (Swelling of eyelid)에 대해서는 서로 독립적인 진단 모델을 이용하여 예측할 수 있다. 구체적으로, 사용자 장치로부터 획득한 사용자의 눈이 나타난 얼굴 이미지와 각 증상을 예측하기 위한 다섯 가지의 진단 모델들을 이용하여 다섯 가지 증상 각각에 대한 점수를 예측할 수 있다.
각의 증상에 대한 점수를 예측하기 위해 시스템(20)은 먼저 사용자의 눈이 나타난 얼굴 이미지 및/또는 눈 이미지를 획득할 수 있다. 눈 이미지는 결막, 흰자위, 각막, 홍채, 눈꺼풀, 눈썹, 속눈썹, 외부로 노출된 안구, 눈의 아웃라인, 외부로 노출된 각막, 외부로 노출된 결막 등이 나타난 이미지를 의미할 수 있다. 또는, 눈 이미지는 사용자의 상안검(upper eyelid), 하안검(lower eyelid) 및 상기 상안검 및 하안검 등에 의해 외부로 노출되는 안구(exposed eyeball)에 관한 이미지를 의미할 수 있다.
눈 이미지는 사용자가 사용자 장치를 이용하여 직접 사용자의 얼굴을 촬영하여 얼굴 이미지를 획득하고, 사용자 장치가 얼굴 이미지를 시스템(20)으로 전송함으로써 획득될 수 있다.
일 예로, 사용자가 사용자 장치를 이용하여 사용자의 얼굴 이미지를 획득하고, 사용자 장치가 얼굴 이미지에 대한 전처리를 수행하여 눈 이미지를 획득하고, 사용자 장치가 눈 이미지를 시스템(20)으로 전송하여, 시스템(20)은 눈 이미지를 획득할 수 있다. 다른 예로, 사용자가 사용자 장치를 이용하여 사용자의 얼굴 이미지를 획득하고, 사용자 장치가 얼굴 이미지를 시스템(20)으로 전송하고, 시스템(20)이 얼굴 이미지에 대한 전처리를 수행하여 눈 이미지를 획득할 수 있다. 이에 한정되는 것은 아니며, 사용자가 사용자 장치를 이용하여 사용자의 눈 이미지를 바로 획득하고, 사용자 장치가 눈 이미지를 시스템(20)에 전송할 수도 있다.
사용자 장치는 사용자가 얼굴 이미지를 용이하게 촬영할 수 있도록 촬영 가이드를 제공할 수 있다. 촬영 가이드는 사용자 장치의 디스플레이 상에 표시되거나 음성 및/또는 소리 방식으로 사용자에게 제공될 수 있다. 일 예로, 사용자 장치는 얼굴 외곽선 및/또는 바람직한 눈의 위치를 사용자를 촬영하여 획득한 프리뷰 이미지 상에 표시하여, 사용자가 사용자 장치의 촬영 각도, 위치 및/또는 방향 등을 용이하고 직관적으로 조정할 수 있도록 가이드할 수 있다.
시스템(20)은 제1 내지 제5 진단 모델을 이용하여 다섯 가지 증상 각각에 대한 예측 값을 획득할 수 있다. 구체적으로, 제1 내지 제5 진단 모델은 각각 결막 충혈 진단 모델, 결막 부종 진단 모델, 눈물언덕 부종 진단 모델, 눈꺼풀 부종 진단 모델, 눈꺼풀 발적 진단 모델일 수 있다.
시스템(20)은 획득한 얼굴 이미지를 제1 내지 제5 진단 모델에 입력하기 전 얼굴 이미지에 대한 2가지의 서로 다른 전처리를 수행할 수 있다. 구체적인 전처리 내용은 도 13 및 도 14를 참조하여 설명한다.
도 13 및 도 14는 일 실시예에 따른 이미지 전처리 과정을 설명하기 위한 도면이다.
시스템(20)은 안구 영역이 주요 판단 대상인 결막 충혈, 결막 부종, 눈물언덕 부종을 진단하는 모델에 입력될 이미지에 대해서는 제1 전처리를 수행할 수 있다. 도 13을 참조하면, 제1 전처리는 눈동자와 피부를 마스킹하는 전처리를 의미할 수 있으며, 전처리된 이미지는 안구 영역 이미지일 수 있다.
시스템(20)은 눈꺼풀 영역이 주요 판단 대상인 눈꺼풀 부종, 눈꺼풀 발적을 진단하는 모델에 입력될 이미지에 대해서는 제2 전처리를 수행할 수 있다. 도 14를 참조하면, 제2 전처리는 안구 영역을 마스킹하는 전처리를 의미할 수 있으며, 전처리된 이미지는 눈꺼풀 영역 이미지일 수 있다.
시스템(20)은 각 전처리된 이미지를 제1 내지 제5 진단 모델에 각각 입력하여 제1 내지 제5 증상 예측 값을 획득할 수 있다. 시스템(20)은 제1 내지 제5 증상 예측 값에 기초하여 결막 충혈, 결막 부종, 눈물언덕 부종, 눈꺼풀 발적 및 눈꺼풀 부종에 대한 점수를 획득하고 획득한 점수들을 합산할 수 있다. 시스템(20)은 사용자로부터 획득한 구후부의 자발적인 통증 및 안구운동 시 통증에 대한 점수를 더 합산하여 갑상선 안병증에 관한 임상활동점수를 획득할 수 있다.
시스템(20)은 획득한 임상활동점수 및/또는 갑상선 안병증과 관련 정보를 사용자 장치 및/또는 다른 외부 장치로 전송할 수 있다. 일 예로, 시스템(20)은 획득한 임상활동점수가 기준 값 이상인 경우 갑상선 안병증 위험이 있음을 나타내는 메시지를 사용자 장치로 전송할 수 있다. 추가로 시스템(20)은 갑상선 안병증 위험이 있으니 병원 방문을 안내하는 메시지를 사용자 장치로 전송할 수도 있다. 사용자 장치는 시스템(20)으로부터 수신한 메시지를 사용자 인터페이스를 통해 사용자에게 제공할 수 있다.
시스템(20)이 이용하는 제1 내지 제5 진단 모델은 이미지를 이용하여 증상을 진단하는 모델인 바, 제1 내지 제5 진단 모델은 상술한 멀티 라벨 모델 및/또는 라벨 스무딩 모델로 구현될 수 있다. 이에 한정되는 것은 아니며, 제1 내지 제5 진단 모델은 이미지에 기초하여 예측 값을 출력하는 다양한 종류의 모델로 구현될 수 있다. 또한, 제1 내지 제5 진단 모델은 모두 동일한 알고리즘으로 생성된 모델이 아닐 수 있다. 즉, 제1 내지 제5 진단 모델의 적어도 일부는 서로 다른 알고리즘으로 생성된 모델일 수 있으며, 모두가 서로 다른 알고리즘으로 생성된 모델일 수도 있다.
한편, 진단 모델을 실제 진단에 이용하기 위해 학습 데이터 및/또는 평가 데이터를 어떻게 결정할지는 진단 모델을 안전하게 사용하기 위해 고려되어야 할 요소이다. 구체적으로, 평가 데이터에 기초한 진단 모델의 성능이 기준 이상이 되어야 실제 진단에 이용할 수 있으므로, 평가 데이터의 결정에는 높은 기준이 필요할 수 있다.
이에 따라, 진단 모델의 성능을 평가하기 위한 평가 데이터에 포함된 판단 값 및/또는 합의 값은, 진단 주체가 실제로 환자를 대면하고 진단하여 결정한 판단 값 및/또는 합의 값일 수 있다. 평가 데이터에 포함된 진단 이미지는 진단 주체가 실제로 환자를 대면하고 진단을 수행한 후 또는 진단 주체가 환자를 대면하기 전 환자로부터 획득될 수 있다. 즉, 평가 데이터인 진단 이미지에 라벨링 될 판단 값 및/또는 합의 값은 복수의 진단 주체가 진단 이미지를 통해 결정한 값이 아닌 실제 환자를 대면하고 진단하여 결정한 값일 수 있다. 진단 주체가 사용자를 직접 대면하고 진단하여 판단 값 및 합의 값을 결정하는 것과 관련된 내용은 상술한 바 있으므로 중복 설명은 생략한다.
진단 모델의 학습에 이용될 학습 데이터에 포함된 판단 값 및/또는 합의 값 또한 상술한 바와 같이 진단 주체가 실제로 환자를 대면하고 진단하여 결정된 판단 값 및/또는 합의 값일 수 있다.
한편, 학습 데이터의 경우에는 평가 데이터와 같이 높은 기준이 반드시 필요하지 않을 수 있다. 이에 따라, 학습 데이터는 진단 주체가 실제 환자가 아닌 환자를 촬영한 이미지를 진단하여 결정한 판단 값 및/또는 합의 값을 포함할 수도 있다. 또는, 학습 데이터에 포함된 판단 값들은 진단 주체가 환자를 촬영한 이미지를 통해 진단하여 결정한 값이고, 합의 값은 판단 값들의 다수결 값으로 결정된 값일 수도 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 상술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 또한, 본 문서에서 설명된 실시예들은 한정되게 적용될 수 있는 것이 아니라, 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다. 나아가, 각 실시예를 구성하는 단계들은 다른 실시예를 구성하는 단계들과 개별적으로 또는 조합되어 이용될 수 있다.
-

Claims (10)

  1. 눈 영역을 포함하는 얼굴 이미지를 획득하는 단계;
    상기 얼굴 이미지와 눈 관련 증상을 예측하는 진단 모델을 이용하여 복수의 결과 값들을 획득하는 단계 - 상기 복수의 결과 값은, 복수의 예측 값들 및 하나의 합의 예측 값을 포함함 -; 및
    상기 복수의 결과 값들 중 상기 합의 예측 값에 기초하여 상기 눈 관련 증상 여부를 판단하는 단계;를 포함하며,
    상기 진단 모델은,
    하나의 진단 이미지에 서로 다른 둘 이상의 진단 주체들이 동일한 진단 대상에 대해 독립적으로 상기 눈 관련 증상 여부를 결정한 복수의 판단 값들 및 상기 진단 주체들이 상기 동일한 진단 대상에 대해 서로 합의하여 상기 눈 관련 증상 여부를 결정한 합의 값이 다중 라벨링된 학습 데이터를 이용하여 생성되며,
    상기 복수의 예측 값들은 상기 복수의 판단 값들에 대응되고, 상기 합의 예측 값은 상기 합의 값에 대응되며,
    상기 눈 관련 증상은,
    결막 충혈, 결막 부종, 눈물언덕 부종, 눈꺼풀 발적 및 눈꺼풀 부종 중 적어도 하나인,
    증상 예측 방법.
  2. 제1항에 있어서,
    상기 학습 데이터 중 적어도 일부는,
    상기 합의 값이 상기 복수의 판단 값들 중 소수의 판단 값과 대응되는,
    증상 예측 방법.
  3. 제1항에 있어서,
    상기 진단 모델은,
    상기 학습 시 상기 합의 예측 값이 출력되는 노드에 대한 손실 가중치는 상기 예측 값들 이 출력되는 노드 각각에 대한 손실 가중치보다 높게 설정되는,
    증상 예측 방법.
  4. 제1항에 있어서,
    상기 복수의 결과 값들을 획득하는 단계는,
    상기 얼굴 이미지에 대해 눈 영역에 대한 전처리를 수행하는 단계; 및
    상기 전처리된 이미지와 상기 진단 모델을 이용하여 상기 복수의 결과 값들을 획득하는 단계;를 포함하는,
    증상 예측 방법.
  5. 제4항에 있어서,
    상기 전처리를 수행하는 단계는,
    상기 눈 관련 증상이 상기 결막 충혈, 상기 결막 부종 및 상기 눈물언덕 부종 중 적어도 하나이면, 상기 얼굴 이미지에 대해 눈동자와 피부를 마스킹하는 전처리를 수행하는 단계;를 포함하며,
    상기 눈 관련 증상이 상기 눈꺼풀 부종 및 눈꺼풀 발적 중 적어도 하나이면, 상기 얼굴 이미지에 대해 안구 영역을 마스킹하는 전처리를 수행하는 단계;를 포함하는,
    증상 예측 방법.
  6. 제1항에 있어서,
    상기 진단 주체들은,
    15년 이상의 경력을 가지는 안과 전문의 3명이며,
    상기 판단 값들은,
    상기 진단 주체들 각각에 대응되는 3개의 값을 포함하는,
    증상 예측 방법.
  7. 제1항에 있어서,
    상기 판단 값들 및 상기 합의 값 중 적어도 하나는,
    상기 진단 주체들이 상기 진단 대상을 실제로 대면하여 상기 눈 관련 증상 여부를 결정한 값인,
    증상 예측 방법.
  8. 제1항에 있어서,
    상기 판단 값들 및 상기 합의 값 중 적어도 하나는,
    상기 진단 주체들이 상기 진단 대상에 대한 얼굴 이미지를 통해 상기 눈 관련 증상 여부를 결정한 값인,
    증상 예측 방법.
  9. 제1항에 있어서,
    상기 합의 값은,
    상기 진단 주체들이 상기 판단 값들을 각각 결정한 후 결정되는,
    증상 예측 방법.
  10. 제1항에 있어서,
    상기 진단 모델은,
    CNN(Convolution Neural Network), Vision Transformer, SVM(Support Vector Machine), Random Forest, Gradient Boosting Algorithm, ANN(Artificial Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), ResNet, VGG, GoogLeNet 및 MobileNet 중 적어도 하나의 알고리즘을 이용하여 생성되는,
    증상 예측 방법.
PCT/KR2023/003751 2022-03-21 2023-03-21 학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템 WO2023182785A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220034781 2022-03-21
KR10-2022-0034781 2022-03-21

Publications (1)

Publication Number Publication Date
WO2023182785A1 true WO2023182785A1 (ko) 2023-09-28

Family

ID=88101792

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/003751 WO2023182785A1 (ko) 2022-03-21 2023-03-21 학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템

Country Status (1)

Country Link
WO (1) WO2023182785A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190134586A (ko) * 2019-11-28 2019-12-04 연세대학교 산학협력단 질환 예측 방법 및 이를 이용한 질환 예측 디바이스
KR20190140301A (ko) * 2018-06-11 2019-12-19 사회복지법인 삼성생명공익재단 전안부 질환 진단 시스템 및 이를 이용한 진단 방법
CN112168135A (zh) * 2019-07-05 2021-01-05 顺天乡大学校产学协力团 基于人工智能的眼球疾病诊断装置及方法
KR20210142238A (ko) * 2020-05-18 2021-11-25 코리 컴퍼니 리미티드 딥러닝 기반의 임상 지원 시스템 및 이를 통한 진단 지원 방법
JP2021185924A (ja) * 2020-05-25 2021-12-13 コニカミノルタ株式会社 医療診断支援装置、医療診断支援プログラム、および医療診断支援方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190140301A (ko) * 2018-06-11 2019-12-19 사회복지법인 삼성생명공익재단 전안부 질환 진단 시스템 및 이를 이용한 진단 방법
CN112168135A (zh) * 2019-07-05 2021-01-05 顺天乡大学校产学协力团 基于人工智能的眼球疾病诊断装置及方法
KR20190134586A (ko) * 2019-11-28 2019-12-04 연세대학교 산학협력단 질환 예측 방법 및 이를 이용한 질환 예측 디바이스
KR20210142238A (ko) * 2020-05-18 2021-11-25 코리 컴퍼니 리미티드 딥러닝 기반의 임상 지원 시스템 및 이를 통한 진단 지원 방법
JP2021185924A (ja) * 2020-05-25 2021-12-13 コニカミノルタ株式会社 医療診断支援装置、医療診断支援プログラム、および医療診断支援方法

Similar Documents

Publication Publication Date Title
WO2020235966A1 (ko) 예측된 메타데이터를 이용하여 의료 영상을 처리하는 장치 및 방법
WO2021006522A1 (ko) 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법
WO2019083227A1 (en) MEDICAL IMAGE PROCESSING METHOD, AND MEDICAL IMAGE PROCESSING APPARATUS IMPLEMENTING THE METHOD
WO2019088555A1 (ko) 전자 장치 및 이를 이용한 눈의 충혈도 판단 방법
WO2019039912A1 (ko) 진단 보조 시스템 및 그 제어 방법
WO2020242239A1 (ko) 앙상블 학습 알고리즘을 이용한 인공지능 기반 진단 보조 시스템
WO2021054518A1 (ko) 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 진단방법, 장치 및 소프트웨어 프로그램
WO2016159523A1 (ko) 생체 정보 획득 방법 및 이를 위한 장치
WO2019132614A1 (ko) 수술영상 분할방법 및 장치
WO2016085085A1 (ko) 콘택트렌즈 가상 피팅 방법, 장치 및 이 방법을 실행시키는 컴퓨터 프로그램
WO2019125026A1 (ko) 심혈관 질병 진단 보조 방법 및 장치
WO2022220649A1 (ko) 심전도 이미지에 기반한 환자 평가 시스템 및 방법
WO2021153858A1 (ko) 비정형 피부질환 영상데이터를 활용한 판독보조장치
WO2023136409A1 (en) Technique for identifying dementia based on mixed tests
WO2020050497A1 (ko) 가상현실 기반의 시야검사 방법 및 시스템
WO2019039808A1 (ko) 저혈당 예측 장치, 방법 및 프로그램과, 저혈당 예측 모델 생성 장치, 방법 및 프로그램
WO2022145999A1 (ko) 인공지능 기반의 자궁경부암 검진 서비스 시스템
WO2024010397A1 (ko) 성분지수 분석 기반의 맞춤형 식품을 제공하는 서버, 방법, 프로그램 및 식품 제공 장치
WO2024210322A1 (ko) 비-접촉식 방식으로 획득되는 정보에 기반하여 정확도 높은 생체 신호를 제공하기 위한 전자 장치, 서버, 시스템, 그 동작 방법
WO2021040315A1 (ko) 원추 각막 진단 보조 시스템 및 이를 이용하는 방법
WO2023182785A1 (ko) 학습된 모델을 이용한 질병 진단 방법 및 이를 수행하는 시스템
WO2021040078A1 (ko) 렌즈 결정 방법 및 이를 이용하는 장치
WO2021112447A1 (ko) 전자 장치 및 그의 제어 방법
WO2021225226A1 (ko) 알츠하이머 진단 장치 및 방법
WO2023277589A1 (ko) 활동성 갑상선 눈병증 진료를 위한 내원 안내 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23775281

Country of ref document: EP

Kind code of ref document: A1