WO2021230687A1 - 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템 - Google Patents

의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템 Download PDF

Info

Publication number
WO2021230687A1
WO2021230687A1 PCT/KR2021/006034 KR2021006034W WO2021230687A1 WO 2021230687 A1 WO2021230687 A1 WO 2021230687A1 KR 2021006034 W KR2021006034 W KR 2021006034W WO 2021230687 A1 WO2021230687 A1 WO 2021230687A1
Authority
WO
WIPO (PCT)
Prior art keywords
medical
data
features
region
interest
Prior art date
Application number
PCT/KR2021/006034
Other languages
English (en)
French (fr)
Inventor
유동근
이정훈
팽경현
Original Assignee
주식회사 루닛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 루닛 filed Critical 주식회사 루닛
Priority to EP21803570.7A priority Critical patent/EP4152343A1/en
Priority claimed from KR1020210062294A external-priority patent/KR20210139195A/ko
Priority to US17/502,304 priority patent/US20220037024A1/en
Publication of WO2021230687A1 publication Critical patent/WO2021230687A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to methods and systems for generating medical predictions associated with biomarkers from medical data, and more particularly, extracting one or more features associated with medical data based on a region of interest in medical data associated with a patient, and extracting the extracted A method and system for generating a medical prediction for a patient based on one or more characteristics are provided.
  • machine-learning technology centered on deep-learning has been attracting attention by showing results that exceed the performance of existing methods in analyzing various types of data such as video, voice, and text.
  • Such machine learning technology has been introduced and utilized in various fields due to the inherent scalability and flexibility of the technology itself.
  • machine learning technology is being actively used in the field of discovering new materials or predicting results that are difficult for humans to predict.
  • the medical field corresponds to one of the fields in which machine learning technology has been actively introduced to develop a diagnosis assistance system and the like.
  • the diagnostic assistance system may diagnose a specific disease or predict a responsiveness to a specific drug in advance by considering some factors included in medical data related to a patient based on medical knowledge such as a medically revealed causal relationship. In other words, it can help reduce overall medical costs by diagnosing diseases early and avoiding additional tests.
  • diagnosis a specific disease or predicting responsiveness to a specific drug there may be many factors in medical data whose medical causal relationship is not yet known. Therefore, according to the prior art, there is a problem that, although not known medically yet, important factors for diagnosing a specific disease or predicting the reactivity to a specific drug may be missed.
  • the present disclosure provides a method and system for generating a medical prediction associated with a biomarker from medical data to solve the above problems.
  • the present disclosure may be implemented in various ways, including a method, an apparatus (system) or a computer readable storage medium storing instructions, a computer program.
  • a method of generating a biomarker-related medical prediction from medical data includes: obtaining medical data associated with a patient; determining a region of interest in the medical data; and extracting, based on the region of interest, one or more features associated with the medical data, and based on the extracted one or more features, generating a medical prediction for the patient.
  • the determining includes determining a region of interest for extracting at least one of an anatomical feature, a geometric feature, or a histological feature from the medical data.
  • the determining of the region of interest for extracting at least one of an anatomical feature, a geometrical feature, or a histological feature may include: and determining a region of interest in the medical data by using the feature extraction model trained to extract .
  • the medical data includes genomic data
  • the determining of the region of interest includes using a database related to interpretation of the genomic data, having the same or similar characteristics as the characteristics included in the genomic data. determining at least one gene group; and determining a region of interest in genomic data by using the determined at least one gene group.
  • the medical data includes first medical data and second medical data belonging to different categories
  • the step of extracting one or more features may include: based on a region of interest determined from the first medical data. , extracting one or more features associated with the second medical data.
  • the extracted one or more features include one or more first features associated with medical data
  • the method includes: one or more second features associated with medical data from at least some of the regions excluding the region of interest.
  • the method further comprises extracting, wherein generating comprises generating a medical prediction for the patient based on the at least one first characteristic and the at least one second characteristic.
  • the generating a medical prediction based on the at least one first characteristic and the at least one second characteristic includes performing a normalization process on each of the at least one first characteristic and the at least one second characteristic. combining the normalized one or more first characteristics and the normalized one or more second characteristics to produce one or more third characteristics, and based on the generated one or more third characteristics, generating a medical prediction for the patient. including the steps of
  • the medical data includes at least one of medical image data, tissue image data, genomic data, and biological data related to imaging medicine.
  • the generating includes generating a predictive result for at least one of a treatment method, a treatment drug, or a treatment period related to a disease of the patient.
  • generating comprises generating a predictive result for at least one of a patient's therapeutic responsiveness or a patient's survival rate to at least one of a specific treatment method or a specific therapeutic drug.
  • the method further includes displaying at least one of the determined region of interest, the extracted one or more features, or the generated medical prediction on the medical data.
  • the method further comprises outputting the generated medical prediction.
  • a computer program stored in a computer-readable recording medium for executing a method of generating a biomarker-related medical prediction from the above-described medical data according to an embodiment of the present disclosure on a computer.
  • An information processing system obtains medical data associated with a patient by executing a memory storing one or more instructions and the stored one or more instructions, determining a region of interest in the medical data, and a processor configured to extract, based on the region of interest, one or more features associated with the medical data, and generate, based on the extracted one or more features, a medical prediction for the patient.
  • a medical causal relationship has not yet been revealed, it is possible to find a region, element and/or factor of medical data that has an important influence on medical prediction. For example, it is possible to indirectly find an important area for performing a medical prediction through a machine learning model trained using a plurality of medical data-prediction correct pairs.
  • a feature may be extracted from a region excluding an ROI from medical data. Since the region of interest defined based on the already known medical causal relationship and the region other than the region of interest defined using a machine learning model can include features that are meaningful in performing medical prediction, the features extracted in this way (that is, extracted from the non-interest region) characteristics) may be helpful in medical predictions.
  • the variety of medical prediction may be finally increased and accuracy may be improved.
  • FIG. 1 is an exemplary configuration diagram illustrating a system in which an information processing system according to an embodiment of the present disclosure generates a biomarker-related medical prediction from medical data.
  • FIG. 2 is a block diagram illustrating an internal configuration of an information processing system according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart illustrating a method of generating a medical prediction according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating an example of determining a region of interest in medical data according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an example of determining a region of interest in genome data according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating an example of extracting a feature of medical data (eg, a feature associated with medical data) from a region of interest according to an embodiment of the present disclosure.
  • a feature of medical data eg, a feature associated with medical data
  • FIG. 7 is a diagram illustrating an example of extracting a feature of medical data (eg, a feature associated with medical data) from a region other than a region of interest according to an embodiment of the present disclosure.
  • a feature of medical data eg, a feature associated with medical data
  • FIG. 8 is a flowchart illustrating a method of generating a medical prediction according to another embodiment of the present disclosure.
  • FIG. 9 is a diagram illustrating an example of generating a medical prediction based on characteristics of medical data according to an embodiment of the present disclosure.
  • FIG. 10 is an exemplary diagram illustrating an artificial neural network model according to an embodiment of the present disclosure.
  • FIG. 11 is a block diagram of an exemplary information processing system for generating a biomarker-related medical prediction from medical data according to an embodiment of the present disclosure.
  • 'module' or 'unit' used in the specification means a software or hardware component, and 'module' or 'unit' performs certain roles.
  • 'module' or 'unit' is not meant to be limited to software or hardware.
  • a 'module' or 'unit' may be configured to reside on an addressable storage medium or may be configured to refresh one or more processors.
  • a 'module' or 'unit' refers to components such as software components, object-oriented software components, class components and task components, processes, functions, properties, may include at least one of procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, database, data structures, tables, arrays or variables.
  • Components and 'modules' or 'units' are the functions provided within are combined into a smaller number of components and 'modules' or 'units' or additional components and 'modules' or 'units' can be further separated.
  • a 'module' or a 'unit' may be implemented with a processor and a memory.
  • 'Processor' should be construed broadly to include general purpose processors, central processing units (CPUs), microprocessors, digital signal processors (DSPs), controllers, microcontrollers, state machines, and the like.
  • a 'processor' may refer to an application specific semiconductor (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA), or the like.
  • ASIC application specific semiconductor
  • PLD programmable logic device
  • FPGA field programmable gate array
  • 'Processor' refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in combination with a DSP core, or any other such configurations. You may. Also, 'memory' should be construed broadly to include any electronic component capable of storing electronic information.
  • RAM random access memory
  • ROM read-only memory
  • NVRAM non-volatile random access memory
  • PROM programmable read-only memory
  • EPROM erase-programmable read-only memory
  • a memory is said to be in electronic communication with the processor if the processor is capable of reading information from and/or writing information to the memory.
  • a memory integrated in the processor is in electronic communication with the processor.
  • a 'system' may include at least one of a server device and a cloud device, but is not limited thereto.
  • a system may consist of one or more server devices.
  • a system may consist of one or more cloud devices.
  • the system may be operated with a server device and a cloud device configured together.
  • 'object data' may refer to any data or data item that can be used for training of a machine learning model, and includes, for example, data representing an image, data representing voice or voice characteristics, etc. , but not limited thereto.
  • the target data may be tagged with label information through an annotation operation.
  • 'medical data' may refer to any data to be analyzed for diagnosing, predicting, and/or preventing or treating a condition of a living organism (eg, the human body).
  • 'medical data' may include tissue, image, and genome data of a living organism.
  • 'medical data' may include an image (eg, pathology slide image) of a pathology slide fixed and stained through a series of chemical processes to observe the tissue of a living organism under a microscope.
  • 'medical data' may include information on cells, tissues, and/or structures in living organisms.
  • 'medical data' includes information on the clinical/histological label of the organism (eg, malignancy, recurrence, metastasis, response to specific anticancer drug, side effect to drug, specific surgery) effectiveness, prognosis, quality of life, pain, etc.).
  • an 'image' may refer to an 'image', and conversely, an 'image' may refer to an 'image'. That is, 'image' and 'image' may be used interchangeably herein.
  • 'image data' may include medical data in the form of an image, that is, medical image data.
  • a 'region of interest' may refer to at least a portion of an area to be analyzed in order to perform a specific medical prediction (eg, prediction of responsiveness to drugs, side effects, prognosis, etc.) among medical data.
  • a 'region of interest' includes a region corresponding to a specific medical prediction by a medical causal relationship, a region containing a target item to be analyzed for a specific medical prediction (e.g., a biological factor, a factor, etc.) can do.
  • the 'region of interest' may include pixels of at least some of a plurality of pixels of the medical data.
  • the region of interest in the medical data in the form of an image may include a region such as a specific lesion, a region, an organ, or a tissue.
  • the 'region of interest' may include at least some characteristic points to be analyzed in order to perform a medical prediction among factors (or elements) such as mutations, genes, and genome structures. .
  • a 'machine learning model' and/or an 'artificial neural network model' may include any model used to infer an answer to a given input.
  • the machine learning model may include an artificial neural network model including an input layer (layer), a plurality of hidden layers, and an output layer.
  • each layer may include a plurality of nodes.
  • the machine learning model may be trained to infer label information for at least some region (eg, region of interest) of medical data.
  • label information generated through annotation work may be used to train the machine learning model.
  • the machine learning model may include weights associated with a plurality of nodes included in the machine learning model.
  • the weight may include any parameter associated with the machine learning model.
  • 'learning' may refer to any process of changing a weight associated with a machine learning model by using at least a portion of medical data and label information (eg, predictive correct answer).
  • learning is to change or update the weight associated with the machine learning model through one or more forward propagation and backward propagation of the machine learning model using at least one patch and label information. process can be referred to.
  • 'label information' is information obtained as a result of annotation work as correct answer information of a data sample. Label or label information may be used interchangeably with terms such as annotation and tag in the art.
  • 'annotation' may refer to annotation information (eg, label information, etc.) determined according to performing an annotation operation and/or an annotation operation.
  • 'annotation information' may refer to information for an annotation operation and/or information generated by an annotation operation (eg, label information).
  • a 'target item' may refer to data/information to be detected, an area, an object, and the like in medical data.
  • the target item may include a target to be detected from medical data for diagnosis, treatment, prevention, or the like of a disease (eg, cancer).
  • the 'target item' may include a specific cell (eg, cancer cell, immune cell, etc.), a specific region (eg, a cancer region, a specific organ region) in medical image data.
  • the 'target item' may include a specific nucleotide sequence, gene expression level, phenotype, and the like in genomic data.
  • an 'instruction' is one or more instructions grouped based on a function, and may refer to a component of a computer program and executed by a processor.
  • a 'user' may refer to a person who uses a user terminal.
  • a user may include an annotator who performs an annotation operation.
  • the user may include a doctor, a patient, etc. provided with a medical prediction result (eg, a prediction result on whether the patient will respond to an immuno-cancer drug).
  • a user may refer to a user terminal, and conversely, a user terminal may refer to a user. That is, the terms user and user terminal may be used interchangeably herein.
  • FIG. 1 is an exemplary configuration diagram illustrating a system in which an information processing system 100 according to an embodiment of the present disclosure generates a biomarker-related medical prediction from medical data.
  • a system for generating a biomarker-related medical prediction from medical data may include an information processing system 100 , a user terminal 110 , and a storage system 120 .
  • the information processing system 100 may be configured to communicate with each of the user terminal 110 and the storage system 120 .
  • one user terminal 110 is illustrated in FIG. 1
  • the present invention is not limited thereto, and a plurality of user terminals 110 may be configured to be connected to and communicate with the information processing system 100 .
  • the information processing system 100 is illustrated as one computing device in FIG.
  • each component of the system for generating a biomarker-related medical prediction from medical data represents functional elements that are functionally distinguished, and a plurality of components are to be implemented in a form that is integrated with each other in an actual physical environment.
  • Information processing system 100 and user terminal 110 are any computing devices used to generate and provide medical predictions associated with biomarkers from medical data.
  • the computing device may refer to any type of device equipped with a computing function, and may be, for example, a notebook, a desktop, a laptop, a server, a cloud system, etc., but is not limited thereto. does not
  • the information processing system 100 may receive medical data associated with a patient. For example, information processing system 100 may receive medical data associated with a patient from storage system 120 and/or user terminal 110 . The information processing system 100 may determine a region of interest from the acquired medical data. For example, the information processing system 100 may determine a region of interest for extracting at least one of anatomical features, geometric features, or histological features from medical data.
  • the information processing system 100 extracts, based on the region of interest, one or more features (eg, one or more first features) associated with the medical data, and based on the extracted one or more features, A medical prediction can be generated for the patient. Additionally or alternatively, the information processing system 100 may extract one or more second features associated with the medical data from at least some of the regions other than the ROI (eg, the non-interest region). In this case, the information processing system 100 may generate a medical prediction for the patient based on the one or more first characteristics and the one or more second characteristics.
  • one or more features eg, one or more first features
  • the information processing system 100 may generate a medical prediction for the patient based on the one or more first characteristics and the one or more second characteristics.
  • the information processing system 100 may output the generated medical prediction for the patient.
  • the information processing system 100 transmits the generated medical prediction for the patient to the user terminal 110 , and the user terminal 110 displays the medical prediction for the patient received from the information processing system 100 .
  • the user terminal 110 may receive medical data and/or a medical prediction result in which at least one of a region of interest, one or more characteristics, or a medical prediction is displayed from the information processing system 100, and may be displayed on the display device.
  • the user 130 eg, a doctor, a patient, etc.
  • a medical prediction ie, a prediction result
  • the storage system 120 is a device or cloud system for storing and managing medical data and various data related to a machine learning model for generating a medical prediction related to a biomarker from the medical data.
  • the storage system 120 may store and manage various data using a database.
  • the various data may include arbitrary data related to the machine learning model, for example, a file of the target data, meta information of the target data, label information for the target data that is the result of the annotation work, and data related to the annotation work. , a machine learning model (eg, an artificial neural network model), and the like, but is not limited thereto.
  • the information processing system 100 and the storage system 120 are illustrated as separate systems, but the present invention is not limited thereto, and may be integrated into one system.
  • the information processing system 100 in order to generate a medical prediction related to a biomarker from medical data, the information processing system 100 includes a region of interest determiner 210 , a feature extractor 220 and a medical prediction generation, as shown. It may include a part 230 .
  • each of the components of the information processing system 100 represents functionally separated functional elements, and a plurality of components may be implemented in a form that is integrated with each other in an actual physical environment.
  • the region of interest determiner 210 may obtain medical data associated with a patient and determine the region of interest from the medical data.
  • the region of interest determiner 210 may determine a region of interest for extracting at least one of anatomical features, geometric features, and histological features from medical data.
  • the region of interest determiner 210 may determine the region of interest in the medical data by using a feature extraction model learned to extract at least one of anatomical features, geometric features, and histological features from the medical data. have.
  • the ROI-determining unit 210 uses a database related to the interpretation of the genomic data, and at least one having the same or similar characteristics as the characteristics included in the genomic data. of the gene group can be determined.
  • the region of interest determiner 210 may determine the region of interest from the genomic data by using the determined at least one gene group.
  • the genomic data may include DNA mutation data, structure data, expression data such as RNA or protein, epigenomic data such as methylation, liquid biopsy analysis data, and the like, but is not limited thereto.
  • the feature extractor 220 may extract one or more features (eg, one or more first features) associated with medical data based on the region of interest.
  • the feature extracting unit 220 is configured to combine the second medical data with the second medical data based on the region of interest determined from the first medical data.
  • One or more associated features may be extracted.
  • the feature extractor 220 may extract one or more features (eg, one or more second features) associated with medical data from at least some of the regions other than the ROI.
  • the feature extractor 220 may be configured to extract features (ie, one or more first features) extracted from the region of interest and features extracted from at least a portion of regions other than the region of interest (ie, one or more second features). feature), and combining the normalized one or more first features and the normalized one or more second features to generate one or more third features.
  • the medical prediction generating unit 230 may generate a medical prediction for the patient based on one or more extracted features. In an embodiment, the medical prediction generating unit 230 may generate a medical prediction for the patient based on one or more first characteristics and one or more second characteristics extracted by the feature extraction unit 220 . For example, the medical prediction generating unit 230 may generate a medical prediction for the patient based on one or more third features generated by the feature extracting unit 220 .
  • the information processing system 100 includes a region of interest determining unit 210 , a feature extracting unit 220 , and a medical prediction generating unit 230 , but is not limited thereto, and some components are omitted or other components are omitted. can be added.
  • the information processing system 100 may further include an output unit (not shown), and the output unit may output the generated medical prediction.
  • the region of interest determiner 210 , the feature extractor 220 , and the medical prediction generator 230 are illustrated as being included in the information processing system 100 , but the present invention is not limited thereto. Elements may be included in other devices (eg, external devices and/or user terminals). In another embodiment, these components may be distributed in any combination by a plurality of arbitrary devices (eg, information processing system 100, user terminal 110, etc.).
  • the method 300 for generating a medical prediction may be performed by a processor (eg, at least one processor of an information processing system and/or at least one processor of a user terminal).
  • the method 300 for generating a medical prediction may be initiated by a processor obtaining medical data associated with a patient (S310).
  • the medical data may include at least one of medical image data, tissue image data, genomic data, and biological data related to imaging medicine.
  • medical data may include radiographic image data such as X-ray, CT, and MRI images, tissue image data such as digital pathology (eg, H&E staining image, IHC slide image, etc.), multi-omics (Multi- It may include at least one of genomic data including omics data and biological data. Additionally or alternatively, the medical data may include data of different modality obtained from the patient.
  • radiographic image data such as X-ray, CT, and MRI images
  • tissue image data such as digital pathology (eg, H&E staining image, IHC slide image, etc.)
  • multi-omics Multi- It may include at least one of genomic data including omics data and biological data.
  • the medical data may include data of different modality obtained from the patient.
  • the processor may determine a region of interest from the medical data (S320).
  • the processor may determine a region of interest for extracting at least one of anatomical features, geometric features, or histological features from the medical data.
  • the processor may determine a region of interest in the medical data using a feature extraction model trained to extract at least one of anatomical features, geometric features, or histological features from the medical data.
  • the processor determines at least one gene group having the same or similar characteristics as the characteristics included in the genomic data, using a database related to the interpretation of the genomic data, , a region of interest from the genomic data may be determined using the determined at least one gene group.
  • the processor may extract one or more features (eg, one or more first features) associated with the medical data based on the region of interest ( S330 ).
  • the processor selects one or more characteristics associated with the second medical data based on the region of interest determined from the first medical data. can be extracted.
  • the processor may extract a feature (eg, one or more second features) associated with the medical data from a region of at least a portion of the region excluding the region of interest.
  • the processor may generate a medical prediction for the patient based on the extracted one or more features (S340).
  • the processor may generate a prediction result for at least one of a treatment method, a treatment drug, or a treatment period for a patient's disease.
  • the processor may generate a predictive result for at least one of a patient's therapeutic responsiveness or a patient's survival rate (e.g., treatability or viability) to at least one of a particular treatment method or a particular therapeutic drug.
  • the processor may indicate in the medical data at least one of the determined region of interest, the extracted one or more features, or the generated medical prediction. Additionally, the processor may output the generated medical prediction.
  • FIG. 4 is a diagram illustrating an example of determining a region of interest 420 from medical data 410 according to an embodiment of the present disclosure.
  • medical data there may be a region that is not associated with a biomarker in performing a medical prediction. These unrelated regions can act as noise in determining biomarkers from small amounts of data. Accordingly, a biomarker with higher accuracy may be determined through the process of extracting the region of interest.
  • a biomarker for predicting a response to a drug or treatment it may be important to intensively analyze the abnormal region rather than the normal region. That is, in the case of a radiographic image, it may be important to analyze around the lesion area rather than the entire area. Likewise, in the case of a tissue image, it may be important to analyze the area around the cancer or the distribution of specific cells in the area around the cancer, not the entire area.
  • the region of interest determiner 210 receives medical data (eg, a pathology slide image) 410 associated with the patient, and in the received medical data 410 , the region of interest ( For example, at least a portion of an area within the pathological slide image) 420 may be determined.
  • the region of interest determiner 210 may determine a specific lesion region, a radiologic finding region, a specific anatomical region, and/or a specific organ region in the radiographic image as the region of interest.
  • the region of interest determiner 210 may determine a specific tissue as the region of interest in the tissue image.
  • the region of interest determiner 210 may determine a region of interest for extracting at least one of anatomical features, geometric features, and histological features from medical data. These anatomical features, geometric features and/or histological features may include features that are significant in performing a medical prediction.
  • a region of interest for extracting a significant feature in performing a medical prediction may be directly defined by a user. For example, in the case of a pathological tissue image, a user may define a cancer stroma region and/or a cancer epithelium region as a region of interest for predicting an anticancer drug response in lung cancer. As another example, in the case of a radiographic image, a user may define a region with lung cancer as a region of interest for predicting an anticancer drug response.
  • the region of interest determiner 210 may determine a region corresponding to the region of interest defined by the user from the acquired medical data.
  • the prediction target eg, anticancer drug response prediction, etc.
  • the region of interest determiner 210 may determine a region corresponding to the region of interest defined by the user from the acquired medical data.
  • a number of factors important to the prediction accuracy of biomarkers are not medically known. Therefore, when defining a region of interest based on only important factors for which a causal relationship has already been established medically, other important factors that are not yet medically known may be missed.
  • the region of interest determiner 210 uses a feature extraction model (eg, a machine learning model) learned to extract at least one of anatomical features, geometric features, and histological features from medical data, A region of interest in the data can be determined.
  • the region of interest determiner 210 may determine the region of interest in the medical data by using a feature extraction model learned based on a plurality of medical data-predicted correct answer pairs.
  • the plurality of medical data may include the medical data itself and/or one or more features extracted from the medical data (eg, a vector indicating a feature, etc.).
  • the predicted correct answer may include a clinical/histological predictive correct value of the patient.
  • the region-of-interest determiner 210 uses the feature extraction model to have a large influence (eg, the greatest influence and/or more than a threshold value) in extracting at least one of anatomical features, geometric features, and histological features from medical data.
  • Affected regions can be defined as regions of interest. That is, the region of interest determiner 210 may automatically define the region of interest using the machine learning model.
  • the region of interest determining unit 210 may have a large influence on the predicted correct answer for each of the plurality of medical data by using a supervised machine learning model based on a pair of a plurality of medical data-predicted correct answers.
  • a crazy region may be extracted, and at least some of the extracted regions may be defined as a region of interest.
  • the region of interest determiner 210 when the lung lymph node region of the radiographic image has a great influence on predicting the response to the anticancer drug, the region of interest determiner 210 is , the lymph nodes of the lungs can be defined as regions of interest.
  • the predictive performance of the biomarker can be improved.
  • the region of interest determiner 210 may include, in the acquired medical data associated with the patient, the region of interest defined as described above (eg, the region of interest defined by the user and/or the region of interest defined by the machine learning model). can be decided For example, the region of interest determiner 210 may determine (or extract) the region of interest from the acquired medical data associated with the patient by using the region of interest determination model.
  • the ROI-determining model may correspond to a model learned based on the learning medical data and label information on the ROI in the learning medical data.
  • the label information for the region of interest in the learning medical data may be generated and/or received by the user's annotation work.
  • the region of interest determiner 210 may acquire genomic data 510 associated with the patient as medical data associated with the patient.
  • Factors used in genomic data may include mutations in DNA, gene expression values corresponding to RNA, epigenetic factors, expression values of proteomic bodies, microbiome existing in the body, and the like.
  • the genomic data may include external data describing a biological characteristic associated with a genetic factor.
  • the region of interest determiner 210 may determine a region of interest (eg, a feature point) from the genome data.
  • the region of interest determiner 210 may determine a region of interest (ie, a feature point) for a mutation, a gene, or a structure of a genome in genomic data. Additionally or alternatively, the region of interest determiner 210 may perform the method described with reference to FIG. 4 on the genome data to determine the region of interest (ie, feature points) from the genome data.
  • a region of interest ie, a feature point
  • the region of interest determiner 210 may perform the method described with reference to FIG. 4 on the genome data to determine the region of interest (ie, feature points) from the genome data.
  • the region of interest determiner 210 may determine the region of interest from the genomic data by using at least one gene group. To this end, the region of interest determiner 210 may determine at least one gene group having the same or similar characteristics to those included in the genomic data, using a database related to the interpretation of the genomic data. For example, the region of interest determiner 210 may form and characterize a gene group having the same or similar characteristics by using characteristics annotated from external data.
  • the external data may include Gene Ontology, GWAS, Biological Pathway, and the like.
  • the region of interest determining unit 210 forms a gene group by classifying genes using a biological process, a molecular function, a cellular component, etc. of Gene Ontology, and can be characterized.
  • the region of interest determiner 210 classifies the gene using pathway data such as the Kyoto Encyclopedia of Genes and Genomes (KEGG) Pathway, BioCarta, Pathway Interaction Database, Reactome and Signaling Gateway, and Molecular Signature Database. Groups can be formed and characterized.
  • the region-of-interest determiner 210 may use any database capable of forming a set of genes, such as diseases, protein characteristics, locations of expression tissues, and phenotypes.
  • the region of interest determiner 210 may determine the region of interest in the genomic data based on biological knowledge (eg, information on biological causality) related to the genomic data.
  • biological knowledge eg, information on biological causality
  • the region-of-interest determiner 210 is based on pathogenicity prediction, such as a SIFT score describing an evolutionarily conserved genetic characteristic, a PolyPhen score that is a value related to the structure of a protein, and CADD.
  • pathogenicity prediction such as a SIFT score describing an evolutionarily conserved genetic characteristic, a PolyPhen score that is a value related to the structure of a protein, and CADD.
  • the region of interest determining unit 210 may include an American College of Medical Genetics and Genomics (ACMG) Guideline for using the genome sequencing after sequencing, ClinVar containing clinically important mutations, and a list of phenotype-related genes.
  • ACMG American College of Medical Genetics and Genomics
  • the relationship with the drug given to the patient can be determined from the genomic data.
  • the region of interest determiner 210 may determine the region of interest in the genome data based on this relationship.
  • the region of interest determiner 210 may integrate multiple genomic data (multi-omics data) to determine a feature point (ie, region of interest).
  • multi-omics data multi-omics data
  • the region of interest determiner 210 may perform unsupervised learning, graph structure, deep Data may be preprocessed using machine learning techniques such as deep learning.
  • the region-of-interest determiner 210 may provide information on the same gene, construct data in a three-dimensional form, and use it as integrated data.
  • techniques such as Tensor decomposition, Single value decomposition, Matrix factorization, Uniform Manifold Approximation and Projection (UMAP), t-Stochastic Nearest Neighbor (t-SNE), and Principle Component Analysis (PCA) may be used.
  • UMAP Uniform Manifold Approximation and Projection
  • t-SNE t-Stochastic Nearest Neighbor
  • PCA Principle Component Analysis
  • the region of interest determiner 210 may arbitrarily transform data using a machine learning technique such as deep learning. For example, by using a methodology to reduce the dimension of each data by using AutoEncoder-based data, or by learning a deep learning model to predict the same label for each data, the desired shape in the layer corresponding to the subnetwork to determine a feature point (ie, a region of interest).
  • a machine learning technique such as deep learning. For example, by using a methodology to reduce the dimension of each data by using AutoEncoder-based data, or by learning a deep learning model to predict the same label for each data, the desired shape in the layer corresponding to the subnetwork to determine a feature point (ie, a region of interest).
  • the region of interest determiner 210 may determine the region of interest from the genome data by using machine learning. Genomic data may have many features compared to the number of samples. Accordingly, when there is no feature that can be determined as a biomarker, the region of interest determiner 210 may determine the region of interest from the genomic data using machine learning.
  • the region of interest determiner 210 may determine the region of interest from the genome data using a statistical model. For example, the region of interest determiner 210 may determine the region of interest in DNA data in units of mutations and/or genes. That is, based on the mutation data of DNA, statistical tests, frequency tests through contingency (e.g., Chisquare statistics, ANOVA, Fisher exact test, etc.), regression-based analyzes (e.g., logistic regression, lasso) , ridge, Elastic-Net), Cochrane statistics, and RVIS score, Burden test, SKAT test, SKAT-O test, etc. for grouping and analyzing mutations in gene units, the region of interest determining unit 210 is a DNA-based area of interest can be determined.
  • contingency e.g., Chisquare statistics, ANOVA, Fisher exact test, etc.
  • regression-based analyzes e.g., logistic regression, lasso
  • Elastic-Net ridge
  • Cochrane statistics e.g., Cochrane
  • the region of interest determiner 210 may determine, as the region of interest, a gene that is statistically and differentially expressed in RNA (Transcriptomics) data by using a quantified value of gene expression. .
  • the region of interest determiner 210 may determine the region of interest by performing differential expression gene (DEG) analysis of EdgeR, Limma, Bayesian, or the like.
  • the region of interest determiner 210 may determine the region of interest by using a statistical test, regression, or machine learning technique.
  • the transcriptomics data may include not only mRNA, but also microRNA, miRNA, and the like.
  • the region of interest determiner 210 may use data of a structure level such as Copy Number Alteration.
  • deletion and amplification can be defined as events and used as a categorical variable (eg, analysis such as DNA), or the number of copy numbers can be defined and used as a continuous variable. (eg, RNA-like analysis).
  • the region-of-interest determiner 210 may analyze epigenomics data such as methylation and histone-modification, microbiome data, etc. in the same manner as described above.
  • the region of interest determiner 210 may determine the region of interest based on deep learning. Algorithms that predict results based on input data (eg, ANN, DNN, CNN, Auto-Encoder) are feature selection and prediction due to weight through multi-layered layers. ) can be done at once. Accordingly, the dimensions of input data (ie, dielectric data) and/or features may be reduced. For example, simply by reducing the number of units of a layer, the dimension of input data and/or features may be reduced. Accordingly, the region of interest determiner 210 may determine a new region of interest by using ANN, DNN, and CNN to transform its own data given from a sample and select only important features.
  • input data eg, ANN, DNN, CNN, Auto-Encoder
  • the region of interest determiner 210 may determine a new region of interest by using ANN, DNN, and CNN to transform its own data given from a sample and select only important features.
  • the region of interest determiner 210 may reduce the dimensions of input data and/or features by using an auto-encoder-based algorithm and efficiently determine the region of interest. That is, the region of interest determiner 210 may reduce the dimensions of input data and/or features by assuming a specific distribution and determine the region of interest through a latent layer such as a variational auto-encoder.
  • the region of interest determiner 210 may determine the region of interest by adjusting a layer through external data.
  • features listed in vectors can be set as one gene group through units such as gene units, chromosome units, motifs, and open reading frames.
  • each feature may belong to multiple gene groups. Accordingly, when constructing a layer, the region of interest determiner 210 generates a new layer unit as many as the number of each gene group and associates the features corresponding to each sperm group, thereby providing the medical knowledge It is possible to extract an explainable region of interest based on Here, each group may include Gene Ontology, GWAS, Biological Pathway, and the like.
  • the region of interest determiner 210 may determine the region of interest based on a genetic interaction. Negative genetic interactions may include relationships between genes such as synthetic lethality, synthetic dosage lethality, and synthetic cytotoxicity.
  • the gene can be utilized like an independent variable, but since they form a network dependent on each other, a new region of interest can be determined through the form of a multi-feature. In this case, a significant variable may be extracted based on regression/chi-square statistics for multiple variables, and a region of interest may be determined.
  • FIG. 6 is a diagram illustrating an example of extracting a feature (eg, a feature associated with medical data) 620 of medical data from a region of interest 610 according to an embodiment of the present disclosure.
  • the feature extractor 220 may extract one or more features 620 associated with medical data based on the determined region of interest 610 .
  • the feature extractor 220 may extract one or more features 620 from the ROI 610 based on the medical information.
  • the one or more features 620 may include meaningful anatomical features, geometric features, or histological features in performing a medical prediction.
  • the one or more features 620 may include features necessary to make a specific medical prediction according to a medical causal relationship that has already been discovered.
  • the feature extraction unit 220 may be configured to operate one or more target items (eg, cancer cells, immune cells, fibroblasts, lymphocytes, plasma cells, Macrophage, Endothelial cells, and cancer cells) included in the region of interest 610 . area), cancer stroma, Tertiary lymphoid structure, Normal region, Necrosis, Fat, Blood vessel, High endothelial venule, Lymphatic vessel, Nerve, etc.)
  • One or more features 620 may be extracted.
  • the feature extractor 220 may detect one or more target items included in the ROI 610 using a target item detection model (eg, a recognition model). Additionally or alternatively, a user may directly detect one or more target items in the ROI 610 , and the feature extractor 220 may receive a target item detection result input from the user.
  • a target item detection model eg, a recognition model
  • the feature extractor 220 may calculate independent or interdependent statistical values and/or measurements based on the detection result of one or more target items in the ROI 610 .
  • the feature extractor 220 calculates the average number of cancer cells per unit area of the cancer epithelium region, which is the region of interest, as a feature of the corresponding medical data (that is, one or more features associated with the medical data) ( 620 ).
  • the feature extraction unit 220 calculates the average number of immune cells per unit area of the cancer stroma region in the region of interest 610, statistics on the distance between the plurality of immune cells and the plurality of cancer cells, and the like. It can be calculated as a feature 620 of the data.
  • the feature extractor 220 may extract the number and location of nodules in the lung region, which is the region of interest, as the feature 620 of the corresponding medical data. Additionally or alternatively, the feature extraction unit 220 may extract the set of statistical values and/or measurements calculated as described above as the features 620 of the medical data.
  • the feature extractor 220 extracts one or more features 620 from the region of interest 610 using a pre-trained model (eg, a pre-trained network).
  • a pre-trained model eg, a pre-trained network
  • the pre-trained model is a model trained based on medical data in the form of an image (eg, medical image data related to imaging medicine, tissue image data, etc.) (eg, ImageNet-pre-trained model).
  • the pre-trained model may include a model trained based on medical data (eg, genomic data, biological data, etc.) that is not in the form of an image.
  • the feature extractor 220 inputs the region of interest (eg, an image corresponding to the region of interest) 610 into the pre-trained model, thereby outputting a mid-level representation (eg, a feature map). ) can be extracted as one or more features 620 .
  • the feature extractor 220 may divide the region of interest into a plurality of regions, and may obtain a mid-level representation by inputting the plurality of divided regions into a pre-trained model. Then, the feature extraction unit 220 may extract one or more features 620 by aggregating the obtained mid-level representation into one fixed-dimensional vector. In this case, the feature extractor 220 may perform aggregation using average pooling, max pooling, BOW, VLAD, Fisher Kernel, or the like.
  • the feature extracting unit 220 may be configured to perform one or more features associated with the second medical data based on the region of interest determined from the first medical data. can be extracted.
  • the category classifies a plurality of medical data based on data type, type, associated disease, associated region (eg, lung region, brain region, DNA nucleotide sequence of a specific section, etc.), data generation time, generation method, etc.
  • the feature extractor 220 may select a second medical data (eg, genomic data, etc.) from a region corresponding to the region of interest of the first medical data (eg, image data, etc.) One or more features associated with medical data may be extracted. Additionally or alternatively, the feature extractor 220 may extract data itself corresponding to the region of interest 610 from among medical data as one or more features 620 associated with the medical data.
  • a second medical data eg, genomic data, etc.
  • the feature extractor 220 may extract data itself corresponding to the region of interest 610 from among medical data as one or more features 620 associated with the medical data.
  • FIG. 7 is a diagram illustrating an example of extracting a feature (eg, a feature associated with medical data) 720 of medical data from a region 710 other than the region of interest according to an embodiment of the present disclosure.
  • a region of interest defined based on an already known medical causal relationship and a region other than the region of interest defined using a machine learning model may include a meaningful feature in performing medical prediction.
  • genomic data when a specific event occurs very rarely, it is difficult to have statistical significance, so it may not be determined as a region of interest even though it is an important factor.
  • mutations that exist in non-coding regions and affect medical predictions through the regulatory network may exist, it may be important to utilize data from non-coding regions. Therefore, in order to generate more accurate medical predictions, features extracted from regions other than the region of interest may also be used during final biomarker learning.
  • the feature extractor 220 may extract one or more features 720 associated with medical data based on the region 710 outside the region of interest.
  • the feature extractor 220 may extract one or more features (eg, one or more thirds) associated with medical data from at least some of the regions (eg, non-interest regions) 710 , except for the region of interest. 2 features) 720 can be extracted.
  • the feature extractor 220 may apply a process of extracting one or more features (eg, one or more first features) from the region of interest in FIG. 6 also to the non-interest region 710 , and may features can be extracted.
  • the feature extractor 220 selects the non-interested region 710 (eg, at least a portion of the region excluding the ROI).
  • the output mid-level representation eg, feature map
  • the feature extractor 220 may divide the non-interested region 710 into a plurality of regions, and may obtain a mid-level representation by inputting the plurality of divided regions into a pre-trained model.
  • the feature extraction unit 220 may extract one or more features 720 by aggregating the obtained mid-level representation into one fixed-dimensional vector.
  • the feature extraction unit 220 may perform combining using average pooling, max pooling, BOW, VLAD, Fisher Kernel, or the like.
  • the feature extractor 220 may extract one or more features 720 associated with the genomic data from the uninterested region 710 having no statistical significance in the genomic data. Since there are very many factors corresponding to the uninterested region 710 , it may be important to reduce the dimension of data corresponding to the uninterested region. Accordingly, the feature extractor 220 may reduce the dimension within the data itself to unsupervised by using PCA, tSNE, UMAP, or the like. Additionally or alternatively, the feature extraction unit 220 may reduce the dimension of data by encoding information through an auto-encoder or extracting information from an intermediate latent layer for learning a classifier.
  • the method 800 for generating a medical prediction may be performed by a processor (eg, at least one processor of an information processing system and/or at least one processor of a user terminal).
  • the processor may extract one or more first features associated with the medical data based on the region of interest in the medical data ( S810 ).
  • the processor may extract one or more second features associated with medical data from at least some of the regions (eg, non-interest regions) among regions other than the region of interest ( S820 ).
  • the processor performs normalization processing on each of the one or more first features and the one or more second features ( S830 ), and combines the normalized one or more first features and the normalized one or more second features to obtain one or more A third feature may be generated (S840).
  • the processor may perform L2-normalization or L1-normalization on each of one or more first features extracted from the ROI and one or more second features extracted from the non-ROI.
  • the processor may adjust the influence in generating a medical prediction by multiplying the normalized one or more first features and the normalized one or more second features by an appropriate scalar weight before combining them. .
  • a scalar weight is applied such that one or more first features extracted from a region of interest have a greater effect than one or more second features extracted from a non-interest region to generate a third feature. can do.
  • the processor may generate a medical prediction for the patient based on the generated one or more third characteristics ( S850 ).
  • FIG. 9 is a diagram illustrating an example of generating a medical prediction 920 based on a characteristic 910 of medical data according to an embodiment of the present disclosure.
  • the medical prediction generating unit 230 generates a medical prediction 920 for the patient based on the extracted characteristics (ie, one or more characteristics associated with the medical data) 910 of the medical data, and outputs can do.
  • the medical prediction generating unit 230 may generate a medical prediction for the patient based on one or more first characteristics and one or more second characteristics.
  • the medical prediction generator 230 may generate the medical prediction 920 for the patient based on one or more third characteristics.
  • the medical prediction generator 230 may generate a medical prediction 920 for the patient by using the medical prediction model.
  • the medical prediction generating unit 230 inputs the extracted medical data features (ie, one or more features related to the medical data) 910 into the medical prediction model, thereby providing a medical prediction (eg, a patient's clinical histological/histologic predictions, etc.) 920 .
  • the medical prediction model may be a model (eg, an artificial neural network model, a statistical model, etc.) trained to generate a reference medical prediction as features of reference medical data are input.
  • a medical predictive model may include a set of features extracted from a patient's medical data, an external database that may incorporate external knowledge into the patient's genomic data, and a clinical/histological label of the patient (eg For example, as a learning data set including malignancy, recurrence, metastasis, response to specific anticancer drugs, side effects to specific drugs, effects on specific surgery, prognosis, quality of life, pain, etc.) This may correspond to a supervised trained model.
  • the training data set of the medical prediction model may include medical data associated with a specific patient, features extracted from medical data associated with a specific patient, a treatment method for a specific disease, a treatment drug, a treatment period, and the like. have.
  • the training data set of the medical prediction model may include treatment responsiveness, survival, and the like of a specific patient to at least one of a specific treatment method or a specific treatment drug.
  • the medical prediction generating unit 230 may generate a prediction result for at least one of a treatment method, a treatment drug, or a treatment period related to a patient's disease. In another embodiment, the medical prediction generating unit 230 predicts at least one of a patient's therapeutic responsiveness to at least one of a specific treatment method or a specific therapeutic drug or a patient's survival rate (eg, treatment potential or viability). results can be generated. For example, the medical prediction generating unit 230 may generate a predictive value for responsiveness to a drug, a predictive value for responsiveness to administration of an anticancer drug before/after surgery, and the like as a prediction result.
  • a prediction result for at least one of a treatment method, a treatment drug, or a treatment period related to a patient's disease.
  • the medical prediction generating unit 230 predicts at least one of a patient's therapeutic responsiveness to at least one of a specific treatment method or a specific therapeutic drug or a patient's survival rate (eg, treatment potential or viability
  • the medical prediction generating unit 230 may output the generated medical prediction 920 and/or the medical prediction result. Additionally or alternatively, the medical prediction generating unit 230 may output intermediate results (eg, an analysis result of a region of interest, etc.) generated in the process of generating the medical prediction 920 . For example, the medical prediction generator 230 may output a heatmap of a region of interest, a detection result of a target item (eg, a cell, a cancer region, etc.). Additionally or alternatively, the medical prediction generating unit 230 may output prediction values having various clinical utility. For example, the medical prediction generating unit 230 may output a predictive value for responsiveness to a drug, a predictive value for responsiveness to administration of an anticancer drug before/after surgery, and the like.
  • intermediate results eg, an analysis result of a region of interest, etc.
  • the medical prediction generator 230 may output a heatmap of a region of interest, a detection result of a target item (eg, a cell, a cancer region, etc
  • the medical prediction generating unit 230 may display at least one of the determined ROI, one or more extracted features, or the generated medical prediction on medical data.
  • the medical prediction generator 230 may output medical data (eg, medical image data, etc.) in which at least one of an ROI, one or more features, or a medical prediction is indicated.
  • the medical prediction generating unit 230 may mutually display factors affecting the medical prediction on the medical data.
  • the medical prediction generator 230 may output a heat map or a shape and/or intensity of factors affecting the medical prediction.
  • the medical prediction generating unit 230 In the case of a pathology image, the medical prediction generating unit 230 generates a cellular-level prediction result in the form of a point at the center point of a cell nucleus, and an object representing a structure such as a blood vessel or a nerve is a contour. In the form of a contour, the cancerous region and/or the normal region may be output by overlaying the medical data in the form of a segmentation map. That is, the medical prediction generating unit 230 may visualize and output factors and/or target items affecting the medical prediction.
  • the medical prediction generator 230 may output information (eg, distribution, numerical value, etc.) associated with these factors and/or target items. For example, the medical prediction generator 230 may output various numerical values (eg, a density value of immune cells in a cancer region, etc.) calculated based on the detection result of the target item. As another example, when information related to factors and/or target items corresponds to a graph structure, the medical prediction generator 230 may output the corresponding information in the form of a graph. As another example, the medical prediction generator 230 may output a report including information related to these factors and/or target items.
  • information eg, distribution, numerical value, etc.
  • various numerical values eg, a density value of immune cells in a cancer region, etc.
  • the artificial neural network model 1000 is an example of a machine learning model, and in machine learning technology and cognitive science, a statistical learning algorithm implemented based on the structure of a biological neural network or a structure for executing the algorithm.
  • the artificial neural network model 1000 nodes that are artificial neurons that form a network by combining synapses as in a biological neural network repeatedly adjust the weights of synapses, By learning to reduce the error between the output and the inferred output, it is possible to represent a machine learning model with problem-solving ability.
  • the artificial neural network model 1000 may include an arbitrary probability model, a neural network model, etc. used in artificial intelligence learning methods such as machine learning and deep learning.
  • the artificial neural network model 1000 may include an artificial neural network model configured to extract at least one of anatomical features, geometric features, and histological features from input medical data. Additionally or alternatively, the neural network model 1000 is configured to extract one or more features associated with medical data based on at least some regions (eg, regions of interest and/or regions of non-interest) of the input medical data. It may include an artificial neural network model. Additionally or alternatively, the neural network model 1000 may include a neural network model configured to generate a medical prediction for a patient based on one or more features associated with the input medical data (eg, features of the medical data). can
  • the artificial neural network model 1000 is implemented as a multilayer perceptron (MLP) composed of multilayer nodes and connections between them.
  • the artificial neural network model 1000 may be implemented using one of various artificial neural network model structures including MLP.
  • the artificial neural network model 1000 includes an input layer 1020 that receives an input signal or data 1010 from the outside, and an output layer that outputs an output signal or data 1050 corresponding to the input data. (1040), which is located between the input layer 1020 and the output layer 1040, receives a signal from the input layer 1020, extracts characteristics, and transmits to the output layer 1040 of n pieces (where n is a positive integer) It is composed of hidden layers 1030_1 to 1030_n.
  • the output layer 1040 receives signals from the hidden layers 1030_1 to 1030_n and outputs them to the outside.
  • the learning method of the artificial neural network model 1000 includes a supervised learning method that learns to be optimized to solve a problem by input of a teacher signal (correct answer), and an unsupervised learning method that does not require a teacher signal. ) is a way.
  • the information processing system may supervise and/or unsupervise the artificial neural network model 1000 to extract at least one of anatomical features, geometric features, and histological features from medical data.
  • the information processing system may supervise the artificial neural network model 1000 to extract at least one of a reference anatomical feature, a reference geometric feature, or a reference histological feature from the reference medical data.
  • the information processing system may supervised and/or unsupervised the neural network model 1000 to extract one or more features associated with the medical data, based on at least a portion of the medical data.
  • the information processing system may supervise the artificial neural network model 1000 to extract one or more reference features associated with the reference medical data from at least a portion of the reference medical data.
  • the information processing system may supervised and/or unsupervised the neural network model 1000 to generate a medical prediction for a patient based on one or more features associated with the medical data.
  • the information processing system may supervise the artificial neural network model 1000 to output a reference medical prediction as one or more features associated with the reference medical data (eg, features of the reference medical data) are input. .
  • the artificial neural network model 1000 learned in this way may be stored in a memory (not shown) of the information processing system, and in response to an input to the medical data received from the communication module and/or memory, anatomical features, geometric features, or histology At least one of the characteristic features can be extracted. Additionally or alternatively, the artificial neural network model 1000 may extract one or more features associated with the medical data in response to an input for at least a portion of the medical data.
  • the input variable of the artificial neural network model for extracting at least one of anatomical features, geometric features, and histological features may be medical data (eg, image data, genomic data, etc.).
  • an input variable input to the input layer 1020 of the artificial neural network model 1000 may be a vector 1010 composed of medical data as one vector data element.
  • the output variable output from the output layer 1040 of the artificial neural network model 1000 becomes a vector 1050 representing or characterizing at least one of anatomical features, geometrical features, or histological features.
  • the output layer 1040 of the artificial neural network model 1000 may be configured to output a vector representing or characterizing at least one of anatomical features, geometric features, and histological features.
  • the output variable of the artificial neural network model 1000 is not limited to the type described above, and may include any information/data representing at least one of anatomical features, geometrical features, and histological features. have.
  • the output layer 1040 of the artificial neural network model 1000 may be configured to output a region affected by extracting at least one of anatomical features, geometric features, and histological features from medical data.
  • an input variable of a machine learning model for extracting one or more features associated with medical data may include a region (eg, region of interest and/or non-region of interest) of at least a portion of medical data. region of interest).
  • an input variable input to the input layer 1020 of the artificial neural network model 1000 may be a vector 1010 in which at least a portion of medical data is configured as one vector data element.
  • an output variable output from the output layer 1040 of the artificial neural network model 1000 becomes a vector 1050 representing or characterizing one or more features associated with the medical data.
  • the output variable of the artificial neural network model 1000 is not limited to the type described above, and may include any information/data indicating one or more characteristics associated with medical data.
  • an input variable of the machine learning model that generates the medical prediction may be one or more features associated with medical data (eg, features of the medical data).
  • an input variable input to the input layer 1020 of the artificial neural network model 1000 may be a vector 1010 in which one or more features related to medical data are configured as one vector data element.
  • an output variable output from the output layer 1040 of the neural network model 1000 may be a vector 1050 representing or characterizing a medical prediction for the patient.
  • the output variable of the artificial neural network model 1000 is not limited to the type described above, and may include any information/data representing a medical prediction for a patient.
  • a plurality of output variables corresponding to a plurality of input variables are respectively matched to the input layer 1020 and the output layer 1040 of the artificial neural network model 1000, and the input layer 1020, the hidden layers 1030_1 to 1030_n, and By adjusting synaptic values between nodes included in the output layer 1040 , it may be learned to extract a correct output corresponding to a specific input. Through this learning process, the characteristics hidden in the input variable of the artificial neural network model 1000 can be identified, and the nodes of the artificial neural network model 1000 can be reduced so that the error between the output variable calculated based on the input variable and the target output is reduced. You can adjust the synapse value (or weight) between them.
  • the artificial neural network model 1000 learned in this way may output at least one of anatomical features, geometrical features, and histological features in response to input medical data. Additionally or alternatively, the artificial neural network model 1000 may output one or more features associated with the medical data in response to at least a partial region of the input medical data. Additionally or alternatively, the neural network model 1000 may generate a medical prediction for the patient in response to one or more features associated with the input medical data.
  • FIG. 11 is a block diagram of an exemplary information processing system 100 for generating a biomarker-related medical prediction from medical data according to an embodiment of the present disclosure.
  • the information processing system 100 includes one or more processors 1110 , a bus 1130 , a communication interface 1140 , and a memory for loading a computer program 1160 executed by the processor 1110 .
  • 1120 and a storage module 1150 for storing the computer program 1160 may be included.
  • FIG. 11 only the components related to the embodiment of the present disclosure are illustrated in FIG. 11 . Accordingly, those skilled in the art to which the present disclosure pertains can see that other general-purpose components other than those shown in FIG. 11 may be further included.
  • the processor 1110 controls the overall operation of each component of the information processing system 100 .
  • the processor 1110 includes a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), a graphic processing unit (GPU), or any type of processor well known in the art of the present disclosure. can be In addition, the processor 1110 may perform an operation on at least one application or program for executing the method according to the embodiments of the present disclosure.
  • the information processing system 100 may include one or more processors.
  • the memory 1120 may store various data, commands, and/or information.
  • the memory 1120 may load one or more computer programs 1160 from the storage module 1150 to execute methods/operations according to various embodiments of the present disclosure.
  • the memory 1120 may be implemented as a volatile memory such as RAM, but the technical scope of the present disclosure is not limited thereto.
  • the bus 1130 may provide a communication function between components of the information processing system 100 .
  • the bus 1130 may be implemented as various types of buses, such as an address bus, a data bus, and a control bus.
  • the communication interface 1140 may support wired/wireless Internet communication of the information processing system 100 . Also, the communication interface 1140 may support various communication methods other than Internet communication. To this end, the communication interface 1140 may be configured to include a communication module well known in the technical field of the present disclosure.
  • the storage module 1150 may non-temporarily store one or more computer programs 1160 .
  • the storage module 1150 is a non-volatile memory such as a read only memory (ROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), a flash memory, a hard disk, a removable disk, or in the art to which the present disclosure pertains. It may be configured to include any well-known computer-readable recording medium.
  • the computer program 1160 may include one or more instructions that, when loaded into the memory 1120 , cause the processor 1110 to perform an operation/method according to various embodiments of the present disclosure. That is, the processor 1110 may perform operations/methods according to various embodiments of the present disclosure by executing one or more instructions.
  • the computer program 1160 may operate to obtain medical data associated with a patient, determine a region of interest in the medical data, extract one or more features associated with the medical data based on the region of interest, It may include one or more instructions to perform an operation of generating a medical prediction for the patient, etc. based on the one or more characteristics.
  • the medical prediction generating system according to some embodiments of the present disclosure may be implemented through the information processing system 100 .
  • example implementations may refer to utilizing aspects of the presently disclosed subject matter in the context of one or more standalone computer systems, the subject matter is not so limited, but rather in connection with any computing environment, such as a network or distributed computing environment. may be implemented. Still further, aspects of the presently disclosed subject matter may be implemented in or across a plurality of processing chips or devices, and storage may be similarly affected across the plurality of devices. Such devices may include PCs, network servers, and handheld devices.

Abstract

본 개시는 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법에 관한 것이다. 이 방법은, 환자와 연관된 의학 데이터를 획득하는 단계, 의학 데이터에서 관심 영역을 결정하는 단계, 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징을 추출하는 단계 및 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성하는 단계를 포함할 수 있다.

Description

의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템
본 개시는 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템에 관한 것으로, 보다 구체적으로, 환자와 연관된 의학 데이터의 관심 영역에 기초하여 의학 데이터와 연관된 하나 이상의 특징을 추출하고, 추출된 하나 이상의 특징에 기초하여 환자에 대한 의학적 예측을 생성하는 방법 및 시스템을 제공하는 것이다.
최근 수년간 딥러닝(deep-learning)을 중심으로 하는 기계학습(machine-learning) 기술은 영상, 음성, 텍스트 등 다양한 형태의 데이터 분석에서 기존 방법의 성능을 뛰어 넘는 결과를 보이며 주목받고 있다. 이러한 기계학습 기술은 기술 자체에 내재된 확장성 및 유연성으로 인해 다양한 분야에 도입되어 활용되고 있다. 또한, 기계학습 기술은 새로운 물질을 발견하거나 인간이 예측하기 어려운 결과를 예측하는 분야에서도 활발하게 이용되고 있다. 특히, 의료 분야는, 진단 보조 시스템 등을 개발하기 위해 기계학습 기술이 활발하게 도입되고 있는 분야 중 하나에 해당한다.
진단 보조 시스템 등은 의학적으로 밝혀진 인과관계 등의 의학적 지식을 기초로, 환자와 연관된 의학 데이터에 포함된 일부 요소들을 고려하여, 특정 질병을 진단하거나 특정 약제에 대한 반응성을 미리 예측할 수 있다. 즉, 질병을 조기에 진단하고, 추가 검사를 방지함으로써 전반적인 의료 비용 절감에 일조할 수 있다. 그러나, 특정 질병을 진단하거나 특정 약제에 대한 반응성을 예측하는데 있어서, 아직 의학적 인과관계가 알려지지 않은 요소들이 의학 데이터에 다수 존재할 수 있다. 따라서, 종래의 기술에 따르면, 아직 의학적으로 알려지지 않았으나, 특정 질병을 진단하거나 특정 약제에 대한 반응성을 예측하는데 중요한 요소들을 놓칠 수 있다는 문제가 있다.
본 개시는 상기와 같은 문제점을 해결하기 위한 의학 데이터로부터 바이오마커와 연관된 의학적 예측을 생성하는 방법 및 시스템을 제공한다.
본 개시는 방법, 장치(시스템) 또는 명령어들을 저장하는 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램을 포함한 다양한 방식으로 구현될 수 있다.
본 개시의 일 실시예에 따른 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법은, 환자와 연관된 의학 데이터(medical data)를 획득하는 단계, 의학 데이터에서 관심 영역(region of interest)을 결정하는 단계, 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징(feature)을 추출하는 단계 및 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성하는 단계를 포함한다.
본 개시의 일 실시예에서, 결정하는 단계는, 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정하는 단계를 포함한다.
본 개시의 일 실시예에서, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정하는 단계는, 의학 데이터로부터, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 학습된 특징 추출 모델을 이용하여, 의학 데이터에서의 관심 영역을 결정하는 단계를 포함한다.
본 개시의 일 실시예에서, 의학 데이터는 유전체 데이터를 포함하고, 관심 영역을 결정하는 단계는, 유전체 데이터의 해석과 관련된 데이터 베이스를 이용하여, 유전체 데이터에 포함된 특성과 동일 또는 유사한 특성을 갖는 적어도 하나의 유전자 그룹을 결정하는 단계 및 결정된 적어도 하나의 유전자 그룹을 이용하여, 유전체 데이터에서 관심 영역을 결정하는 단계를 포함한다.
본 개시의 일 실시예에서, 의학 데이터는, 서로 다른 카테고리에 속하는 제1 의학 데이터와 제2 의학 데이터를 포함하고, 하나 이상의 특징을 추출하는 단계는, 제1 의학 데이터로부터 결정된 관심 영역에 기초하여, 제2 의학 데이터과 연관된 하나 이상의 특징을 추출하는 단계를 포함한다.
본 개시의 일 실시예에서, 추출된 하나 이상의 특징은 의학 데이터와 연관된 하나 이상의 제1 특징을 포함하고, 방법은, 관심 영역을 제외한 영역 중 적어도 일부의 영역으로부터 의학 데이터와 연관된 하나 이상의 제2 특징을 추출하는 단계를 더 포함하고, 생성하는 단계는, 하나 이상의 제1 특징 및 하나 이상의 제2 특징에 기초하여, 환자에 대한 의학적 예측을 생성하는 단계를 포함한다.
본 개시의 일 실시예에서, 하나 이상의 제1 특징 및 하나 이상의 제2 특징에 기초하여, 의학적 예측을 생성하는 단계는, 하나 이상의 제1 특징 및 하나 이상의 제2 특징의 각각에 대한 정규화 처리를 수행하는 단계, 정규화된 하나 이상의 제1 특징 및 정규화된 하나 이상의 제2 특징을 결합하여, 하나 이상의 제3 특징을 생성하는 단계 및 생성된 하나 이상의 제3 특징에 기초하여, 환자에 대한 의학적 예측을 생성하는 단계를 포함한다.
본 개시의 일 실시예에서, 의학 데이터는, 영상 의학과 관련된 의학 영상 데이터, 조직 영상 데이터, 유전체 데이터 또는 생물학적 데이터 중 적어도 하나를 포함한다.
본 개시의 일 실시예에서, 생성하는 단계는, 환자의 질병과 관련된 치료 방법, 치료 약물 또는 치료 기간 중 적어도 하나에 대한 예측 결과를 생성하는 단계를 포함한다.
본 개시의 일 실시예에서, 생성하는 단계는, 특정 치료 방법 또는 특정 치료 약물 중 적어도 하나에 대한 환자의 치료 반응성 또는 환자의 생존율 중 적어도 하나에 대한 예측 결과를 생성하는 단계를 포함한다.
본 개시의 일 실시예에서, 결정된 관심 영역, 추출된 하나 이상의 특징 또는 생성된 의학적 예측 중 적어도 하나를 의학 데이터에 표시하는 단계를 더 포함한다.
본 개시의 일 실시예에서, 생성된 의학적 예측을 출력하는 단계를 더 포함한다.
본 개시의 일 실시예에 따른 상술된 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.
본 개시의 일 실시예에 따른 정보 처리 시스템은, 하나 이상의 인스트럭션(instructions)을 저장하는 메모리 및 저장된 하나 이상의 인스트럭션을 실행함으로써, 환자와 연관된 의학 데이터를 획득하고, 의학 데이터에서 관심 영역을 결정하고, 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징을 추출하고, 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성하도록 구성된 프로세서를 포함한다.
본 개시의 일부 실시예들에 따르면, 아직 의학적 인과관계는 밝혀지지는 않았으나, 의학적 예측에 중요한 영향을 미치는 의학 데이터의 영역, 요소 및/또는 인자를 찾아낼 수 있다. 예를 들어, 복수의 의학 데이터-예측 정답 쌍(pair)을 이용해서 학습된 기계학습 모델을 통해, 의학적 예측을 수행하는데 중요한 영역을 간접적으로 찾아낼 수 있다.
본 개시의 일부 실시예들에 따르면, 의학 데이터에서 관심 영역을 제외한 영역으로부터 특징을 추출할 수 있다. 이미 밝혀진 의학적 인과관계 기반으로 정의된 관심 영역 및 기계학습 모델을 이용하여 정의된 관심 영역 외의 영역에서도 의학적 예측을 수행하는데 유의미한 특징을 포함할 수 있으므로, 이렇게 추출된 특징(즉, 비관심 영역으로부터 추출된 특징)이 의학적 예측에 도움이 될 수 있다.
본 개시의 일부 실시예들에 따르면, 상술한 바와 같은 효과들로 인해, 최종적으로 의학적 예측의 다양성이 증대될 수 있으며, 정확도를 향상시킬 수 있다.
본 개시의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 개시에 속하는 기술 분야에서 통상의 지식을 가진 자(이하, '통상의 기술자'라 함)에게 명확하게 이해될 수 있을 것이다.
본 개시의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.
도 1은 본 개시의 일 실시예에 따른 정보 처리 시스템이 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 시스템을 나타내는 예시적 구성도이다.
도 2는 본 개시의 일 실시예에 따른 정보 처리 시스템의 내부 구성을 나타내는 블록도이다.
도 3은 본 개시의 일 실시예에 따른 의학적 예측을 생성하는 방법을 나타내는 흐름도이다.
도 4는 본 개시의 일 실시예에 따라 의학 데이터에서 관심 영역을 결정하는 예시를 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따라 유전체 데이터에서 관심 영역을 결정하는 예시를 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따라 관심 영역으로부터 의학 데이터의 특징(예를 들어, 의학 데이터와 연관된 특징)을 추출하는 예시를 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따라 관심 영역 외의 영역으로부터 의학 데이터의 특징(예를 들어, 의학 데이터와 연관된 특징)을 추출하는 예시를 나타내는 도면이다.
도 8은 본 개시의 다른 실시예에 따른 의학적 예측을 생성하는 방법을 나타내는 흐름도이다.
도 9는 본 개시의 일 실시예에 따라 의학 데이터의 특징에 기초하여, 의학적 예측을 생성하는 예시를 나타내는 도면이다.
도 10은 본 개시의 일 실시예에 따른 인공신경망 모델을 나타내는 예시도이다.
도 11은 본 개시의 일 실시예에 따라 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 예시적인 정보 처리 시스템 구성도이다.
이하, 본 개시의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 개시의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 '모듈' 또는 '부'라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, '모듈' 또는 '부'는 어떤 역할들을 수행한다. 그렇지만 '모듈' 또는 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '모듈' 또는 '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '모듈' 또는 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 또는 변수들 중 적어도 하나를 포함할 수 있다. 구성요소들과 '모듈' 또는 '부'들은 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '모듈' 또는 '부'들로 결합되거나 추가적인 구성요소들과 '모듈' 또는 '부'들로 더 분리될 수 있다.
본 개시의 일 실시예에 따르면 '모듈' 또는 '부'는 프로세서 및 메모리로 구현될 수 있다. '프로세서'는 범용 프로세서, 중앙 처리 장치(CPU), 마이크로프로세서, 디지털 신호 프로세서(DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, '프로세서'는 주문형 반도체(ASIC), 프로그램가능 로직 디바이스(PLD), 필드 프로그램가능 게이트 어레이(FPGA) 등을 지칭할 수도 있다. '프로세서'는, 예를 들어, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다. 또한, '메모리'는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. '메모리'는 임의 액세스 메모리(RAM), 판독-전용 메모리(ROM), 비-휘발성 임의 액세스 메모리(NVRAM), 프로그램가능 판독-전용 메모리(PROM), 소거-프로그램가능 판독 전용 메모리(EPROM), 전기적으로 소거가능 PROM(EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.
본 개시에서, '시스템'은 서버 장치와 클라우드 장치 중 적어도 하나의 장치를 포함할 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 시스템은 하나 이상의 서버 장치로 구성될 수 있다. 다른 예로서, 시스템은 하나 이상의 클라우드 장치로 구성될 수 있다. 또 다른 예로서, 시스템은 서버 장치와 클라우드 장치가 함께 구성되어 동작될 수 있다.
본 개시에서, '목적 데이터'는 기계학습 모델의 학습에 사용될 수 있는 임의의 데이터 또는 데이터 아이템을 지칭할 수 있으며, 예를 들어, 이미지를 나타내는 데이터, 음성 또는 음성 특징을 나타내는 데이터 등을 포함하나, 이에 한정되지 않는다. 또한, 목적 데이터는 어노테이션 작업을 통해 레이블 정보가 태깅될 수 있다.
본 개시에서, '의학 데이터'는 생명체(예를 들어, 인체)의 상태 진단, 예측 및/또는 질병의 예방, 치료 등을 위해, 분석 대상이 되는 임의의 데이터를 지칭할 수 있다. 예를 들어, '의학 데이터'는 생명체의 조직, 이미지, 유전체 데이터 등을 포함할 수 있다. 다른 예로서, '의학 데이터'는 생명체의 조직 등을 현미경으로 관찰하기 위해 일련의 화학적 처리과정을 거쳐 고정 및 염색된 병리 슬라이드를 촬영한 이미지(예를 들어, 병리 슬라이드 이미지)를 포함할 수 있다. 이 경우, '의학 데이터'는 생명체 내의 세포(cell), 조직(tissue) 및/또는 스트럭처(structure)에 대한 정보를 포함할 수 있다. 또 다른 예로서, '의학 데이터'는 생명체의 임상적/조직학적 레이블 정보(예를 들어, 악성 여부, 재발 여부, 전이 여부, 특정 항암제에 대한 반응 여부, 약물에 대한 부작용 여부, 특정 수술에 대한 효과 여부, 예후, 삶의 질, 통증 등)을 포함할 수 있다.
본 개시에서, '이미지'는 '영상'을 지칭할 수 있으며, 이와 반대로, '영상'은 '이미지'를 지칭할 수 있다. 즉, '이미지'와 '영상'은 본 명세서에서 혼용되어 사용될 수 있다. 또한, 본 개시에서, '이미지 데이터'는 이미지 형태의 의학 데이터 즉, 의학 이미지 데이터를 포함할 수 있다.
본 개시에서, '관심 영역'은 의학 데이터 중에서 특정 의학적 예측(예를 들어, 약물에 대한 반응성, 부작용 유무, 예후 등에 대한 예측)을 수행하기 위해, 분석 대상이 되는 적어도 일부의 영역을 지칭할 수 있다. 예를 들어, '관심 영역'은 의학적 인과관계에 의해 특정 의학적 예측과 대응되는 영역, 특정 의학적 예측을 위해 분석해야 할 대상 아이템(예를 들어, 생물학적 요소, 인자 등)을 포함하는 영역 등을 포함할 수 있다. 일 실시예에서, 이미지 형태의 의학 데이터의 경우, '관심 영역'은 의학 데이터의 복수의 픽셀 중 적어도 일부의 픽셀을 포함할 수 있다. 이미지 형태의 의학 데이터에서의 관심 영역은 특정 병변, 부위, 장기, 조직 등의 영역을 포함할 수 있다. 다른 실시예에서, 유전체 데이터의 경우, '관심 영역'은 변이, 유전자, 유전체의 구조 등의 인자(또는 요소)들 중에서 의학적 예측을 수행하기 위해 분석 대상이 되는 적어도 일부의 특징점을 포함할 수 있다.
본 개시에서, '기계학습 모델' 및/또는 '인공신경망 모델'은 주어진 입력에 대한 해답(answer)을 추론하는데 사용하는 임의의 모델을 포함할 수 있다. 일 실시예에 따르면, 기계학습 모델은 입력 레이어(층), 복수 개의 은닉 레이어 및 출력 레이어를 포함한 인공신경망 모델을 포함할 수 있다. 여기서, 각 레이어는 복수의 노드를 포함할 수 있다. 예를 들어, 기계학습 모델은 의학 데이터의 적어도 일부 영역(예를 들어, 관심 영역)에 대해 레이블 정보를 추론하도록 학습될 수 있다. 이 경우, 어노테이션 작업을 통해 생성된 레이블 정보가 기계학습 모델을 학습시키는데 이용될 수 있다. 또한, 기계학습 모델은 기계학습 모델에 포함된 복수의 노드와 연관된 가중치를 포함할 수 있다. 여기서, 가중치는 기계학습 모델과 연관된 임의의 파라미터를 포함할 수 있다.
본 개시에서, '학습'은 의학 데이터의 적어도 일부의 영역 및 레이블 정보(예를 들어, 예측 정답)를 이용하여 기계학습 모델과 연관된 가중치를 변경하는 임의의 과정을 지칭할 수 있다. 일 실시예에 따르면, 학습은 적어도 하나의 패치 및 레이블 정보를 이용하여 기계학습 모델을 한번 이상의 순방향 전파(forward propagation) 및 역방향 전자(backward propagation)을 통해 기계학습 모델과 연관된 가중치를 변경하거나 업데이트하는 과정을 지칭할 수 있다.
본 개시에서, '레이블 정보(label information)'란, 데이터 샘플의 정답 정보로써 어노테이션 작업의 결과로 획득된 정보이다. 레이블 또는 레이블 정보는 당해 기술 분야에서 어노테이션(annotation), 태그 등의 용어와 혼용되어 사용될 수 있다. 본 개시에서, '어노테이션(annotation)'은 어노테이션 작업 및/또는 어노테이션 작업 수행에 따라 결정된 어노테이션 정보(예를 들어, 레이블 정보 등)을 지칭할 수 있다. 본 개시에서, '어노테이션 정보'는 어노테이션 작업을 위한 정보 및/또는 어노테이션 작업으로 생성된 정보(예를 들어, 레이블 정보)를 지칭할 수 있다.
본 개시에서, '대상 아이템'은 의학 데이터 내에서 검출 대상이 되는 데이터/정보, 영역, 객체 등을 지칭할 수 있다. 일 실시예에 따르면, 대상 아이템은 질병(예를 들어, 암)의 진단, 치료, 예방 등을 위해 의학 데이터로부터 검출하고자 하는 대상을 포함할 수 있다. 예를 들어, '대상 아이템'은 의학 이미지 데이터에서의 특정 세포(예를 들어, 암 세포, 면역 세포 등), 특정 영역(예를 들어, 암 영역, 특정 장기 영역) 등을 포함할 수 있다. 다른 예로서, '대상 아이템'은 유전체 데이터에서의 특정 염기 서열, 유전자 발현량, 표현형 등을 포함할 수 있다.
본 개시에서, '인스트럭션(instruction)'이란, 기능을 기준으로 묶인 하나 이상의 명령어들로서, 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 지칭할 수 있다.
본 개시에서, '사용자'는 사용자 단말을 이용하는 자를 지칭할 수 있다. 예를 들어, 사용자는 어노테이션 작업을 수행하는 사용자(annotator)를 포함할 수 있다. 다른 예로서, 사용자는 의학적 예측 결과(예를 들어, 환자가 면역 항암제에 반응하는지 여부에 대한 예측 결과)를 제공받는 의사, 환자 등을 포함할 수 있다. 또한, 사용자는 사용자 단말을 지칭할 수 있으며, 이와 반대로, 사용자 단말은 사용자를 지칭할 수 있다. 즉, 사용자와 사용자 단말은 본 명세서에서 혼용되어 사용될 수 있다.
도 1은 본 개시의 일 실시예에 따른 정보 처리 시스템(100)이 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 시스템을 나타내는 예시적 구성도이다. 도시된 바와 같이, 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 시스템은 정보 처리 시스템(100), 사용자 단말(110) 및 저장 시스템(120)을 포함할 수 있다. 여기서, 정보 처리 시스템(100)은 사용자 단말(110) 및 저장 시스템(120)의 각각과 연결되어 통신 가능하도록 구성될 수 있다. 도 1에서는 하나의 사용자 단말(110)이 도시되어 있으나, 이에 한정되지 않으며, 복수의 사용자 단말(110)이 정보 처리 시스템(100)과 연결되어 통신되도록 구성될 수 있다. 또한, 도 1에서는 정보 처리 시스템(100)이 하나의 컴퓨팅 장치로서 도시되어 있으나, 이에 한정되지 않으며, 정보 처리 시스템(100)은 복수의 컴퓨팅 장치를 통해 정보 및/또는 데이터를 분산 처리하도록 구성될 수 있다. 또한, 도 1에서는 저장 시스템(120)이 하나의 장치로서 도시되어 있으나, 이에 한정되지 않으며, 복수의 저장 장치로 구성되거나 클라우드(cloud)를 지원하는 시스템으로 구성될 수 있다. 또한, 도 1에서는 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 시스템의 각각의 구성요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로, 복수의 구성 요소가 실제 물리적 환경에서 서로 통합되는 형태로 구현될 수 있다.
정보 처리 시스템(100) 및 사용자 단말(110)은 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하고 제공하는데 이용되는 임의의 컴퓨팅 장치이다. 여기서 컴퓨팅 장치는, 컴퓨팅 기능이 구비된 임의의 종류의 장치를 지칭할 수 있으며, 예를 들어, 노트북, 데스크톱(desktop), 랩탑(laptop), 서버, 클라우드 시스템 등이 될 수 있으나, 이에 한정되지 않는다.
정보 처리 시스템(100)은 환자와 연관된 의학 데이터(medical data)를 수신할 수 있다. 예를 들어, 정보 처리 시스템(100)은 저장 시스템(120) 및/또는 사용자 단말(110)으로부터 환자와 연관된 의학 데이터를 수신할 수 있다. 정보 처리 시스템(100)은 획득한 의학 데이터에서 관심 영역(region of interest)을 결정할 수 있다. 예를 들어, 정보 처리 시스템(100)은 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정할 수 있다.
그리고 나서, 정보 처리 시스템(100)은 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징(feature)(예를 들어, 하나 이상의 제1 특징)을 추출하고, 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다. 추가적으로 또는 대안적으로, 정보 처리 시스템(100)은 관심 영역을 제외한 영역 중 적어도 일부의 영역(예를 들어, 비관심 영역)으로부터 의학 데이터와 연관된 하나 이상의 제2 특징을 추출할 수 있다. 이 경우, 정보 처리 시스템(100)은 하나 이상의 제1 특징 및 하나 이상의 제2 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다.
정보 처리 시스템(100)은 생성된 환자에 대한 의학적 예측을 출력할 수 있다. 예를 들어, 정보 처리 시스템(100)은 생성된 환자에 대한 의학적 예측을 사용자 단말(110)로 전송하고, 사용자 단말(110)은 정보 처리 시스템(100)으로부터 수신한 환자에 대한 의학적 예측을 디스플레이 장치에 표시할 수 있다. 예를 들어, 사용자 단말(110)은 정보 처리 시스템(100)으로부터 관심 영역, 하나 이상의 특징 또는 의학적 예측 중 적어도 하나가 표시된 의학 데이터 및/또는 의학적 예측 결과를 수신하여, 디스플레이 장치에 표시할 수 있다. 이에 따라, 사용자(130)(예를 들어, 의사, 환자 등)는 사용자 단말(110)을 통해 환자에 대한 의학적 예측(즉, 예측 결과)을 제공받을 수 있다.
저장 시스템(120)은 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하기 위한, 의학 데이터, 기계학습 모델과 연관된 각종 데이터를 저장하고 관리하는 장치 또는 클라우드 시스템이다. 데이터의 효율적인 관리를 위해, 저장 시스템(120)은, 데이터베이스를 이용하여 각종 데이터를 저장하고 관리할 수 있다. 여기서, 각종 데이터는 기계학습 모델과 연관된 임의의 데이터를 포함할 수 있으며, 예를 들어, 목적 데이터의 파일, 목적 데이터의 메타 정보, 어노테이션 작업 결과물인 목적 데이터에 대한 레이블 정보, 어노테이션 작업에 관한 데이터, 기계학습 모델(예: 인공신경망 모델) 등을 포함할 수 있으나, 이에 한정되지 않는다. 도 1에서는 정보 처리 시스템(100)과 저장 시스템(120)이 별도의 시스템으로 도시되어 있으나, 이에 한정되지 않으며, 하나의 시스템으로 통합되어 구성될 수 있다.
도 2는 본 개시의 일 실시예에 따른 정보 처리 시스템(100)의 내부 구성을 나타내는 블록도이다. 일 실시예에 따르면, 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하기 위해, 정보 처리 시스템(100)은 도시된 바와 같이, 관심 영역 결정부(210), 특징 추출부(220) 및 의학적 예측 생성부(230)를 포함할 수 있다. 도 2에서는 정보 처리 시스템(100)의 각각의 구성요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로, 복수의 구성 요소가 실제 물리적 환경에서 서로 통합되는 형태로 구현될 수 있다.
관심 영역 결정부(210)는 환자와 연관된 의학 데이터를 획득하여, 의학 데이터에서 관심 영역을 결정할 수 있다. 일 실시예에서, 관심 영역 결정부(210)는 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 의학 데이터로부터, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 학습된 특징 추출 모델을 이용하여, 의학 데이터에서의 관심 영역을 결정할 수 있다. 다른 실시예에서, 의학 데이터가 유전체 데이터에 해당하는 경우, 관심 영역 결정부(210)는 유전체 데이터의 해석과 관련된 데이터 베이스를 이용하여, 유전체 데이터에 포함된 특성과 동일 또는 유사한 특성을 갖는 적어도 하나의 유전자 그룹을 결정할 수 있다. 그리고 나서, 관심 영역 결정부(210)는, 결정된 적어도 하나의 유전자 그룹을 이용하여, 유전체 데이터에서 관심 영역을 결정할 수 있다. 여기서, 유전체 데이터는, DNA 변이 데이터, Structure 데이터, RNA or Protein 등의 발현(Expression) 데이터, Methylation 등의 epigenomic 데이터, 액체 생검(Liquid Biopsy) 분석 데이터 등을 포함할 수 있으며, 이에 한정되지 않는다.
특징 추출부(220)는 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징(예를 들어, 하나 이상의 제1 특징)을 추출할 수 있다. 일 실시예에서, 의학 데이터가 서로 다른 카테고리에 속하는 제1 의학 데이터와 제2 의학 데이터를 포함하는 경우, 특징 추출부(220)는 제1 의학 데이터로부터 결정된 관심 영역에 기초하여, 제2 의학 데이터과 연관된 하나 이상의 특징을 추출할 수 있다. 추가적으로 또는 대안적으로, 특징 추출부(220)는 관심 영역을 제외한 영역 중 적어도 일부의 영역으로부터 의학 데이터와 연관된 하나 이상의 특징(예를 들어, 하나 이상의 제2 특징)을 추출할 수 있다. 추가적으로 또는 대안적으로, 특징 추출부(220)는 관심 영역으로부터 추출된 특징(즉, 하나 이상의 제1 특징) 및 관심 영역을 제외한 영역 중 적어도 일부의 영역으로부터 추출된 특징(즉, 하나 이상의 제2 특징)의 각각에 대한 정규화 처리를 수행하고, 정규화된 하나 이상의 제1 특징 및 정규화된 하나 이상의 제2 특징을 결합하여, 하나 이상의 제3 특징을 생성할 수 있다.
의학적 예측 생성부(230)는 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다. 일 실시예에서, 의학적 예측 생성부(230)는 특징 추출부(220)에서 추출된 하나 이상의 제1 특징 및 하나 이상의 제2 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 특징 추출부(220)에서 생성된 하나 이상의 제3 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다.
도 2에서 정보 처리 시스템(100)은 관심 영역 결정부(210), 특징 추출부(220) 및 의학적 예측 생성부(230)로 구성되어 있으나, 이에 한정되지 않으며, 일부 구성이 생략되거나 다른 구성이 추가될 수 있다. 일 실시예에서, 정보 처리 시스템(100)은 출력부(미도시)를 더 포함할 수 있고, 출력부는 생성된 의학적 예측을 출력할 수 있다. 또한, 도 2에서는, 관심 영역 결정부(210), 특징 추출부(220) 및 의학적 예측 생성부(230)가 정보 처리 시스템(100)에 포함되는 것으로 도시되어 있으나, 이에 한정되지 않으며, 이러한 구성요소들은 다른 장치(예를 들어, 외부 장치 및/또는 사용자 단말)에 포함될 수 있다. 다른 실시예에서, 이러한 구성 요소들은 복수의 임의의 장치(예를 들어, 정보 처리 시스템(100), 사용자 단말(110) 등)에 의해 임의의 조합으로 분산될 수 있다.
도 3은 본 개시의 일 실시예에 따른 의학적 예측을 생성하는 방법(300)을 나타내는 흐름도이다. 일 실시예에서, 의학적 예측을 생성하는 방법(300)은 프로세서(예를 들어, 정보 처리 시스템의 적어도 하나의 프로세서 및/또는 사용자 단말의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 의학적 예측을 생성하는 방법(300)은 프로세서가 환자와 연관된 의학 데이터를 획득함으로써 개시될 수 있다(S310). 여기서, 의학 데이터는 영상 의학과 연관된 의학 영상 데이터, 조직 영상 데이터, 유전체 데이터 또는 생물학적 데이터 중 적어도 하나를 포함할 수 있다. 예를 들어, 의학 데이터는, X-ray, CT, MRI 영상 등의 방사선 영상 데이터, 디지털 병리학 등의 조직 영상 데이터(예를 들어, H&E 염색 이미지, IHC 슬라이드 이미지 등), 다중 오믹스(Multi-omics) 데이터를 포함하는 유전체 데이터 및 생물학적(biological) 데이터 중 적어도 하나를 포함할 수 있다. 추가적으로 또는 대안적으로, 의학 데이터는 환자로부터 획득한 서로 다른 형태(modality)의 데이터를 포함할 수 있다.
프로세서는 의학 데이터에서 관심 영역을 결정할 수 있다(S320). 일 실시예에서, 프로세서는 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정할 수 있다. 예를 들어, 프로세서는 의학 데이터로부터, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 학습된 특징 추출 모델을 이용하여, 의학 데이터에서의 관심 영역을 결정할 수 있다. 다른 실시예에서, 의학 데이터가 유전체 데이터에 해당하는 경우, 프로세서는 유전체 데이터의 해석과 관련된 데이터 베이스를 이용하여, 유전체 데이터에 포함된 특성과 동일 또는 유사한 특성을 갖는 적어도 하나의 유전자 그룹을 결정하고, 결정된 적어도 하나의 유전자 그룹을 이용하여, 유전체 데이터에서 관심 영역을 결정할 수 있다.
그리고 나서, 프로세서는 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징(예를 들어, 하나 이상의 제1 특징)을 추출할 수 있다(S330). 일 실시예에서, 의학 데이터가 서로 다른 카테고리에 속하는 제1 의학 데이터와 제2 의학 데이터를 포함하는 경우, 프로세서는 제1 의학 데이터로부터 결정된 관심 영역에 기초하여, 제2 의학 데이터과 연관된 하나 이상의 특징을 추출할 수 있다. 추가적으로 또는 대안적으로, 프로세서는 관심 영역을 제외한 영역 중 적어도 일부의 영역으로부터 의학 데이터와 연관된 특징(예를 들어, 하나 이상의 제2 특징)을 추출할 수 있다.
그리고 나서, 프로세서는 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다(S340). 일 실시예에서, 프로세서는 환자의 질병에 대한 치료 방법, 치료 약물 또는 치료 기간 중 적어도 하나에 대한 예측 결과를 생성할 수 있다. 다른 실시예에서, 프로세서는 특정 치료 방법 또는 특정 치료 약물 중 적어도 하나에 대한 환자의 치료 반응성 또는 환자의 생존율 (예를 들어, 치료 가능성 또는 생존 가능성) 중 적어도 하나에 대한 예측 결과를 생성할 수 있다. 또 다른 실시예에서, 프로세서는 결정된 관심 영역, 추출된 하나 이상의 특징 또는 생성된 의학적 예측 중 적어도 하나를 의학 데이터에 표시할 수 있다. 추가적으로, 프로세서는 생성된 의학적 예측을 출력할 수 있다.
도 4는 본 개시의 일 실시예에 따라 의학 데이터(410)에서 관심 영역(420)을 결정하는 예시를 나타내는 도면이다. 의학 데이터에는 의학적 예측을 수행하는데 있어서, 바이오마커와 연관성이 없는 영역이 존재할 수 있다. 이러한 연관성이 없는 영역은, 소량의 데이터에서 바이오마커를 결정하는데 있어서 노이즈로 작용할 수 있다. 따라서, 관심 영역을 추출하는 과정을 통해 보다 높은 정확도를 갖는 바이오마커가 결정될 수 있다.
예를 들어, 약제 또는 치료에 대한 반응 예측을 위한 바이오마커의 경우, 정상 영역보다는 비정상 영역을 집중적으로 분석하는 것이 중요할 수 있다. 즉, 방사선 영상의 경우, 전체 영역이 아닌 병변 영역 주변 대한 분석이 중요할 수 있다. 이와 마찬가지로, 조직 영상의 경우도 전체 영역이 아닌, 암 주변 영역에 대한 분석 또는 암 주변 영역 내에서의 특정 세포들의 분포에 대한 분석이 중요할 수 있다.
의학적 예측을 수행하기 위해, 의학 데이터에서, 상술한 바와 같이 집중적으로 분석해야 할 영역을 관심 영역으로서 결정하는 것이 중요할 수 있다. 일 실시예에서, 도시된 바와 같이, 관심 영역 결정부(210)는 환자와 연관된 의학 데이터(예를 들어, 병리 슬라이드 이미지)(410)를 수신하고, 수신된 의학 데이터(410)에서 관심 영역(예를 들어, 병리 슬라이드 이미지 내의 적어도 일부의 영역)(420)을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 방사선 영상에서 특정 병변 영역, 방사선학적 발견(radiologic finding) 영역, 특정 해부학적 부위 및/또는 특정 장기 영역을 관심 영역으로 결정할 수 있다. 다른 예로서, 관심 영역 결정부(210)는 조직 영상에서 특정 조직을 관심 영역으로 결정할 수 있다.
일 실시예에서, 관심 영역 결정부(210)는 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정할 수 있다. 이러한 해부학적 특징, 기하학적 특징 및/또는 조직학적인 특징은, 의학적 예측을 수행하는데 있어서 유의미한 특징을 포함할 수 있다. 의학적 예측을 수행하는데 있어서 유의미한 특징을 추출하기 위한 관심 영역은, 사용자에 의해 직접 정의된 것일 수 있다. 예를 들어, 병리 조직 영상의 경우, 사용자는 암 스트로마(cancer stroma) 영역 및/또는 암 상피(cancer epithelium) 영역을 폐암의 항암제 반응 예측을 위한 관심 영역으로 정의할 수 있다. 다른 예로서, 방사선 영상의 경우, 사용자는 폐암이 있는 영역을 항암제 반응 예측을 위한 관심 영역으로 정의할 수 있다.
상술한 바와 같이, 사용자가, 예측 대상(예를 들어, 항암제 반응 예측 등)에 대해 이미 의학적으로 인과관계가 밝혀진 중요 인자들을 포함하는 영역을 관심 영역으로 정의함에 따라, 관심 영역 결정부(210)는 획득한 의학 데이터에서, 사용자에 의해 정의된 관심 영역에 해당하는 영역을 결정할 수 있다. 한편, 바이오마커의 예측 정확도에 중요한 인자는 의학적으로 알려지지 않은 것이 다수 존재할 수 있다. 따라서, 이미 의학적으로 인과관계가 밝혀진 중요 인자들 만을 기초로 관심 영역을 정의하는 경우, 아직 의학적으로 알려지지 않은 다른 중요 인자들을 놓칠 수 있다. 예를 들어, 방사선 영상에서 폐암의 항암제에 대한 반응을 예측하는 데 있어서, '폐암 영역'만이 필요할지 '폐암이 발병한 폐의 위치 정보'도 필요할지는 의학적으로 알려진 인과관계가 없으나, '폐암이 발병한 폐의 위치 정보'가 폐암의 항암제에 대한 반응을 예측하는 데 중요한 인자에 해당할 수 있다. 따라서, 의학적으로 인과관계가 밝혀진 영역이 아니더라도, 바이오마커의 중요 인자가 될 만한 영역들을 관심 영역으로서 정의할 필요가 있다.
이에 따라, 관심 영역 결정부(210)는 의학 데이터로부터, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 학습된 특징 추출 모델(예를 들어, 기계학습 모델)을 이용하여, 의학 데이터에서의 관심 영역을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 복수의 의학 데이터-예측 정답 쌍을 기초로 학습된 특징 추출 모델을 이용하여, 의학 데이터에서의 관심 영역을 결정할 수 있다. 여기서, 복수의 의학 데이터는, 의학 데이터 그 자체 및/또는 의학 데이터로부터 추출된 하나 이상의 특징(예를 들어, 특징을 나타내는 벡터 등)을 포함할 수 있다. 또한, 예측 정답은 환자의 임상적/조직학적 예측 정답 값을 포함할 수 있다.
관심 영역 결정부(210)는 특징 추출 모델을 이용하여, 의학 데이터 중에서 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나가 추출되는 데 큰 영향(예를 들어, 가장 큰 영향 및/또는 임계치 이상의 영향)을 미친 영역을 관심 영역으로 정의할 수 있다. 즉, 관심 영역 결정부(210)는 기계학습 모델을 이용하여 자동으로 관심 영역을 정의할 수 있다. 예를 들어, 관심 영역 결정부(210)는, 복수의 의학 데이터-예측 정답의 쌍에 기초하여, 지도 학습된 기계학습 모델을 이용하여, 복수의 의학 데이터 각각에 대해, 예측 정답에 큰 영향을 미친 영역을 추출하고, 추출된 영역들 중 적어도 일부를 관심 영역으로 정의할 수 있다. 예를 들어, 기계학습 모델에 방사선 영상을 입력하여 항암제에 대한 반응을 예측하는 데 있어서, 방사선 영상의 폐 임파선 영역이 항암제에 대한 반응 예측에 큰 영향을 미친 경우, 관심 영역 결정부(210)는, 폐의 임파선을 관심 영역으로 정의할 수 있다. 사용자에 의해 정의된 관심 영역과 기계학습 모델에 의해 정의된 관심 영역을 모두 고려하는 경우, 바이오마커의 예측 성능을 향상시킬 수 있다.
관심 영역 결정부(210)는 획득한 환자와 연관된 의학 데이터에서, 상술한 바와 같이 정의된 관심 영역(예를 들어, 사용자에 의해 정의된 관심 영역 및/또는 기계학습 모델에 의해 정의된 관심 영역)을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 관심 영역 결정 모델을 이용하여, 획득한 환자와 연관된 의학 데이터에서 관심 영역을 결정(또는 추출)할 수 있다. 여기서, 관심 영역 결정 모델은, 학습 의학 데이터와 학습 의학 데이터에서의 관심 영역에 대한 레이블 정보에 기초하여 학습된 모델에 해당할 수 있다. 여기서, 학습 의학 데이터에서의 관심 영역에 대한 레이블 정보는 사용자의 어노테이션 작업에 의해 생성 및/또는 수신된 것일 수 있다.
도 5는 본 개시의 일 실시예에 따라 유전체 데이터(510)에서 관심 영역(520)을 결정하는 예시를 나타내는 도면이다. 도시된 바와 같이, 관심 영역 결정부(210)는 환자와 연관된 의학 데이터로서 환자와 연관된 유전체 데이터(510)를 획득할 수 있다. 유전체 데이터에서 사용되는 인자들은 DNA 상의 돌연변이, RNA에 해당하는 유전자 발현 값, 후성 유전 인자, 단백질체의 발현 값, 체내 존재하는 마이크로바이옴 등을 포함할 수 있다. 추가적으로 또는 대안적으로, 유전체 데이터는, 유전적 인자와 연결된 생물학적 특성을 설명하는 외부 데이터를 포함할 수 있다. 관심 영역 결정부(210)는 유전체 데이터에서 관심 영역(예를 들어, 특징점)을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 유전체 데이터에서 변이, 유전자, 혹은 유전체의 구조에 대한 관심 영역(즉, 특징점)을 결정할 수 있다. 추가적으로 또는 대안적으로, 관심 영역 결정부(210)는 유전체 데이터에서 관심 영역(즉, 특징점)을 결정하기 위해, 도 4에서 설명한 방법을 유전체 데이터에 대하여 수행할 수 있다.
일 실시예에서, 관심 영역 결정부(210)는 적어도 하나의 유전자 그룹을 이용하여, 유전체 데이터에서 관심 영역을 결정할 수 있다. 이를 위해, 관심 영역 결정부(210)는 유전체 데이터의 해석과 관련된 데이터 베이스를 이용하여, 유전체 데이터에 포함된 특성과 동일 또는 유사한 특성을 갖는 적어도 하나의 유전자 그룹을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 외부 데이터로부터 주석된 특성을 이용하여, 동일 또는 유사한 특성을 가지는 유전자 그룹을 형성하고, 특징화할 수 있다.
여기서, 외부 데이터는 Gene Ontology, GWAS, Biological Pathway 등을 포함할 수 있다. 예를 들어, 관심 영역 결정부(210)는 Gene Ontology의 생물학적 과정(Biological process), 분자 기능(Molecular function), 세포 구성 요소(cellular component) 등을 이용하여 유전자를 분류함으로써, 유전자 그룹을 형성하고 특징화할 수 있다. 다른 예로서, 관심 영역 결정부(210)는 Kyoto Encyclopedia of Genes and Genomes (KEGG) Pathway, BioCarta, Pathway Interaction Database, Reactome and Signaling Gateway, Molecular Signature Database 등의 Pathway 데이터를 이용하여 유전자를 분류함으로써, 유전자 그룹을 형성하고 특징화할 수 있다. 또 다른 예로서, 관심 영역 결정부(210)는 질병, 단백질 특성, 발현 조직의 위치, 표현형 등 유전자의 집합을 형성할 수 있는 모든 데이터베이스를 이용할 수 있다.
관심 영역 결정부(210)는 유전체 데이터와 관련된 생물학적 지식(biological knowledge)(예를 들어, 생물학적 인과관계에 대한 정보)에 기초하여, 유전체 데이터에서 관심 영역을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 진화적으로 보존된(conserved) 유전적 특징을 설명하는 SIFT score, 단백질의 구조에 관한 값인 PolyPhen score, CADD 등의 병리학적 예측(Pathogenicity prediction)에 기초하여, 유전체 데이터에서 관심 영역을 결정할 수 있다. 다른 예로서, 관심 영역 결정부(210)는 유전체 시퀀싱(sequencing) 이후에 이를 활용하기 위한 American College of Medical Genetics and Genomics (ACMG) Guideline, 임상적으로 중요한 변이를 담는 ClinVar, 표현형과 관련된 유전자들의 목록을 담는 GWAS Catalog 등에 기초하여, 유전체 데이터에서 관심 영역을 결정할 수 있다. 추가적으로 또는 대안적으로, TALC, PharmGKB, ClearityFoundationBiomarkers, MyCancerGenome, TdgClinicalTrial, ClearityFoundationClinicalTrial, OncoKB, CKB, star allele nomenclature, GuideToPharmacologyInteractions, CGI, CIViC, TEND, DrugBank, DoCM, CancerCommons, TTD, FDA 등의 외부 데이터베이스를 이용하여, 유전체 데이터로부터 환자에게 부여된 약물과의 관계가 결정될 수 있다. 그리고 나서, 관심 영역 결정부(210)는 이러한 관계에 기초하여 유전체 데이터에서 관심 영역을 결정할 수 있다.
일 실시예에서, 관심 영역 결정부(210)는 다중의 유전체 데이터(Multi-omics 데이터)를 통합하여, 특징점(즉, 관심 영역)으로 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 DNA, RNA, Epigenome 등 서로 다른 오믹스(Omics) 데이터를 한 번에 처리하기 위해, 비지도 학습(Unsupervised learning), 그래프 구조(Graph structure), 딥러닝(Deep learning) 등의 머신러닝 기법을 이용하여 데이터들을 전처리할 수 있다. 추가적으로 또는 대안적으로, 관심 영역 결정부(210)는 동일한 유전자에 대하여 정보를 부여하고, 3차원 형태로 데이터를 구축하여 통합된 데이터로서 사용할 수 있다. 이를 위해, Tensor decomposition, Single value decomposition, Matrix factorization, Uniform Manifold Approximation and Projection (UMAP), t-Stochastic Nearest Neighbor (t-SNE), Principle Component Analysis (PCA) 등의 기법이 사용될 수 있다. 추가적으로 또는 대안적으로, 관심 영역 결정부(210)는 딥러닝 등의 머신러닝 기법을 사용하여, 데이터를 임의로 변환할 수 있다. 예를 들어, 오토 인코더(AutoEncoder) 기반의 데이터를 활용하여 각 데이터의 차원을 줄이는 방법론을 사용하거나, 데이터별로 동일한 레이블을 예측하기 위한 딥러닝 모델을 학습하여, 서브 네트워크에 해당하는 레이어에서 원하는 형태로 특징점(즉, 관심 영역)을 결정할 수 있다.
관심 영역 결정부(210)는 머신러닝을 이용하여 유전체 데이터에서 관심 영역을 결정할 수 있다. 유전체 데이터는 샘플의 수에 비해 많은 특징(feature)을 가질 수 있다. 따라서, 바이오마커로 결정할 수 있는 특징이 없는 경우, 관심 영역 결정부(210)는 머신러닝을 이용하여 유전체 데이터에서 관심 영역을 결정할 수 있다.
일 실시예에서, 관심 영역 결정부(210)는 통계 모델을 이용하여 유전체 데이터에서 관심 영역을 결정할 수 있다. 예를 들어, 관심 영역 결정부(210)는 DNA 데이터에서 변이 단위 및/또는 유전자 단위로 관심 영역을 결정할 수 있다. 즉, DNA의 변이 데이터를 기초로, 통계적 검정, contingency를 통한 빈도 테스트(frequency test)(예를 들어, Chisquare statistics, ANOVA, Fisher exact test 등), regression 기반 분석(예를 들어, logistic regression, lasso, ridge, Elastic-Net), Cochrane statistics, 그리고 유전자 단위로 변이를 묶어서 분석하는 RVIS score, Burden test, SKAT test, SKAT-O test 등의 분석을 수행함으로써, 관심 영역 결정부(210)는 DNA 기반의 관심 영역을 결정할 수 있다.
다른 예로서, 관심 영역 결정부(210)는 유전자 발현(gene expression)을 정량화(quantification)한 값을 이용하여, RNA (Transcriptomics) 데이터에서 통계적으로, 차별적으로 발현하는 유전자를 관심 영역으로 결정할 수 있다. 관심 영역 결정부(210)는 EdgeR, Limma, Bayesian 등의 differential expression gene (DEG) 분석을 수행함으로써 관심 영역을 결정할 수 있다. 또는, 관심 영역 결정부(210)는 통계적 검정, regression, 머신러닝 기법을 이용하여 관심 영역을 결정할 수 있다. 여기서, Transcriptomics 데이터는 mRNA뿐만 아니라, microRNA, miRNA 등을 포함할 수 있다.
이를 위해, 관심 영역 결정부(210)는 Copy Number Alteration과 같은 구조 레벨(structure level)의 데이터를 사용할 수 있다. 예를 들어, 결실(Deletion), 증폭(Amplification)을 이벤트로 정의하여 범주형 변수처럼 사용하거나(예를 들어, DNA와 같은 분석), 혹은 copy number의 수를 연속형 변수로 정의하여 사용할 수 있다(예를 들어, RNA와 같은 분석). 추가적으로 또는 대안적으로, 관심 영역 결정부(210)는 Methylation, Histone-modification 등의 Epigenomics 데이터, Microbiome 데이터 등도 상술한 바와 같은 방법으로 분석을 수행할 수 있다.
다른 실시예에서, 관심 영역 결정부(210)는 딥러닝 기반으로 관심 영역을 결정할 수 있다. 입력 데이터에 기초하여 결과를 예측하는 알고리즘(예를 들어, ANN, DNN, CNN, Auto-Encoder)은 다층의 레이어(Layer)를 통해 웨이트(weight)로 인하여 피쳐 선정(feature selection)과 예측(prediction)을 한 번에 수행할 수 있다. 이에 따라, 입력 데이터(즉, 유전체 데이터) 및/또는 피쳐(feature)의 차원(dimension)이 줄어들 수 있다. 예를 들어, 단순히 레이어(Layer)의 유닛(Unit) 수를 줄임으로써, 입력 데이터 및/또는 피쳐의 차원이 줄어들 수 있다. 따라서, 관심 영역 결정부(210)는 ANN, DNN, CNN을 이용하여, 샘플에서 주어진 자체 데이터를 변환하여, 중요한 피쳐만을 선택함으로써 새로운 관심 영역을 결정할 수 있다. 다른 예로서, 관심 영역 결정부(210)는 오토 인코더(Auto-Encoder) 기반의 알고리즘을 활용하여 입력 데이터 및/또는 피쳐의 차원을 축소하고, 효율적으로 관심 영역을 결정할 수 있다. 즉, 관심 영역 결정부(210)는 Variational Auto-Encoder 등의 Latent layer를 통해, 특정 분포(distribution)를 가정함으로써 입력 데이터 및/또는 피쳐의 차원을 축소하고, 관심 영역을 결정할 수 있다.
또 다른 예로서, 관심 영역 결정부(210)는 외부 데이터를 통해 레이어를 조정함으로써 관심 영역을 결정할 수 있다. 유전체 데이터는 유전자 단위, chromosome 단위, motif, open reading frame 등의 단위를 통해, 벡터로 나열되는 피쳐를 하나의 유전자 그룹으로 설정할 수 있다. 이 때, 각 피쳐는 다중의 유전자 그룹에 속할 수 있다. 따라서, 레이어를 구성할 때, 각 유전자 그룹의 수만큼의 새로운 레이어 유닛(Layer unit)을 생성하여, 각 유정자 그룹에 해당하는 피쳐들을 연관시키는 방법을 통해, 관심 영역 결정부(210)는 의학적 지식을 기반으로 설명 가능한 관심 영역을 추출할 수 있다. 여기서, 각 그룹은 Gene Ontology, GWAS, Biological Pathway 등을 포함할 수 있다.
또 다른 예로서, 관심 영역 결정부(210)는 유전적 상호작용(Genetic interaction)에 기초하여, 관심 영역을 결정할 수 있다. 음의 유전적 상호작용(Negative genetic interaction)은 synthetic lethality, synthetic dosage lethality, synthetic cytotoxicity 등의 유전자 간의 관계를 포함할 수 있다. 여기서, 유전자는 독립 변수처럼 활용할 수 있지만, 서로 의존적으로 네트워크를 이루고 있기 때문에, 멀티 피쳐(multi-feature)의 형태를 통해 새로운 관심 영역이 결정될 수 있다. 이 경우, 다중의 변수에 대한 회귀(regression)/카이 제곱 통계량(chi-square statistics)에 기초하여, 유의미한 변수이 추출될 수 있으며, 관심 영역이 결정될 수 있다.
도 6은 본 개시의 일 실시예에 따라 관심 영역(610)으로부터 의학 데이터의 특징(예를 들어, 의학 데이터와 연관된 특징)(620)을 추출하는 예시를 나타내는 도면이다. 도시된 바와 같이, 특징 추출부(220)는 결정된 관심 영역(610)에 기초하여, 의학 데이터와 연관된 하나 이상의 특징(620)을 추출할 수 있다. 일 실시예에서, 특징 추출부(220)는 의학적 정보에 기초하여, 관심 영역(610)으로부터 하나 이상의 특징(620)을 추출할 수 있다. 여기서, 하나 이상의 특징(620)은 의학적 예측을 수행하는 데 있어서, 의미있는 해부학적 특징, 기하학적 특징 또는 조직학적인 특징을 포함할 수 있다. 예를 들어, 하나 이상의 특징(620)은 이미 밝혀진 의학적 인과 관계에 따라, 특정 의학적 예측을 수행하기 위해 필요한 특징을 포함할 수 있다.
일 실시예에서, 특징 추출부(220)는 관심 영역(610)에 포함된 하나 이상의 대상 아이템(예를 들어, 암세포, 면역 세포, Fibroblast, Lymphocyte, plasma cell, Macrophage, Endothelial cell, 암 영역(cancer area), 암 스트로마 영역(cancer stroma), Tertiary lymphoid structure, Normal region, Necrosis, Fat, Blood vessel, High endothelial venule, Lymphatic vessel, Nerve 등을 포함하는 생물학적 구성요소들)을 검출함으로써, 의학 데이터와 연관된 하나 이상의 특징(620)을 추출할 수 있다. 이를 위해, 특징 추출부(220)는 대상 아이템 검출 모델(예를 들어, 인식 모델(recognition model))을 이용하여, 관심 영역(610)에 포함된 하나 이상의 대상 아이템을 검출할 수 있다. 추가적으로 또는 대안적으로, 사용자가 직접 관심 영역(610)에서 하나 이상의 대상 아이템을 검출하고, 특징 추출부(220)는 사용자로부터 입력되는 대상 아이템 검출 결과를 수신할 수 있다.
그리고 나서, 특징 추출부(220)는 관심 영역(610)에서의 하나 이상의 대상 아이템에 대한 검출 결과에 기초하여, 독립적 또는 상호 의존적인 통계수치 및/또는 측정치들을 산출할 수 있다. 예를 들어, 특징 추출부(220)는 관심 영역인 암 상피(cancer epithelium) 영역의 단위 넓이당 암 세포의 평균 개수를 해당 의학 데이터의 특징(즉, 의학 데이터와 연관된 하나 이상의 특징)(620)으로서 산출할 수 있다. 다른 예로서, 특징 추출부(220)는 관심 영역(610) 내 암 스트로마(cancer stroma) 영역의 단위 넓이당 면역 세포의 평균 개수, 복수의 면역 세포와 복수의 암세포 간의 거리에 대한 통계치 등을 의학 데이터의 특징(620)으로서 산출할 수 있다. 다른 예로서, 특징 추출부(220)는 관심 영역인 폐 영역 내에 있는 결절(nodule)의 개수와 위치를 해당 의학 데이터의 특징(620)으로서 추출할 수 있다. 추가적으로 또는 대안적으로, 특징 추출부(220)는 상술한 바와 같이 산출된 통계수치 및/또는 측정치들의 집합을 의학 데이터의 특징(620)으로서 추출할 수 있다.
다른 실시예에서, 특징 추출부(220)는 미리 학습된 모델(예를 들어, 미리 학습된 네트워크(pre-trained network))를 이용하여, 관심 영역(610)으로부터 하나 이상의 특징(620)을 추출할 수 있다. 여기서, 미리 학습된 모델(예를 들어, pre-trained CNN)은 이미지 형태의 의학 데이터(예를 들어, 영상 의학과 관련된 의학 영상 데이터, 조직 영상 데이터 등)에 기초하여 학습된 모델(예를 들어, ImageNet-pre-trained model)을 포함할 수 있다. 추가적으로 도는 대안적으로, 미리 학습된 모델은 이미지 형태가 아닌 의학 데이터(예를 들어, 유전체 데이터, 생물학적 데이터 등)에 기초하여 학습된 모델을 포함할 수 있다.
예를 들어, 특징 추출부(220)는 관심 영역(예를 들어, 관심 영역에 해당하는 이미지)(610)을 미리 학습된 모델에 입력함으로써, 출력되는 mid-level representation(예를 들어, feature map)을 하나 이상의 특징(620)으로서 추출할 수 있다. 다른 예로서, 특징 추출부(220)는 관심 영역을 복수의 영역으로 분할하고, 분할된 복수의 영역들을 미리 학습된 모델에 입력하여 mid-level representation을 획득할 수 있다. 그리고 나서, 특징 추출부(220)는 획득된 mid-level representation을 하나의 고정 차원 벡터(fixed-dimensional vector)로 결합(aggregation)함으로써, 하나 이상의 특징(620)을 추출할 수 있다. 이 경우, 특징 추출부(220)는 average pooling, max pooling, BOW, VLAD, Fisher Kernel 등을 사용하여, 결합(aggregation)을 수행할 수 있다.
추가적으로 또는 대안적으로, 서로 다른 카테고리에 속하는 제1 의학 데이터와 제2 의학 데이터에 대하여, 특징 추출부(220)는 제1 의학 데이터로부터 결정된 관심 영역에 기초하여, 제2 의학 데이터과 연관된 하나 이상의 특징을 추출할 수 있다. 여기서, 카테고리는, 복수의 의학 데이터를 데이터 형태, 유형, 연관 질병, 연관 영역(예를 들어, 폐 영역, 뇌 영역, 특정 구간의 DNA 염기 서열 등), 데이터 생성 시기, 생성 방법 등에 기초하여 분류함으로써 생성된 것일 수 있다. 예를 들어, 특징 추출부(220)는 제2 의학 데이터(예를 들어, 유전체 데이터 등) 중에서, 제1 의학 데이터(예를 들어, 이미지 데이터 등)의 관심 영역에 대응하는 영역으로부터, 제2 의학 데이터과 연관된 하나 이상의 특징을 추출할 수 있다. 추가적으로 또는 대안적으로, 특징 추출부(220)는 의학 데이터 중에서 관심 영역(610)에 해당하는 데이터 자체를 의학 데이터와 연관된 하나 이상의 특징(620)으로서 추출할 수 있다.
도 7은 본 개시의 일 실시예에 따라 관심 영역 외의 영역(710)으로부터 의학 데이터의 특징(예를 들어, 의학 데이터와 연관된 특징)(720)을 추출하는 예시를 나타내는 도면이다. 이미 밝혀진 의학적 인과관계를 기반으로 정의된 관심 영역 및 기계학습 모델을 이용하여 정의된 관심 영역 외의 영역에서도 의학적 예측을 수행하는데 유의미한 특징을 포함할 수 있다. 특히, 유전체 데이터의 경우, 특정 이벤트가 매우 드물게(rare) 발생하는 경우, 통계적 유의성을 가지기 어렵기 때문에, 중요한 인자임에도 관심 영역으로 결정되지 않을 수 있다. 또한, non-coding 영역 등에 존재하며 regulatory network을 거쳐서 의학적 예측에 영향을 미치는 변이가 존재할 수 있으므로, 비관심 영역의 데이터를 활용하는 것이 중요할 수 있다. 따라서, 보다 정확한 의학적 예측을 생성하기 위해, 관심 영역 외의 영역에서 추출되는 특징(feature)도 최종 바이오마커 학습 시 사용될 수 있다.
도시된 바와 같이, 특징 추출부(220)는 관심 영역 외 영역(710)에 기초하여, 의학 데이터와 연관된 하나 이상의 특징(720)을 추출할 수 있다. 일 실시예에서, 특징 추출부(220)는 관심 영역을 제외한 영역 중 적어도 일부의 영역(예를 들어, 비관심 영역)(710)으로부터 의학 데이터와 연관된 하나 이상의 특징(예를 들어, 하나 이상의 제2 특징)(720)을 추출할 수 있다. 예를 들어, 특징 추출부(220)는 도 6에서 관심 영역으로부터 하나 이상의 특징(예를 들어, 하나 이상의 제1 특징)을 추출하는 과정을 비관심 영역(710)에도 적용하여, 하나 이상의 제2 특징을 추출할 수 있다.
의학 데이터가 이미지 데이터(예를 들어, 의학 영상 데이터 등)에 해당하는 경우, 특징 추출부(220)는 비관심 영역(710)(예를 들어, 관심 영역을 제외한 영역 중 적어도 일부의 영역)을 미리 학습된 모델(예를 들어, pre-trained CNN)에 입력함으로써, 출력되는 mid-level representation(예를 들어, feature map)을 의학 데이터와 연관된 하나 이상의 특징(720)으로서 추출할 수 있다. 추가적으로 또는 대안적으로, 특징 추출부(220)는 비관심 영역(710)을 복수의 영역으로 분할하고, 분할된 복수의 영역들을 미리 학습된 모델에 입력하여 mid-level representation을 획득할 수 있다. 그리고 나서, 특징 추출부(220)는 획득된 mid-level representation을 하나의 고정 차원 벡터(fixed-dimensional vector)로 결합(aggregation)함으로써, 하나 이상의 특징(720)을 추출할 수 있다. 이 경우, 특징 추출부(220)는 average pooling max pooling, BOW, VLAD, Fisher Kernel 등을 사용하여, 결합을 수행할 수 있다.
의학 데이터가 유전체 데이터에 해당하는 경우, 특징 추출부(220)는 유전체 데이터에서 통계적 유의성을 갖지 않는 비관심 영역(710)으로부터 해당 유전체 데이터와 연관된 하나 이상의 특징(720)을 추출할 수 있다. 비관심 영역(710)에 해당하는 인자가 매우 많으므로, 비관심 영역에 해당하는 데이터의 차원을 축소하는 것이 중요할 수 있다. 따라서, 특징 추출부(220)는 PCA, tSNE, UMAP 기법 등을 이용하여 데이터 자체 내의 차원을 unsupervised로 축소할 수 있다. 추가적으로 또는 대안적으로, 특징 추출부(220)는 Auto-encoder를 통해 정보를 인코팅하거나, classifier를 학습하는 중간의 latent layer에서 정보를 추출함으로써 데이터의 차원을 축소할 수 있다.
도 8은 본 개시의 다른 실시예에 따른 의학적 예측을 생성하는 방법(800)을 나타내는 흐름도이다. 일 실시예에서, 의학적 예측을 생성하는 방법(800)은 프로세서(예를 들어, 정보 처리 시스템의 적어도 하나의 프로세서 및/또는 사용자 단말의 적어도 하나의 프로세서)에 의해 수행될 수 있다. 의학적 예측을 생성하기 위해, 프로세서는 의학 데이터에서의 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 제1 특징을 추출할 수 있다(S810). 또한, 프로세서는 관심 영역을 제외한 영역 중 적어도 일부의 영역(예를 들어, 비관심 영역)으로부터 의학 데이터와 연관된 하나 이상의 제2 특징을 추출할 수 있다(S820).
그리고 나서, 프로세서는 하나 이상의 제1 특징 및 하나 이상의 제2 특징의 각각에 대한 정규화 처리를 수행하고(S830), 정규화된 하나 이상의 제1 특징 및 정규화된 하나 이상의 제2 특징을 결합하여, 하나 이상의 제3 특징을 생성할 수 있다(S840). 예를 들어, 프로세서는 관심 영역으로부터 추출된 하나 이상의 제1 특징과 비관심 영역으로부터 추출된 하나 이상의 제2 특징 각각에 대하여 L2-normalization이나 L1-normalization을 수행할 수 있다. 추가적으로 또는 대안적으로, 프로세서는 정규화된 하나 이상의 제1 특징 및 정규화된 하나 이상의 제2 특징을 결합하기 전에 적절한 스칼라 가중치(scalar weight)를 곱함으로써, 의학적 예측을 생성하는데 있어서 미치는 영향력을 조절할 수 있다. 예를 들어, 의학적 예측을 생성하는데 있어서, 관심 영역으로부터 추출된 하나 이상의 제1 특징이 비관심 영역으로부터 추출된 하나 이상의 제2 특징보다 큰 영향을 미치도록 스칼라 가중치를 적용하여, 제3 특징을 생성할 수 있다. 그리고 나서, 프로세서는 생성된 하나 이상의 제3 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다(S850).
도 9는 본 개시의 일 실시예에 따라 의학 데이터의 특징(910)에 기초하여, 의학적 예측(920)을 생성하는 예시를 나타내는 도면이다. 도시된 바와 같이, 의학적 예측 생성부(230)는 추출된 의학 데이터의 특징(즉, 의학 데이터와 연관된 하나 이상의 특징)(910)을 기초로, 환자에 대한 의학적 예측(920)을 생성하고, 출력할 수 있다. 일 실시예에서, 의학적 예측 생성부(230)는 하나 이상의 제1 특징 및 하나 이상의 제2 특징에 기초하여, 환자에 대한 의학적 예측을 생성할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 하나 이상의 제3 특징에 기초하여, 환자에 대한 의학적 예측(920)을 생성할 수 있다.
일 실시예에서, 의학적 예측 생성부(230)는 의학적 예측 모델을 이용하여, 환자에 대한 의학적 예측(920)을 생성할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 추출된 의학 데이터의 특징(즉, 의학 데이터와 연관된 하나 이상의 특징)(910)을 의학적 예측 모델에 입력함으로써, 의학적 예측(예를 들어, 환자의 임상적/조직학적 예측값 등)(920)을 생성할 수 있다. 여기서, 의학적 예측 모델은, 참조 의학 데이터의 특징이 입력됨에 따라, 참조 의학적 예측을 생성하도록 학습된 모델(예를 들어, 인공신경망 모델, 통계 모델 등)일 수 있다.
추가적으로 또는 대안적으로, 의학적 예측 모델은, 환자의 의학 데이터로부터 추출된 특징들의 집합, 환자의 유전체 데이터에 외부 데이터(knowledge)를 통합할 수 있는 외부 데이터베이스, 환자의 임상적/조직학적 레이블(예를 들어, 악성 여부, 재발 여부, 전이 여부, 특정 항암제에 대한 반응 여부, 특정 약물에 대한 부작용 여부, 특정 수술에 대한 효과 여부, 예후, 삶의 질, 통증 등) 등을 포함하는 학습 데이터 셋으로 지도 학습된 모델에 해당할 수 있다. 추가적으로 또는 대안적으로, 의학적 예측 모델의 학습 데이터 셋은, 특정 환자와 연관된 의학 데이터, 특정 환자와 연관된 의학 데이터로부터 추출된 특징, 특정 질병에 대한 치료 방법, 치료 약물, 치료 기간 등을 포함할 수 있다. 추가적으로 또는 대안적으로, 의학적 예측 모델의 학습 데이터 셋은, 특정 치료 방법 또는 특정 치료 약물 중 적어도 하나에 대한 특정 환자의 치료 반응성, 생존 여부 등을 포함할 수 있다.
일 실시예에서, 의학적 예측 생성부(230)는 환자의 질병과 관련된 치료 방법, 치료 약물 또는 치료 기간 중 적어도 하나에 대한 예측 결과를 생성할 수 있다. 다른 실시예에서, 의학적 예측 생성부(230)는 특정 치료 방법 또는 특정 치료 약물 중 적어도 하나에 대한 환자의 치료 반응성 또는 환자의 생존율(예를 들어, 치료 가능성 또는 생존 가능성) 중 적어도 하나에 대한 예측 결과를 생성할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 약제에 대한 반응성 예측 값, 수술 전/후 항암제 투여에 대한 반응성 예측 값 등을 예측 결과로서 생성할 수 있다.
의학적 예측 생성부(230)는 생성된 의학적 예측(920) 및/또는 의학적 예측 결과를 출력할 수 있다. 추가적으로 또는 대안적으로, 의학적 예측 생성부(230)는 의학적 예측(920)을 생성하는 과정에서 생성된 중간 결과물들(예를 들어, 관심 영역에 대한 분석 결과 등)을 출력할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 관심 영역의 히트맵(heatmap), 대상 아이템(예를 들어, 세포, 암 영역 등) 검출 결과 등을 출력할 수 있다. 추가적으로 또는 대안적으로, 의학적 예측 생성부(230)는 다양한 임상적 효용성을 가지는 예측 값을 출력할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 약제에 대한 반응성 예측 값, 수술 전/후 항암제 투여에 대한 반응성 예측 값 등을 출력할 수 있다.
일 실시예에서, 의학적 예측 생성부(230)는 결정된 관심 영역, 추출된 하나 이상의 특징 또는 생성된 의학적 예측 중 적어도 하나를 의학 데이터에 표시할 수 있다. 이 경우, 의학적 예측 생성부(230)는, 관심 영역, 하나 이상의 특징 또는 의학적 예측 중 적어도 하나가 표시된 의학 데이터(예를 들어, 의학 영상 데이터 등)를 출력할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 의학 데이터에 의학적 예측에 영향을 미치는 인자들을 상호적으로 표시할 수 있다. 방사선 이미지(Radiology image)의 경우, 의학적 예측 생성부(230)는 히트맵 또는 의학적 예측에 영향을 미치는 인자들의 형태 및/또는 강도(intensity)를 출력할 수 있다. 병리학 이미지(Pathology image)의 경우, 의학적 예측 생성부(230)는 세포 수준의 예측 결과는 세포 핵의 중심점에 점(point)의 형태로, 혈관, 신경과 같은 구조(structure)를 나타내는 객체는 컨투어(contour)의 형태로, 암 영역 및/또는 정상 영역은 세그먼테이션 맵(segmentation map)의 형태로 의학 데이터에 오버레이(overlay)하여 출력할 수 있다. 즉, 의학적 예측 생성부(230)는 의학적 예측에 영향을 미치는 인자들 및/또는 대상 아이템들을 시각화하여 출력할 수 있다.
추가적으로 또는 대안적으로, 의학적 예측 생성부(230)는 이러한 인자들 및/또는 대상 아이템들과 연관된 정보(예를 들어, 분포, 수치 등)를 출력할 수 있다. 예를 들어, 의학적 예측 생성부(230)는 대상 아이템에 대한 검출 결과를 기초로 산출된 다양한 수치(예를 들어, 암 영역에서의 면역 세포의 밀도 값 등)를 출력할 수 있다. 다른 예로서, 의학적 예측 생성부(230)는 인자들 및/또는 대상 아이템들과 연관된 정보가 그래프 구조에 해당하는 경우, 해당 정보를 그래프의 형태로 출력할 수 있다. 또 다른 예로서, 의학적 예측 생성부(230)는 이러한 인자들 및/또는 대상 아이템들과 연관된 정보를 포함하는 리포트를 출력할 수 있다.
도 10은 본 개시의 일 실시예에 따른 인공신경망 모델(1000)을 나타내는 예시도이다. 인공신경망 모델(1000)은, 기계학습 모델의 일 예로서, 기계학습(Machine Learning) 기술과 인지과학에서, 생물학적 신경망의 구조에 기초하여 구현된 통계학적 학습 알고리즘 또는 그 알고리즘을 실행하는 구조이다.
일 실시예에 따르면, 인공신경망 모델(1000)은, 생물학적 신경망에서와 같이 시냅스의 결합으로 네트워크를 형성한 인공 뉴런인 노드(Node)들이 시냅스의 가중치를 반복적으로 조정하여, 특정 입력에 대응한 올바른 출력과 추론된 출력 사이의 오차가 감소되도록 학습함으로써, 문제 해결 능력을 가지는 기계학습 모델을 나타낼 수 있다. 예를 들어, 인공신경망 모델(1000)은 기계학습, 딥러닝 등의 인공지능 학습법에 사용되는 임의의 확률 모델, 뉴럴 네트워크 모델 등을 포함할 수 있다.
일 실시예에 따르면, 인공신경망 모델(1000)은 입력되는 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 구성된 인공신경망 모델을 포함할 수 있다. 추가적으로 또는 대안적으로, 인공신경망 모델(1000)은 입력되는 의학 데이터의 적어도 일부의 영역(예를 들어, 관심 영역 및/또는 비관심 영역)에 기초하여 의학 데이터와 연관된 하나 이상의 특징을 추출하도록 구성된 인공신경망 모델을 포함할 수 있다. 추가적으로 또는 대안적으로, 인공신경망 모델(1000)은 입력되는 의학 데이터와 연관된 하나 이상의 특징(예를 들어, 의학 데이터의 특징)에 기초하여 환자에 대한 의학적 예측을 생성하도록 구성된 인공신경망 모델을 포함할 수 있다.
인공신경망 모델(1000)은 다층의 노드들과 이들 사이의 연결로 구성된 다층 퍼셉트론(MLP: multilayer perceptron)으로 구현된다. 본 실시예에 따른 인공신경망 모델(1000)은 MLP를 포함하는 다양한 인공신경망 모델 구조들 중의 하나를 이용하여 구현될 수 있다. 도 10에 도시된 바와 같이, 인공신경망 모델(1000)은, 외부로부터 입력 신호 또는 데이터(1010)를 수신하는 입력층(1020), 입력 데이터에 대응한 출력 신호 또는 데이터(1050)를 출력하는 출력층(1040), 입력층(1020)과 출력층(1040) 사이에 위치하며 입력층(1020)으로부터 신호를 받아 특성을 추출하여 출력층(1040)으로 전달하는 n개(여기서, n은 양의 정수)의 은닉층(1030_1 내지 1030_n)으로 구성된다. 여기서, 출력층(1040)은 은닉층(1030_1 내지 1030_n)으로부터 신호를 받아 외부로 출력한다.
인공신경망 모델(1000)의 학습 방법에는, 교사 신호(정답)의 입력에 의해서 문제의 해결에 최적화되도록 학습하는 지도 학습(Supervised Learning) 방법과, 교사 신호를 필요로 하지 않는 비지도 학습(Unsupervised Learning) 방법이 있다. 일 실시예에서, 정보 처리 시스템은 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 인공신경망 모델(1000)을 지도 학습 및/또는 비지도 학습시킬 수 있다. 예를 들어, 정보 처리 시스템은 참조 의학 데이터로부터 참조 해부학적 특징, 참조 기하학적 특징 또는 참조 조직학적인 특징 중 적어도 하나를 추출하도록 인공신경망 모델(1000)을 지도 학습할 수 있다.
다른 실시예에서, 정보 처리 시스템은 의학 데이터의 적어도 일부의 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징을 추출하도록 인공신경망 모델(1000)을 지도 학습 및/또는 비지도 학습시킬 수 있다. 예를 들어, 정보 처리 시스템은 참조 의학 데이터의 적어도 일부의 영역으로부터 참조 의학 데이터와 연관된 하나 이상의 참조 특징을 추출하도록 인공신경망 모델(1000)을 지도 학습할 수 있다.
또 다른 실시예에서, 정보 처리 시스템은 의학 데이터와 연관된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성하도록 인공신경망 모델(1000)을 지도 학습 및/또는 비지도 학습시킬 수 있다. 예를 들어, 정보 처리 시스템은 참조 의학 데이터와 연관된 하나 이상의 특징(예를 들어, 참조 의학 데이터의 특징)이 입력됨에 따라, 참조 의학적 예측을 출력하도록 인공신경망 모델(1000)을 지도 학습할 수 있다.
이렇게 학습된 인공신경망 모델(1000)은 정보 처리 시스템의 메모리(미도시)에 저장될 수 있으며, 통신 모듈 및/또는 메모리로부터 수신된 의학 데이터에 대한 입력에 응답하여 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출할 수 있다. 추가적으로 또는 대안적으로, 인공신경망 모델(1000)은 의학 데이터의 적어도 일부의 영역에 대한 입력에 응답하여, 의학 데이터와 연관된 하나 이상의 특징을 추출할 수 있다.
일 실시예에 따르면, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하는 인공신경망 모델의 입력변수는, 의학 데이터(예를 들어, 이미지 데이터, 유전체 데이터 등)일 수 있다. 예를 들어, 인공신경망 모델(1000)의 입력층(1020)에 입력되는 입력변수는, 의학 데이터를 하나의 벡터 데이터 요소로 구성한, 벡터(1010)가 될 수 있다. 의학 데이터의 입력에 응답하여, 인공신경망 모델(1000)의 출력층(1040)에서 출력되는 출력 변수는 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 나타내거나 특징화하는 벡터(1050)가 될 수 있다. 즉, 인공신경망 모델(1000)의 출력층(1040)은 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 나타내거나 특징화하는 벡터를 출력하도록 구성될 수 있다. 본 개시에 있어서, 인공신경망 모델(1000)의 출력변수는, 이상에서 설명된 유형에 한정되지 않으며, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 나타내는 임의의 정보/데이터를 포함할 수 있다. 이에 더하여, 인공신경망 모델(1000)의 출력층(1040)은 의학 데이터 중에서, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하는데 영향을 미친 영역을 출력하도록 구성될 수 있다.
다른 실시예에서, 의학 데이터와 연관된 하나 이상의 특징을 추출하는 기계학습 모델, 즉, 인공신경망 모델(1000)의 입력 변수는, 의학 데이터의 적어도 일부의 영역(예를 들어, 관심 영역 및/또는 비관심 영역)일 수 있다. 예를 들어, 인공신경망 모델(1000)의 입력층(1020)에 입력되는 입력변수는, 의학 데이터의 적어도 일부의 영역을 하나의 벡터 데이터 요소로 구성한, 벡터(1010)가 될 수 있다. 의학 데이터의 적어도 일부의 영역에 대한 입력에 응답하여, 인공신경망 모델(1000)의 출력층(1040)에서 출력되는 출력 변수는 의학 데이터와 연관된 하나 이상의 특징을 나타내거나 특징화하는 벡터(1050)가 될 수 있다. 본 개시에 있어서, 인공신경망 모델(1000)의 출력변수는, 이상에서 설명된 유형에 한정되지 않으며, 의학 데이터와 연관된 하나 이상의 특징을 나타내는 임의의 정보/데이터를 포함할 수 있다.
또 다른 실시예에서, 의학적 예측을 생성하는 기계학습 모델, 즉, 인공신경망 모델(1000)의 입력 변수는, 의학 데이터와 연관된 하나 이상의 특징 (예를 들어, 의학 데이터의 특징)일 수 있다. 예를 들어, 인공신경망 모델(1000)의 입력층(1020)에 입력되는 입력변수는, 의학 데이터와 연관된 하나 이상의 특징을 하나의 벡터 데이터 요소로 구성한, 벡터(1010)가 될 수 있다. 의학 데이터와 연관된 하나 이상의 특징에 대한 입력에 응답하여, 인공신경망 모델(1000)의 출력층(1040)에서 출력되는 출력 변수는 환자에 대한 의학적 예측을 나타내거나 특징화하는 벡터(1050)가 될 수 있다. 본 개시에 있어서, 인공신경망 모델(1000)의 출력변수는, 이상에서 설명된 유형에 한정되지 않으며, 환자에 대한 의학적 예측을 나타내는 임의의 정보/데이터를 포함할 수 있다.
이와 같이, 인공신경망 모델(1000)의 입력층(1020)과 출력층(1040)에 복수의 입력변수와 대응되는 복수의 출력변수가 각각 매칭되고, 입력층(1020), 은닉층(1030_1 내지 1030_n) 및 출력층(1040)에 포함된 노드들 사이의 시냅스 값이 조정됨으로써, 특정 입력에 대응한 올바른 출력이 추출될 수 있도록 학습될 수 있다. 이러한 학습 과정을 통해, 인공신경망 모델(1000)의 입력변수에 숨겨져 있는 특성을 파악할 수 있고, 입력변수에 기초하여 계산된 출력변수와 목표 출력 간의 오차가 줄어들도록 인공신경망 모델(1000)의 노드들 사이의 시냅스 값(또는 가중치)을 조정할 수 있다. 이렇게 학습된 인공신경망 모델(1000)은 입력된 의학 데이터에 응답하여, 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 출력할 수 있다. 추가적으로 또는 대안적으로, 인공신경망 모델(1000)은 입력된 의학 데이터의 적어도 일부 영역에 응답하여, 의학 데이터와 연관된 하나 이상의 특징을 출력할 수 있다. 추가적으로 또는 대안적으로, 인공신경망 모델(1000)은 입력된 의학 데이터와 연관된 하나 이상의 특징에 응답하여, 환자에 대한 의학적 예측을 생성할 수 있다.
도 11은 본 개시의 일 실시예에 따라 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 예시적인 정보 처리 시스템(100) 구성도이다. 도시된 바와 같이, 정보 처리 시스템(100)은 하나 이상의 프로세서(1110), 버스(1130), 통신 인터페이스(1140), 프로세서(1110)에 의해 수행되는 컴퓨터 프로그램(1160)을 로드(load)하는 메모리(1120) 및 컴퓨터 프로그램(1160)을 저장하는 저장 모듈(1150)을 포함할 수 있다. 다만, 도 11에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 11에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(1110)는 정보 처리 시스템(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(1110)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(1110)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 정보 처리 시스템(100)은 하나 이상의 프로세서를 구비할 수 있다.
메모리(1120)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(1120)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 저장 모듈(1150)로부터 하나 이상의 컴퓨터 프로그램(1160)을 로드할 수 있다. 메모리(1120)는 RAM과 같은 휘발성 메모리로 구현될 수 있으나, 본 개시의 기술적 범위는 이에 한정되지 아니한다.
버스(1130)는 정보 처리 시스템(100)의 구성 요소 간 통신 기능을 제공할 수 있다. 버스(1130)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(1140)는 정보 처리 시스템(100)의 유무선 인터넷 통신을 지원할 수 있다. 또한, 통신 인터페이스(1140)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(1140)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
저장 모듈(1150)은 하나 이상의 컴퓨터 프로그램(1160)을 비임시적으로 저장할 수 있다. 저장 모듈(1150)은 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(1160)은 메모리(1120)에 로드될 때 프로세서(1110)로 하여금 본 개시의 다양한 실시예들에 따른 동작/방법을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 프로세서(1110)는 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예들에 따른 동작/방법들을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(1160)은 환자와 연관된 의학 데이터를 획득하는 동작, 의학 데이터에서 관심 영역을 결정하는 동작, 관심 영역에 기초하여, 의학 데이터와 연관된 하나 이상의 특징을 추출하는 동작, 추출된 하나 이상의 특징에 기초하여, 환자에 대한 의학적 예측을 생성하는 동작 등을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 정보 처리 시스템(100)을 통해 본 개시의 몇몇 실시예들에 따른 의학적 예측 생성 시스템이 구현될 수 있다.
본 개시의 앞선 설명은 통상의 기술자들이 본 개시를 행하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시의 다양한 수정예들이 통상의 기술자들에게 쉽게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시의 취지 또는 범위를 벗어나지 않으면서 다양한 변형예들에 적용될 수도 있다. 따라서, 본 개시는 본원에 설명된 예들에 제한되도록 의도된 것이 아니고, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위가 부여되도록 의도된다.
비록 예시적인 구현예들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 활용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 주제의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그들에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.
본 명세서에서는 본 개시가 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 개시의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 변형 및 변경은 본 명세서에서 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims (25)

  1. 의학 데이터로부터 바이오마커(biomarker)와 관련된 의학적 예측을 생성하는 방법에 있어서,
    환자와 연관된 의학 데이터(medical data)를 획득하는 단계;
    상기 의학 데이터에서 관심 영역(region of interest)을 결정하는 단계;
    상기 관심 영역에 기초하여, 상기 의학 데이터와 연관된 하나 이상의 특징(feature)을 추출하는 단계; 및
    상기 추출된 하나 이상의 특징에 기초하여, 상기 환자에 대한 의학적 예측을 생성하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  2. 제1항에 있어서,
    상기 결정하는 단계는,
    상기 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  3. 제2항에 있어서,
    상기 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정하는 단계는,
    상기 의학 데이터로부터, 상기 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 학습된 특징 추출 모델을 이용하여, 상기 의학 데이터에서의 상기 관심 영역을 결정하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  4. 제1항에 있어서,
    상기 의학 데이터는 유전체 데이터를 포함하고,
    상기 관심 영역을 결정하는 단계는,
    상기 유전체 데이터의 해석과 관련된 데이터 베이스를 이용하여, 상기 유전체 데이터에 포함된 특성과 동일 또는 유사한 특성을 갖는 적어도 하나의 유전자 그룹을 결정하는 단계; 및
    상기 결정된 적어도 하나의 유전자 그룹을 이용하여, 상기 유전체 데이터에서 관심 영역을 결정하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  5. 제1항에 있어서,
    상기 의학 데이터는,
    서로 다른 카테고리에 속하는 제1 의학 데이터와 제2 의학 데이터를 포함하고,
    상기 하나 이상의 특징을 추출하는 단계는,
    상기 제1 의학 데이터로부터 결정된 관심 영역에 기초하여, 상기 제2 의학 데이터과 연관된 하나 이상의 특징을 추출하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  6. 제1항에 있어서,
    상기 추출된 하나 이상의 특징은 상기 의학 데이터와 연관된 하나 이상의 제1 특징을 포함하고,
    상기 방법은,
    상기 관심 영역을 제외한 영역 중 적어도 일부의 영역으로부터 상기 의학 데이터와 연관된 하나 이상의 제2 특징을 추출하는 단계를 더 포함하고,
    상기 생성하는 단계는,
    상기 하나 이상의 제1 특징 및 상기 하나 이상의 제2 특징에 기초하여, 상기 환자에 대한 의학적 예측을 생성하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  7. 제6항에 있어서,
    상기 하나 이상의 제1 특징 및 상기 하나 이상의 제2 특징에 기초하여, 상기 의학적 예측을 생성하는 단계는,
    상기 하나 이상의 제1 특징 및 상기 하나 이상의 제2 특징의 각각에 대한 정규화 처리를 수행하는 단계;
    상기 정규화된 하나 이상의 제1 특징 및 상기 정규화된 하나 이상의 제2 특징을 결합하여, 하나 이상의 제3 특징을 생성하는 단계; 및
    상기 생성된 하나 이상의 제3 특징에 기초하여, 상기 환자에 대한 의학적 예측을 생성하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  8. 제1항에 있어서,
    상기 의학 데이터는,
    영상 의학과 관련된 의학 영상 데이터, 조직 영상 데이터, 유전체 데이터 또는 생물학적 데이터 중 적어도 하나를 포함하는,
    의학적 예측을 생성하는 방법.
  9. 제1항에 있어서,
    상기 생성하는 단계는,
    상기 환자의 질병과 관련된 치료 방법, 치료 약물 또는 치료 기간 중 적어도 하나에 대한 예측 결과를 생성하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  10. 제1항에 있어서,
    상기 생성하는 단계는,
    특정 치료 방법 또는 특정 치료 약물 중 적어도 하나에 대한 상기 환자의 치료 반응성 또는 상기 환자의 생존율 중 적어도 하나에 대한 예측 결과를 생성하는 단계를 포함하는,
    의학적 예측을 생성하는 방법.
  11. 제1항에 있어서,
    상기 결정된 관심 영역, 상기 추출된 하나 이상의 특징 또는 상기 생성된 의학적 예측 중 적어도 하나를 상기 의학 데이터에 표시하는 단계를 더 포함하는,
    의학적 예측을 생성하는 방법.
  12. 제1항에 있어서,
    상기 생성된 의학적 예측을 출력하는 단계를 더 포함하는
    의학적 예측을 생성하는 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 따른 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법을 컴퓨터에서 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
  14. 정보 처리 시스템으로서,
    하나 이상의 인스트럭션(instructions)을 저장하는 메모리; 및
    상기 저장된 하나 이상의 인스트럭션을 실행함으로써,
    환자와 연관된 의학 데이터를 획득하고,
    상기 의학 데이터에서 관심 영역을 결정하고,
    상기 관심 영역에 기초하여, 상기 의학 데이터와 연관된 하나 이상의 특징을 추출하고,
    상기 추출된 하나 이상의 특징에 기초하여, 상기 환자에 대한 의학적 예측을 생성하도록 구성된 프로세서를 포함하는,
    정보 처리 시스템.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 의학 데이터로부터 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하기 위한 관심 영역을 결정하도록 더 구성된,
    정보 처리 시스템.
  16. 제15항에 있어서,
    상기 프로세서는,
    상기 의학 데이터로부터, 상기 해부학적 특징, 기하학적 특징 또는 조직학적인 특징 중 적어도 하나를 추출하도록 학습된 특징 추출 모델을 이용하여, 상기 의학 데이터에서의 상기 관심 영역을 결정하도록 더 구성된,
    정보 처리 시스템.
  17. 제14항에 있어서,
    상기 의학 데이터는 유전체 데이터를 포함하고,
    상기 프로세서는,
    상기 유전체 데이터의 해석과 관련된 데이터 베이스를 이용하여, 상기 유전체 데이터에 포함된 특성과 동일 또는 유사한 특성을 갖는 적어도 하나의 유전자 그룹을 결정하고,
    상기 결정된 적어도 하나의 유전자 그룹을 이용하여, 상기 유전체 데이터에서 관심 영역을 결정하도록 더 구성된,
    정보 처리 시스템.
  18. 제14항에 있어서,
    상기 의학 데이터는,
    서로 다른 카테고리에 속하는 제1 의학 데이터와 제2 의학 데이터를 포함하고,
    상기 프로세서는,
    상기 제1 의학 데이터로부터 결정된 관심 영역에 기초하여, 상기 제2 의학 데이터과 연관된 하나 이상의 특징을 추출하도록 더 구성된,
    정보 처리 시스템.
  19. 제14항에 있어서,
    상기 하나 이상의 특징은 상기 의학 데이터와 연관된 하나 이상의 제1 특징을 포함하고,
    상기 프로세서는,
    상기 관심 영역을 제외한 영역 중 적어도 일부의 영역으로부터 상기 의학 데이터와 연관된 하나 이상의 제2 특징을 추출하고,
    상기 하나 이상의 제1 특징 및 상기 하나 이상의 제2 특징에 기초하여, 상기 환자에 대한 의학적 예측을 생성하도록 더 구성된,
    정보 처리 시스템.
  20. 제19항에 있어서,
    상기 프로세서는,
    상기 하나 이상의 제1 특징 및 상기 하나 이상의 제2 특징의 각각에 대한 정규화 처리를 수행하고,
    상기 정규화된 하나 이상의 제1 특징 및 상기 정규화된 하나 이상의 제2 특징을 결합하여, 하나 이상의 제3 특징을 생성하고,
    상기 생성된 하나 이상의 제3 특징에 기초하여, 상기 환자에 대한 의학적 예측을 생성하도록 더 구성된,
    정보 처리 시스템.
  21. 제14항에 있어서,
    상기 의학 데이터는,
    영상 의학과 관련된 의학 영상 데이터, 조직 영상 데이터, 유전체 데이터 또는 생물학적 데이터 중 적어도 하나를 포함하는,
    정보 처리 시스템.
  22. 제14항에 있어서,
    상기 프로세서는,
    상기 환자의 질병과 관련된 치료 방법, 치료 약물 또는 치료 기간 중 적어도 하나에 대한 예측 결과를 생성하도록 더 구성된,
    정보 처리 시스템.
  23. 제14항에 있어서,
    상기 프로세서는,
    특정 치료 방법 또는 특정 치료 약물 중 적어도 하나에 대한 상기 환자의 치료 반응성 또는 상기 환자의 생존율 중 적어도 하나에 대한 예측 결과를 생성하도록 더 구성된,
    정보 처리 시스템.
  24. 제14항에 있어서,
    상기 프로세서는,
    상기 결정된 관심 영역, 상기 추출된 하나 이상의 특징 또는 상기 생성된 의학적 예측 중 적어도 하나를 상기 의학 데이터에 표시하도록 더 구성된,
    정보 처리 시스템.
  25. 제14항에 있어서,
    상기 프로세서는,
    상기 생성된 의학적 예측을 출력하도록 더 구성된,
    정보 처리 시스템.
PCT/KR2021/006034 2020-05-13 2021-05-13 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템 WO2021230687A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21803570.7A EP4152343A1 (en) 2020-05-13 2021-05-13 Method and system for generating medical prediction related to biomarker from medical data
US17/502,304 US20220037024A1 (en) 2020-05-13 2021-10-15 Method and system for generating medical prediction related to biomarker from medical data

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0057256 2020-05-13
KR20200057256 2020-05-13
KR10-2021-0062294 2021-05-13
KR1020210062294A KR20210139195A (ko) 2020-05-13 2021-05-13 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/502,304 Continuation US20220037024A1 (en) 2020-05-13 2021-10-15 Method and system for generating medical prediction related to biomarker from medical data

Publications (1)

Publication Number Publication Date
WO2021230687A1 true WO2021230687A1 (ko) 2021-11-18

Family

ID=78524669

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/006034 WO2021230687A1 (ko) 2020-05-13 2021-05-13 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템

Country Status (2)

Country Link
US (1) US20220037024A1 (ko)
WO (1) WO2021230687A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102510221B1 (ko) * 2020-12-24 2023-03-15 연세대학교 산학협력단 골절 위험 예측 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160079127A (ko) * 2013-12-18 2016-07-05 하트플로우, 인크. 환자-특이적 해부학적 이미지 데이터로부터 관상동맥 플라크 취약성 예측 시스템 및 방법
US20190025308A1 (en) * 2017-07-21 2019-01-24 Genentech, Inc. Therapeutic and diagnostic methods for cancer
WO2019169044A1 (en) * 2018-02-27 2019-09-06 Cornell University Systems and methods for detection of residual disease
JP2019528426A (ja) * 2016-06-05 2019-10-10 バーグ エルエルシー 患者層別化及び潜在的バイオマーカー同定のためのシステム及び方法
KR20200021082A (ko) * 2017-06-16 2020-02-27 렌슬러 폴리테크닉 인스티튜트 신경 네트워크들을 이용하여 단층촬영 이미지 재구축 및 라디오믹스를 통합하기 위한 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160079127A (ko) * 2013-12-18 2016-07-05 하트플로우, 인크. 환자-특이적 해부학적 이미지 데이터로부터 관상동맥 플라크 취약성 예측 시스템 및 방법
JP2019528426A (ja) * 2016-06-05 2019-10-10 バーグ エルエルシー 患者層別化及び潜在的バイオマーカー同定のためのシステム及び方法
KR20200021082A (ko) * 2017-06-16 2020-02-27 렌슬러 폴리테크닉 인스티튜트 신경 네트워크들을 이용하여 단층촬영 이미지 재구축 및 라디오믹스를 통합하기 위한 시스템 및 방법
US20190025308A1 (en) * 2017-07-21 2019-01-24 Genentech, Inc. Therapeutic and diagnostic methods for cancer
WO2019169044A1 (en) * 2018-02-27 2019-09-06 Cornell University Systems and methods for detection of residual disease

Also Published As

Publication number Publication date
US20220037024A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
Nassif et al. Breast cancer detection using artificial intelligence techniques: A systematic literature review
Pirruccello et al. Deep learning enables genetic analysis of the human thoracic aorta
US20220028550A1 (en) Methods for treatment of inflammatory bowel disease
US20220084633A1 (en) Systems and methods for automatically identifying a candidate patient for enrollment in a clinical trial
KR102274564B1 (ko) 빅데이터분석기반 암진단장치
EP4152343A1 (en) Method and system for generating medical prediction related to biomarker from medical data
WO2022245042A1 (ko) 의료 데이터의 전처리를 통한 의료 데이터베이스 구축 시스템 및 동작 방법
Mohammed et al. PS-DeVCEM: Pathology-sensitive deep learning model for video capsule endoscopy based on weakly labeled data
WO2021230687A1 (ko) 의학 데이터로부터 바이오마커와 관련된 의학적 예측을 생성하는 방법 및 시스템
CA2885634C (en) Device for detecting a dynamical network biomarker, method for detecting same, and program for detecting same
Chen et al. Bioimaging for quantitative phenotype analysis
Alatrany et al. Transfer learning for classification of Alzheimer's disease based on genome wide data
Sebastiani et al. Bayesian machine learning and its potential applications to the genomic study of oral oncology
US11954859B2 (en) Methods of assessing diseases using image classifiers
WO2021225422A1 (ko) 병리 슬라이드 이미지에 대한 면역 표현형과 연관된 정보를 제공하는 방법 및 장치
WO2021177771A1 (ko) 의료 영상으로부터 바이오마커 발현을 예측하는 방법 및 시스템
CA3231620A1 (en) Systems and methods to process electronic images to identify mutational signatures and tumor subtypes
Shi et al. Learning from heterogeneous data via contrastive learning: An application in multi-source covid-19 radiography
US20220044762A1 (en) Methods of assessing breast cancer using machine learning systems
Metsis et al. DNA copy number selection using robust structured sparsity-inducing norms
WO2023008699A1 (ko) 환자에 대한 해석가능한 예측 결과를 생성하는 방법 및 시스템
Chen et al. Bayesian inference of gene regulatory network
US20230410958A1 (en) Method and apparatus for analyzing biomarkers
Bigness et al. Integrating long-range regulatory interactions to predict gene expression using graph convolutional neural networks
Mintser The use of artificial intelligence in health care. problems of identification of patients' conditions in the processes of detailing the diagnosis.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21803570

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021803570

Country of ref document: EP

Effective date: 20221213