WO2021137471A1 - 질병 예측 방법, 장치 및 컴퓨터 프로그램 - Google Patents

질병 예측 방법, 장치 및 컴퓨터 프로그램 Download PDF

Info

Publication number
WO2021137471A1
WO2021137471A1 PCT/KR2020/018236 KR2020018236W WO2021137471A1 WO 2021137471 A1 WO2021137471 A1 WO 2021137471A1 KR 2020018236 W KR2020018236 W KR 2020018236W WO 2021137471 A1 WO2021137471 A1 WO 2021137471A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
disease
learning
neural network
ribosomal
Prior art date
Application number
PCT/KR2020/018236
Other languages
English (en)
French (fr)
Inventor
최진우
김이랑
Original Assignee
주식회사 온코크로스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200121316A external-priority patent/KR102290875B1/ko
Application filed by 주식회사 온코크로스 filed Critical 주식회사 온코크로스
Priority to US17/789,342 priority Critical patent/US20230042132A1/en
Publication of WO2021137471A1 publication Critical patent/WO2021137471A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the present disclosure relates to a disease prediction method, apparatus and computer program. More specifically, a method for predicting disease information such as the presence, type, and prognosis of a disease from ribosome data of a subject using a machine-learning model, an apparatus for performing the method, and the method are implemented related to computer programs.
  • a technical problem to be solved through some embodiments of the present disclosure is a method of predicting disease information such as presence, type, and prognosis from ribosome data of a subject using a machine-learning model, the method To provide a computer program in which an apparatus and method for performing the method are implemented.
  • a disease prediction method is a method of predicting a subject's disease in a computing device, and predicts disease by learning learning data including ribosome data for learning and disease information Constructing a model, obtaining the test ribosome data of the subject, and predicting the subject's disease information from the test ribosomal data using the disease prediction model, wherein the learning ribosomal data and The test ribosomal data may include data on the expression rate of ribosomal proteins.
  • the ribosomal data for learning may further include data on a protein expression ratio between a large subunit and a small subunit, a ribosomal protein with an expression level above a reference value, and a ribosomal protein with an expression level below the reference value.
  • the training data further includes an image of a target tissue
  • the disease prediction model includes a first neural network that receives the image of the target tissue and outputs a first output value related to the disease information, for the learning a second neural network that receives ribosome data and outputs a second output value related to the disease information, and a third neural network that receives the first output value and the second output value and predicts disease information about the target tissue, wherein
  • the first neural network may be composed of convolutional neural networks.
  • the disease prediction model is a first neural network that receives the image data related to the ribosomal protein and outputs a first output value related to the disease information, receives the ribosomal data for learning and receives the disease information and a second neural network for outputting a related second output value, and a third neural network for predicting disease information by receiving the first output value and the second output value, wherein the first neural network is composed of convolutional neural networks can
  • the disease information includes information on the total survival period and disease-free survival period of the person with the disease
  • the disease prediction model receives the ribosome data for learning and outputs an output value related to the disease information.
  • a first neural network, a second neural network for predicting the total survival period by receiving the output value, and a third neural network for predicting the disease-free survival period by receiving the output value The step of constructing the disease prediction model is for the learning training the first neural network and the second neural network using ribosomal data and information about the total survival period, and the first neural network and the third neural network using the ribosomal data for learning and information on the disease-free survival period It may include the step of training the neural network.
  • the step of constructing the disease prediction model comprises the steps of detecting the expression pattern of the ribosomal protein associated with the disease information by comparing the ribosomal protein expression rate of a normal person with the ribosomal protein expression rate of the diseased person; Giving a sample weight to data samples constituting the training data by using the detected expression pattern and learning the training data based on the sample weight may include.
  • the step of constructing the disease prediction model comprises: constructing a temporary disease prediction model by learning the learning data; In the first ribosomal data sample constituting the ribosomal data for learning, the expression ratio of ribosomal proteins generating a second ribosomal data sample by changing at least some of the steps, inputting the first ribosomal data sample into the temporary disease prediction model to obtain a first prediction value, and applying the second ribosomal data sample to the temporary disease prediction model obtaining a second predicted value by inputting; detecting an expression pattern of a ribosomal protein associated with the disease information based on a difference between the first predicted value and the second predicted value; the learning data using the detected expression pattern It may include assigning a sample weight to data samples constituting the , and building the disease prediction model by re-learning the training data based on the sample weight.
  • a disease prediction apparatus for solving the above-described technical problem, by executing a memory storing one or more instructions and the stored one or more instructions, learning data including ribosome data for learning and disease information
  • learning data including ribosome data for learning and disease information
  • a processor that performs an operation of building a disease prediction model by learning, obtaining ribosomal data for examination of a subject, and predicting disease information of the subject from the ribosomal data for examination by using the disease prediction model
  • the ribosomal data for learning and the ribosomal data for testing may include data regarding the expression ratio of ribosomal proteins.
  • a computer program for solving the above-described technical problem is combined with a computing device, learning the learning data including the ribosome data for learning and the disease information to build a disease prediction model, the subject It may be stored in a computer-readable recording medium to execute the steps of obtaining ribosomal data for testing of and predicting the subject's disease information from the ribosomal data for testing by using the disease prediction model.
  • the ribosomal data for learning and the ribosomal data for testing may include data regarding the expression ratio of ribosomal proteins.
  • a disease prediction model may be constructed by machine learning ribosomal data and disease information, and disease information may be predicted from the ribosomal data of a subject through the constructed disease prediction model.
  • the disease prediction model detects and learns the relationship between ribosomal data and disease information, which is difficult for humans to accurately identify (i.e., detects and learns the characteristics of ribosomal data that vary depending on disease information), so that the presence or absence of disease from the subject's ribosomal data It is possible to accurately predict disease information such as , type, and prognosis.
  • the disease prediction model can be trained using various ribosomal data such as the expression ratio between subunits constituting the ribosome, the type of the underexpressed or overexpressed ribosomal protein, and the like. In this case, since the disease prediction model predicts disease information by considering the expression level of the ribosomal protein in various ways, the prediction accuracy of the disease prediction model can be further improved.
  • the disease prediction model may be learned by further using data on disease-related features appearing in the tissue image, expression levels according to positions of ribosomal proteins, positional relationships between ribosomal proteins, and the like. Accordingly, the prediction accuracy of the disease prediction model may be further improved.
  • an expression pattern of a ribosomal protein associated with disease information is detected, and weighted learning may be performed on a ribosomal data sample including the detected expression pattern.
  • the disease prediction model better learns the expression characteristics of ribosomal proteins associated with disease information, the prediction accuracy of the disease prediction model can be further improved.
  • FIG. 1 is an exemplary diagram for describing an apparatus for predicting a disease and input/output data according to some embodiments of the present disclosure.
  • FIG. 2 is an exemplary flowchart schematically illustrating a disease prediction method according to some embodiments of the present disclosure.
  • FIG 3 illustrates a structure of an artificial neural network that may be referred to in some embodiments of the present disclosure.
  • FIG. 4 is an exemplary diagram for explaining an exemplary method of constructing a disease prediction model according to some embodiments of the present disclosure.
  • FIG. 5 is an exemplary diagram for explaining a detailed structure and a learning method of a disease prediction model according to the first embodiment of the present disclosure.
  • FIG. 6 is an exemplary diagram for explaining a detailed structure and a learning method of a disease prediction model according to a second embodiment of the present disclosure.
  • FIG. 7 to 9 are exemplary views for explaining a detailed structure and a learning method of a disease prediction model according to a third embodiment of the present disclosure.
  • FIG. 10 is an exemplary diagram for describing a detailed structure and a learning method of a disease prediction model according to a fourth embodiment of the present disclosure.
  • FIG. 11 is an exemplary diagram for explaining a weighted learning method according to the first embodiment of the present disclosure.
  • 12 and 13 are exemplary diagrams for explaining a weighted learning method according to a second embodiment of the present disclosure.
  • FIG. 14 illustrates an exemplary computing device capable of implementing a disease prediction apparatus according to some embodiments of the present disclosure.
  • FIG. 1 is an exemplary diagram for describing a disease prediction apparatus 10 and input/output data according to some embodiments of the present disclosure.
  • the disease prediction device 10 may be a computing device that predicts and outputs disease information based on input data such as tissue data and ribosome data.
  • the computing device may be a notebook, a desktop, a laptop, etc., but is not limited thereto and may include any type of device having a computing function.
  • FIG. 14 For an example of a computing device, refer to FIG. 14 .
  • the term "disease prediction apparatus 10" will be abbreviated as "prediction apparatus 10".
  • the prediction device 10 builds a disease prediction model by machine-learning the exemplified input/output data, and from the subject's data (eg tissue data, ribosome data, etc.) through the constructed disease prediction model. It is possible to predict the subject's disease information.
  • the subject's data eg tissue data, ribosome data, etc.
  • the disease prediction model may be implemented, for example, based on a neural network model.
  • the scope of the present disclosure is not limited thereto, and the disease prediction model may be implemented based on a traditional machine learning model, such as a decision tree, a support vector machine, or logistic regression.
  • the neural network model may include various types of neural networks, such as artificial neural networks (ANN), convolutional neural networks (CNN), recurrent neural networks (RNN), or a combination thereof.
  • ANN artificial neural networks
  • CNN convolutional neural networks
  • RNN recurrent neural networks
  • prediction model will be abbreviated as "prediction model”.
  • Disease information corresponds to the prediction target of the prediction model, for example, the presence or absence of disease, type (type), stage of progression, prognosis (eg overall survival, disease-free survival, good or bad prognosis), information processed from these and the like.
  • the present invention is not limited thereto.
  • learning ribosomal data that is, learning ribosomal data of normal and diseased individuals
  • a model can be built.
  • learning may mean updating the weights (ie, weight parameters) of the model in a direction in which errors (e.g., the difference between the predicted value of the model calculated by the loss function and the correct answer) are minimized.
  • the ribosomal data is the expression ratio, expression position, expression distribution of the ribosomal protein, the protein expression ratio between the large subunit (LSU) and the small subunit (SSU) constituting the ribosome, the expression amount Include the type/number of ribosomal proteins whose (or expression ratio) is above (or less than) the reference value, the protein type or protein expression ratio around a specific site (eg E, P, A site), and data processed from them can do.
  • the present invention is not limited thereto.
  • the expression ratio of the ribosomal protein may mean the ratio of the expression level of the ribosomal proteins constituting the ribosome.
  • the reason for using ribosomal data for predicting disease information is due to the fact that the expression ratio of ribosomal protein is different between normal and diseased people. Although it is difficult to identify the exact cause, if the expression pattern of the ribosomal protein associated with the disease information can be learned (detected) through machine learning, the disease information of the subject can be predicted more accurately and effectively compared to other methods.
  • the tissue data may include, for example, a type of tissue, a tissue-related image, lesion information, and data processed therefrom.
  • the present invention is not limited thereto.
  • FIG. 1 illustrates that the prediction device 10 is implemented as one computing device as an example, the prediction device 10 may be implemented with a plurality of computing devices.
  • the first function of the prediction device 10 may be implemented in the first computing device, and the second function may be implemented in the second computing device.
  • a specific function of the prediction device 10 may be implemented in a plurality of computing devices.
  • FIG. 2 a disease prediction method according to some embodiments of the present disclosure will be described with reference to the drawings below FIG. 2 .
  • each step of the disease prediction method to be described below may be performed by a computing device.
  • each step of the method may be implemented with one or more instructions executed by a processor of a computing device. All steps included in the method may be executed by one physical computing device, or may be distributed and executed by a plurality of physical computing devices.
  • the first steps of the method may be performed by a first computing device
  • the second steps of the method may be performed by a second computing device.
  • each step of the method is performed by the prediction apparatus 10 illustrated in FIG. 1 to continue the description. Accordingly, when the subject of each operation is omitted in the following description, it may be understood that the operation is performed by the exemplified apparatus 10 .
  • FIG. 2 is an exemplary flowchart schematically illustrating a disease prediction method according to some embodiments of the present disclosure.
  • this is only a preferred embodiment for achieving the purpose of the present disclosure, and it goes without saying that some steps may be added or deleted as needed.
  • the disease prediction method may start at step S100 of learning ribosome data and disease information to build a prediction model. That is, the training data of the predictive model may be composed of ribosome data and disease information. However, in some other embodiments, the training data may further include organization data. The ribosomal data may be called ribosomal data for learning in order to distinguish it from the ribosomal data of the subject.
  • the predictive model is a machine learning model, and may be, for example, a model implemented based on a neural network.
  • the predictive model may be a model based on an artificial neural network as illustrated in FIG. 3 .
  • the scope of the present disclosure is not limited thereto.
  • the artificial neural network model may be composed of an input layer, a hidden layer, and an output layer. If you are skilled in the art, the function of each layer, the operating principle and the learning method ( (eg, a method of updating the weights of each layer in a direction in which an error is minimized through error backpropagation), etc. will be clearly understood, and a description thereof will be omitted.
  • a predictive model may be constructed for each tissue (or for each disease). That is, a first predictive model for predicting disease information on a first tissue may be built, and a second predictive model for predicting disease information on a second tissue may be separately constructed. For example, suppose that a model for predicting the presence or absence of a disease (e.g. malignant tumor, etc.) in a specific tissue (or disease type, etc.) is constructed from ribosome data. In this case, as illustrated in FIG.
  • a model 20 for predicting can be built. 4 illustrates, as an example, construction of a model 20 for performing binary classification for convenience of understanding, but the scope of the present disclosure is not limited thereto.
  • the predictive model may perform multiple classification.
  • the predictive model may be constructed for each tissue and disease.
  • the predictive model may be constructed to predict disease information for a plurality of tissues. For example, when data (e.g. tissue type) and ribosome data on a plurality of tissues are learned together with disease information, a model for predicting disease information on a plurality of tissues may be built.
  • data e.g. tissue type
  • ribosome data on a plurality of tissues are learned together with disease information
  • a model for predicting disease information on a plurality of tissues may be built.
  • the detailed structure of the predictive model and the learning method according thereto may be designed in various ways, which may vary depending on the embodiment. In this regard, it will be described in detail later with reference to the drawings below with reference to FIG. 5 .
  • ribosome data of the subject may be obtained. If the predictive model is a model using tissue data as input data, tissue data of the subject may also be acquired in this step.
  • the ribosomal data may be called ribosomal data for testing in order to distinguish it from ribosomal data for learning.
  • the subject's disease information may be predicted from the subject's ribosome data.
  • the predictive model is a model that predicts the presence or absence of a disease
  • the presence or absence of a disease in the subject can be predicted based on the predicted value (eg, confidence score for normal or disease class) obtained by inputting the subject's ribosomal data into the predictive model. have.
  • the predictive model is a model for predicting the prognosis of a disease (eg overall survival, disease-free survival, good or bad, etc.) (eg, see FIG. 10 )
  • the predicted value obtained by inputting the subject's ribosomal data into the predictive model Based on this, the prognosis of the subject can be predicted.
  • FIGS. 2 to 4 a disease prediction method according to some embodiments of the present disclosure has been schematically described with reference to FIGS. 2 to 4 .
  • various embodiments of a detailed structure of a predictive model and a learning method according thereto will be described with reference to the drawings shown in FIG. 5 or less.
  • the predictive model is a model predicting the presence or absence of a disease (except for FIG. 10 ), and the description is continued.
  • the scope of the present disclosure is not limited thereto, and the prediction target of the prediction model may vary according to the definition and design method of the class label.
  • FIG. 5 is an exemplary diagram for describing a detailed structure of a predictive model and a learning method according to the first embodiment of the present disclosure.
  • the predictive model according to the first embodiment may be configured to include one or more neural networks 30 .
  • the neural network 30 may be an artificial neural network, but may be formed of other types of neural networks in some cases.
  • the neural network 30 may be trained to receive various ribosomal data and output prediction values related to disease information. For example, when the neural network 30 receives ribosome data and outputs a prediction value regarding the presence or absence of a disease, the error between the output prediction value and the correct answer (that is, the correct answer in the disease information) is back-propagated and the weight of the neural network 30 is updated learning can take place.
  • the learned neural network 30 can accurately predict the presence or absence of a disease from the ribosome data of the subject.
  • the ribosomal data includes not only the expression ratio of ribosomal proteins, but also the protein expression ratio between the large subunit (LSU) and the small subunit (SSU), the expression level (or expression ratio) of ribosomes that are above (or below) the reference value It may include the type or number of the protein (ie, underexpressed or overexpressed ribosomal protein), the protein type or protein expression ratio around a specific site (eg E, P, A site).
  • the neural network 30 or predictive model predicts disease information by comprehensively considering various data related to ribosomal proteins, prediction accuracy can be further improved.
  • FIG. 6 is an exemplary diagram for describing a detailed structure and a learning method of a predictive model according to a second embodiment of the present disclosure.
  • the prediction model according to the second embodiment may be configured to include a first neural network 41 , a second neural network 42 , and a third neural network 43 .
  • the output values of the first neural network 41 and the second neural network 42 may be configured to be input to the third neural network 43 .
  • the first neural network 41 may be trained to receive a tissue image and output a first output value related to disease information.
  • the first neural network 41 may be a convolutional neural network specialized for image processing, and disease-related feature values (eg feature map, activation map, etc.) or lesion information (eg lesion location, lesion type, tumor proliferation score, etc.) from a tissue image. ) can be learned to output
  • disease-related feature values eg feature map, activation map, etc.
  • lesion information eg lesion location, lesion type, tumor proliferation score, etc.
  • the second neural network 42 may be trained to receive ribosome data and output a second output value related to disease information.
  • ribosomal data may include various data relating to, for example, expression rates of ribosomal proteins.
  • the second neural network 42 may be, for example, an artificial neural network, but is not limited thereto.
  • the third neural network 43 may be trained to output a prediction value for disease information by receiving the first output value and the second output value as inputs. For example, when the third neural network 43 synthesizes the first output value and the second output value and outputs a predicted value regarding the presence or absence of a disease (eg, confidence score for each class), the error between the output predicted value and the correct answer is back propagated and the third Learning may be performed by updating the weights of the neural network 43 . Also, the weights of the first neural network 41 and/or the second neural network 42 may be updated by such error backpropagation.
  • the third neural network 43 may be an artificial neural network (e.g. a fully connected layer), but is not limited thereto.
  • the first neural network 41 may be pre-trained. Specifically, the first neural network 41 is separately trained in advance to extract features related to disease information from a tissue image, and when the second neural network 42 and the third neural network 43 are trained, the first neural network 41 may not be learned. Alternatively, learning is performed on the first neural network 41 , and the weight of the first neural network 41 may be fine-tuned. In any case, since the first neural network 41 is intensively trained in advance to accurately extract features related to disease information, the performance of the predictive model may be improved.
  • the prediction model trained as above may predict disease information on the target tissue of the subject from the tissue image and ribosome data of the subject.
  • the prediction model may receive a tissue image and ribosome data of a subject and output a predicted value regarding the presence or absence of disease in the target tissue.
  • the prediction model may be trained to predict disease information by further considering disease-related features appearing in the tissue image, and thus the prediction accuracy of the prediction model may be further improved.
  • a detailed structure and a learning method of a predictive model according to a third embodiment of the present disclosure will be described with reference to FIG. 7 .
  • FIG. 7 is an exemplary diagram for describing a detailed structure and a learning method of a predictive model according to a third embodiment of the present disclosure.
  • the prediction model according to the third embodiment may be configured to include a first neural network 51 , a second neural network 52 , and a third neural network 53 .
  • the output values of the first neural network 51 and the second neural network 52 may be configured to be input to the third neural network 53 .
  • the first neural network 51 may be trained to receive the first ribosome data and output a first output value related to disease information.
  • the first ribosome data may be a two-dimensional (or three-dimensional) image form of ribosome-related data processed
  • the first neural network 51 may be a convolutional neural network specialized for image processing, and convolution operation It can be learned to analyze the first ribosome data through.
  • the first ribosomal data can be generated by processing the expression level or expression ratio (ie, the expression distribution of the ribosomal protein in the ribosome) according to the location of the ribosomal protein into two-dimensional (or three-dimensional) data.
  • the expression level or expression ratio ie, the expression distribution of the ribosomal protein in the ribosome
  • the present example will be further described with reference to FIG. 8 .
  • the expression amount according to the position of the ribosomal protein in the ribosomal subunits 61 and 62 is processed in the form of a heat map.
  • the two-dimensional heat map image 63 that is, by mapping the ribosome subunits 61 and 62 on the two-dimensional plane 60, and assigning an appropriate pixel value according to the protein expression level at the mapped position , first ribosomal data
  • the specific channel of the heat map image 63 may further include information on the type of ribosomal protein expressed at the corresponding position.
  • the first neural network 51 correlates the expression distribution of the ribosomal protein with the disease information (eg, when the protein is underexpressed or overexpressed in a specific region of the ribosome) high probability of having a disease). Accordingly, the prediction accuracy of the prediction model may be further improved.
  • the first ribosomal data may be generated by processing the positional relationship (or linkage relationship) between ribosomal proteins into two-dimensional (or three-dimensional) data.
  • positional relationship or linkage relationship
  • linkage relationship between ribosomal proteins into two-dimensional (or three-dimensional) data.
  • a dimensional image 71 (ie, first ribosomal data) may be generated.
  • a predetermined value eg 1
  • a differential value may be assigned according to the degree of proximity between the two ribosomal proteins (eg, a larger value is assigned as the distance is closer).
  • the first neural network 51 establishes a relationship between the positional relationship between ribosomal proteins and disease information (eg, the probability of having a disease when specific types of ribosomal proteins are aggregated high) can be learned. Accordingly, the prediction accuracy of the prediction model may be further improved.
  • the second neural network 52 may be trained to receive the second ribosome data and output a second output value related to disease information.
  • the second ribosomal data may include, for example, various data regarding expression rates of ribosomal proteins.
  • the second neural network 52 may be, for example, an artificial neural network, but is not limited thereto.
  • the third neural network 53 may be trained to receive the first output value and the second output value and output a predicted value for the disease information. For example, when the third neural network 53 synthesizes the first output value and the second output value and outputs a predicted value regarding the presence or absence of a disease (eg, a confidence score for each class), the error between the output predicted value and the correct answer is backpropagated and the third Learning may be performed by updating the weights of the neural network 53 . Also, the weights of the first neural network 51 and/or the second neural network 52 may be updated by such error backpropagation.
  • a disease e.g, a confidence score for each class
  • the first neural network 51 may be pre-trained. Specifically, the first neural network 51 is separately trained in advance to extract features related to disease information from the first ribosome data in the form of an image, and when the second neural network 52 and the third neural network 53 are trained, the 1 The neural network 51 may not be trained. Alternatively, learning is performed on the first neural network 51 , and the weight of the first neural network 51 may be finely adjusted. In any case, since the first neural network 51 is intensively trained in advance to accurately extract features related to disease information, the performance of the predictive model may be improved.
  • the prediction model trained as above can predict disease information from the subject's ribosome data.
  • the prediction model may receive the first ribosomal data and the second ribosomal data of the subject and output a predicted value regarding the presence or absence of a disease.
  • the prediction model can be trained to further consider the disease-related features appearing in the ribosome data processed in the form of an image, so that the accuracy of disease information prediction can be improved.
  • a detailed structure and a learning method of a predictive model according to a fourth embodiment of the present disclosure will be described with reference to FIG. 10 .
  • FIG. 10 is an exemplary diagram for describing a detailed structure and a learning method of a predictive model according to a fourth embodiment of the present disclosure.
  • the prediction model according to the fourth embodiment can predict prognostic information among disease information, and the prognostic information may be, for example, total survival (OS) and disease-free survival (RFS).
  • OS total survival
  • RFS disease-free survival
  • the present invention is not limited thereto.
  • the prediction model according to the fourth embodiment may be configured to include a first neural network 81 , a second neural network 82 , and a third neural network 83 .
  • the output value of the first neural network 81 may be configured to be input to the second neural network 82 and the third neural network 83 .
  • the first neural network 81 may be trained to receive ribosome data and output an output value related to prognostic information.
  • the first neural network 81 may be trained to extract features commonly associated with overall survival (or overall survival) and disease-free survival (or disease-free survival) from ribosome data input as a kind of shared neural network.
  • An output value of the first neural network 81 may be input to the second neural network 82 and the third neural network 83 .
  • the first neural network 81 may be, for example, an artificial neural network, but is not limited thereto.
  • the second neural network 82 may be trained to receive the output value of the first neural network 81 and output a predicted value regarding the total survival period.
  • ribosomal data input to the first neural network 81 may also be input to the second neural network 82 .
  • the second neural network 82 is a neural network specialized in the prediction of the total survival period, and may be trained to predict the total survival period in consideration of the total survival period and specialized features based on the output value of the first neural network 81 .
  • the second neural network 82 may be, for example, an artificial neural network, but is not limited thereto.
  • the third neural network 83 may be trained to receive the output value of the first neural network 81 and output a predicted value regarding the disease-free survival period.
  • ribosomal data input to the first neural network 81 may also be input to the third neural network 83 .
  • the third neural network 83 is a neural network specialized in predicting the disease-free survival period, and may be trained to predict the disease-free survival period in consideration of the disease-free survival period and specialized features based on the output value of the first neural network 81 .
  • the third neural network 83 may be, for example, an artificial neural network, but is not limited thereto.
  • a method of training the predictive model illustrated in FIG. 10 may be various.
  • the first neural network 81 and the second neural network 82 described above can be learned using ribosome data and information about the total survival period, and the first neural network 81 and the third neural network 83 are ribosomes. It can be learned using data and information about disease-free survival.
  • the first neural network 81 may be trained to extract features commonly associated with the overall survival period and disease-free survival organs from the ribosomal data
  • the second neural network 82 and the third neural network 83 are each ribosomal data. It can be learned to extract features specific to the overall survival period and disease-free survival period from , and to predict the overall survival period and disease-free survival period in consideration of the extracted features and the common related features.
  • training data including ribosome data may be classified based on the difference between overall survival and disease-free survival, and a predictive model may be trained using the classified training data.
  • the training data may be classified into first training data having a difference between the two periods equal to or less than a reference value and second learning data having a difference equal to or greater than the reference value.
  • the first neural network 81 may be trained using the first learning data
  • the second neural network 82 and the third neural network 83 may be trained using the second learning data.
  • the first neural network 81 can be trained to better extract features of ribosomal data commonly associated with overall survival and disease-free survival
  • the second neural network 82 and the third neural network 83 are each It can be learned to better extract features specific to overall survival and disease-free survival.
  • primary learning is performed on the entire neural networks 81, 82, 83 with the entire learning data
  • secondary learning is performed on the neural networks 81, 82, 83 associated with the first learning data and the second learning data.
  • Secondary learning may be done in the form of weighted learning.
  • FIGS. 11 to 13 For an example of the weighted learning method, reference will be made to the description of FIGS. 11 to 13 .
  • primary learning is performed on the neural networks 81, 82, 83 associated with the first learning data and the second learning data
  • secondary learning is performed on the entire neural networks 81, 82, 83 with the entire learning data.
  • the prediction model includes a first neural network that receives a tissue image (eg, 41 in FIG. 6 ), a second neural network that receives ribosomal data in the form of an image (eg 51 of FIG. 7 ), and a third neural network that receives ribosomal data. (eg 42 in FIG. 6 , 52 in FIG. 7 ), and a fourth neural network (eg 43 in FIG. 6 , 53 in FIG. 7 ) for predicting disease information by receiving the output values of the first to third neural networks .
  • a first neural network that receives a tissue image
  • a second neural network that receives ribosomal data in the form of an image
  • a third neural network that receives ribosomal data.
  • a fourth neural network eg 43 in FIG. 6 , 53 in FIG. 7
  • weighted learning may be performed to further improve the prediction performance of the disease prediction model.
  • the weighted learning may mean learning the model while varying the learning intensity according to learning data or the like.
  • the performance of the model can be improved by stronger learning of important learning data (eg, a ribosome data sample that is highly correlated with disease information).
  • important learning data eg, a ribosome data sample that is highly correlated with disease information.
  • FIG. 11 is an exemplary diagram for explaining a weighted learning method according to the first embodiment of the present disclosure.
  • the weighted learning method may start with the step of detecting the expression pattern of the ribosomal protein associated with disease information by analyzing the expression ratio of the ribosomal protein included in the learning data.
  • the ribosomal protein expression ratio of a normal person and the ribosomal protein expression ratio of a diseased person may be compared.
  • the expression pattern eg ⁇ RP 1 , RP 2 , RP n- ) based on the ribosomal protein (RP 1 , RP 2 , RP n-1 , RP n ) of the portion (91 to 94) in which the difference in the expression ratio is greater than or equal to the reference value 1 , RP n ⁇
  • the expression pattern eg ⁇ RP 1 , RP 2 , RP n-
  • an expression pattern (eg ⁇ RP 1 ) based on a combination of a first ribosomal protein (eg RP 1 , RP 2 ) and a second ribosomal protein (eg RP 3 , RP n-2 ) having a difference in expression ratio greater than or equal to the reference value , RP 2 , RP 3 , RP n-2 ⁇ ) may be determined.
  • expression patterns (eg ⁇ RP 1 > 0.5 and RP 3 ⁇ 0.2 ⁇ ) may be determined based on various combinations of ribosomal protein types and expression ratio conditions.
  • an expression pattern associated with a disease eg, a ribosomal protein that appears in a large number of people with a disease and whose expression ratio is above or below a reference value
  • a disease eg, a ribosomal protein that appears in a large number of people with a disease and whose expression ratio is above or below a reference value
  • Analysis of the ratio may also detect expression patterns associated with normality (eg, ribosomal proteins that are present in a large number of normal individuals and whose expression rates are above or below baseline).
  • a sample weight may be assigned to each data sample constituting the training data using the detected expression pattern.
  • sample weights may be differentially assigned according to the degree of similarity between the detected expression pattern and the data sample. More specifically, a first data sample (or a data sample comprising an expression pattern) that fully matches the detected expression pattern is given the highest sample weight, and a second data sample that partially matches a lower sample than the first data sample Weights may be assigned. And, the third data sample that does not match at all may be given the lowest sample weight.
  • a predictive model may be trained based on the given sample weights. That is, more intense learning may be performed on data samples having a high sample weight.
  • the specific learning method may vary.
  • the error may be increased or decreased based on the sample weight before updating the weight of the predictive model based on the error of the predictive model for the data sample (ie, the difference between the predicted value and the correct answer). For example, the higher the sample weight, the greater the error, and vice versa, the error may be reduced. Also, the weight of the prediction model may be updated based on the increased or decreased error. In this case, since an error with respect to a data sample having a high sample weight has a greater effect on the predictive model, weighted learning according to the sample weight can be effectively performed.
  • the number of times the data sample is trained may vary based on the sample weight. For example, additional learning may be performed on data samples with high sample weights.
  • the value of the data sample (e.g. the expression ratio value of ribosomal protein) may be increased or decreased based on the sample weight. For example, as the sample weight increases, the value of the data sample may be increased, and vice versa, the value of the data sample may be decreased. In this case, since a data sample having a high sample weight has a greater influence on the learning of the predictive model, weighted learning according to the sample weight can be effectively performed.
  • the learning order of the data samples may vary based on the sample weights. For example, a data sample with a high sample weight may be trained before a data sample with a low sample weight. This is usually because data samples learned first may have a greater impact on the training of the predictive model than data samples learned later.
  • a predictive model may be trained based on a combination of the foregoing examples.
  • the learning data may include information on disease progression stages (eg, early, middle, late, first, second, third, etc.). And, when detecting the expression pattern of the ribosomal protein associated with the disease information, the expression ratio of the ribosomal protein of a normal person and the ribosomal protein expression ratio of the diseased person in an early stage of progression may be compared. In this case, the predictive model can be trained to better detect the disease in the initial state because sample weights will be given based on the expression pattern that appears in the diseased person in the early stage of the disease.
  • disease progression stages eg, early, middle, late, first, second, third, etc.
  • FIGS. 12 and 13 are exemplary diagrams for explaining a weighted learning method according to a second embodiment of the present disclosure. Hereinafter, it will be described with reference to FIGS. 12 and 13 .
  • the weighted learning method according to the second embodiment may start with the step of building the temporary prediction model 103 by learning the training data.
  • the structure and learning method of the temporary prediction model 103 may be any method.
  • a second data sample may be generated by changing at least a portion of the expression ratio of the ribosomal protein in the first data sample constituting the training data (ie, the sample of the ribosomal data). For example, as shown in FIG. 12 , the expression ratio value of the ribosomal proteins 101 and 102 having an expression ratio greater than or equal to a reference value may be changed. However, the details of this step may vary.
  • the expression rate of a ribosomal protein having an expression rate greater than (or less than a reference value) in the first data sample may be altered.
  • the expression rate of a randomly selected ribosomal protein in the first data sample may be altered.
  • the number of the selected ribosomal protein may be one or a plurality.
  • the expression ratio of a specific ribosomal protein in the first data sample may be altered to a specific value to generate a second data sample.
  • the specific value may be 0, or may be an average expression ratio value of a normal person or a diseased person.
  • the expression ratio of the specific ribosomal protein may be changed to an average expression ratio value of the diseased person. In the opposite case, it may be changed to an average expression ratio value of a normal person.
  • the second data sample may be generated based on a combination of the foregoing examples.
  • a first prediction value Out 1 is obtained by inputting a first data sample into the temporary prediction model 103
  • a second prediction value Out 2 by inputting a second data sample into the temporary prediction model 103 this can be obtained.
  • a difference (Diff) between the two predicted values may be calculated.
  • the expression pattern of the ribosomal protein associated with the disease information may be detected. For example, when the difference value (Diff) is equal to or greater than the reference value, the expression pattern may be determined based on the ribosomal proteins 101 and 102 whose expression ratio is changed in the first data sample. When the expression ratio of a specific ribosomal protein (101, 102) is changed, the prediction value of the tentative prediction model changes significantly that the expression ratio of the specific ribosomal protein (101, 102) greatly affects the prediction of disease information (i.e. , which is a key characteristic). For a specific method of determining the expression pattern, reference will be made further to the description of FIG. 11 .
  • a sample weight may be assigned to each data sample constituting the training data 111 and 112 using the detected expression pattern.
  • FIG. 11 further reference will be made to the description of FIG. 11 .
  • the predictive model 113 may be built by re-learning the training data 111 and 112 based on the given sample weight. For example, the prediction model 113 in a state initialized based on the sample weights (ie, the state in which the weights of the model are initialized) may be retrained. In this regard, further reference will be made to the description of FIG. 11 .
  • weighted learning may be performed on data samples estimated to be highly correlated with disease information. Accordingly, learning of the predictive model may be performed more effectively, and the predictive performance may also be greatly improved.
  • FIG. 14 an exemplary computing device 120 capable of implementing the prediction device 10 according to some embodiments of the present disclosure will be described with reference to FIG. 14 .
  • FIG. 14 is an exemplary hardware configuration diagram illustrating the computing device 120 .
  • the computing device 120 includes one or more processors 121 , a bus 123 , a communication interface 124 , and a memory (loading) for loading a computer program executed by the processor 121 . 122 , and a storage 125 for storing the computer program 126 .
  • processors 121 the computing device 120 includes one or more processors 121 , a bus 123 , a communication interface 124 , and a memory (loading) for loading a computer program executed by the processor 121 . 122 , and a storage 125 for storing the computer program 126 .
  • FIG. 14 only components related to the embodiment of the present disclosure are illustrated in FIG. 14 . Accordingly, those skilled in the art to which the present disclosure pertains can see that other general-purpose components other than those shown in FIG. 14 may be further included. That is, the computing device 120 may further include various components in addition to the components shown in FIG. 14 . Alternatively, the computing device 120 may be configured except for some of the components shown in FIG. 14 .
  • the processor 121 may control the overall operation of each component of the computing device 120 .
  • the processor 121 includes at least one of a central processing unit (CPU), a micro processor unit (MPU), a micro controller unit (MCU), a graphic processing unit (GPU), or any type of processor well known in the art of the present disclosure. may be included.
  • the processor 121 may perform an operation on at least one application or program for executing the method/operation according to the embodiments of the present disclosure.
  • Computing device 120 may include one or more processors.
  • the memory 122 may store various data, commands, and/or information. Memory 122 may load one or more computer programs 126 from storage 125 to execute methods/operations according to embodiments of the present disclosure.
  • the memory 122 may be implemented as a volatile memory such as RAM, but is not limited thereto.
  • the bus 123 may provide a communication function between components of the computing device 120 .
  • the bus 123 may be implemented as various types of buses, such as an address bus, a data bus, and a control bus.
  • the communication interface 124 may support wired/wireless Internet communication of the computing device 120 .
  • the communication interface 124 may support various communication methods other than Internet communication.
  • the communication interface 124 may be configured to include a communication module well known in the technical field of the present disclosure.
  • the storage 125 may non-temporarily store the one or more programs 126 .
  • the storage 125 is a non-volatile memory such as a read only memory (ROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), a flash memory, a hard disk, a removable disk, or well in the art to which the present disclosure pertains. It may be configured to include any known computer-readable recording medium.
  • the computer program 126 may include one or more instructions that, when loaded into the memory 122 , cause the processor 121 to perform a method/operation according to various embodiments of the present disclosure. That is, the processor 121 may perform the methods/operations according to various embodiments of the present disclosure by executing the one or more instructions.
  • the computer program 126 learns learning data including ribosomal data for learning and disease information to build a disease prediction model, acquires ribosomal data for examination of a subject, and uses the disease prediction model , may include one or more instructions to perform an operation of predicting the subject's disease information from the test ribosome data.
  • the prediction device 10 according to some embodiments of the present disclosure may be implemented through the computing device 120 .
  • the technical idea of the present disclosure described with reference to FIGS. 1 to 14 may be implemented as computer-readable codes on a computer-readable medium.
  • the computer-readable recording medium may be, for example, a removable recording medium (CD, DVD, Blu-ray disk, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk).
  • ROM, RAM, computer-equipped hard disk can
  • the computer program recorded in the computer-readable recording medium may be transmitted to another computing device through a network, such as the Internet, and installed in the other computing device, thereby being used in the other computing device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

질병 예측 방법, 장치 및 컴퓨터 프로그램이 제공된다. 본 개시의 몇몇 실시예들에 따른 질병 예측 방법은, 학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 단계, 피검자의 검사용 리보솜 데이터를 획득하는 단계 및 질병 예측 모델을 이용하여, 검사용 리보솜 데이터로부터 피검자의 질병 정보를 예측하는 단계를 포함할 수 있다. 질병 예측 모델은 질병 정보에 따라 달리지는 리보솜 데이터의 특징을 탐지 및 학습함으로써, 피검자의 질병 정보를 정확하게 예측할 수 있다.

Description

질병 예측 방법, 장치 및 컴퓨터 프로그램
본 개시는 질병 예측 방법, 장치 및 컴퓨터 프로그램에 관한 것이다. 보다 자세하게는, 기계학습(machine-learning) 모델을 이용하여 피검자의 리보솜(ribosome) 데이터로부터 질병의 유무, 종류, 예후 등의 질병 정보를 예측하는 방법, 그 방법을 수행하는 장치 및 그 방법이 구현된 컴퓨터 프로그램에 관한 것이다.
컴퓨팅 방법(computational method)과 생명정보학(bio-informatics)을 이용함으로써, 연구자들은 기존 화합물의 새로운 용도를 찾거나 신규 화합물의 용도를 예측할 수 있다. 이러한 방식은 신규 약제 발견에 많이 사용되고 있다.
신약 발견과 개발은 항상 많은 시간 및 비용을 필요로 하며, 복잡한 프로세스를 거치게 된다. 이에 따라, 최근에는 다른 분야의 학문, 예를 들면 생명정보학, 화학정보학(chemi-informatics), 컴퓨터 공학 및 CADD(computer-aided drug discovery/design) 등을 융합하여, 신약 발견과 개발에 드는 시간을 줄이고 그 효과를 높이려는 연구가 활발하게 이루어지고 있다.
하지만, 이러한 종래 기술은 규칙에 기반(rule-based)하므로, 인간이 인지하지 못하여 규칙을 정의할 수 없는 경우까지 예측하지는 못한다.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 기계학습(machine-learning) 모델을 이용하여 피검자의 리보솜 데이터로부터 질병의 유무, 종류, 예후 등의 질병 정보를 예측하는 방법, 그 방법을 수행하는 장치 및 그 방법이 구현된 컴퓨터 프로그램을 제공하는 것이다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 질병 예측 방법은, 컴퓨팅 장치에서 피검자의 질병을 예측하는 방법으로서, 학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 단계, 상기 피검자의 검사용 리보솜 데이터를 획득하는 단계 및 상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 단계를 포함하되, 상기 학습용 리보솜 데이터와 상기 검사용 리보솜 데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함할 수 있다.
몇몇 실시예들에서, 상기 학습용 리보솜 데이터는 대형 서브유닛과 소형 서브유닛 간의 단백질 발현 비율, 발현량이 기준치 이상인 리보솜 단백질 및 발현량이 기준치 이하인 리보솜 단백질에 관한 데이터를 더 포함할 수 있다.
몇몇 실시예들에서, 상기 학습 데이터는 대상 조직의 이미지를 더 포함하고, 상기 질병 예측 모델은, 상기 대상 조직의 이미지를 입력받아 상기 질병 정보와 연관된 제1 출력값을 출력하는 제1 신경망, 상기 학습용 리보솜 데이터를 입력받아 상기 질병 정보와 연관된 제2 출력값을 출력하는 제2 신경망 및 상기 제1 출력값 및 상기 제2 출력값을 입력받아 상기 대상 조직에 관한 질병 정보를 예측하는 제3 신경망을 포함하며, 상기 제1 신경망은 컨볼루션 신경망(convolutional neural networks)으로 이루어질 수 있다.
몇몇 실시예들에서, 상기 질병 예측 모델은, 상기 리보솜 단백질에 관한 이미지 형태의 데이터를 입력받아 상기 질병 정보와 연관된 제1 출력값을 출력하는 제1 신경망, 상기 학습용 리보솜 데이터를 입력받아 상기 질병 정보와 연관된 제2 출력값을 출력하는 제2 신경망 및 상기 제1 출력값 및 상기 제2 출력값을 입력받아 질병 정보를 예측하는 제3 신경망을 포함하며, 상기 제1 신경망은 컨볼루션 신경망(convolutional neural networks)으로 이루어질 수 있다.
몇몇 실시예들에서, 상기 질병 정보는 질병인의 전체생존기간과 무병생존기간에 관한 정보를 포함하고, 상기 질병 예측 모델은, 상기 학습용 리보솜 데이터를 입력받아 상기 질병 정보와 연관된 출력값을 출력하는 제1 신경망, 상기 출력값을 입력받아 상기 전체생존기간을 예측하는 제2 신경망 및 상기 출력값을 입력받아 상기 무병생존기간을 예측하는 제3 신경망을 포함하며, 상기 질병 예측 모델을 구축하는 단계는, 상기 학습용 리보솜 데이터와 상기 전체생존기간에 관한 정보를 이용하여 상기 제1 신경망과 상기 제2 신경망을 학습시키는 단계 및 상기 학습용 리보솜 데이터와 상기 무병생존기간에 관한 정보를 이용하여 상기 제1 신경망과 상기 제3 신경망을 학습시키는 단계를 포함할 수 있다.
몇몇 실시예들에서, 상기 질병 예측 모델을 구축하는 단계는, 정상인의 리보솜 단백질 발현 비율과 질병인의 리보솜 단백질 발현 비율을 비교하여, 상기 질병 정보와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계, 상기 탐지된 발현 패턴을 이용하여 상기 학습 데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계 및 상기 샘플 가중치를 기초로 상기 학습 데이터를 학습하는 단계를 포함할 수 있다.
몇몇 실시예들에서, 상기 질병 예측 모델을 구축하는 단계는, 상기 학습 데이터를 학습하여 임시 질병 예측 모델을 구축하는 단계, 상기 학습용 리보솜 데이터를 구성하는 제1 리보솜 데이터 샘플에서, 리보솜 단백질의 발현 비율 중 적어도 일부를 변경하여 제2 리보솜 데이터 샘플을 생성하는 단계, 제1 리보솜 데이터 샘플을 상기 임시 질병 예측 모델에 입력하여 제1 예측값을 획득하고, 상기 제2 리보솜 데이터 샘플을 상기 임시 질병 예측 모델에 입력하여 제2 예측값을 획득하는 단계, 상기 제1 예측값과 상기 제2 예측값의 차이에 기초하여 상기 질병 정보와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계, 상기 탐지된 발현 패턴을 이용하여 상기 학습 데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계 및 상기 샘플 가중치를 기초로 상기 학습 데이터를 재학습하여 상기 질병 예측 모델을 구축하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 질병 예측 장치는, 하나 이상의 인스트럭션들을 저장하는 메모리 및 상기 저장된 하나 이상의 인스트럭션들을 실행시킴으로써, 학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 동작, 피검자의 검사용 리보솜 데이터를 획득하는 동작 및 상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 동작을 수행하는 프로세서를 포함하되, 상기 학습용 리보솜 데이터와 상기 검사용 리보솜 데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 단계, 피검자의 검사용 리보솜 데이터를 획득하는 단계 및 상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 단계를 실행시키기 위하여 컴퓨터 판독가능한 기록매체에 저장될 수 있다. 이때, 상기 학습용 리보솜 데이터와 상기 검사용 리보솜 데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함할 수 있다.
상술한 본 개시의 몇몇 실시예들에 따르면, 리보솜 데이터와 질병 정보를 기계학습하여 질병 예측 모델이 구축될 수 있고, 구축된 질병 예측 모델을 통해 피검자의 리보솜 데이터로부터 질병 정보가 예측될 수 있다. 질병 예측 모델은 인간이 정확하게 규명하기 어려운 리보솜 데이터와 질병 정보와의 관계를 탐지 및 학습(즉, 질병 정보에 따라 달리지는 리보솜 데이터의 특징을 탐지 및 학습)함으로써, 피검자의 리보솜 데이터로부터 질병의 유무, 종류, 예후 등의 질병 정보를 정확하게 예측할 수 있다.
또한, 리보솜 단백질의 발현 비율 외에도 리보솜을 구성하는 서브유닛 간의 발현 비율, 저발현되거나 과발현된 리보솜 단백질의 종류 등과 같이 다양한 리보솜 데이터를 이용하여 질병 예측 모델이 학습될 수 있다. 이러한 경우, 질병 예측 모델이 리보솜 단백질의 발현 정도를 다각적으로 고려하여 질병 정보를 예측하게 되므로, 질병 예측 모델의 예측 정확도가 더욱 향상될 수 있다.
또한, 조직 이미지에서 나타나는 질병 관련 특징, 리보솜 단백질의 위치에 따른 발현량, 리보솜 단백질 간의 위치 관계 등에 관한 데이터를 더 이용하여 질병 예측 모델이 학습될 수 있다. 이에 따라, 질병 예측 모델의 예측 정확도가 더욱 향상될 수 있다.
또한, 질병 정보와 연관된 리보솜 단백질의 발현 패턴이 탐지되고, 탐지된 발현 패턴을 포함하는 리보솜 데이터 샘플에 대해서는 가중 학습이 이루어질 수 있다. 이러한 경우, 질병 예측 모델이 질병 정보와 연관된 리보솜 단백질의 발현 특징을 더욱 잘 학습하게 되므로, 질병 예측 모델의 예측 정확도가 더욱 향상될 수 있다.
본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 몇몇 실시예들에 따른 질병 예측 장치와 입출력 데이터를 설명하기 위한 예시적인 도면이다.
도 2는 본 개시의 몇몇 실시예들에 따른 질병 예측 방법을 개략적으로 나타내는 예시적인 흐름도이다.
도 3은 본 개시의 몇몇 실시예들에서 참조될 수 있는 인공 신경망의 구조를 예시한다.
도 4는 본 개시의 몇몇 실시예들에 따른 질병 예측 모델의 예시적인 구축 방법을 설명하기 위한 예시도이다.
도 5는 본 개시의 제1 실시예에 따른 질병 예측 모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 6은 본 개시의 제2 실시예에 따른 질병 예측 모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 7 내지 도 9는 본 개시의 제3 실시예에 따른 질병 예측 모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 10은 본 개시의 제4 실시예에 따른 질병 예측 모델의 세부 구조 및 학습 방법을 설명하기 위한 예시적인 도면이다.
도 11은 본 개시의 제1 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다.
도 12 및 도 13은 본 개시의 제2 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다.
도 14는 본 개시의 몇몇 실시예들에 따른 질병 예측 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 도시한다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성요소 사이에 또 다른 구성요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
본 개시에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 개시의 다양한 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 1은 본 개시의 몇몇 실시예들에 따른 질병 예측 장치(10)와 입출력 데이터를 설명하기 위한 예시적인 도면이다.
도 1에 도시된 바와 같이, 질병 예측 장치(10)는 조직 데이터, 리보솜 데이터 등과 같은 입력 데이터를 토대로 질병 정보를 예측하여 출력하는 컴퓨팅 장치일 수 있다. 여기서, 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 컴퓨팅 장치의 일 예시에 관하여서는 도 14를 참조하도록 한다. 이하에서는, 설명의 편의상, "질병 예측 장치(10)"를 "예측 장치(10)"로 약칭하도록 한다.
보다 구체적으로, 예측 장치(10)는 예시된 입출력 데이터를 기계학습(machine-learning)하여 질병 예측 모델을 구축하고, 구축된 질병 예측 모델을 통해 피검자의 데이터(e.g. 조직 데이터, 리보솜 데이터 등)로부터 피검자의 질병 정보를 예측할 수 있다.
질병 예측 모델은 예를 들어 신경망(neural network) 모델에 기초하여 구현될 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니며, 질병 예측 모델은 결정 트리(decision tree), 서포트 벡터 머신(support vector machine), 로지스틱 회귀(logistic regression) 등과 같은 전통적인 기계학습 모델에 기초하여 구현될 수도 있다. 또한, 신경망 모델은 인공 신경망(artificial neural networks; ANN), 컨볼루션 신경망(convolutional neural networks; CNN), 순환 신경망(recurrent neural networks; RNN) 또는 이들의 조합 등과 같이 다양한 종류의 신경망을 포함할 수 있다. 이하에서는, 설명의 편의상, "질병 예측 모델"을 "예측 모델"로 약칭하도록 한다.
질병 정보는 예측 모델의 예측 대상에 대응되는 것으로서, 예를 들어 질병의 유무, 종류(유형), 진행 단계, 예후(e.g. 전체생존기간, 무병생존기간, 예후의 좋고 나쁨), 이들로부터 가공된 정보 등을 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다. 가령, 리보솜 데이터로부터 질병의 유무를 예측하는 모델을 구축하고자 하는 경우, 질병의 유무 정보를 클래스 레이블(class label)로 하여 리보솜 데이터를 학습(즉, 정상인과 질병인의 리보솜 데이터를 학습)함으로써 예측 모델이 구축될 수 있다. 여기서, 학습을 한다는 것은 오차(e.g. 손실 함수에 의해 산출되는 모델의 예측값과 정답과의 차이)가 최소화되는 방향으로 모델의 가중치(즉, 가중치 파라미터)를 업데이트하는 것을 의미할 수 있다.
다음으로, 리보솜 데이터는 리보솜 단백질의 발현 비율, 발현 위치, 발현 분포, 리보솜을 구성하는 대형 서브유닛(large sub unit; LSU)과 소형 서브유닛(small sub unit; SSU) 간의 단백질 발현 비율, 발현량(또는 발현 비율)이 기준치 이상(또는 이하)인 리보솜 단백질의 종류/개수, 특정 사이트(site; e.g. E, P, A site) 주변의 단백질 종류 또는 단백질 발현 비율, 이들로부터 가공된 데이터 등을 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다.
참고로, 리보솜 단백질의 발현 비율은 리보솜을 구성하는 리보솜 단백질들의 발현량의 비율을 의미할 수 있다. 당해 기술 분야의 종사자라면, 리보솜 단백질의 종류에 대하여 충분히 숙지하고 있을 것인 바, 이에 대한 설명은 생략하도록 한다.
질병 정보 예측을 위해 리보솜 데이터를 활용한 이유는 정상인과 질병인 간에 리보솜 단백질의 발현 비율이 달라진다는 사실에서 기인한 것으로 이해될 수 있다. 정확한 원인의 규명은 어려우나, 기계학습을 통해 질병 정보와 연관된 리보솜 단백질의 발현 패턴이 학습(탐지)될 수 있다면, 다른 방법에 비해 피검자의 질병 정보가 정확하고 효과적으로 예측될 수 있다.
다음으로, 조직 데이터는 예를 들어 조직의 종류, 조직 관련 이미지, 병변 정보 및 이들로부터 가공된 데이터 등을 포함할 수 있다. 그러나, 이에 한정되는 것은 아니다.
예측 장치(10)가 예측 모델을 구축하고, 구축된 예측 모델을 이용하여 피검자의 질병 정보를 예측하는 구체적인 방법에 관하여서는 추후 도 2 이하의 도면을 참조하여 상세하게 설명하도록 한다.
한편, 도 1은 예측 장치(10)가 하나의 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 예측 장치(10)는 복수의 컴퓨팅 장치들로 구현될 수도 있다. 이러한 경우, 예측 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수 있다. 또는, 예측 장치(10)의 특정 기능이 복수의 컴퓨팅 장치에서 구현될 수도 있다.
지금까지 도 1 내지 도 3을 참조하여 본 개시의 몇몇 실시예들에 따른 예측 장치(10)에 대하여 간략하게 설명하였다. 이하에서는, 도 2 이하의 도면을 참조하여 본 개시의 몇몇 실시예들에 따른 질병 예측 방법에 관하여 설명하도록 한다.
이하에서 후술될 질병 예측 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 복수의 물리적인 컴퓨팅 장치에 의해 분산되어 실행될 수도 있다. 예를 들면, 상기 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 방법의 각 단계가 도 1에 예시된 예측 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 따라서, 이하의 설명에서 각 동작의 주어가 생략된 경우, 상기 예시된 장치(10)에 의하여 수행되는 것으로 이해될 수 있다.
도 2는 본 개시의 몇몇 실시예들에 따른 질병 예측 방법을 개략적으로 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 2에 도시된 바와 같이, 상기 질병 예측 방법은 리보솜 데이터와 질병 정보를 학습하여 예측 모델을 구축하는 단계 S100에서 시작될 수 있다. 즉, 예측 모델의 학습 데이터는 리보솜 데이터와 질병 정보로 구성될 수 있다. 다만, 다른 몇몇 실시예들에서는, 학습 데이터가 조직 데이터가 더 포함될 수도 있다. 상기 리보솜 데이터는 피검자의 리보솜 데이터와 구분하기 위해 학습용 리보솜 데이터로 명명될 수도 있다.
앞서 언급한 바와 같이, 예측 모델은 기계 학습 모델로서, 예를 들어 신경망에 기초하여 구현된 모델일 수 있다. 보다 구체적인 예로서, 예측 모델은 도 3에 예시된 바와 같은 인공 신경망에 기초한 모델일 수 있다. 그러나, 본 개시의 범위가 이에 한정되는 것은 아니다. 도시된 바와 같이, 인공 신경망 모델은 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)으로 구성될 수 있는데, 당해 기술 분야의 종사자라면 각 층의 기능, 동작 원리 및 학습 방법(e.g. 오차 역전파를 통해 오차가 최소화되는 방향으로 각 층의 가중치를 업데이트하는 방법) 등에 관하여 자명하게 이해할 수 있을 것인 바, 이에 대한 설명은 생략하도록 한다.
본 단계에서, 예측 모델은 조직 별(또는 질병 별)로 구축될 수 있다. 즉, 제1 조직에 대한 질병 정보를 예측하는 제1 예측 모델이 구축되고, 이와 별도로 제2 조직에 대한 질병 정보를 예측하는 제2 예측 모델이 구축될 수 있다. 가령, 리보솜 데이터로부터 특정 조직의 질병(e.g. 악성 종양 등) 유무(또는 질병 종류 등)를 예측하는 모델을 구축한다고 가정하자. 이러한 경우, 도 4에 예시된 바와 같이, 특정 조직(A)에 대한 정상인의 리보솜 데이터(21)와 질병인의 리보솜 데이터(21)를 학습함으로써, 주어진 리보솜 데이터로부터 특정 조직(A)의 질병 유무를 예측하는 모델(20)이 구축될 수 있다. 도 4는 이해의 편의를 제공하기 위해 이진 분류(binary classification)를 수행하는 모델(20)을 구축하는 것을 예로써 도시하고 있으나, 본 개시의 범위가 이에 한정되는 것은 아니다. 클래스 레이블의 설계 방식에 따라 예측 모델은 다중 분류를 수행할 수도 있다.
또는, 예측 모델은 조직 및 질병 별로 구축될 수도 있다.
또는, 예측 모델은 복수의 조직에 대한 질병 정보를 예측하도록 구축될 수도 있다. 예를 들어, 복수의 조직에 관한 데이터(e.g. 조직의 종류)와 리보솜 데이터를 질병 정보와 함께 학습하는 경우, 복수의 조직에 대한 질병 정보를 예측하는 모델이 구축될 수 있다.
한편, 예측 모델의 세부 구조와 그에 따른 학습 방법은 다양하게 설계될 수 있으며, 이는 실시예에 따라 달라질 수 있다. 이와 관련하여서는 추후 도 5 이하의 도면을 참조하여 상세하게 설명하도록 한다.
단계 S200에서, 피검자의 리보솜 데이터가 획득될 수 있다. 예측 모델이 조직 데이터를 입력 데이터로 이용하는 모델이라면, 본 단계에서 피검자의 조직 데이터도 획득될 수 있다. 상기 리보솜 데이터는 학습용 리보솜 데이터와 구분하기 위해 검사용 리보솜 데이터로 명명될 수도 있다.
단계 S300에서, 예측 모델을 이용하여, 피검자의 리보솜 데이터로부터 피검자의 질병 정보가 예측될 수 있다. 예를 들어, 예측 모델이 질병의 유무를 예측하는 모델인 경우, 피검자의 리보솜 데이터를 예측 모델에 입력함으로써 얻어진 예측값(e.g. 정상 또는 질병 클래스에 대한 컨피던스 스코어)을 토대로 피검자의 질병 유무가 예측될 수 있다. 다른 예로서, 예측 모델이 질병의 예후(e.g. 전체생존기간, 무병생존기간, 좋고 나쁨 등)를 예측하는 모델인 경우(e.g. 도 10 참조), 피검자의 리보솜 데이터를 예측 모델에 입력함으로써 얻어진 예측값을 토대로 피검자의 예후가 예측될 수 있다.
지금까지 도 2 내지 도 4를 참조하여 본 개시의 몇몇 실시예들에 따른 질병 예측 방법에 대하여 개략적으로 설명하였다. 이하에서는, 예측 모델의 세부 구조와 그에 따른 학습 방법에 관한 다양한 실시예들에 대하여 도 5 이하의 도면을 참조하여 설명하도록 한다. 또한, 이해의 편의를 제공하기 위해, 예측 모델이 질병의 유무를 예측하는 모델인 것을 가정(도 10 제외)하여 설명을 이어가도록 한다. 다만, 본 개시의 범위가 이에 한정되는 것은 아니며, 클래스 레이블의 정의 및 설계 방식에 따라 예측 모델의 예측 대상은 얼마든지 달라질 수 있다.
도 5는 본 개시의 제1 실시예에 따른 예측 모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 5에 도시된 바와 같이, 제1 실시예에 따른 예측 모델은 하나 이상의 신경망(30)을 포함하도록 구성될 수 있다. 신경망(30)은 인공 신경망일 수 있을 것이나, 경우에 따라 다른 종류의 신경망으로 이루어질 수도 있다.
신경망(30)은 다양한 리보솜 데이터를 입력받아 질병 정보에 관한 예측값을 출력하도록 학습될 수 있다. 가령, 신경망(30)이 리보솜 데이터를 입력받아 질병 유무에 관한 예측값을 출력하면, 출력된 예측값과 정답(즉, 질병 정보에 있는 정답)과의 오차가 역전파되어 신경망(30)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 이렇게 학습된 신경망(30)은 피검자의 리보솜 데이터로부터 질병 유무를 정확하게 예측할 수 있다.
본 실시예에서, 리보솜 데이터는 리보솜 단백질의 발현 비율뿐만 아니라, 대형 서브유닛(LSU)과 소형 서브유닛(SSU) 간의 단백질 발현 비율, 발현량(또는 발현 비율)이 기준치 이상(또는 이하)인 리보솜 단백질(즉, 저발현 또는 과발현된 리보솜 단백질)의 종류 또는 개수, 특정 사이트(e.g. E, P, A site) 주변의 단백질 종류 또는 단백질 발현 비율 등을 포함할 수 있다. 이러한 경우, 신경망(30)(또는 예측 모델)이 리보솜 단백질에 관한 다양한 데이터를 종합적으로 고려하여 질병 정보를 예측하게 되므로, 예측 정확도가 보다 향상될 수 있다.
지금까지 도 5를 참조하여 본 개시의 제1 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하였다. 이하에서는, 도 6을 참조하여 본 개시의 제2 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하도록 한다.
도 6은 본 개시의 제2 실시예에 따른 예측 모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 6에 도시된 바와 같이, 제2 실시예에 따른 예측 모델은 제1 신경망(41), 제2 신경망(42) 및 제3 신경망(43)을 포함하도록 구성될 수 있다. 또한, 제1 신경망(41) 및 제2 신경망(42)의 출력값이 제3 신경망(43)으로 입력되도록 구성될 수 있다.
제1 신경망(41)은 조직 이미지를 입력받아 질병 정보와 연관된 제1 출력값을 출력하도록 학습될 수 있다. 제1 신경망(41)은 이미지 처리에 특화된 컨볼루션 신경망일 수 있으며, 조직 이미지로부터 질병과 연관된 특징값(e.g. 특징맵, 액티베이션 맵 등) 또는 병변 정보(e.g. 병변 위치, 병변 종류, 종양 증식 점수 등)를 출력하도록 학습될 수 있다
다음으로, 제2 신경망(42)은 리보솜 데이터를 입력받아 질병 정보와 연관된 제2 출력값을 출력하도록 학습될 수 있다. 앞서 언급한 바와 같이, 리보솜 데이터는 예를 들어 리보솜 단백질의 발현 비율에 관한 다양한 데이터를 포함할 수 있다. 제2 신경망(42)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제3 신경망(43)은 제1 출력값 및 제2 출력값을 입력으로 하여 질병 정보에 대한 예측값을 출력하도록 학습될 수 있다. 가령, 제3 신경망(43)이 제1 출력값과 제2 출력값을 종합하여 질병의 유무에 관한 예측값(e.g. 클래스 별 컨피던스 스코어)을 출력하면, 출력된 예측값과 정답과의 오차가 역전파되어 제3 신경망(43)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 또한, 이러한 오차 역전파에 의해 제1 신경망(41) 및/또는 제2 신경망(42)의 가중치도 업데이트될 수 있다. 제3 신경망(43)은 인공 신경망(e.g. 완전 연결 계층)일 수 있을 것이나, 이에 한정되는 것은 아니다.
몇몇 예들에서는, 제1 신경망(41)이 사전 학습(pre-trained)된 것일 수도 있다. 구체적으로, 제1 신경망(41)은 조직 이미지로부터 질병 정보와 연관된 특징을 추출하도록 사전에 별도로 학습되고, 제2 신경망(42) 및 제3 신경망(43)이 학습될 때 제1 신경망(41)은 학습되지 않을 수 있다. 또는, 제1 신경망(41)에 대해 같이 학습이 이루어지며, 제1 신경망(41)의 가중치가 미세 조정(fine-tuning)될 수도 있다. 어떠한 경우이든, 제1 신경망(41)이 사전에 집중적으로 학습됨으로써 질병 정보와 연관된 특징을 정확하게 추출할 수 있게 되므로, 예측 모델의 성능이 향상될 수 있다.
위와 같이 학습된 예측 모델은 피검자의 조직 이미지와 리보솜 데이터로부터 피검자의 대상 조직에 대한 질병 정보를 예측할 수 있다. 가령, 예측 모델은 피검자의 조직 이미지와 리보솜 데이터를 입력받아 대상 조직의 질병 유무에 관한 예측값을 출력할 수 있다.
지금까지 도 6을 참조하여 본 개시의 제2 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 조직 이미지에서 나타나는 질병 관련 특징을 더 고려하여 질병 정보를 예측하도록 예측 모델이 학습될 수 있는 바, 예측 모델의 예측 정확도가 더욱 향상될 수 있다. 이하에서는, 도 7을 참조하여 본 개시의 제3 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하도록 한다.
도 7은 본 개시의 제3 실시예에 따른 예측 모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 7에도시된 바와 같이, 제3 실시예에 따른 예측 모델은 제1 신경망(51), 제2 신경망(52) 및 제3 신경망(53)을 포함하도록 구성될 수 있다. 또한, 제1 신경망(51) 및 제2 신경망(52)의 출력값이 제3 신경망(53)으로 입력되도록 구성될 수 있다.
제1 신경망(51)은 제1 리보솜 데이터를 입력받아 질병 정보와 연관된 제1 출력값을 출력하도록 학습될 수 있다. 여기서, 제1 리보솜 데이터는 리보솜과 관련된 데이터를 2차원(또는 3차원)의 이미지 형태로 가공한 것일 수 있고, 제1 신경망(51)은 이미지 처리에 특화된 컨볼루션 신경망일 수 있으며, 컨볼루션 연산을 통해 제1 리보솜 데이터를 분석하도록 학습될 수 있다. 다만, 제1 리보솜 데이터를 생성하는 방식은 다양할 수 있다.
몇몇 예들에서, 리보솜 단백질의 위치에 따른 발현량 또는 발현 비율(즉, 리보솜 내 리보솜 단백질의 발현 분포)을 2차원(또는 3차원)의 데이터로 가공함으로써 제1 리보솜 데이터가 생성될 수 있다. 이해의 편의를 제공하기 위해, 본 예시에 관하여 도 8을 참조하여 부연 설명하도록 한다.
도 8은 리보솜 서브유닛(61, 62) 내 리보솜 단백질의 위치에 따른 발현량이 히트맵(heat map) 형태로 가공된 것을 예시하고 있다. 예시된 바와 같이, 2차원 평면(60) 상에 리보솜 서브유닛(61, 62)을 매핑시키고, 매핑된 위치의 단백질 발현량에 따라 적절한 픽셀값을 부여함으로써 2차원의 히트맵 이미지(63; 즉, 제1 리보솜 데이터)가 생성될 수 있다. 이때, 히트맵 이미지(63)의 특정 채널에는 해당 위치에서 발현된 리보솜 단백질의 유형 정보가 더 포함될 수도 있다. 이러한 히트맵 이미지(63)와 질병 정보가 학습 데이터로 활용되면, 제1 신경망(51)이 리보솜 단백질의 발현 분포와 질병 정보와의 연관성(e.g. 리보솜의 특정 부위에서 단백질이 저발현 또는 과발현되는 경우 질병이 있을 확률이 높음)을 학습할 수 있게 된다. 따라서, 예측 모델의 예측 정확도가 더욱 향상될 수 있다.
다른 몇몇 예들에서는, 리보솜 단백질들 간의 위치 관계(또는 연결 관계)를 2차원(또는 3차원)의 데이터로 가공함으로써 제1 리보솜 데이터가 생성될 수 있다. 이해의 편의를 제공하기 위해, 본 예시에 관하여 도 9를 참조하여 부연 설명하도록 한다.
도 9를 참조하면, 리보솜 단백질과 대응되는 2개의 축에 의해 형성된 2차원 평면(또는 매트릭스)(70) 상에 리보솜 단백질 쌍(e.g. RP1-RP2)의 위치 관계를 나타내는 값을 할당함으로써 2차원의 이미지(71; 즉, 제1 리보솜 데이터)가 생성될 수 있다. 가령, 리보솜을 구성할 때, 제1 리보솜 단백질(e.g. RP1)과 제2 리보솜 단백질(e.g. RP2)이 인접하여 위치한 경우, 2차원 평면(70)의 매핑 위치(72)에 소정의 값(e.g. 1)이 할당될 수 있다. 이때, 두 리보솜 단백질의 인접 정도에 따라 차등적인 값이 할당될 수도 있다(e.g. 거리가 가까울수록 큰 값이 할당됨). 이러한 이미지(71)와 질병 정보가 학습 데이터로 활용되면, 제1 신경망(51)이 리보솜 단백질들 간의 위치 관계와 질병 정보와의 연관성(e.g. 특정 종류의 리보솜 단백질들이 뭉쳐있는 경우 질병이 있을 확률이 높음)을 학습할 수 있게 된다. 따라서, 예측 모델의 예측 정확도가 더욱 향상될 수 있다.
다시 도 7을 참조하여 예측 모델을 구성하는 다른 신경망(52, 53)에 대한 설명을 이어가도록 한다.
제2 신경망(52)은 제2 리보솜 데이터를 입력받아 질병 정보와 연관된 제2 출력값을 출력하도록 학습될 수 있다. 제2 리보솜 데이터는 예를 들어 리보솜 단백질의 발현 비율에 관한 다양한 데이터를 포함할 수 있다. 또한, 제2 신경망(52)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제3 신경망(53)은 제1 출력값 및 제2 출력값을 입력받아 질병 정보에 대한 예측값을 출력하도록 학습될 수 있다. 가령, 제3 신경망(53)이 제1 출력값과 제2 출력값을 종합하여 질병의 유무에 관한 예측값(e.g. 클래스 별 컨피던스 스코어)을 출력하면, 출력된 예측값과 정답과의 오차가 역전파되어 제3 신경망(53)의 가중치가 업데이트됨으로써 학습이 이루어질 수 있다. 또한, 이러한 오차 역전파에 의해 제1 신경망(51) 및/또는 제2 신경망(52)의 가중치도 업데이트될 수 있다.
몇몇 예들에서는, 제1 신경망(51)이 사전 학습된 것일 수도 있다. 구체적으로, 제1 신경망(51)은 이미지 형태의 제1 리보솜 데이터부터 질병 정보와 연관된 특징을 추출하도록 사전에 별도로 학습되고, 제2 신경망(52) 및 제3 신경망(53)이 학습될 때 제1 신경망(51)은 학습되지 않을 수 있다. 또는, 제1 신경망(51)에 대해 같이 학습이 이루어지며, 제1 신경망(51)의 가중치가 미세 조정될 수도 있다. 어떠한 경우이든, 제1 신경망(51)이 사전에 집중적으로 학습됨으로써 질병 정보와 연관된 특징을 정확하게 추출할 수 있게 되므로, 예측 모델의 성능이 향상될 수 있다.
위와 같이 학습된 예측 모델은 피검자의 리보솜 데이터로부터 질병 정보를 예측할 수 있다. 가령, 예측 모델은 피검자의 제1 리보솜 데이터와 제2 리보솜 데이터를 입력받아 질병 유무에 관한 예측값을 출력할 수 있다.
지금까지 도 7 내지 도 9를 참조하여 본 개시의 제3 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 이미지 형태로 가공된 리보솜 데이터에서 나타나는 질병 관련 특징을 더 고려하도록 예측 모델이 학습될 수 있는 바, 질병 정보 예측의 정확도가 향상될 수 있다. 이하에서는, 도 10을 참조하여 본 개시의 제4 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하도록 한다.
도 10은 본 개시의 제4 실시예에 따른 예측 모델의 세부 구조와 학습 방법을 설명하기 위한 예시적인 도면이다.
도 10에 도시된 바와 같이, 제4 실시예에 따른 예측 모델은 질병 정보 중에서도 예후 정보를 예측할 수 있으며, 예후 정보는 예를 들어 전체생존기간(OS)과 무병생존기간(RFS)일 수 있으나, 이에 한정되는 것은 아니다.
제4 실시예에 따른 예측 모델은 제1 신경망(81), 제2 신경망(82) 및 제3 신경망(83)을 포함하도록 구성될 수 있다. 또한, 제1 신경망(81)의 출력값이 제2 신경망(82) 및 제3 신경망(83)으로 입력되도록 구성될 수 있다.
제1 신경망(81)은 리보솜 데이터를 입력받아 예후 정보와 연관된 출력값을 출력하도록 학습될 수 있다. 가령, 제1 신경망(81)은 일종의 공유 신경망으로 입력된 리보솜 데이터에서 전체생존기간(또는 전체생존율) 및 무병생존기간(또는 무병생존율)과 공통적으로 연관되는 특징을 추출하도록 학습될 수 있다. 제1 신경망(81)의 출력값은 제2 신경망(82)과 제3 신경망(83)으로 입력될 수 있다. 제1 신경망(81)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제2 신경망(82)은 제1 신경망(81)의 출력값을 입력받아 전체생존기간에 관한 예측값을 출력하도록 학습될 수 있다. 몇몇 예들에서는, 제1 신경망(81)으로 입력된 리보솜 데이터가 제2 신경망(82)으로도 입력될 수도 있다. 제2 신경망(82)은 전체생존기간의 예측에 특화된 신경망으로, 제1 신경망(81)의 출력값을 토대로 전체생존기간과 특화된 특징을 고려하여 전체생존기간을 예측하도록 학습될 수 있다. 제2 신경망(82)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
다음으로, 제3 신경망(83)은 제1 신경망(81)의 출력값을 입력받아 무병생존기간에 관한 예측값을 출력하도록 학습될 수 있다. 몇몇 예들에서는, 제1 신경망(81)으로 입력된 리보솜 데이터가 제3 신경망(83)으로도 입력될 수도 있다. 제3 신경망(83)은 무병생존기간의 예측에 특화된 신경망으로, 제1 신경망(81)의 출력값을 토대로 무병생존기간과 특화된 특징을 고려하여 무병생존기간을 예측하도록 학습될 수 있다. 제3 신경망(83)은 예를 들어 인공 신경망일 수 있을 것이나, 이에 한정되는 것은 아니다.
도 10에 예시된 예측 모델을 학습시키는 방식은 다양할 수 있다.
먼저, 상술한 제1 신경망(81)과 제2 신경망(82)은 리보솜 데이터와 전체생존기간에 관한 정보를 이용하여 학습될 수 있고, 제1 신경망(81)과 제3 신경망(83)은 리보솜 데이터와 무병생존기간에 관한 정보를 이용하여 학습될 수 있다. 이러한 경우, 제1 신경망(81)은 리보솜 데이터에서 전체생존기간 및 무병생존기관과 공통적으로 연관된 특징을 추출하도록 학습될 수 있고, 제2 신경망(82) 및 제3 신경망(83)은 각각 리보솜 데이터에서 전체생존기간과 무병생존기간에 특화된 특징을 추출하고, 추출된 특징과 상기 공통 연관 특징을 고려하여 전체생존기간과 무병생존기간을 예측하도록 학습될 수 있다.
몇몇 예들에서는, 전체생존기간과 무병생존기간의 차이를 기준으로 리보솜 데이터를 포함하는 학습 데이터를 분류하고, 분류된 학습 데이터를 이용하여 예측 모델이 학습될 수 있다. 예를 들어, 학습 데이터가 두 기간의 차이가 기준치 이하인 제1 학습 데이터와 기준치 이상인 제2 학습 데이터로 분류될 수 있다. 그리고, 제1 학습 데이터를 이용하여 제1 신경망(81)이 학습되고, 제2 학습 데이터를 이용하여 제2 신경망(82) 및 제3 신경망(83)이 학습될 수 있다. 이러한 경우, 제1 신경망(81)은 전체생존기간 및 무병생존기간과 공통적으로 연관된 리보솜 데이터의 특징을 보다 잘 추출하도록 학습될 수 있고, 제2 신경망(82) 및 제3 신경망(83)은 각각 전체생존기간 및 무병생존기간에 특화된 특징을 보다 잘 추출하도록 학습될 수 있다. 또는, 전체 학습 데이터로 전체 신경망(81, 82, 83)에 대해 1차 학습이 이루어지고, 제1 학습 데이터 및 제2 학습 데이터로 연관된 신경망(81, 82, 83)에 대해 2차 학습이 이루어질 수도 있다. 2차 학습은 가중 학습의 형태로 이루어질 수도 있다. 가중 학습 방식의 예에 대해서는 도 11 내지 도 13의 설명 부분을 참조하도록 한다. 또는, 제1 학습 데이터 및 제2 학습 데이터로 연관된 신경망(81, 82, 83)에 대해 1차 학습이 이루어지고, 전체 학습 데이터로 전체 신경망(81, 82, 83)에 대해 2차 학습이 이루어질 수도 있다.
지금까지 도 10을 참조하여 본 개시의 제4 실시예에 따른 예측 모델의 세부 구조와 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 전체생존기간 및 무병생존기간에 공통적으로 연관된 특징을 학습하는 신경망과 전체생존기간 및 무병생존기간에 특화된 특징을 학습하는 신경망으로 예측 모델을 구성함으로써, 학습이 효율적으로 이루어질 수 있으며, 예후 정보에 대한 예측 정확도도 향상될 수 있다.
지금까지 도 5 내지 도 10을 참조하여 본 개시의 제1 내지 제4 실시예를 개별적으로 설명하였으나, 상술한 제1 내지 제4 실시예는 다양한 형태로 조합될 수 있다. 예를 들어, 예측 모델은 조직 이미지를 입력받는 제1 신경망(e.g. 도 6의 41), 이미지 형태의 리보솜 데이터를 입력받는 제2 신경망(e.g. 도 7의 51), 리보솜 데이터를 입력받는 제3 신경망(e.g. 도 6의 42, 도 7의 52), 및 제1 내지 제3 신경망의 출력값을 입력받아 질병 정보를 예측하는 제4 신경망(e.g. 도 6의 43, 도 7의 53)으로 구성될 수도 있다.
한편, 본 개시의 몇몇 실시예들에서는, 질병 예측 모델의 예측 성능을 보다 향상시키기 위해 가중 학습이 수행될 수 있다. 여기서, 가중 학습이란 학습 데이터 등에 따라 학습 강도를 달리하며 모델을 학습시키는 것을 의미할 수 있다. 이러한 경우, 중요한 학습 데이터(e.g. 질병 정보와 연관성이 깊은 리보솜 데이터 샘플)가 보다 강하게 학습됨으로써 모델의 성능이 향상될 수 있는데, 이하, 도 11 내지 도 13을 참조하여 본 실시예에 관하여 상세하게 설명하도록 한다.
도 11은 본 개시의 제1 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다.
제1 실시예에 따른 가중 학습 방법은 학습 데이터에 포함된 리보솜 단백질의 발현 비율을 분석하여 질병 정보와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계에서 시작될 수 있다.
예를 들어, 도 11에 도시된 바와 같이, 정상인의 리보솜 단백질 발현 비율과 질병인의 리보솜 단백질 발현 비율이 비교될 수 있다. 그리고, 발현 비율의 차이가 기준치 이상인 부분(91 내지 94)의 리보솜 단백질(RP1, RP2, RPn-1, RPn)에 기초하여 발현 패턴(e.g. {RP1, RP2, RPn-1, RPn})이 결정될 수 있다. 또는, 발현 비율의 차이가 기준치 이상인 제1 리보솜 단백질(e.g. RP1, RP2)과 기준치 미만인 제2 리보솜 단백질(e.g. RP3, RPn-2)의 조합에 기초하여 발현 패턴(e.g. {RP1, RP2, RP3, RPn-2})이 결정될 수도 있다. 또는, 리보솜 단백질의 종류와 발현 비율 조건의 다양한 조합에 기초하여 발현 패턴(e.g. {RP1 > 0.5 and RP3 < 0.2})이 결정될 수도 있다.
다른 예로서, 질병인의 리보솜 단백질 발현 비율을 분석하여 질병과 연관된 발현 패턴(e.g. 다수의 질병인에게서 등장하고 발현 비율이 기준치 이상 또는 미만인 리보솜 단백질)이 탐지될 수 있고, 정상인의 리보솜 단백질의 발현 비율을 분석하여 정상과 연관된 발현 패턴(e.g. 다수의 정상인에게서 등장하고 발현 비율이 기준치 이상 또는 미만인 리보솜 단백질)이 탐지될 수도 있다.
다음 단계에서, 탐지된 발현 패턴을 이용하여 학습 데이터를 구성하는 각 데이터 샘플에 샘플 가중치가 부여될 수 있다. 예를 들어, 탐지된 발현 패턴과 데이터 샘플과의 유사도에 따라 샘플 가중치가 차등적으로 부여될 수 있다. 보다 구체적으로, 탐지된 발현 패턴과 완전히 부합하는 제1 데이터 샘플(또는 발현 패턴을 포함하는 데이터 샘플)에는 가장 높은 샘플 가중치가 부여되고, 일부 부합하는 제2 데이터 샘플에는 제1 데이터 샘플보다 낮은 샘플 가중치가 부여될 수 있다. 그리고, 전혀 부합하지 않는 제3 데이터 샘플에는 가장 낮은 샘플 가중치가 부여될 수 있다.
다음 단계에서, 부여된 샘플 가중치를 기초로 예측 모델이 학습될 수 있다. 즉, 샘플 가중치가 높은 데이터 샘플들에 대해 더 강도 높은 학습이 이루어질 수 있다. 다만, 그 구체적인 학습 방식은 다양할 수 있다.
몇몇 예들에서는, 데이터 샘플에 대한 예측 모델의 오차(즉, 예측값과 정답의 차이)에 기초하여 예측 모델의 가중치를 업데이트하기 전에, 샘플 가중치에 기초하여 오차가 증감될 수 있다. 가령, 샘플 가중치가 높을수록 오차가 더 증가되고, 반대의 경우에는 오차가 감소될 수 있다. 또한, 증감된 오차에 기초하여 예측 모델의 가중치가 업데이트될 수 있다. 이러한 경우, 샘플 가중치가 높은 데이터 샘플에 대한 오차가 예측 모델에 더 큰 영향을 미치게 되기 때문에, 샘플 가중치에 따른 가중 학습이 효과적으로 이루어질 수 있다.
다른 몇몇 예들에서는, 샘플 가중치에 기초하여 데이터 샘플의 학습횟수가 달라질 수 있다. 가령, 샘플 가중치가 높은 데이터 샘플에 대해 추가 학습이 더 이루어질 수 있다.
또 다른 몇몇 예들에서는, 데이터 샘플을 예측 모델에 입력할 때, 샘플 가중치에 기초하여 데이터 샘플의 값(e.g. 리보솜 단백질의 발현 비율값)이 증감될 수 있다. 가령, 샘플 가중치가 높을수록 데이터 샘플의 값이 더 증가되고, 반대의 경우에는 데이터 샘플의 값이 감소될 수 있다. 이러한 경우, 샘플 가중치가 높은 데이터 샘플이 예측 모델의 학습에 더 큰 영향을 미치게 되기 때문에, 샘플 가중치에 따른 가중 학습이 효과적으로 이루어질 수 있다.
또 다른 몇몇 예들에서는, 샘플 가중치에 기초하여 데이터 샘플의 학습 순서가 달라질 수 있다. 가령, 샘플 가중치가 높은 데이터 샘플이 낮은 데이터 샘플보다 먼저 학습될 수 있다. 통상적으로, 먼저 학습된 데이터 샘플이 나중에 학습된 데이터 샘플보다 예측 모델의 학습에 더 큰 영향을 미칠 수 있기 때문이다.
또 다른 몇몇 예들에서는, 전술한 예시들의 조합에 기초하여 예측 모델이 학습될 수 있다.
한편, 몇몇 예들에서는, 학습 데이터에 질병의 진행 단계(e.g. 초기, 중기, 후기, 1기, 2기, 3기 등)에 관한 정보가 포함될 수 있다. 그리고, 질병 정보와 연관된 리보솜 단백질의 발현 패턴을 탐지할 때, 정상인의 리보솜 단백질 발현 비율과 진행 초기 단계에 있는 질병인의 리보솜 단백질 발현 비율이 비교될 수 있다. 이러한 경우, 질병 초기의 질병인에게 나타나는 발현 패턴에 기초하여 샘플 가중치가 부여될 것이기 때문에, 예측 모델이 초기 상태의 질병을 보다 잘 검출하도록 학습될 수 있다.
지금까지, 도 11을 참조하여 본 개시의 제1 실시예에 따른 가중 학습 방법에 대하여 설명하였다. 이하에서는, 도 12 및 도 13을 참조하여 본 개시의 제2 실시예에 따른 가중 학습 방법에 대하여 설명하도록 한다.
도 12 및 도 13은 본 개시의 제2 실시예에 따른 가중 학습 방법을 설명하기 위한 예시적인 도면이다. 이하, 도 12 및 도 13을 참조하여 설명한다.
제2 실시예에 따른 가중 학습 방법은 학습 데이터를 학습하여 임시 예측 모델(103)을 구축하는 단계에서 시작될 수 있다. 임시 예측 모델(103)의 구조 및 학습 방식은 어떠한 방식이 되더라도 무방하다.
다음 단계에서, 학습 데이터를 구성하는 제1 데이터 샘플(즉, 리보솜 데이터의 샘플)에서 리보솜 단백질의 발현 비율 중 적어도 일부를 변경하여 제2 데이터 샘플이 생성될 수 있다. 가령, 도 12에 도시된 바와 같이, 발현 비율이 기준치 이상인 리보솜 단백질(101, 102)의 발현 비율값이 변경될 수 있다. 다만, 본 단계의 세부 내용은 다양할 수 있다.
몇몇 예들에서는, 제1 데이터 샘플에서 발현 비율이 기준치 이상(또는 기준치 미만)인 리보솜 단백질의 발현 비율이 변경될 수 있다.
다른 몇몇 예들에서는, 제1 데이터 샘플에서 랜덤하게 선택된 리보솜 단백질의 발현 비율이 변경될 수 있다. 이때, 선택된 리보솜 단백질의 개수는 1개일 수도 있고, 복수일 수도 있다.
또 다른 몇몇 예들에서는, 제1 데이터 샘플에서 특정 리보솜 단백질의 발현 비율이 특정 값으로 변경되어 제2 데이터 샘플이 생성될 수 있다. 이때, 특정 값은 0일 수도 있고, 정상인 또는 질병인의 평균 발현 비율값일 수도 있다. 가령, 상기 제1 데이터 샘플이 정상인의 샘플인 경우, 상기 특정 리보솜 단백질의 발현 비율이 질병인의 평균 발현 비율값으로 변경될 수 있다. 반대의 경우라면, 정상인의 평균 발현 비율값으로 변경될 수 있다.
또 다른 몇몇 예들에서는, 전술한 예시들의 조합에 기초하여 제2 데이터 샘플이 생성될 수도 있다.
다음 단계에서, 제1 데이터 샘플을 임시 예측 모델(103)에 입력하여 제1 예측값(Out1)이 획득되고, 제2 데이터 샘플을 임시 예측 모델(103)에 입력하여 제2 예측값(Out2)이 획득될 수 있다. 그리고, 두 예측값의 차이(Diff)가 산출될 수 있다.
다음 단계에서, 두 예측값의 차이(Diff)에 기초하여 질병 정보와 연관된 리보솜 단백질의 발현 패턴이 탐지될 수 있다. 가령, 차이값(Diff)이 기준치 이상인 경우, 제1 데이터 샘플에서 발현 비율이 변경된 리보솜 단백질(101, 102)을 기초로 발현 패턴이 결정될 수 있다. 특정 리보솜 단백질(101, 102)의 발현 비율을 변경하였을 때, 임시 예측 모델의 예측값이 크게 달라진다는 것은 특정 리보솜 단백질(101, 102)의 발현 비율이 질병 정보 예측에 크게 영향을 미친다는 것(즉, 핵심적인 특징임)을 의미하기 때문이다. 발현 패턴을 결정하는 구체적인 방식에 관하여서는 도 11의 설명 부분을 더 참조하도록 한다.
다음 단계에서, 탐지된 발현 패턴을 이용하여 학습 데이터(111, 112)를 구성하는 각 데이터 샘플에 샘플 가중치가 부여될 수 있다. 이와 관련하여서는 도 11의 설명 부분을 더 참조하도록 한다.
다음 단계에서, 부여된 샘플 가중치를 기초로 학습 데이터(111, 112)를 재학습하여 예측 모델(113)이 구축될 수 있다. 가령, 샘플 가중치를 기초로 초기화된 상태(즉, 모델의 가중치가 초기화된 상태)의 예측 모델(113)이 재학습될 수 있다. 이와 관련하여서는 도 11의 설명 부분을 더 참조하도록 한다.
지금까지, 도 11 내지 도 13을 참조하여 본 개시의 몇몇 실시예들에 따른 가중 학습 방법에 대하여 설명하였다. 상술한 방법에 따르면, 질병 정보와 연관성이 높을 것으로 추정되는 데이터 샘플들에 대하여 가중 학습이 이루어질 수 있다. 이에 따라, 예측 모델에 대한 학습이 보다 효과적으로 이루어질 수 있으며, 그 예측 성능 또한 크게 향상될 수 있다.
이하에서는, 도 14를 참조하여 본 개시의 몇몇 실시예들에 따른 예측 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(120)에 대하여 설명하도록 한다.
도 14는 컴퓨팅 장치(120)를 나타내는 예시적인 하드웨어 구성도이다.
도 14에 도시된 바와 같이, 컴퓨팅 장치(120)는 하나 이상의 프로세서(121), 버스(123), 통신 인터페이스(124), 프로세서(121)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(122)와, 컴퓨터 프로그램(126)을 저장하는 스토리지(125)를 포함할 수 있다. 다만, 도 14에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 14에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다. 즉, 컴퓨팅 장치(120)에는, 도 14에 도시된 구성요소 이외에도 다양한 구성요소가 더 포함될 수 있다. 또는, 컴퓨팅 장치(120)는 도 14에 도시된 구성요소 중 일부를 제외하고 구성될 수도 있다.
프로세서(121)는 컴퓨팅 장치(120)의 각 구성의 전반적인 동작을 제어할 수 있다. 프로세서(121)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(121)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(120)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(122)는 각종 데이터, 명령 및/또는 정보를 저장할 수 있다. 메모리(122)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(125)로부터 하나 이상의 컴퓨터 프로그램(126)을 로드할 수 있다. 메모리(122)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 이에 한정되는 것은 아니다.
버스(123)는 컴퓨팅 장치(120)의 구성요소 간 통신 기능을 제공할 수 있다. 버스(123)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(124)는 컴퓨팅 장치(120)의 유무선 인터넷 통신을 지원할 수 있다. 또한, 통신 인터페이스(124)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(124)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(125)는 상기 하나 이상의 프로그램(126)을 비임시적으로 저장할 수 있다. 스토리지(125)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(126)은 메모리(122)에 로드될 때 프로세서(121)로 하여금 본 개시의 다양한 실시예들에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들(instructions)을 포함할 수 있다. 즉, 프로세서(121)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(126)은 학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 동작, 피검자의 검사용 리보솜 데이터를 획득하는 동작 및 상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 동작을 수행하도록 하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이러한 경우, 컴퓨팅 장치(120)를 통해 본 개시의 몇몇 실시예들에 따른 예측 장치(10)가 구현될 수 있다.
지금까지 도 1 내지 도 14를 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 개시의 실시예를 구성하는 모든 구성요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (13)

  1. 컴퓨팅 장치에서 피검자의 질병을 예측하는 방법으로서,
    학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 단계;
    상기 피검자의 검사용 리보솜 데이터를 획득하는 단계; 및
    상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 단계를 포함하되,
    상기 학습용 리보솜 데이터와 상기 검사용 리보솜 데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함하는,
    질병 예측 방법.
  2. 제1 항에 있어서,
    상기 학습용 리보솜 데이터는 대형 서브유닛과 소형 서브유닛 간의 단백질 발현 비율, 발현량이 기준치 이상인 리보솜 단백질 및 발현량이 기준치 이하인 리보솜 단백질에 관한 데이터를 더 포함하는,
    질병 예측 방법.
  3. 제1 항에 있어서,
    상기 학습 데이터는 대상 조직의 이미지를 더 포함하고,
    상기 질병 예측 모델은,
    상기 대상 조직의 이미지를 입력받아 상기 질병 정보와 연관된 제1 출력값을 출력하는 제1 신경망,
    상기 학습용 리보솜 데이터를 입력받아 상기 질병 정보와 연관된 제2 출력값을 출력하는 제2 신경망 및
    상기 제1 출력값 및 상기 제2 출력값을 입력받아 상기 대상 조직에 관한 질병 정보를 예측하는 제3 신경망을 포함하며,
    상기 제1 신경망은 컨볼루션 신경망(convolutional neural networks)으로 이루어지는,
    질병 예측 방법.
  4. 제1 항에 있어서,
    상기 질병 예측 모델은,
    상기 리보솜 단백질에 관한 이미지 형태의 데이터를 입력받아 상기 질병 정보와 연관된 제1 출력값을 출력하는 제1 신경망,
    상기 학습용 리보솜 데이터를 입력받아 상기 질병 정보와 연관된 제2 출력값을 출력하는 제2 신경망 및
    상기 제1 출력값 및 상기 제2 출력값을 입력받아 질병 정보를 예측하는 제3 신경망을 포함하며,
    상기 제1 신경망은 컨볼루션 신경망(convolutional neural networks)으로 이루어지는,
    질병 예측 방법.
  5. 제4 항에 있어서,
    상기 이미지 형태의 데이터는 리보솜 내에서 리보솜 단백질의 위치에 따른 발현량 또는 발현 비율을 나타내는 것인,
    질병 예측 방법.
  6. 제4 항에 있어서,
    상기 이미지 형태의 데이터는 리보솜 단백질과 대응되는 2개의 축에 의해 형성되는 2차원 평면 상에 리보솜 단백질 쌍의 위치 관계에 따른 값을 할당함으로써 생성된 것인,
    질병 예측 방법.
  7. 제1 항에 있어서,
    상기 질병 정보는 질병인의 전체생존기간과 무병생존기간에 관한 정보를 포함하고,
    상기 질병 예측 모델은,
    상기 학습용 리보솜 데이터를 입력받아 상기 질병 정보와 연관된 출력값을 출력하는 제1 신경망,
    상기 출력값을 입력받아 상기 전체생존기간을 예측하는 제2 신경망 및
    상기 출력값을 입력받아 상기 무병생존기간을 예측하는 제3 신경망을 포함하며,
    상기 질병 예측 모델을 구축하는 단계는,
    상기 학습용 리보솜 데이터와 상기 전체생존기간에 관한 정보를 이용하여 상기 제1 신경망과 상기 제2 신경망을 학습시키는 단계; 및
    상기 학습용 리보솜 데이터와 상기 무병생존기간에 관한 정보를 이용하여 상기 제1 신경망과 상기 제3 신경망을 학습시키는 단계를 포함하는,
    질병 예측 방법.
  8. 제7 항에 있어서,
    상기 제1 신경망과 상기 제2 신경망을 학습시키는 단계는,
    상기 학습 데이터를 상기 전체생존기간과 상기 무병생존기간의 차이가 기준치 이하인 제1 학습 데이터와 기준치 이상인 제2 학습 데이터로 분류하는 단계;
    상기 제1 학습 데이터를 이용하여 상기 제1 신경망을 학습시키는 단계; 및
    상기 제2 학습 데이터를 이용하여 상기 제2 신경망을 학습시키는 단계를 포함하는,
    질병 예측 방법.
  9. 제1 항에 있어서,
    상기 질병 예측 모델을 구축하는 단계는,
    정상인의 리보솜 단백질 발현 비율과 질병인의 리보솜 단백질 발현 비율을 비교하여, 상기 질병 정보와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계;
    상기 탐지된 발현 패턴을 이용하여 상기 학습 데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계; 및
    상기 샘플 가중치를 기초로 상기 학습 데이터를 학습하는 단계를 포함하는,
    질병 예측 방법.
  10. 제9 항에 있어서,
    상기 질병 정보는 질병의 진행 단계에 관한 정보를 더 포함하고,
    상기 리보솜 단백질의 발현 패턴을 탐지하는 단계는,
    상기 정상인의 리보솜 단백질 발현 비율과 진행 초기 단계에 있는 상기 질병인의 리보솜 단백질 발현 비율을 비교하는 단계를 포함하는,
    질병 예측 방법.
  11. 제1 항에 있어서,
    상기 질병 예측 모델을 구축하는 단계는,
    상기 학습 데이터를 학습하여 임시 질병 예측 모델을 구축하는 단계;
    상기 학습용 리보솜 데이터를 구성하는 제1 리보솜 데이터 샘플에서, 리보솜 단백질의 발현 비율 중 적어도 일부를 변경하여 제2 리보솜 데이터 샘플을 생성하는 단계;
    제1 리보솜 데이터 샘플을 상기 임시 질병 예측 모델에 입력하여 제1 예측값을 획득하고, 상기 제2 리보솜 데이터 샘플을 상기 임시 질병 예측 모델에 입력하여 제2 예측값을 획득하는 단계;
    상기 제1 예측값과 상기 제2 예측값의 차이에 기초하여 상기 질병 정보와 연관된 리보솜 단백질의 발현 패턴을 탐지하는 단계;
    상기 탐지된 발현 패턴을 이용하여 상기 학습 데이터를 구성하는 데이터 샘플에 샘플 가중치를 부여하는 단계; 및
    상기 샘플 가중치를 기초로 상기 학습 데이터를 재학습하여 상기 질병 예측 모델을 구축하는 단계를 포함하는,
    질병 예측 방법.
  12. 하나 이상의 인스트럭션들을 저장하는 메모리; 및
    상기 저장된 하나 이상의 인스트럭션들을 실행시킴으로써,
    학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 동작,
    피검자의 검사용 리보솜 데이터를 획득하는 동작 및
    상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 동작을 수행하는 프로세서를 포함하되,
    상기 학습용 리보솜 데이터와 상기 검사용 리보솜 데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함하는,
    질병 예측 장치.
  13. 컴퓨팅 장치와 결합되어,
    학습용 리보솜 데이터와 질병 정보를 포함하는 학습 데이터를 학습하여 질병 예측 모델을 구축하는 단계;
    피검자의 검사용 리보솜 데이터를 획득하는 단계; 및
    상기 질병 예측 모델을 이용하여, 상기 검사용 리보솜 데이터로부터 상기 피검자의 질병 정보를 예측하는 단계를 실행시키되,
    상기 학습용 리보솜 데이터와 상기 검사용 리보솜 데이터는 리보솜 단백질의 발현 비율에 관한 데이터를 포함하는, 컴퓨터 판독가능한 기록매체에 저장된,
    컴퓨터 프로그램.
PCT/KR2020/018236 2020-01-02 2020-12-14 질병 예측 방법, 장치 및 컴퓨터 프로그램 WO2021137471A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/789,342 US20230042132A1 (en) 2020-01-02 2020-12-14 Disease prediction method, apparatus, and computer program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20200000506 2020-01-02
KR10-2020-0000506 2020-01-02
KR1020200121316A KR102290875B1 (ko) 2020-09-21 2020-09-21 질병 예측 방법, 장치 및 컴퓨터 프로그램
KR10-2020-0121316 2020-09-21

Publications (1)

Publication Number Publication Date
WO2021137471A1 true WO2021137471A1 (ko) 2021-07-08

Family

ID=76687418

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/018236 WO2021137471A1 (ko) 2020-01-02 2020-12-14 질병 예측 방법, 장치 및 컴퓨터 프로그램

Country Status (2)

Country Link
US (1) US20230042132A1 (ko)
WO (1) WO2021137471A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006052218A1 (en) * 2004-10-06 2006-05-18 Agency For Science, Technology And Research Methods, systems, and arrays based on correlating p53 status with gene expression profiles, for classification, prognosis, and diagnosis of cancers
US20180070825A1 (en) * 2014-10-21 2018-03-15 uBiome, Inc Method and system for microbiome-derived characterization, diagnostics and therapeutics for conditions associated with functional features
KR101884609B1 (ko) * 2017-05-08 2018-08-02 (주)헬스허브 모듈화된 강화학습을 통한 질병 진단 시스템
KR20190021471A (ko) * 2017-02-02 2019-03-05 사회복지법인 삼성생명공익재단 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006052218A1 (en) * 2004-10-06 2006-05-18 Agency For Science, Technology And Research Methods, systems, and arrays based on correlating p53 status with gene expression profiles, for classification, prognosis, and diagnosis of cancers
US20180070825A1 (en) * 2014-10-21 2018-03-15 uBiome, Inc Method and system for microbiome-derived characterization, diagnostics and therapeutics for conditions associated with functional features
KR20190021471A (ko) * 2017-02-02 2019-03-05 사회복지법인 삼성생명공익재단 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
KR101884609B1 (ko) * 2017-05-08 2018-08-02 (주)헬스허브 모듈화된 강화학습을 통한 질병 진단 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DOLEZAL JAMES M., DASH ARIE P., PROCHOWNIK EDWARD V.: "Diagnostic and prognostic implications of ribosomal protein transcript expression patterns in human cancers", BMC CANCER, vol. 18, no. 1, 1 December 2018 (2018-12-01), XP055826317, DOI: 10.1186/s12885-018-4178-z *

Also Published As

Publication number Publication date
US20230042132A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
WO2018143540A1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
WO2022124724A1 (ko) 기계 학습 기반의 예후 예측 방법 및 그 장치
WO2022124725A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2017135496A1 (ko) 약물과 단백질 간 관계 분석 방법 및 장치
WO2019172498A1 (ko) 종양의 악성도와 악성도 추론의 근거를 제공하는 컴퓨터 보조 진단 시스템 및 그 방법
WO2022005090A1 (ko) 진단 결과를 제공하기 위한 방법 및 장치
WO2022119162A1 (ko) 의료 영상 기반의 질환 예측 방법
WO2022255564A1 (ko) 생체신호 분석 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2020032561A2 (ko) 다중 색 모델 및 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2019045147A1 (ko) 딥러닝을 pc에 적용하기 위한 메모리 최적화 방법
WO2021137471A1 (ko) 질병 예측 방법, 장치 및 컴퓨터 프로그램
WO2021075742A1 (ko) 딥러닝 기반의 가치 평가 방법 및 그 장치
WO2024058465A1 (ko) 연합 학습을 위한 지역 신경망 모델 학습 방법
WO2015126058A1 (ko) 암 예후 예측 방법
KR102290875B1 (ko) 질병 예측 방법, 장치 및 컴퓨터 프로그램
WO2023167448A1 (ko) 병리 슬라이드 이미지를 분석하는 방법 및 장치
WO2023101417A1 (ko) 딥러닝 기반의 강수량 예측 방법
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2018169121A1 (ko) 인공신경망을 이용한 활액막 육종의 예후 예측 방법, 장치 및 프로그램
WO2022154586A1 (ko) 화합물의 타겟 단백질을 결정하는 방법 및 상기 방법을 수행하는 타겟 단백질 결정 장치
WO2021137470A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
WO2022220496A1 (ko) 신경망 기반의 생물학적상태데이터 변환 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20909239

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20909239

Country of ref document: EP

Kind code of ref document: A1