WO2018124854A1 - 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 - Google Patents

만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 Download PDF

Info

Publication number
WO2018124854A1
WO2018124854A1 PCT/KR2018/000061 KR2018000061W WO2018124854A1 WO 2018124854 A1 WO2018124854 A1 WO 2018124854A1 KR 2018000061 W KR2018000061 W KR 2018000061W WO 2018124854 A1 WO2018124854 A1 WO 2018124854A1
Authority
WO
WIPO (PCT)
Prior art keywords
disease
chronic kidney
risk
kidney disease
disease risk
Prior art date
Application number
PCT/KR2018/000061
Other languages
English (en)
French (fr)
Inventor
박수경
김종효
태주호
안충현
이주연
Original Assignee
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교 산학협력단 filed Critical 서울대학교 산학협력단
Publication of WO2018124854A1 publication Critical patent/WO2018124854A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Definitions

  • the present application relates to apparatus and methods for predicting disease risk of chronic kidney disease.
  • the most common disease among which the health risk prediction tool is being implemented and the high risk group is actively mediated is breast cancer, and according to the breast cancer risk assessment model implemented in the West, it can be classified into three types.
  • the third is a model used for predicting the occurrence of hereditary breast cancer, and predicting the possibility of breast cancer based on the probability of having a BRCA gene mutation or the possibility of having a BRCA gene mutation based on family history.
  • the Korean Family Medical Association has developed a Korean health risk prediction tool, and by applying this, it provides a personalized health management program service on the website ⁇ Health iN> for the citizens who have been examined by the National Health Insurance Corporation.
  • the health risk prediction tool provided by the National Health Insurance Corporation has been proved to be valid for mortality, the analysis of individual causes of death is insufficient, and the purpose of the tool is to find and implement correctable health risk factors. Its main purpose is to be inadequate for measuring an individual's current state of health.
  • the present application is to solve the problems of the prior art, to build an algorithm for predicting the risk of chronic kidney disease using the individual's lifestyle, health status and genetic information. Based on the established algorithm, the present invention provides an apparatus and method for predicting disease risk of chronic kidney disease that can be used to predict a final health condition such as risk of chronic kidney disease or death.
  • the present application is to solve the above-described problems of the prior art, the final health of the chronic kidney disease, cardiovascular disease and the final death of the disease can be seen as a complication of chronic kidney disease and a bad health condition (deterioration) It is an object of the present invention to provide an apparatus and method for predicting disease risk of chronic kidney disease that can be predicted as a condition.
  • the present invention is to solve the above-mentioned problems of the prior art, using a conventional statistical probability model and a multi-perceptron artificial neural network (ANN) method of pre-analyzing the genetic information big data and selecting the genetic index Select key genes.
  • the aim of this study is to provide an apparatus and method for selecting additional genes in the artificial neural network and predicting the risk of chronic kidney disease, which can be predicted by three methods: the risk of chronic kidney disease, cardiovascular disease, and death. .
  • the present application is to solve the above-mentioned problems of the prior art, and the present application is based on the neural network-based prediction model and statistical probability model based on the genomic data sources and tracking data sources of the Ansan-Anseong Cohort, which is a part of the Korean Genome Epidemiology Project of the Korea Center for Disease Control
  • a device for predicting disease risk of chronic kidney disease that can build a disease risk prediction model based on the model and predict the risk of developing chronic kidney disease by using the established model to indicate the lifestyle change guideline for primary prevention. To provide a method.
  • the present application is to solve the above problems of the prior art, to build a disease occurrence prediction model based on artificial neural network and statistical probability based disease occurrence prediction model, calculate the probability value of the subject for each disease occurrence risk, and visualize
  • the purpose of this study is to provide an apparatus and method for predicting disease risk of chronic kidney disease that can build a customized preventive management service model through an algorithm.
  • the device for predicting the disease risk of chronic kidney disease, the genetic information of the disease of the chronic kidney disease and the disease risk of the chronic kidney disease A gene information machine learning model generation unit for generating a gene information machine learning model for learning a degree of a relationship between the gene information and the disease risk of the chronic kidney disease as an input, the gene using the gene information machine learning model
  • Disease risk may include a disease risk prediction unit for predicting the subject disease risk of the
  • the apparatus for predicting chronic kidney disease disease risk is based on the presence or value of each of the genetic information by inputting the genetic information of the diseased person of the chronic kidney disease and the disease risk of the chronic kidney disease.
  • the apparatus for predicting chronic kidney disease disease risk comprises inputting the plurality of state variables, the genetic information and the disease risk of chronic kidney disease of the sick person of the chronic kidney disease, Further comprising a statistical probability model generator for generating a statistical probability model probabilistically representing the disease risk of the chronic kidney disease according to the presence or value of at least one or more of the genetic information, the machine learning model and the statistical probability model It may include a disease risk prediction unit for predicting the subject disease risk of the subject by applying the subject state variable and subject gene information of the subject.
  • the statistical probability model generation unit the plurality of state variables, the genetic information and the disease risk of the chronic kidney disease of the sick of the chronic kidney disease as input, the said of said plurality of state variables
  • a basic statistical probability model that selects at least one or more state variables associated with chronic kidney disease, and generates a basic statistical probability model that probabilistically represents the disease risk of the chronic kidney disease relative to the presence or value of the at least one state variable. It may include a weight statistical probability model generator for generating the statistical probability model from the basic statistical probability model by applying a weight to the disease risk of the chronic kidney disease according to the presence of the generation unit and the genetic information associated with the chronic kidney disease. have.
  • the genetic information machine learning model may include the input layer when the first state variable of the plurality of state variables is an input layer and the second state variable of the plurality of state variables is a hidden layer.
  • a second learning for learning the degree of the relationship between the hidden layer, and a second learning for learning the degree of the relationship between the hidden layer and the output layer when the hidden layer and the genetic information are the input layer and the disease risk is the output layer.
  • the genetic information machine learning model may include the input layer when the previous view state variables of the plurality of state variables are input layers and the current view state variables of the plurality of state variables are hidden layers.
  • a second learning for learning the degree of the relationship between the hidden layer, and a second learning for learning the degree of the relationship between the hidden layer and the output layer when the hidden layer and the genetic information are the input layer and the disease risk is the output layer.
  • the genetic information machine learning model is a first state variable and a previous view hidden layer of the plurality of state variables as an input layer and a second state variable or a current view state variable of the plurality of state variables
  • the first learning to learn the degree of the relationship between the input layer and the hidden layer, and when the hidden layer and the genetic information as the input layer and the disease risk as the output layer, between the hidden layer and the output layer
  • the first learning is [math] Based on Equation 1, the degree of the relationship between the input layer and the hidden layer,
  • Is the hidden layer at time t Is the hidden layer earlier in time t, Is the first state variable, Is a first weight that indicates the degree of the first type of relationship between the input layer and the hidden layer, May be a second weight indicating the degree of the second type of relationship between the input layer and the hidden layer.
  • the second learning is to learn the degree of the relationship between the hidden layer and the output layer based on [Equation 1] and [Equation 2],
  • Is a third weight indicating the degree of relationship between the hidden layer and the output layer, Is the hidden layer, Is a fourth weight indicating the degree of the relationship between the genetic information and the output layer in the input layer, z may be genetic information in the input layer.
  • the genetic information machine learning model generation unit the degree of the relationship between the disease risk of the chronic kidney disease and at least one or more of the plurality of state variables and genetic information based on [Equation 3] To update the weights to the error that occurs when creating a machine learning model that learns,
  • E is the detection value of the error of the disease risk machine learning model generation unit 140
  • t is the occurrence of chronic kidney disease
  • y is the disease risk predicted through the machine learning model
  • the disease risk prediction unit may visualize the disease risk prediction result of the subject based on a preset classification item.
  • the disease risk prediction unit may provide disease prevention management information associated with a disease risk prediction result of the subject.
  • a method for predicting the disease risk of chronic kidney disease, the genetic information of the diseased person of the chronic kidney disease and the disease risk of the chronic kidney disease, the gene information and the chronic kidney disease Generating a genetic information machine learning model for learning the degree of the relationship between disease risk of the disease, Selecting key gene information from the genetic information using the genetic information machine learning model, Life of the sick with the chronic kidney disease
  • a plurality of state variables including state variables and health state variables, the core gene information and the disease risk of chronic kidney disease are input, and at least one or more of the plurality of state variables and key gene information and diseases of the chronic kidney disease Disease risk machine learning model to learn the degree of the relationship between risk Generating a subject, receiving subject state variable and subject gene information of the subject, and predicting subject disease risk of the subject by applying subject state variable and subject gene information of the subject to the disease risk machine learning model. It may include.
  • the disease risk based on the neural network-based prediction model and the statistical probability model based on the genome data and tracking data of the Ansan-Anseong cohort which are part of the Korean genome epidemiological research project of the Korea Center for Disease Control and Prevention.
  • Predictive models can be built, and the model can be used to predict the probability of developing chronic kidney disease and to guide lifestyle change guidance for primary prevention.
  • the problem solving means of the present application is to build an algorithm for predicting the risk of chronic kidney disease using an individual's lifestyle, health status and genetic information. Based on established algorithms, it can be used to predict final health conditions such as risk of chronic kidney disease or death.
  • the core genes are selected by using the existing statistical probability model and the multi-perceptron artificial neural network (ANN) method to pre-analyze the genetic information big data and select the genetic index. do. Additional genes can be selected in the neural network, and the final health conditions such as chronic kidney disease, cardiovascular disease risk and death risk can be predicted by three methods.
  • ANN multi-perceptron artificial neural network
  • problem solving means of the present application can be applied to the health care field application of the general population of the community, or to select a high risk group in the clinical trial, and using the web (WEB) and the app (APP) of the risk prediction model. It can be used for products.
  • FIG. 1 is a schematic system of an apparatus for predicting a disease of chronic kidney disease according to an embodiment of the present application.
  • Figure 2 is a schematic diagram of a device for predicting the disease of chronic kidney disease according to an embodiment of the present application.
  • FIG. 3 is a schematic diagram illustrating a process of predicting a subject's chronic disease disease risk by applying a subject's subject state variable and subject gene information to a disease risk machine learning model generator and a genetic information statistical probability model generator according to an embodiment of the present application; It is a figure shown.
  • Figure 4 is an exemplary view for explaining an embodiment for evaluating the risk of disease risk risk occurrence probability prediction and death risk of genetic information statistical probability model generation unit according to an embodiment of the present application.
  • FIG. 5 is a view for explaining an embodiment of the chronic kidney disease risk prediction process according to an embodiment of the present application.
  • FIG. 6 is a view for explaining an embodiment of a chronic kidney disease disease risk prediction apparatus according to an embodiment of the present application.
  • FIG. 7 is a view for explaining an embodiment of the genetic information statistical probability model generating unit according to an embodiment of the present application.
  • FIG. 8 is a view showing clustering of a plurality of chronic kidney disease according to an embodiment of the present application.
  • Figure 9 is a visualization of the guidance map for the disease risk of chronic kidney disease according to an embodiment of the present application.
  • 10A and 10J are diagrams illustrating an example of predicting a subject's chronic disease disease risk by selecting a core gene and applying subject state variable and subject gene information of the subject according to an embodiment of the present disclosure.
  • 11A to 11F are diagrams for explaining an example of a prediction verification process of a chronic kidney disease risk prediction model according to an embodiment of the present application.
  • FIG. 12 is a schematic flowchart of a method for predicting chronic kidney disease disease risk according to an embodiment of the present disclosure.
  • the present invention relates to a device for predicting disease risk of chronic kidney disease that can be used to predict.
  • FIG. 1 is a schematic system diagram of an apparatus 100 for predicting a disease risk of chronic kidney disease according to an embodiment of the present application.
  • the apparatus 100 for predicting disease risk of chronic kidney disease may be linked to the disease prediction server 200 through a network, but is not limited thereto.
  • the disease prediction server 200 may include a genome data source of the Ansan-Anseong cohort, which is part of the Korean Genome Epidemiology Research Project of the Korea Center for Disease Control, and tracked trace data from 1st to 7th.
  • the disease prediction server 200 is a device 100 for predicting a disease of chronic kidney disease, which provides information on the genome data sources and tracking data sources of the Ansan-Anseong cohort, which is part of the Korean Genome Epidemiology Research Project, by the Korea Centers for Disease Control and Prevention. Can be.
  • the apparatus 100 for predicting a disease of chronic kidney disease is a device having at least one interface device, for example, a smartphone, a smart pad, a tablet. PC, wearable device, etc.
  • Personal Communication System PCS
  • GSM Global System for Mobile Communication
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • Wireless communication devices of all kinds such as Code Division Multiple Access (CDMA) -2000, W-Code Division Multiple Access (W-CDMA), and Wireless Broadband Internet (WBRO) terminals, and fixed terminals such as desktop computers and smart TVs.
  • a disease prediction application for chronic kidney disease may be installed and run to provide a user with prediction information on disease risk, but is not limited thereto.
  • the method of predicting a disease of chronic kidney disease described below may be performed in the apparatus 100 for predicting a disease of chronic kidney disease.
  • each step of the method for predicting a disease of chronic kidney disease may be performed at the disease prediction server 200.
  • some of the steps of the method for predicting a disease of chronic kidney disease may be performed in the apparatus 100 for predicting a disease of chronic kidney disease, and the remaining steps may be performed in the disease prediction server 200.
  • the apparatus 100 for predicting a disease of chronic kidney disease may receive a user input as a part of a method of predicting a disease of chronic kidney disease, transmit the received user input to a server, and respond to the user input.
  • the disease prediction server 200 Only the function of displaying the information generated from the server on the screen may be performed, and the remaining steps of the method of predicting the disease of chronic kidney disease may be performed by the disease prediction server 200.
  • the method for predicting a disease of chronic kidney disease is performed in the apparatus 100 for predicting a disease of chronic kidney disease will be described.
  • the apparatus 100 for predicting a disease of chronic kidney disease visualizes the predicted risk in an algorithm for predicting the risk of developing chronic kidney disease, and visualizes the predicted disease occurrence probability process and the intermediate health result.
  • a disease risk prevention management service model can be created.
  • the apparatus 100 for predicting a disease of chronic kidney disease may be based on an artificial intelligence algorithm and pre-analyzes genetic information big data and selects a genetic index.
  • Two key artificial neural networks (ANN) can be used to select key genes.
  • the apparatus 100 for predicting a disease of chronic kidney disease may select an additional gene in an artificial neural network.
  • the apparatus 100 for predicting a disease of chronic kidney disease may predict the risk of chronic kidney disease, cardiovascular disease, and death, which are final health conditions, by using three methods.
  • the first method is a multi-perceptron artificial neural network (ANN) method, which is one of the machine learning methods
  • the second method is a random forest and boosting method which is a machine learning method
  • the third method is an environmental factor
  • ANN multi-perceptron artificial neural network
  • health factors are pre-selected and modeled in advance, and then in this model, each disease or mortality and causality is considered to be inverse causal or Or a factor that may be included due to chance, noise, or bias, then add a medically important factor or missing factor variable to form a final model, then use the final model to determine time-dependent
  • the Cox regression model can predict the final health risk.
  • the apparatus 100 for predicting a disease of chronic kidney disease may apply an artificial neural network method to reduce the dimension of variables and prioritize the health factors.
  • the input order may be included in the order of the occurrence of the disease, the worsening, and the death after the factors determined from the time of birth in consideration of the concept of the natural history of the disease from the time of birth.
  • the apparatus 100 for predicting a disease of chronic kidney disease includes an information input unit 110, a gene information machine learning model generator 120, a key gene information selection unit 130, and a disease risk machine learning model.
  • Generating unit 140, genetic information statistical probability model generating unit 150, statistical probability model generating unit 160 and disease risk prediction unit 170 but is not limited thereto.
  • the information input unit 110 may receive the subject state variable and the subject gene information of the subject.
  • the information input unit 110 may provide a plurality of living state variables and health state variables to the user terminal to obtain the subject state variables of the subject. For example, a list corresponding to a plurality of living state variables and health state variables is output to the user terminal, and the user may input information corresponding to his or her living state variable and health state variable.
  • the state variables include demographic characteristics such as age, gender, household income, epidemiological information such as family history, past history, drinking power, smoking history, physical activity, lifestyle, such as nutrition, height, weight, Lifestyle variables and health variables of subjects with body measurements and clinical information such as blood test results.
  • Genetic information may be genetic information collected in the form of a single base polymorphism.
  • the information input unit 110 may receive the subject state variable and the subject gene information of the subject from the disease prevention server 200.
  • the disease prevention server 200 may provide the genomic data source of the Ansan-Anseong cohort and the traced trace data from 1st to 7th, which are part of the Korean Genome Epidemiology Research Project of the Korea Center for Disease Control, as subject status variables and subject gene information of the subject. It may be, but is not limited thereto.
  • Gene information machine learning model generation unit 120 as the input of the genetic information of the diseased patients of chronic kidney disease and the disease risk of chronic kidney disease, the genetic information for learning the degree of the relationship between the genetic information and the disease risk of chronic kidney disease Create machine learning models.
  • the core gene information selecting unit 130 may select the core gene information from the gene information using a gene information machine learning model.
  • the core gene information selecting unit 130 may select the core gene information from the genetic information using the genetic information statistical probability model and the genetic information machine learning model.
  • the core gene information selecting unit 130 may include values for predicting disease occurrence and mortality risk, input big data factor information, and include predicted values trained using machine learning and minimally medical causal factors. Two statistical probability prediction values can be calculated.
  • the core genetic information selection unit 130 is to predict the risk by the model with the optimal predictive power according to the data state (degree of missing, degree of misclassification, quality status, etc.) and the quantity of the individual. Can be. For example, when the amount of information of an individual is big data level, the predictive value is calculated by using a machine learning method with better predictive power, and when the information of the individual is limited and composed of minimal medical information, the statistical model is configured to calculate the predicted value. can do.
  • the core genetic information selection unit 130 is a genetic indicator associated with the disease 1) genetic indicators associated with the estimated glomerular filtration rate, 2) genetic indicators associated with albuminuri (Urine albumin), 3) proteinuria (Urine) Gene markers associated with total protein can be selected and selected as key genes1.
  • the core gene information selection unit 130 selects a genetic index by placing a significant probability value between 1x10-8 and 1x10-6 using an artificial neural network (ANN) model of a multi-layer perceptron structure. Genetic indicators can be selected as key genes2.
  • ANN artificial neural network
  • the core genetic information selection unit 130 adjusts the number of SNP indexes, precision, accuracy, and explanatory power, which are selected by adjusting the significant probability value between 1x10-5 and 1x10-3 and increasing it by 10-1. Can be determined based on the probability value to determine the minimum reference probability value by selecting the key and additional genetic indicators.
  • the disease risk machine learning model generation unit 140 receives a plurality of state variables including living state variables and health state variables of the sick person with chronic kidney disease, key genetic information, and disease risk of chronic kidney disease, and receives a plurality of state states.
  • a disease risk machine learning model can be generated that learns the degree of the relationship between at least one of the variables and key genetic information and the disease risk of chronic kidney disease.
  • the disease risk machine learning model generation unit 140 may generate a machine learning model that learns information about a relationship between at least one or more of a plurality of state variables and genetic information and disease risk of chronic kidney disease.
  • the machine learning model may generate a machine learning model using a recurrent neural network (RNN) and a multi-layer perceptron neural network (MLP).
  • RNN recurrent neural network
  • MLP multi-layer perceptron neural network
  • the disease risk machine learning model generation unit 140 may input a gene associated with each disease of chronic kidney disease by connecting the multilayer perceptron neural network to the circulatory neural network.
  • the disease risk machine learning model generation unit 140 sequentially inputs the cyclic neural network to analyze not only correlations between variables, but also correlations between variables through a plurality of repeated state variables. Can be analyzed.
  • the disease risk machine learning model generation unit 140 may repeatedly measure the subject state variable and the subject gene information of the subject and input the repeatedly measured information. The disease risk machine learning model generation unit 140 may check whether there is a change in lifestyle with respect to repeated measured values such as lifestyle, body measurements, and clinical values based on the subject's subject state variables and subject gene information. . The disease risk machine learning model generation unit 140 may generate a cluster for each group by dividing similar groups among the repeated measured values, and may distinguish a group showing a similar lifestyle change pattern by gender and disease. The disease risk machine learning model generation unit 140 may select a significant gene related to a change in lifestyle for each disease of chronic kidney disease, based on the subject gene information of the subject. Significant genes may be genes associated with each disease of chronic kidney disease.
  • the disease risk machine learning model generation unit 140 sequentially inputs the subject state variable of the subject repeatedly measured in the circulatory neural network of the NPS, and the lifestyle of each disease of chronic kidney disease Significant genes associated with the change can be linked to the circulatory neural network through multilayer perceptron.
  • the disease risk machine learning model generation unit 140 may generate a machine learning model by applying a cyclic neural network among artificial neural networks capable of inputting time series data such as a plurality of state variables including living state variables and health state variables. .
  • the disease risk machine learning model generation unit 140 may additionally connect the multilayer perceptron neural network to the last layer of the existing circulatory neural network in order to integrate the genetic information collected at a single point in time.
  • the disease risk machine learning model generation unit 140 may set the presence / absence of chronic kidney disease in the last output layer.
  • the artificial neural network may be divided into three layers, an input layer, a hidden layer, and an output layer.
  • Each layer consists of nodes, and the input layer can receive input data from outside the system and send the input data to the system.
  • the hidden layer is located inside the system and can take over input values and process the input data to produce a result.
  • the output layer can calculate the system output value based on the input value and the current system state.
  • the input layer may input values of a predictor variable (input variable) for deriving a predictive value (output variable). If there are n input values in the input layer, the input layer has n nodes, and the values input to the input layer in the present application may be a plurality of state variables and genetic information including living state variables and health states.
  • the hidden layer may receive input values from a plurality of input nodes, calculate weighted sums, and apply the values to the transition functions to the output layer.
  • the input layer of the machine learning model may be a plurality of state information, gene information, a hidden layer of a previous time point
  • the hidden layer may be a plurality of state information, a grouping of a plurality of state information
  • the output layer may be disease risk. It may be to indicate.
  • the machine learning model may provide information on the relationship between the input layer and the hidden layer.
  • the first learning to learn may be performed.
  • the machine learning model is a first learning that learns the information of the relationship between the input layer and the hidden layer when the previous view state variable of the plurality of state variables is the input layer and the current view state variable of the plurality of state variables is the hidden layer. Can be performed.
  • the machine learning model can learn the degree of the relationship between the input layer and the hidden layer based on [Equation 1].
  • the degree of relationship may mean a value obtained by calculating a weighted sum of information input to the input layer, but is not limited thereto.
  • Is the hidden layer at time t Is the hidden layer earlier in time t, Is the first state variable, Is a first weight that indicates the degree of the first type of relationship between the input layer and the hidden layer, Is a second weight that indicates the degree of the second type of relationship between the input layer and the hidden layer.
  • Is the first state variable among the state variables at time t Denotes the hidden layer at time t Is a weight between a plurality of state variables (input variables) and the hidden layer, May be a weight between the hidden layers, but is not limited thereto.
  • the degree of the first type of relationship may be a correlation (weighting) of a plurality of state variables over time
  • the degree of the second type of relationship may be a correlation (weighting) of a plurality of state variables.
  • the machine learning model inputs a plurality of state variables (e.g., individual lifestyle and health state variables) repeatedly measured in the circulatory neural network expressed in [Equation 1], and not only correlations with time but also lifestyle and health.
  • the correlation between state variables can be analyzed.
  • the machine learning model may perform a second learning to learn the information of the relationship between the hidden layer and the output layer when the hidden layer and the genetic information as the input layer and the disease risk as the output layer.
  • the machine learning model may perform a second learning that learns information of the relationship between the hidden layer and the output layer when the hidden layer and the genetic information are the input layer and the disease risk is the output layer.
  • the machine learning model can learn the degree of the relationship between the hidden layer and the output layer based on [Equation 2].
  • the second learning can learn the degree of the relationship between the hidden layer and the output layer based on [Equation 1] and [Equation 2].
  • the machine learning model can learn the information of the relationship between the input layer, the hidden layer, and the output layer based on [Equation 1] and [Equation 2], and the prediction result of disease risk as the result of the output layer.
  • y is the output layer
  • z may be genetic information in the input layer.
  • the third weight is the degree of the relationship representing the relationship between the plurality of state variables and the output layer to predict disease risk
  • the fourth weight is the degree of the relationship between the genetic information and the output layer to weight the particular gene. Can be.
  • the genetic information since the genetic information has been collected at a single time point, it may be input by connecting a multilayer perceptron neural network to the last layer of the circulatory neural network as shown in [Equation 2].
  • the genetic information may be collected in a single nucleotide polymorphism form and may be input by converting known genetic information into a risk fat according to an allele for each chronic kidney disease.
  • the machine learning model can learn the degree of the relationship between the hidden layer and the output layer, that is, the weight between the hidden layer and the output layer.
  • the disease risk machine learning model generation unit 140 is based on [Equation 3] the degree of the relationship between the disease risk of chronic kidney disease and at least one or more of the plurality of state variables and genetic information
  • the weight may be updated for an error generated when generating a machine learning model for learning.
  • E is the detection value of the error of the disease risk machine learning model generation unit 140
  • t is the occurrence of chronic kidney disease
  • y is the disease risk predicted through the machine learning model
  • Equation 3 is an error expression of the disease risk machine learning model generation unit 140 can learn the weight of the artificial neural network through the back propagation algorithm calculated error.
  • the L2 purification formula was added, and t may represent the occurrence or absence of actual chronic kidney disease, but is not limited thereto.
  • the disease risk machine learning model generation unit 140 is to determine the validity of the constructed machine learning model (for example, artificial neural network) of the diseased patients (all subjects) of chronic kidney disease into three groups Cross verification can be performed separately.
  • the disease risk machine learning model generation unit 140 may generate a robust machine learning model by adjusting weights of a plurality of state variables including living state variables and health state variables associated with the occurrence of chronic kidney disease through verification of literature after verification. have.
  • the disease risk machine learning model generator 140 may generate a machine learning model using an artificial neural network (ANN) model having a multilayer perceptron structure.
  • the disease risk machine learning model generator 140 may generate an artificial neural network.
  • Variables that are inputted to are based on the concept of natural history of the disease, including germ cell genes determined at birth and subsequent repeated environmental exposures, epigenetics determined by environmental exposures, repeated environmental exposures and interactions with genes, and then living organisms.
  • the machine learning model is applied by reducing the dimension by sequentially inputting it in consideration of the change of clinical test indicators observed through the change in the inside, the occurrence and exacerbation of chronic kidney disease caused by the diagnosis of the disease, and the death. Can be generated.
  • the disease risk machine learning model generation unit 140 inputs a variable inputted into the artificial neural network, starting with genetic information related to germ cells, and reduces the dimension to include the core genetic information first to create the first layer according to the above-mentioned principle.
  • the additional layer contains additional genetic information to reduce the dimension to create the second layer, reduce the dimension to include the next lifestyle factor, etc. to create the third layer, and generate the fourth layer including the following clinical test indicators. Can be.
  • the disease risk machine learning model generation unit 140 may then predict the occurrence of chronic kidney disease through repetitive training through the hidden layer.
  • the disease risk machine learning model generation unit 140 is a machine learning model that predicts the risk of disease occurrence and death, including all input factors (plural state variables). Random forest, which is a method of training and learning by means of training, and boosting, which is a method of creating a new classification rule repeatedly by focusing on misclassified variables, these methods repeat the learning.
  • the machine learning model can be generated by applying the method to improve the performance.
  • the genetic information statistical probability model generating unit 150 inputs the genetic information of the sick person of chronic kidney disease and the disease risk of chronic kidney disease, and according to the presence or value of each of the genetic information, the chronic Genetic statistical probability models that probabilistically indicate the disease risk of kidney disease can be generated.
  • the genetic information statistical probability model generator 150 selects a variable using a statistical probability model and then develops a disease through a method using a time-variant Cox regression model excluding the exposure of the average health factor of the general population. A predictive model of death risk can be generated.
  • Genetic information statistical probability model generation unit 150 may be included in the final model after the factor variables associated with the occurrence or death of the disease in advance. Variable selection is made when the same variable is selected more than once in three processes such as forward selection method, backward selection method, and step insertion method in Cox's proportional hazard model. From a causal point of view, any medically important factors or models are missing, except for those that may be adverse causality (for factors that change after the onset of disease) or may be included due to chance, noise, or bias. Factor variables can be added to create a final genetic information statistical probability model.
  • Genetic statistical statistical model generation unit 150 selects the most suitable model by selecting the most suitable model without the collinearity problem in the multivariate model of the variables selected first, using the final model, and then medically important factor variables
  • the final genetic information statistical probability model can be created by adding variables missing from the statistical model.
  • the genetic information statistical probability model generator 150 includes an individual's age in the model, regardless of whether it is significant in statistical selection, and sets a medical causality model by this method.
  • the subjects were divided into a training set and a test set with a ratio of 7 to 3, and then, using the selected variable, a competitive probability risk model based on a statistical model was used.
  • a competitive probability risk model based on a statistical model was used.
  • genetic information statistical probability model generation unit 150 is composed of a time-variant Cox regression model consisting of a minimum of important medical factors and as many factors as possible to enhance the predictive ability by self-learning Genetic statistical probabilistic models can be generated so that disease probability values are calculated from at least two models, including simultaneous machine learning techniques.
  • the statistical probability model generator 160 may include a basic statistical probability model generator 161 and a weighted statistical probability model generator 162.
  • the statistical probability model generating unit 160 inputs a plurality of state variables, genetic information, and disease risk of chronic kidney disease of a patient with chronic kidney disease, and determines whether or not there is at least one or more of the plurality of state variables and genetic information. Accordingly, a statistical probability model that probabilistically represents the disease risk of chronic kidney disease can be generated. For example, the statistical probability model generation unit 160 may check whether the subject belongs to one of the risk groups (low-normal level-high-very high) currently divided into four groups. In addition, the statistical probability model generating unit 160 indicates the observed disease risk (R) and the underlying risk for each subject based on the influence (b) on the disease risk for each variable (plural state variables). The risk of expected disease (R0) for each combination of variables can be predicted and finally used to calculate the risk score unique to each subject.
  • a statistical probability model that probabilistically represents the disease risk of chronic kidney disease can be generated. For example, the statistical probability model generation unit 160 may check whether the subject belongs to one of the risk groups (low-normal level-high
  • the basic statistical probability model generating unit 161 inputs a plurality of state variables, genetic information, and disease risk of chronic kidney disease of the sick person of chronic kidney disease, and among the plurality of state variables, chronic kidney disease And select at least one variable associated with and generate a basic statistical probability model probabilistically indicating the disease risk of chronic kidney disease with respect to the presence or value of at least one state variable.
  • the basic statistical probability model generating unit 161 may include a plurality of state variables (for example, repeated measured information of factors such as lifestyle, physical measurements, and medical history) that an individual (subject, diseased person) can recognize. Can be entered.
  • the basic statistical probability model generation unit 161 is based on the traced data from the first to seventh traces of the Ansan-Anseong cohort, which is part of the Korean Genome Epidemiology Research Project of the Korea Centers for Disease Control and Prevention, received from the disease prediction server 200. As a result, a statistical probability model that probabilistically represents the disease risk of chronic kidney disease can be generated.
  • the statistical probability model generation unit 160 may generate a statistical probability model that probabilistically represents the disease risk of chronic kidney disease based on the input of the lifestyle and health status information of the individual at the time of the baseline investigation.
  • the basic statistical probability model generator 161 is based on a statistical probability model that probabilistically represents the disease risk of chronic kidney disease with respect to repeated measured values for factors such as nutrient intake and clinical values that are not recognized by the individual. Selection of key variables can be made.
  • the basic statistical probability model generator 161 primarily selects key variables using a statistical probability-based model among a plurality of state variables recognizable by an individual, and indicates nutrient intake and clinical values that are not recognized by an individual. Secondary selection of the main variables using the statistical probability-based model, and based on the selection of the primary and secondary key variables to the basic statistical probability model that probably indicates the disease risk of chronic kidney disease.
  • the main variables can be selected.
  • the statistical probability model described above is a variable selected two or more times through the process of selecting three variables, a forward selection method, a backward selection method, and a step insertion method, using a Cox proportional hazard model, which is one of the methods of the statistical probability model. We can select the primary variable (main variable) for.
  • the basic statistical probability model generation unit 161 may further select variables associated with each chronic disease of chronic kidney disease on a medical and clinical basis.
  • the genome selection based on genetic information is based on the genetic information inputted first to select a significant genome for each disease of chronic kidney disease, and additional selection is made for genes that are not statistically significant but have been previously associated with the disease. Finally, the dielectric can be selected.
  • the basic statistical probability model selecting unit 161 may finally select variables included in each disease prediction of chronic kidney disease through additional input for clinically significant variables under the medical judgment of the expert.
  • the basic statistical probability model generator 161 may classify the subject into a training set and a test set at a ratio of 7 to 3 for model construction and verification.
  • the basic statistical probability model generation unit 161 may generate a basic statistical probability model for predicting a subject's current chronic kidney disease risk using a competitive probability risk risk model based on a statistical model in the construction data using the selected variable. .
  • the basic statistical probability model generating unit 161 has an effect on disease occurrence by each variable (each of a plurality of state variables) through internal validation and 5-fold cross-validation which are verified from the validation data ( The optimal value for b) can be extracted and a basic statistical probability model for the final disease occurrence can be generated.
  • the weighted statistical probability model generator 162 may generate a statistical probability model from the basic statistical probability model by applying a weight to the disease risk of chronic kidney disease according to the presence or absence of genetic information associated with chronic kidney disease.
  • the disease risk prediction unit 170 may predict the subject disease risk of the subject by applying the subject state variable and the subject gene information of the subject to the disease risk machine learning model. In addition, the disease risk prediction unit 170 may predict the subject disease risk of the subject by applying the subject state variable and the subject gene information of the subject to the disease risk machine learning model and the genetic information statistical probability model.
  • the disease risk prediction unit 170 may predict the subject disease risk of the subject by applying subject state variable and subject gene information of the subject to the machine learning model and the statistical probability model.
  • the disease risk prediction unit 170 may visualize the disease risk prediction result of the subject based on a preset classification item. For example, the disease risk prediction unit 170 builds a deep learning-based visualization algorithm and based on the statistical probability model of the machine learning model and the statistical probability model generator 130 of the machine learning model generator 120. Subject-specific visualized results can be provided.
  • the disease risk prediction unit 170 may predict and visualize a change in the disease risk path of an individual based on a change pattern of a negative factor.
  • the disease risk prediction unit 170 may visualize and provide a safety path that may reduce a disease risk probability of an individual based on a change in positive factors.
  • the disease risk predicting unit 170 considers the changes in the negative factors and the positive factors in an integrated manner, and based on the change in lifestyle of each subject, chronic kidney disease and cardiovascular disease and chronic heart disease, which are the final health conditions. And risk avoidance pathways for death can provide personalized preventive care services models.
  • the disease risk predicting unit 170 may include a plurality of state information (life habits and health state information) of the subject (individual), which are repeatedly measured later, by the machine learning model generation unit 120 and the statistical probability model generation unit 130. Re-enter) to identify the change over time of each epidemiological variable and calculate the rate of change by applying the predictive model to provide the result of health status correction according to the subject's intermediate health care and the re-predicted risk of disease occurrence. Can be.
  • state information life habits and health state information
  • the machine learning model generation unit 120 and the statistical probability model generation unit 130 Re-enter
  • the disease risk prediction unit 170 is [Equation 4]
  • the Cox proportional hazard model presented in Fig. 1 evaluates the correlation between lifestyle and health status variables and the occurrence of chronic kidney disease, and 'varies' all variables with significant correlation with each disease occurrence.
  • Cox proportional hazard model applied to genetic information machine learning model generation unit 140 can evaluate the correlation between the occurrence of a plurality of state variables chronic kidney disease. For example, the genetic information machine learning model generation unit 120 selects variables having a significant correlation with the occurrence of each disease in the multivariate Cox proportional risk model, and finally selects variables based on clinical significance.
  • the Cox proportional hazard model can be constructed.
  • the genetic information statistical probability model generating unit 150 may input a plurality of state variable information that is based on repeated measurement of environmental factors (eg, lifestyle) of a subject. Genetic information statistical probability model generation unit 150 may select the environmental factors associated with chronic kidney disease based on the genetic information statistical probability model. Genetic information statistical probability model generation unit 150 may be input to the basis and repeat measurement information, such as clinical examination and physical measurements.
  • Genetic information statistical probability model generation unit 150 may select a test index based on the genetic information statistical probability model. Genetic information statistical probability model generation unit 150 may exclude the problematic genetic factor variable based on the first genetic information statistical probability model. Genetic information statistical probability model generation unit 150 may add the genetic information through a biological feasibility and causality evaluation process based on the second genetic information statistical probability model. In addition, the genetic information statistical probability model generating unit 150 may receive the genetic information excluded from the main medical factors or genetic information statistical probability model associated with chronic kidney disease. Genetic information statistical probability model generation unit 150 adds the first genetic information statistical probability model, the second genetic information statistical probability model, the main medical factors or factors missing from the final environmental factors of genes associated with chronic kidney disease Can be selected.
  • the genetic information machine learning model generation unit 120 may select the genetic index by applying the genetic information big data stored in the disease server 200 to the genetic information statistical probability model. Genetic information The genetic information selected from the statistical probabilistic model can be classified into core gene 1. Gene information machine learning model generation unit 120 may select the genetic index by applying the genetic information big data stored in the disease server 200 to the disease risk machine learning model. Gene information selected from the genetic machine learning model can be divided into core genes 2. The core gene information selecting unit 130 may select the final core gene index based on the core gene 1 and the core gene 2. The genetic information machine learning model generation unit 120 may select an additional genetic index based on the second genetic information machine learning model.
  • the disease risk prediction unit 170 may predict a disease risk based on a gene selected from a genetic machine learning model and a genetic information statistical probability model.
  • the genetic information statistical probability model generator 150 may provide a selected environmental factor and a selected test index
  • the genetic information machine learning model generator 120 may provide a key genetic index and an additional genetic index. have.
  • the disease risk prediction unit 170 may additionally receive the main genes reported in the existing research from the disease server 200.
  • the disease risk prediction unit 170 may predict chronic kidney disease disease based on the subject genetic information of the normal person and the subject without disease except the current sick person.
  • the disease risk prediction unit 170 may predict the disease occurrence risk by statistically predicting the risk value generated from the disease risk statistical probability model of the statistical probability model generation unit 160 and the disease risk machine learning model generation unit 140.
  • the risk of disease development can be predicted based on the machine learning risk estimates generated from the risk machine learning model.
  • the disease risk prediction unit 170 selects an optimal model from the predictive value in the statistical model or the predicted value in the machine learning model based on the number of factor input information of the individual, the quality of the input information, the non-response state, and the measurement time point. A risk estimate can be provided.
  • the disease risk prediction unit 170 may predict the disease risk of the subject by selecting at least one of the highest risk group, the high risk group, the medium risk group, and the low risk group as the selected risk prediction value. In addition, the disease risk prediction unit 170 may provide a personalized risk path based on a time series fluctuation path of a negative factor and a time series fluctuation path of a positive factor.
  • Figure 4 is an exemplary view for explaining an embodiment for evaluating the risk of disease disease risk occurrence probability prediction and death risk of the genetic information statistical probability model generation unit 150 according to an embodiment of the present application.
  • the genetic information statistical probability model generating unit 150 may receive factors recognized by an individual as input 1.
  • factors recognized by an individual may be factors such as lifestyle, body measurements, and medical history.
  • Genetic information statistical probability model generating unit 150 may receive input factors that are not recognized by the individual as input 2.
  • Factors that individuals are not aware of may be factors such as nutrient intake and clinical value.
  • the genetic information statistical probability model generator 150 may select a main state variable associated with a specific disease based on the input 1 and the input 2, and may predict the present disease probability of the subject. Here we can predict the prevalence of diseases of chronic kidney disease. Genetic information statistical probability model generation unit 150 may provide a probability evaluation result by selecting one of the risks, such as very high, high, normal, low as a probability evaluation result.
  • the disease risk prediction unit 170 may provide customized risk action information of a subject (individual) corresponding to each risk based on a probability evaluation result. Personalized risk management information of the subject (individual) may be a way to reduce the likelihood of illness and current information on hospital visits, health check-ups, etc. for high probability subjects.
  • Genetic information statistical probability model generation unit 150 may provide a disease risk assessment of the future chronic abnormal disease after a certain time after providing the intermediate health state.
  • the statistical probability model generation unit 130 may provide a risk assessment result of the subject by dividing the risk assessment result into the highest risk group, the high risk group, the medium risk group, and the low risk group.
  • the disease risk prediction unit 140 may provide personalized risk action information based on the risk assessment result.
  • the genetic information statistical probability model generation unit 150 may provide a risk assessment result of future disease occurrence risk and death risk.
  • the end result may be a risk assessment result of chronic kidney disease or cardiovascular disease death that may occur after the occurrence of chronic kidney disease.
  • Genetic information statistical probability model generation unit 150 may provide the final result risk assessment results of the subject by dividing the risk assessment for the final result into the highest risk group, high risk group, medium risk group, low risk group.
  • the disease risk prediction unit 170 may provide personalized risk action information based on the final result risk assessment result.
  • the disease risk prediction unit 170 may provide time series variation information of negative influencing factors of chronic kidney disease. In addition, the disease risk prediction unit 170 may provide time series variation information of a positive influence factor. The disease risk prediction unit 170 may provide a positive time series factor change path when a negative influence factor is virtually mediated. The disease risk prediction unit 170 may provide a virtual simulation risk prediction value before and after intervention.
  • the user performs the improvement of the health state of the individual based on the personalized risk action information provided by the disease risk prediction unit 170, and a plurality of preset cycles (for example, one year)
  • the state variable i.e., the factors recognized by the individual, are input, and the genetic information statistical probability model generator 150 may repeatedly predict the intermediate health state, the result, and the final result based on the plurality of state variables.
  • FIG. 5 is a view for explaining an embodiment of the chronic kidney disease risk prediction process according to an embodiment of the present application.
  • the chronic kidney disease disease risk prediction apparatus 100 may receive multi-organ cohort big data collection and linkage information from the disease prediction server 200.
  • chronic kidney disease disease risk prediction apparatus 100 may derive the major disease risk factors and risk avoidance model of Korean.
  • Chronic kidney disease disease risk prediction device 100 is based on the input information, such as gene, past history, family history, treatment history, lifestyle, eating habits, feminine history, test values, physical measurements, chronic kidney through machine learning model and statistical model The disease can be predicted.
  • Chronic kidney disease disease risk prediction apparatus 100 may generate a personalized disease risk and avoidance guidance map.
  • Chronic kidney disease disease risk prediction apparatus 100 may provide a personalized disease risk and avoidance guidance map, thereby reducing the probability of disease risk by improving the individual health status.
  • the apparatus 100 for predicting chronic kidney disease disease risk may select nuclear genetic information by applying an artificial neural network (ANN) model having a multi-layered perceptron structure.
  • ANN artificial neural network
  • Variables input to the device for predicting chronic kidney disease disease risk 100 are based on the concept of natural history of disease, germ cell genes determined from the time of birth, epigenetic genes determined by repeated environmental exposure, environmental exposure, and repeated environment. Dimensions are entered in consideration of exposure, interaction with genes, changes in clinical test parameters observed through in vivo changes, and the occurrence and exacerbation of chronic kidney disease due to the diagnosis of the disease, and death. Can be applied.
  • the variables input to the artificial neural network are inputted from genetic information related to germ cells, but in accordance with the above-mentioned principle, core genetic information is first included to reduce the dimension to make the first layer, and additional additional genetic information is included.
  • the third layer was reduced by including the environmental factors such as the following lifestyle factors, and the fourth layer including the following clinical test indicators. Afterwards, the retinal training was performed to predict the occurrence of chronic kidney disease.
  • Chronic kidney disease disease risk prediction apparatus 100 is a machine learning model that predicts the risk of disease occurrence and death including all input factors (plural state variables and genetic information), and trains several decision trees arbitrarily. Random forests and boosting are used to create new classification rules by focusing on misclassified variables. These methods improve the accuracy of the prediction model by repeating learning. Genetic information can be selected.
  • Chronic kidney disease disease risk prediction device selects variables using a statistical probability model and predicts the risk of disease occurrence and mortality by using a time-varying Cox regression model excluding the exposure of the average health factors of multiple general populations. Can be.
  • factor variables related to disease occurrence or death were selected in advance and included in the final model. The variable selection was carried out in three processes of Cox's proportional risk model: forward selection, backward selection, and step insertion.
  • the model is first selected as a factor variable, and then inversely causal in terms of each disease or death and causality (if the factor changes after the occurrence of disease), or Except for the factors that may have been included due to chance, noise, or bias, the final model is then formed by adding medically important factors or factors missing from the model, and then using the final model.
  • this multivariate model we select the most suitable model without collinearity problem. Add the missing variable to the variable factors in the selection of the best, then medically important factor variables or statistical model was set up after the final multivariate model. At this time, the individual's age was included in the model, regardless of statistical selection, and the medical causality model was established by this method.
  • the subjects were divided into a training set and a test set with a ratio of 7 to 3, and then, using the selected variable, a competitive probability risk model based on a statistical model was used.
  • a competitive probability risk model based on a statistical model was used.
  • Expected disease for each combination of variables representing the observed risk of disease occurrence (R) and the underlying risk, based on the impact on disease risk for each variable in the final model (beta b)
  • the risk score (R0) can be predicted to determine the risk score of chronic kidney disease for the current subject by calculating the risk score of each subject.
  • Chronic kidney disease disease risk prediction device 100 is predicted for the occurrence of chronic kidney disease and the risk of death is calculated in each of the two models.
  • your personal information includes the missing status of the information (missing due to nonresponse, no value due to unknown values among the unrecognized factor information, and the value when it cannot be divided into the desired form). There are many differences such as the amount of.
  • the time-varying Cox regression model is designed to have the best predictive performance with minimal information, so it has the advantage of being operated only by the relevant factor variables.If the individual has a lot of big data, the machine learning is more predictive. It is better to adopt the method of prediction. Therefore, in order to evaluate the state and quantity of individual information and to produce a result from a suitable model, both models are provided, but not limited thereto.
  • the genetic information statistical probability model generating unit 150 may input a chronic kidney disease common cell genome. Genetic information statistical probability model generation unit 150 may select a key gene for chronic kidney disease. Genetic information statistical probability model generation unit 150 may be an input for chronic kidney disease environmental factors. Genetic information statistical probability model generation unit 150 may select a key environmental factor for chronic kidney disease. Genetic information statistical probability model generation unit 150 may predict the current kidney function of the subject in the intermediate health state based on the selection of the core gene for chronic kidney disease and key environmental factors for chronic kidney disease. Genetic information statistical probability model generation unit 150 may generate the risk of developing chronic kidney disease in the future after the intermediate health state.
  • genetic information statistical probability model generation unit 150 may predict the risk of chronic kidney disease worsening and death in the future. Genetic information statistical probability model generation unit 150 may provide a prediction result by dividing the future risk of chronic kidney disease occurrence and death risk prediction with the highest risk group, high risk group, medium risk group, low risk group, respectively.
  • the disease risk prediction unit 170 may provide a personalized (subject) personalized improvement guideline, disease factors, and health information based on the predicted risk of chronic kidney disease occurrence and death risk.
  • the user may perform an improvement in an individual's health state based on a health improvement guideline provided by the disease risk prediction unit 170, and may repeatedly input an input value at a predetermined cycle (for example, one year).
  • the disease risk machine learning model generation unit 140 may cluster a plurality of state variables corresponding to each of chronic kidney disease.
  • the disease risk prediction unit 170 may visualize and provide a guidance map of disease risks such as risk, safety, and optimality of diseases of chronic kidney disease based on a plurality of state variables.
  • Figure 10a is a result of predicting the occurrence of chronic kidney disease using a combination of genes to perform a total of 100 iterations using 5-fold cross-validation.
  • Figure 10b is a result of verifying the prediction of chronic kidney disease occurrence according to the gene combination through the artificial neural network.
  • FIG. 10C is a diagram illustrating whether heterogeneity or a hidden relation between groups is related to estimated glomerular filtration rate through Q-Q plot and lambda (1.03305) values, and a diagram showing the association between estimated glomerular filtration rate and fields through Manhattan plot.
  • the results described above are the findings of genes associated with putative glomerular filtration rate.
  • the diagram shown in FIG. 10c is a QQ plot and lambda (1.03305) values for diagnosing whether there is heterogeneity or a hidden relationship between the estimated glomerular filtration rate and the association with the estimated glomerular filtration rate through the Manhattan plot. It was.
  • FIG. 10D is a diagram illustrating the associated glomerular filtration rate.
  • the apparatus for predicting chronic kidney disease disease risk 100 confirmed a total of 15 in relation to the estimated glomerular filtration rate, and 14 of them were identified.
  • the most significant GPD2 gene was found on chromosome 2, which was known to be associated with chronic kidney disease in previous studies.
  • LOC107986931 gene on chromosome 8 was known to be related to Renal carcinoma in previous studies.
  • FIG. 10E is a diagram illustrating whether heterogeneity or hidden relations exist between groups in relation to Urine albumin through Q-Q plot and lambda (1.023052) values, and shows the association between estimated glomerular filtration rate and fields through Manhattan plot.
  • Figure 10f is a diagram illustrating the associated with Urine albumin. Referring to FIG. 10F, a total of 41 were identified in relation to the estimated glomerular filtration rate, and one of the gene positions was identified. In particular, albuminuria-related genes were all found on chromosome 4 ANXA10, which has been known to be associated with renal cancer in previous studies.
  • Figure 10g is the result of discovering the genes associated with the development of proteinuria and chronic kidney disease.
  • the Q-Q plot and lambda (1.025902) values were used to diagnose whether there was heterogeneity or hidden relations between the groups related to proteinuria, and the Manhattan plot showed the association with Urine total protein.
  • the proteinuria-related gene is GPC6 located on chromosome 13, which has been reported to be related to renal cell carcinoma.
  • the genetic information discovers genetic information related to the occurrence of chronic kidney disease by using an artificial neural network (ANN) model and the existing statistical model.
  • ANN artificial neural network
  • time-varied Cox regression model and the neural network method were used to predict the risk of chronic kidney disease based on the statistical probability model, and the time-varied Cox regression model and the random forest were used to predict the risk of death.
  • [Table 1] to [Table 3] is to determine the change over time of each mechanical variable and calculate the rate of change through re-entry of repeated measured lifestyle and health status information, according to the subject's intermediate health management This is an example of a model that provided health outcome modifications and the risk of chronic kidney disease reforeseen.
  • Table 1 may be a result of variables selected by applying a forward selection method of the variable selection method.
  • variable selection method shown in Tables 1 to 3
  • all of the final selected variables are arranged in binary form.
  • continuous variables such as anthropometric and clinical values were divided into normal and off-normal risk levels based on clinical criteria.
  • the effect of the risk factors selected by the variable selection method on the occurrence of chronic kidney disease is graphically illustrated as shown in FIG. 10i, and thus the risk factors that have the greatest influence can be identified.
  • Figure 10i is a diagram showing the correlation between risk factors for the development of chronic kidney disease.
  • Chronic kidney disease disease risk prediction apparatus 100 can calculate the joint risk (JR) as shown in [Equation 5] using the influence (b) value on the disease occurrence risk for each variable in the selected Cox proportional risk model. have.
  • Chronic kidney disease disease risk prediction apparatus 100 predicts the observed disease risk (R) for each subject and the expected disease risk (R0) for each combination of variables representing the underlying risk. Finally, each subject's own risk score is calculated using the formula.
  • the risk score of chronic kidney disease (risk score) is obtained as an example.
  • R0 age (1.10396 * (0.273926) + gender 0.69081 * (0.266384) + education 0.10600 * (0.020622) + hypertension history 0.33667 * (0.021758) + diabetes history 0.46900 * (0.003997) + glycated hemoglobin 100 or more 0.32334 * (0.009157) + Triglyceride 150 or more 0.28523 * (0.171003) + blood pressure 130, 90 or more 0.31170 * (0.164121) + proteinuria 0.65394 * (0.000756) + waist circumference male 90 or more, female 80 or more 0.17482 * (0.085622));
  • Risk scores were calculated for all subjects using Equations 6 to 8 described above, and based on this, risks of 2, 5, and 10 years of chronic kidney disease can be calculated.
  • Reference numeral (a) of FIG. 10j is a graph of the probability of chronic kidney disease occurrence, and reference numeral (b) of FIG. 10j is a risk score and 10-year risk of major factors of chronic kidney disease occurrence.
  • the chronic kidney disease disease risk predicting apparatus 100 may include an incidence rate for each disease (hypertension, diabetes, obesity, metabolic syndrome and chronic kidney disease) in the general population, and Mortality due to disease and mortality due to total mortality data are needed, and total mortality data is based on age-related mortality statistics from the National Statistical Office. Calculate using risk information and statistical data on the causes of death by age of the National Statistical Office. Age-specific incidence rates for each disease are calculated using the Health Insurance Sample Cohort data.
  • a competitive risk model is constructed as shown in [Equation 9].
  • the established competitive risk model performs the cross-validation process by dividing the entire subjects into 5 parts for validity.
  • the predictive power and verification of the risk factors for developing chronic kidney disease were performed using three methods. Internal validity and cross-validation were performed using the ROC curve and AUC values. The calculated risk scores were compared with the observed and predicted occurrences of chronic kidney disease. Concordance between Youden index and Distance to (0, 1) and sensitivity validity for optimal cutpoint of the risk of developing chronic kidney disease. The sensitivity and validity of the three methods were checked to predict the predicted risk of chronic kidney disease according to the established riskscore. Evaluated.
  • the AUC values in the predictive model of chronic kidney disease occurrence constructed using 70% of training sets (6,657 persons) were 0.7405 and 95% confidence intervals, respectively, as 0.7239-0.7570.
  • the AUC value in the predictive model of chronic kidney disease occurrence which was constructed using 30% training set (2,2853 patients)
  • the AUC value was 0.7257 and the 95% confidence interval was 0.6986-0.7527.
  • Cross-validation was performed to test the predictive power of chronic kidney disease risk.
  • 1,000 permutations were performed in the training and test sets using the boot-straping technique.
  • Cross-validation was performed to confirm whether the observed value and the expected value of the validation set matched by applying the probability calculation method of the previously calculated model.
  • Figure 11c is a comparison result of the chronic kidney disease occurrence value and the predicted value for all subjects.
  • the observed risk score and predicted predictive value of chronic kidney disease occurrence were compared with the calculated risk score value (10-year risk comparison). The predicted risks were found to be nearly similar.
  • Figure 11d is a predictive power of the model for predicting chronic kidney disease occurrence using a training set (6,657 subjects).
  • the Distance to (0,1) method calculates the value according to the following formula. The minimum value calculated according to the following formula was 0.4453.
  • the cut-point was 0.2655, and the sensitivity was 0.6528 and the specificity was 0.7211.
  • the change pattern of risk factors according to the result of health condition correction according to the intermediate health management of the subject individual is identified based on the factor information of the subject who is re-inputted thereafter. Based on this change pattern, the prediction of the risk of chronic kidney disease is newly calculated based on the subject's inputted factors.
  • FIG. 12 is a schematic flowchart of a method for predicting chronic kidney disease disease risk according to an embodiment of the present application.
  • the method for predicting chronic kidney disease disease risk according to FIG. 12 will be described in detail in each part of the apparatus for predicting chronic kidney disease disease risk 100 described with reference to FIGS. 1 to 11. Therefore, even if not described below, detailed description is omitted since it can be included or inferred from the operation description of the apparatus for predicting chronic kidney disease disease risk described with reference to FIGS. 1 to 11.
  • step S121 the apparatus for predicting chronic kidney disease disease risk 100 inputs genetic information of a sick person with chronic kidney disease and a disease risk of chronic kidney disease, and thus, between the genetic information and the disease risk of chronic kidney disease. Genetic machine learning models can be created to learn the degree of relationship
  • the chronic kidney disease disease risk prediction apparatus 100 may select the core gene information from the genetic information using the genetic information machine learning model.
  • step S123 the chronic kidney disease disease risk prediction apparatus 100 receives a plurality of state variables including vital state variables and health state variables of the chronic kidney disease disease, key genetic information, and disease risk of chronic kidney disease,
  • a disease risk machine learning model can be created that learns the degree of relationship between at least one or more of the plurality of state variables and key genetic information and disease risk in chronic kidney disease.
  • the chronic kidney disease disease risk prediction apparatus 100 may receive subject state variable and subject gene information of the subject.
  • the chronic kidney disease disease risk prediction apparatus 100 may predict the subject disease risk of the subject by applying subject state variable and subject gene information of the subject to the disease risk machine learning model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Child & Adolescent Psychology (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)

Abstract

본원은 만성신장 질환의 질병 위험도를 예측하는 장치에 관한 것으로서, 만성신장 질환의 질병 위험도를 예측하는 장치는 상기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보와 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성하는 유전자 정보 기계학습 모델 생성부, 상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택하는 핵심 유전자 정보 선택부, 상기 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성하는 질병 위험도 기계학습 모델 생성부, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 정보 입력부 및 상기 질병 위험도 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함할 수 있다.

Description

만성신장 질환의 질병 위험도를 예측하는 장치 및 방법
본원은 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법에 관한 것이다.
건강위험예측 도구 구현 및 그에 따른 고위험군에 대한 중재가 활발히 이루어지고 있는 질환 중 대표적인 것은 유방암이고, 서양에서 구현된 유방암 발생위험도 평가모델에 따르면 크게 세 가지로 나눌 수 있다.
그 중 하나는 일반인구에서 기저위험도 (baseline risk)와 위험요인의 조합(joint risk)으로 절대 발생 가능성을 예측하는 모델이고, 다른 하나는 위험인자의 상대적인 위험 크기에 따라 발생 가능성을 예측하는 방법일 수 있으며, 세 번째는 유전성 유방암 발생 예측에 특화하여 사용되는 모델로 가족력을 기반으로 BRCA 유전자 돌연변이 보유 가능성 또는 BRCA 유전자 돌연변이 보유 가능성에 기반 하여 유방암 발생 가능성을 예측할 수 있다.
현재 국내에서는 대한가정의학회에서 한국형 건강위험예측도구를 개발하였으며 이를 적용하여 국민건강보험공단에서 건강검진을 받은 국민들을 대상으로 공단 홈페이지 <건강iN>에 개인별 맞춤형 건강관리 프로그램 서비스를 제공되고 있다.
하지만, 국민건강보험공단에서 제공하는 건강위험예측도구는 사망률에 대해 그 타당도가 입증된 바 있으나, 개별 사망 원인에 대한 분석이 부족하고, 이 도구의 목적이 교정 가능한 건강위험요인을 발견하여 실천하도록 하는 것이 주된 목적이므로 개인의 현재 건강 상태를 측정하기에는 부적절하다는 한계가 있다.
이에 따라, 개인의 생활습관 및 건강 상태를 기반으로 하여 향후의 질병 발생 확률을 예측하는 방법이 요구된다.
본원의 배경이 되는 기술은 한국공개특허공보 제10-2004-0012368(공개일: 2004.02.11)호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 개인의 생활 습관, 건강 상태 및 유전정보를 이용하여 만성신장질환 발생위험을 예측하는 알고리즘을 구축하는 것이다. 구축된 알고리즘을 바탕으로 이러한 만성신장질환 위험 혹은 사망과 같은 최종 건강상태를 예측하는 데 활용할 수 있는 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 만성신장질환의 합병증으로 볼 수 잇는 만성신장질환, 심혈관질환 발생과 질병이 나쁜 건강상태(악화)로 인해 최종적으로 발생할 수 있는 사망을 최종건강상태로 예측할 수 있는 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 유전 정보 빅데이터를 사전 분석하고 유전 지표를 선정하는 방식을 기존 통계학적 확률 모형과 다중퍼셉트론 방식의 인공신경망 (ANN) 방식 두 개를 이용하여 핵심 유전자를 선정한다. 인공신경망 방식에서 부가 유전자를 선정하고, 최종건강상태인 만성신장질환, 심혈관질환 발생 위험과 사망 위험은 세 가지 방법에 의하여 예측할 수 있는 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본원은 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트 의 유전체 자료원과 추적 자료원을 기반으로 인공신경망 기반 예측 모형과 통계적 확률모형을 기반으로 한 질병 위험 예측 모형을 구축하고, 구축된 모형을 이용해 만성신장질환 발생 위험 확률을 예측해 일차예방을 위한 생활습관변화 안내 경로를 표시 할 수 있는 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 인공신경망 기반의 질병 발생 예측 모형 및 통계학적 확률기반의 질병 발생 예측 모형을 구축하고, 각 질병 발생 위험에 대한 대상자의 확률값을 연산하고, 시각화 알고리즘을 통해 대상자 맞춤형 예방관리서비스 모형을 구축할 수 있는 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법을 제공하고자 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따르면, 만성신장 질환의 질병 위험도를 예측하는 장치는, 상기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보와 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성하는 유전자 정보 기계학습 모델 생성부, 상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택하는 핵심 유전자 정보 선택부, 상기 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성하는 질병 위험도 기계학습 모델 생성부, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 정보 입력부 및 상기 질병 위험도 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함할 수 있다.
본원의 일 실시예에 따르면, 만성신장 질환 질병 위험도 예측 장치는 기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보 각각의 존재 유무 또는 값에 따라 상기 만성신장 질환의 질병 위험도를 확률적으로 나타내는 유전자 정보 통계확률 모델을 생성하는 유전자 정보 통계확률 모델 생성부를 더 포함하되, 상기 핵심 유전자 정보 선택부는 상기 유전자 정보 통계확률 모델 및 상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택할 수 있다.
본원의 일 실시예에 따르면, 만성신장 질환 질병 위험도 예측 장치는 상기 만성신장 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 상기 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 통계확률 모델 생성부를 더 포함하되, 상기 기계학습 모델 및 상기 통계확률 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 통계확률 모델 생성부는, 상기 만성신장 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하고, 상기 복수의 상태 변수 중 상기 만성신장 질환과 연관된 적어도 하나 이상의 상태 변수를 선택하고, 상기 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 상기 만성신장 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성하는 기본 통계확률 모델 생성부 및 상기 만성신장 질환과 연관된 유전자 정보의 존재 여부에 따라 상기 만성신장 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 상기 통계확률 모델을 생성하는 가중치 통계확률 모델 생성부를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 유전자 정보 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습할 수 있다.
본원의 일 실시예에 따르면, 상기 유전자 정보 기계학습 모델은 상기 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 상기 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고, 상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습할 수 있다.
본원의 일 실시예에 따르면, 상기 유전자 정보 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수 및 이전 시점 은닉층을 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수 또는 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것이되, 상기 제 1 학습은 [수학식 1]을 기반으로, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 것이되,
Figure PCTKR2018000061-appb-M000001
이때,
Figure PCTKR2018000061-appb-I000001
는 t 시점에서의 은닉층이고,
Figure PCTKR2018000061-appb-I000002
은 t시점의 이전 시점 은닉층이고,
Figure PCTKR2018000061-appb-I000003
는 제 1 상태 변수이고,
Figure PCTKR2018000061-appb-I000004
는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고,
Figure PCTKR2018000061-appb-I000005
는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치일 수 있다.
본원의 일 실시예에 따르면, 상기 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 것이되,
Figure PCTKR2018000061-appb-M000002
이때, y는 출력층이고,
Figure PCTKR2018000061-appb-I000006
는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고,
Figure PCTKR2018000061-appb-I000007
는 은닉층이고,
Figure PCTKR2018000061-appb-I000008
는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보일 수 있다.
본원의 일 실시예에 따르면, 상기 유전자 정보 기계학습 모델 생성부는, [수학식 3]을 기반으로 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성 시 발생하는 오차에 가중치를 갱신하는 것이되,
Figure PCTKR2018000061-appb-M000003
E는 질병 위험도 기계학습 모델 생성부(140)의 오차의 검출값이고, t는 만성신장 질환의 발생 여부이고, y는 기계학습 모델을 통해 예측된 질병 위험도이고,
Figure PCTKR2018000061-appb-I000009
는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식이다.
본원의 일 실시예에 따르면, 상기 질병 위험도 예측부는, 상기 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화하는 것일 수 있다.
본원의 일 실시예에 따르면, 상기 질병 위험도 예측부는, 상기 대상자의 질병 위험도 예측 결과와 연계된 질병 예방 관리 정보를 제공할 수 있다.
본원의 일 실시예에 따르면, 만성신장 질환의 질병 위험도를 예측하는 방법은, 상기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보와 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성하는 단계,상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택하는 단계,상기 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성하는 단계,대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 단계 및상기 질병 위험도 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트 의 유전체 자료원과 추적 자료원을 기반으로 인공신경망 기반 예측 모형과 통계적 확률모형을 기반으로 한 질병 위험 예측 모형을 구축하고, 구축된 모형을 이용해 만성신장질환 발생 위험 확률을 예측해 일차예방을 위한 생활습관변화 안내 경로를 표시할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 개인의 생활 습관, 건강 상태 및 유전정보를 이용하여 만성신장질환 발생위험을 예측하는 알고리즘을 구축하는 것이다. 구축된 알고리즘을 바탕으로 이러한 만성신장질환 위험 혹은 사망과 같은 최종 건강상태를 예측하는 데 활용할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 만성신장질환의 합병증으로 볼 수 잇는 만성신장질환, 심혈관질환 발생과 질병이 나쁜 건강상태(악화)로 인해 최종적으로 발생할 수 있는 사망을 최종건강상태로 예측할 수 있는 만성신장 질환의 질병 위험도를 예측할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 유전 정보 빅데이터를 사전 분석하고 유전 지표를 선정하는 방식을 기존 통계학적 확률 모형과 다중퍼셉트론 방식의 인공신경망 (ANN) 방식 두 개를 이용하여 핵심 유전자를 선정한다. 인공신경망 방식에서 부가 유전자를 선정하고, 최종건강상태인 만성신장질환, 심혈관질환 발생 위험과 사망 위험은 세 가지 방법에 의하여 예측할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 고혈압과 당뇨병, 대사증후군을 가진 대상자는 이후 다른 대사 이상 질환을 동반할 위험이 높기 때문에 조기 진단을 통해 치료 가능성을 높이며, 더 나아가 사망위험을 높이는 대사 이상 질환으로 인한 합병증 및 심혈관질환, 만성심장질환 발생 및 사망 위험을 감소시킬 수 있어 개인의 삶의 질의 향상을 이룰 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 지역사회 일반 인구집단의 건강관리 현장 적용에 활용하거나, 임상시험에서 고위험군 선정 등에 활용할 수 있고, 위험예측모델의 웹(WEB) 및 앱(APP)을 활용한 제품에 활용할 수 있다.
도 1은 본원의 일 실시예에 따른 만성신장 질환의 질병을 예측하는 장치의 개략적인 시스템이다.
도 2는 본원의 일 실시예에 따른 만성신장 질환의 질병을 예측하는 장치의 개략적인 구성도이다.
도3은 본원의 일 실시예에 따른 질병 위험도 기계학습 모델 생성부 및 유전자 정보 통계확률 모델 생성부에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 만성질환 질병 위험도를 예측하는 과정을 개략적으로 도시한 도면이다.
도 4는 본원의 일 실시예에 따른 유전자 정보 통계 확률 모델 생성부의 질병유병 위험 발생위험 확률 예측과 사망위험을 통한 위험도를 평가하는 실시예를 설명하기 위한 예시도이다.
도 5는 본원의 일 실시예에 따른 만성신장 질환 위험도 예측 과정의 일 실시예를 설명하기 위한 도면이다.
도 6은 본원의 일 실시예에 따른 만성신잘 질환 질병 위험도 예측 장치의 일 실시예를 설명하기 위한 도면이다.
도7은 본원의 일 실시예에 따른 유전자 정보 통계 확률 모델 생성부의 일 실시예를 설명하기 위한 도면이다.
도8은 본원의 일 실시예에 따른 복수의 만성신장질환의 클러스터링을 나타낸 도면이다.
도9는 본원의 일 실시예에 따른 만성신장질환의 질병위험에 대한 안내지도를 시각화한 도면이다.
도 10a 및 도10j은 본원의 일 실시예에 따른 핵심 유전자를 선택하고, 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 만성질환 질병 위험도를 예측하는 일 실시예를 설명하기 위한 도면이다.
도 11a내지 도11f는 본원의 일 실시예에 따른 만성신장 질환 발생위험 예측 모형의 예측 검증과정의 실시예를 설명하기 위한 도면이다.
도12는본원의 일 실시예에 따른 만성신장 질환 질병 위험도 예측 방법의 개략적인 흐름도이다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원은 복수의 상태 변수(생활 습관, 건강 상태) 및 유전정보를 이용하여 만성신장질환 발생위험을 예측하는 알고리즘을 구축하고, 구축된 알고리즘을 바탕으로 만성신장질환 위험 혹은 사망과 같은 최종 건강상태를 예측하는데 활용할 수 있는 만성신장 질환의 질병 위험도를 예측하는 장치에 관한 것이다.
본원의 일 실시예에 따르면, 도 1은 본원의 일 실시예에 따른 만성신장 질환의 질병 위험도를 예측하는 장치(100)의 개략적인 시스템도이다. 도 1을 참조하면, 만성신장 질환의 질병 위험도를 예측하는 장치(100)는 질병 예측 서버(200)와 네트워크로 연동될 수 있으나, 이에 한정되는 것은 아니다. 예시적으로, 질병 예측 서버(200)는 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 유전체 자료원과 1차부터 7차까지의 추적된 추적 자료를 포함할 수 있다. 질병 예측 서버(200)는 만성신장 질환의 질병을 예측하는 장치(100)로 질병관리본부의 한국인 유전체 역학조사 사업의 일환인 안산-안성 코호트의 유전체 자료원과 추적 자료원의 정보를 네트워크를 통해 제공할 수 있다.
본원의 일 실시예에 따르면, 만성신장 질환의 질병을 예측하는 장치(100)는 적어도 하나의 인터페이스 장치를 구비하는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. 예시적으로 디바이스에는 사용자에게 질병 위험도를 예측 정보를 제공하기 위한 만성신장 질환의 질병 예측 어플리케이션(application)이 설치 및 구동될 수 있으나, 이에 한정되는 것은 아니다.
이하 설명되는 만성신장 질환의 질병을 예측하는 방법은 만성신장 질환의 질병을 예측하는 장치(100)에서 수행될 수 있다. 다른 일예로, 만성신장 질환의 질병을 예측하는 방법의 각 단계는 질병 예측 서버(200)에서 수행될 수 있다. 또 다른 일예로, 만성신장 질환의 질병을 예측하는 방법의 각 단계 중 일부 단계는 만성신장 질환의 질병을 예측하는 장치(100)에서 수행되고, 나머지 단계는 질병 예측 서버(200)에서 수행될 수 있다. 예를 들어, 만성신장 질환의 질병을 예측하는 장치(100)는 만성신장 질환의 질병을 예측하는 방법의 일부 단계로서 사용자 입력을 수신하고, 수신된 사용자 입력을 서버로 전송하며, 사용자 입력에 응답하여 서버로부터 전성된 정보를 화면에 표시하는 기능만을 수행할 수 있으며, 이 밖에 만성신장 질환의 질병을 예측하는 방법의 나머지 단계는 질병 예측 서버(200)에서 수행될 수 있다. 이하에서는 설명의 편의를 위하여 만성신장 질환의 질병을 예측하는 장치(100)에서 만성신장 질환의 질병을 예측하는 방법이 수행되는 예에 대하여 설명하기로 한다.
본원의 일 실시예에 따르면, 만성신장 질환의 질병을 예측하는 장치(100)는 만성신장질환 발생위험을 예측하는 알고리즘에서 예측된 위험도를 가시화하고, 가시화된 질병 발생 확률 예측 과정과 중간건강결과를 중재하며, 최종건강상태가 호전됨을 이미지화하여 보여주는 도구를 제공함으로써, 질병위험예방관리 서비스 모형을 생성할 수 있다.
본원의 일 실시예에 따르면, 만성신장 질환의 질병을 예측하는 장치(100)는 인공지능 알고리즘을 기반으로 유전 정보 빅데이터를 사전 분석하고 유전 지표를 선정하는 방식을 기존 통계학적 확률 모형과 다중퍼셉트론 방식의 인공신경망 (ANN) 방식 두 개를 이용하여 핵심 유전자를 선정할 수 있다. 또한, 만성신장 질환의 질병을 예측하는 장치(100)는 인공신경망 방식에서 부가 유전자를 선정할 수 있다.
또한, 만성신장 질환의 질병을 예측하는 장치(100)는 최종건강상태인 만성신장질환, 심혈관질환 발생 위험과 사망 위험을 세가지 방법에 의하여 예측할 수 있다. 첫 번째 방법은 머신러닝 방법 중 하나인 다중퍼셉트론 방식의 인공신경망 (ANN) 방식이며, 두 번째 방법은 머신러닝 방법인 랜덤 포레스트와 부스팅 방식, 세 번째 방법은 기존의 통계확률모형으로 환경요인, 생활습관, 질병력과 임상검사자료를 이용하여, 사전에 건강요인을 군별로 선정하고 모형을 만든 다음 이 모형에서 각 질병이나 사망과 인과적 측면에서 볼 때 역인과성 관계이거나 (질병 발생 이후 변화되는 인자인 경우) 혹은 우연이나 노이즈, 바이어스로 인해 포함되어졌을 가능성이 있을만한 요인들은 제외하고, 이후 의학적으로 중요한 요인이나 모형에서 빠진 요인 변수를 추가하여 최종 모형을 형성한 다음, 최종 모형을 이용하여 시간의존적 콕스회귀모형에서 최종 건강상태 위험을 예측할 수 있다.
또한, 본원의 일 실시예에 따르면, 만성신장 질환의 질병을 예측하는 장치(100)는 인공신경망 방식을 적용하여 변수들의 차원을 줄이고 우선순위를 정하여 건강요인들을 입력으로할 수 있다. 이때, 입력 순서는 질병의 자연사 개념을 고려하여 출생 시점부터 결정되어 있는 요인부터 이후 노출될 수 있는 요인들로 이후, 질병 발생, 악화, 사망의 순서로 순차적으로 포함되도록 할 수 있다.
도2는 본원의 일 실시예에 따른 만성신장 질환의 질병을 예측하는 장치(100)의 개략적인 구성도이다. 도2를 참조하면, 만성신장 질환의 질병을 예측하는 장치(100)는 정보 입력부(110), 유전자 정보 기계학습 모델 생성부(120), 핵심 유전자 정보 선택부(130), 질병 위험도 기계학습 모델 생성부(140), 유전자 정보 통계확률 모델 생성부(150), 통계확률 모델 생성부(160) 및 질병 위험도 예측부(170)를 포함할 수 있으나, 이에 한정되는 것은 아니다.
정보 입력부(110)는 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받을 수 있다. 정보 입력부(110)는 대상자의 대상자 상태 변수를 획득하기 위해, 복수의 생활상태 변수 및 건강상태 변수를 사용자 단말로 제공할 수 있다. 예를 들어, 사용자 단말에는 복수의 생활상태 변수 및 건강상태 변수에 해당하는 목록들이 출력되고, 사용자는 본인의 생활상태 변수 및 건강상태 변수에 해당하는 정보들을 입력할 수 있다.
본원의 일 실시예에 따르면, 상태 변수는 연령, 성별, 가구 수입 등의 인구학적 특성과, 가족력, 과거력 등의 역학 정보, 음주력, 흡연력, 신체 활동, 영양 섭취 등의 생활 습관, 신장, 체중, 혈액 검사 결과와 같은 신체 계측 치 및 임상 정보를 보함하는 대상자의 생활상태 변수 및 건강상태 변수일 수 있다. 유전자 정보는 단일염기 다형성 형태로 수집된 유전 정보일 수 있다.
정보 입력부(110)는 질병 예방 서버(200)로부터 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받을 수 있다. 질병 예방 서버(200)는 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 유전체 자료원과 1차부터 7차까지의 추적된 추적 자료를 대상자의 대상자 상태 변수 및 대상자 유전자 정보로 제공할 수 있으나, 이에 한정되는 것은 아니다.
유전자 정보 기계학습 모델 생성부(120)는 만성신장 질환의 질환자의 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 유전자 정보와 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성할 수 있다.
핵심 유전자 정보 선택부(130)는 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택할 수 있다. 또한, 핵심 유전자 정보 선택부(130)는 유전자 정보 통계확률 모델 및 유전자 정보 기계학습 모델을 이용하여 유전자 정보로부터 핵심 유전자 정보를 선택할 수 있다. 예시적으로 핵심 유전자 정보 선택부(130)는 질병 발생 및 사망 위험 예측에 대한 값을, 빅데이터 요인 정보를 입력하여 머신러닝을 이용하여 훈련된 예측 값과 최소한으로 사전에 의학적 인과적 요인으로 구성된 통계확률 예측 값 각각 2개를 산출할 수 있다.
본원의 일 실시예에 따르면, 핵심 유전자 정보 선택부(130)는 개인의 자료 상태 (미싱 정도, 오분류 정도, 질 상태 등)과 양에 따라 최적의 예측력을 가진 모형에 의해 위험 예측이 되도록 할 수 있다. 예시적으로, 개인의 정보량이 빅데이터 수준일 경우 예측력이 더 좋은 머신러닝 방법을 사용하여 예측값이 산출되도록 하고 개인의 정보가 한정되어 최소한의 의학적 정보로만 구성되어 있다면 통계적 모형에서 예측값을 산출하도록 구성할 수 있다.
본원의 일 실시예에 따르면, 핵심 유전자 정보 선택부(130)는 질병과 관련된 유전자 지표를 1) 추정사구체여과율과 연관된 유전자 지표, 2) 알부민뇨 (Urine albumin)와 연관된 유전자 지표, 3) 단백뇨 (Urine total protein)과 연관된 유전자 지표를 각각 선정하여 이를 핵심 유전자1로 선별할 수 있다. 또한, 핵심 유전자 정보 선택부(130)는 다층 퍼셉트론 구조의 인공신경망 (ANN) 모형을 이용하여 유의한 확률값의 기준을 1x10-8부터 1x10-6 사이에 두어 유전자 지표를 선정하고, 이 때 선정된 유전자 지표를 핵심 유전자2로 선별할 수 있다.
핵심 유전자 정보 선택부(130)는 유의한 확률값의 기준을 1x10-5부터 1x10-3 사이에 두어 10-1씩 높여가면서 조절하여 선정되는 SNP지표 수, 정밀도, 정확도, 설명력 등이 가장 갑자기 많이 차이가 나는 확률값을 기준으로 하여 핵심 유전자 지표와 부가 유전자 지표를 선정하여 최소 기준 확률값을 결정할 수 있다.
질병 위험도 기계학습 모델 생성부(140)는 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성할 수 있다.
질병 위험도 기계학습 모델 생성부(140)는 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정보를 학습하는 기계학습 모델을 생성할 수 있다. 예시적으로, 기계학습 모델은 순환신경망 (Recurrent Neural Network, RNN) 과 다층퍼셉트론신경망 (Multi-layer perceptron neural network, MLP)을 이용해 기계학습 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 질병 위험도 기계학습 모델 생성부(140)는 만성신장 질환의 각 질병과 관련된 유전자를 다층 퍼셉트론 신경망을 연결해 순환신경망에 연결하여 입력할 수 있다. 또한, 질병 위험도 기계학습 모델 생성부(140)는 반복 측정된 복수의 상태 변수를 통해 각 역학적 변수의 시간에 따른 상관관계뿐만 아니라 변수간의 상관관계까지 분석이 가능하도록 이를 순환 신경망에 순차적으로 입력하여 분석할 수 있다.
질병 위험도 기계학습 모델 생성부(140)는 대상자의 대상자 상태 변수 및 대상자 유전자의 정보를 반복측정하고 반복 측정된 정보를 입력할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 대상자의 대상자 상태 변수 및 대상자 유전자의 정보를 기반으로 생활습관 및 신체계측치, 임상치 등의 반복 측정된 값들에 대해 생활습관에 변화가 있는지를 확인할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 반복 측정된 값들 중 유사한 양상을 보이는 집단끼리 구분 하여 각각에 대한 클러스터를 생성하고, 성별, 질병별로 비슷한 생활습관 변화 양상을 보이는 집단을 구분할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 대상자의 대상자 유전자 정보를 기반으로, 만성신장 질환의 각 질병별로 생활습관의 변화와 관련된 유의한 유전자를 선별할 수 있다. 유의한 유전자는 만성신장 질환의 각 질병과 연계된 유전자일 수 있다.
본원의 일 실시예에 따르면, 질병 위험도 기계학습 모델 생성부(140)는 반복측정된 대상자의 대상자 상태 변수를 인경신공망 중 순환신경망에 순차적으로 입력하고, 만성신장 질환의 각 질병별로 생활습관의 변화와 관련된 유의한 유전자는 다층퍼셉트론을 통해 순환신경망에 연결될 수 있다.
질병 위험도 기계학습 모델 생성부(140)는 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수와 같은 시계열 데이터를 입력할 수 있는 인공 신경망 중 순환신경망을 적용하여 기계학습 모델을 생성할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 단일 시점에서 수집한 유전 정보를 통합 입력하기 위해 기존 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 추가적으로 연결할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 마지막의 출력 층에 만성신장 질환 발생 유/무를 설정할 수 있다.
예시적으로, 인공 신경망은 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)의 3가지의 층으로 구분될 수 있다. 각 층들은 노드들로 구성되어 있으며, 입력층은 시스템 외부로부터 입력자료를 받아들여 시스템으로 입력 자료를 전송할 수 있다. 은닉층은 시스템 안쪽에 자리잡고 있으며 입력 값을 넘겨받아 입력자료를 처리한 뒤 결과를 산출할 수 있다. 출력층은 입력 값과 현재 시스템 상태에 기준하여 시스템 출력 값을 산출할 수 있다. 입력층은 예측값(출력변수)을 도출하기 위한 예측변수(입력변수)의 값들을 입력할 수 있다. 입력층에 n개의 입력 값들이 있다면 입력층은 n개의 노드를 가지게 되며, 본원에서의 입력층에 입력되는 값은 생활상태 변수 및 건강상태를 포함하는 복수의 상태 변수와 유전자 정보일 수 있다. 은닉층은 복수의 입력 노드로부터 입력 값을 받아 가중합을 계산하고, 이 값을 전이함수에 적용하여 출력층에 전달할 수 있다. 예시적으로 기계학습 모델의 입력층은 복수의 상태 정보, 유전자 정보, 이전 시점의 은닉층이 될 수 있고, 은닉층은 복수의 상태 정보, 복수의 상태 정보를 그룹핑한 정보일 수 있고, 출력층은 질병 위험도를 나타내는 것일 수 있다.
본원의 일 실시예에 따르면 기계학습 모델은 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정보를 학습하는 제 1 학습을 수행할 수 있다. 또한, 기계학습 모델은 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 입력층과 은닉층 사이의 관계의 정보를 학습하는 제 1 학습을 수행할 수 있다.
기계학습 모델은 [수학식1]을 기반으로, 입력층과 은닉층 사이의 관계의 정도를 학습할 수 있다. 관계의 정도는 입력층에 입력 받은 정보들의 가중합을 계산한 값을 의미할 수 있으나, 이에 한정되는 것은 아니다.
[수학식1]
Figure PCTKR2018000061-appb-I000010
이때,
Figure PCTKR2018000061-appb-I000011
는 t 시점에서의 은닉층이고,
Figure PCTKR2018000061-appb-I000012
은 t시점의 이전 시점 은닉층이고,
Figure PCTKR2018000061-appb-I000013
는 제 1 상태 변수이고,
Figure PCTKR2018000061-appb-I000014
는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고,
Figure PCTKR2018000061-appb-I000015
는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치이다. 예시적으로, [수학식 1]에서
Figure PCTKR2018000061-appb-I000016
는 t시점의 복수의 상태 변수 중 제 1 상태 변수이고,
Figure PCTKR2018000061-appb-I000017
는 t시점의 은닉층을 나타내고
Figure PCTKR2018000061-appb-I000018
는 복수의 상태 변수(입력 변수)와 은닉층간의 가중치이고,
Figure PCTKR2018000061-appb-I000019
는 은닉층들간의 가중치일 수 있으나, 이에 한정되는 것은 아니다. 일예로, 제 1 유형의 관계의 정도는 시간에 따른 복수의 상태 변수들관의 상관관계(가중치)일 수 있고, 제 2 유형의 관계의 정도는 복수의 상태 변수간의 상관관계(가중치)일 수 있으나, 이에 한정되진 않는다.
기계학습 모델은 [수학식 1]에 표현된 순환신경망에 반복 측정된 복수의 상태 변수 (예를 들어, 개개인의 생활 습관 및 건강 상태 변수)를 입력하여 시간에 따른 상관관계뿐만 아니라 생활 습관 및 건강 상태 변수간의 상관관계까지 분석할 수 있다.
본원의 일 실시예에 따르면, 기계학습 모델은 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정보를 학습하는 제 2 학습을 수행할 수 있다. 또한, 기계학습 모델은 은닉층 및 유전자 정보를 입력층으로 하고 질병 위험도를 출력층으로 할 때, 은닉층과 출력층 사이의 관계의 정보를 학습하는 제 2 학습을 수행할 수 있다.
기계학습 모델은 [수학식 2]를 기반으로 은닉층과 출력층 사이의 관계의 정도를 학습할 수 있다. 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 은닉층과 출력층 사이의 관계의 정도를 학습할 수 있다. 기계학습 모델은 [수학식1] 및[수학식2]를 기반으로 입력층, 은닉층 및 출력층 사이의 관계의 정보를 학습하고 출력층의 결과로 질병 위험도의 예측 결과를 학습할 수 있다.
[수학식 2]
Figure PCTKR2018000061-appb-I000020
이때, y는 출력층이고,
Figure PCTKR2018000061-appb-I000021
는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고,
Figure PCTKR2018000061-appb-I000022
는 은닉층이고,
Figure PCTKR2018000061-appb-I000023
는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보일 수 있다. 일예로, 제 3 가중치는 질병 위험을 예측하기 위해 복수의 상태 변수와 출력층 사이의 관계를 나타낸 관계의 정도이고, 제 4가중치는 특정 유전자에 가중치를 부여하기 위한 유전자 정보와 출력층 사이의 관계의 정도일 수 있다.
본원의 일 실시예에 따르면, 유전 정보는 단일 시점으로 수집되었으므로 순환신경망에 통합시키기 위해 [수학식 2]와 같이 순환신경망 마지막 층에 다층 퍼셉트론 신경망을 연결하여 입력할 수 있다. 예시적으로, 유전 정보는 단일염기 다형성 형태로 수집되었으며, 각 만성신장 질병 각각에 대해 기존에 알려진 유전정보를 대립유전자에 따른 위험 지수(Risk fator)로 변환하여 입력할 수 있다. 기계학습 모델은 제 2 학습을 통해, 은닉층과 출력층 사이의 관계의 정도, 즉 은닉층과 출력층 사이의 가중치를 학습할 수 있다.
본원의 일 실시예에 따르면, 질병 위험도 기계학습 모델 생성부(140)는 [수학식 3]을 기반으로 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델 생성 시 발생하는 오차에 가중치를 갱신할 수 있다.
[수학식 3]
Figure PCTKR2018000061-appb-I000024
E는 질병 위험도 기계학습 모델 생성부(140)의 오차의 검출값이고, t는 만성신장 질환의 발생 여부이고, y는 기계학습 모델을 통해 예측된 질병 위험도이고,
Figure PCTKR2018000061-appb-I000025
는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식이다.
[수학식 3]은 질병 위험도 기계학습 모델 생성부(140)의 오차식이며 산출된 오차를 역전파 알고리즘을 통해 인공신경망의 가중치를 학습할 수 있다. 학습 과정 중 발생하는 노이즈(noise)에 따른 과적합을 방지하기 위해 L2 정화규 식을 추가하였으며, t는 각 실제 만성신장 질환에 대한 발생 유 또는 무를 나타내는 것일 수 있으나, 이에 한정되는 것은 아니다.
본원의 일 실시예에 따르면, 질병 위험도 기계학습 모델 생성부(140)는 구축된 기계학습 모델(예를 들어, 인공신경망)의 타당도 검증을 위해 만성신장 질환의 질환자(전체 대상자)를 3그룹으로 구분하여 교차검증을 시행할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 검증 후 문헌 조사를 통해 만성신장 질병 발생과 연관된 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수에 가중치를 조정하여 견고한 기계학습 모델을 생성할 수 있다.
예시적으로, 질병 위험도 기계학습 모델 생성부(140)는 다층 퍼셉트론 구조의 인공신경망 (ANN) 모형을 이용하여 기계학습 모델을 생성할 수 있다, 질병 위험도 기계학습 모델 생성부(140)는 인공신경망에 입력되는 변수를 질병의 자연사 개념에 따르는데, 출생 시점부터 결정되어 있는 생식세포 유전자와 이후 반복적인 환경 노출, 환경노출에 의해 결정되는 후생유전자, 반복적 환경 노출과 유전자와의 상호작용, 이후 생체 내에서의 변화를 통해 관찰되는 임상검사 지표들의 변화, 이후 질병에 대한 진단으로 인한 만성신장질환의 발생과 악화, 사망 등을 고려하여 순차적으로 입력되도록 하여 차원을 줄이는 방법을 적용하여 기계학습 모델을 생성할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 인공신경망에 입력되는 변수를 생식세포와 관련된 유전정보부터 입력하되, 위에서 언급한 원칙에 따라 핵심 유전 정보를 먼저 포함하여 차원을 줄여 첫 번째 층을 만들고, 부가 유전 정보를 추가로 포함하여 차원을 줄여 두 번째 층을 만들며, 다음 생활습관 요인 등의 환경 요인들을 포함하여 차원을 줄여 세 번째 층을 만들고, 다음 임상검사 지표들을 포함하여 네 번째 층을 생성할 수 있다. 질병 위험도 기계학습 모델 생성부(140)는 이후 은닉층을 거쳐 반복적 훈련을 통해 만성신장질환의 발생을 예측할 수 있다.
본원의 일 실시예에 따르면, 질병 위험도 기계학습 모델 생성부(140)는 모든 입력 요인(복수의 상태 변수)들을 포함하여 질병 발생 및 사망 위험을 예측하는 머신러닝 모형으로, 여러 개의 결정 트리들을 임의적으로 훈련하여 학습하는 방식인 랜덤 포레스트 (Random forest)와 잘못 분류된 변수에 집중하여 새로운 분류규칙을 반복해서 만드는 방법인 부스팅(Boosting)을 이용하는 방식으로, 이 방식들은 학습을 반복함으로써 예측모형의 정확도를 향상시키는 방법을 적용하여 기계학습 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 유전자 정보 통계 확률 모델 생성부(150)는 만성신장 질환의 질환자의 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 유전자 정보 각각의 존재 유무 또는 값에 따라 만성신장 질환의 질병 위험도를 확률적으로 나타내는 유전자 정보 통계확률 모델을 생성할 수 있다. 예시적으로, 유전자 정보 통계 확률 모델 생성부(150)는 통계적 확률 모형을 이용하여 변수를 선정한 다음 다중 일반인구집단의 평균적인 건강요인 노출을 제외한 시간변이 콕스회귀모형을 이용한 방식을 통해 질병 발생 및 사망 위험을 예측 모델을 생성할 수 있다.
유전자 정보 통계 확률 모델 생성부(150)는 질병 발생 혹은 사망에 관련된 요인 변수들은 사전에 선정 과정을 거쳐 최종 모형에 포함하도록 할 수 있다. 변수 선정은 콕스비례위험 모형에서 전진선택법, 후진선택법, 단계 삽입법 등의 3가지 과정에서 2번 이상 동일한 변수가 선정될 때 우선적으로 요인 변수로 선정하여 모형을 만든 다음 이 모형에서 각 질병이나 사망과 인과적 측면에서 볼 때 역인과성 관계이거나 (질병 발생 이후 변화되는 인자인 경우) 혹은 우연이나 노이즈, 바이어스로 인해 포함되어졌을 가능성이 있을만한 요인들은 제외하고, 이후 의학적으로 중요한 요인이나 모형에서 빠진 요인 변수를 추가하여 최종 유전자 정보 통계 확률 모델을 생성할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 최종 모형을 이용하여 이후 우선 선정된 변수들의 다변량모형에서 공선성 문제가 없으면서 가장 적합한 모형을 선정하여 최적의 요인 변수를 선정한 다음, 이후 의학적으로 중요한 요인 변수이나 통계모형에서 빠진 변수를 추가하여 최종 유전자 정보 통계 확률 모델을 생성할 수 있다.
예시적으로 유전자 정보 통계 확률 모델 생성부(150)는 개인의 연령을 통계적 선정에서 유의하던 유의하지 않던 간에 모형에 포함하였으며, 이 방식에 의해 의학적 인과성 모형을 설정하였다. 모형 구축과 검증을 위해 대상자를 7대 3 비율로 구축데이터 (training set)과 검증 데이터 (test set)으로 구분하였으며, 이후 선정된 변수를 이용해 구축데이터 내에서 통계적 모형 기반인 경쟁적 확률 위험 모형을 이용하여 대상자의 향후 질병 발생 위험을 예측하였고, 이를 검증 데이터를 이용한 내부검증 (internal validation)과 5겹 교차검증 (cross-validation)을 통해 질병 발생 예측을 실시하였다. 최종 선정된 모형에서 변수 별 질병 발생 위험에 미치는 영향 (beta=b)을 기반으로 각 대상자별 관측된 (observed) 질병발생 위험 (R)과 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) 를 예측하여 아래와 같은 공식을 이용하여 최종적으로 각 대상자 고유의 위험점수 (risk score)를 연산하였다.
본원의 일 실시예에 따르면, 유전자 정보 통계 확률 모델 생성부(150)는 최소한의 중요한 의학적 요인들로 구성된 시간변이 콕스회귀모형과 최대한의 많은 요인들로 구성되고 스스로 학습에 의해 예측능력을 증강하게 되는 머신러닝 기법을 동시에 포함하여 최소한 2개 의 모형에서 질병 확률 값이 산출되도록 유전자 정보 통계 확률 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 통계확률 모델 생성부(160)는 기본 통계확률 모델 생성부(161) 및 가중치 통계확률 모델 생성부(162)를 포함할 수 있다.
통계확률 모델 생성부(160)는 만성신장 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 예시적으로, 통계확률 모델 생성부(160)는 대상자가 현재 4그룹으로 구분된 위험군(낮음-보통수준-높음-매우높음) 중 어느 곳에 속하는 지 확인 할 수 있다. 또한 통계확률 모델 생성부(160)는 변수(복수의 상태 변수) 별 질병 발생 위험도에 미치는 영향도 (b)를 기반으로 각 대상자별 관측된 (observed) 질병발생 위험 (R)과 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) 를 예측하고 이를 이용하여 최종적으로 각 대상자 고유의 risk score를 연산할 수 있다.
본원의 일 실시예에 따르면, 기본 통계확률 모델 생성부(161)는 만성신장 질환의 질환자의 복수의 상태 변수, 유전자 정보 및 만성신장 질환의 질병 위험도를 입력하고, 복수의 상태 변수 중 만성신장 질환과 연관된 적어도 하나 이상의 변수를 선택하고, 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 만성신장 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성할 수 있다.
예시적으로, 기본 통계확률 모델 생성부(161)는 개인(대상자, 질환자)이 인식할 수 있는 복수의 상태 변수(예를 들어, 생활 습관, 신체 계측치, 질병력과 같은 요인의 반복측정된 정보)를 입력할 수 있다. 또한, 기본 통계확률 모델 생성부(161)는 질병 예측 서버(200)로부터 제공받은 질병관리본부의 한국인 유전체역학조사사업의 일부인 안산-안성 코호트의 1차부터 7차까지의 추적된 추적 자료를 기반으로 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 또한, 통계확률 모델 생성부(160)는 기저 조사 당시 개인의 생활 습관 및 건강 상태 정보에 대한 입력을 기반으로 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성할 수 있다. 또한, 기본 통계확률 모델 생성부(161)는 개인이 인식하지 못하는 영양소 섭취 및 임상수치와 같은 요인에 대한 반복 측정된 값에 대한 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 기반으로 주요 변수에 대한 선정이 이루어질 수 있다.
기본 통계확률 모델 생성부(161)는 개인이 인식할 수 있는 복수의 상태 변수 중 통계적 확률 기반의 모형을 이용해 주요 변수에 대한 선정을 1차적으로 수행하고, 개인이 인식하지 못하는 영양소 섭취 및 임상수치와 같은 요인을 통계적 확률 기반의 모형을 이용해 주요 변수에 대한 선정을 2차적으로 수행하고, 1차 및 2차 주요 변수 선정에 기반하여 만성신장 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델에 대한 주요 변수를 선정할 수 있다. 예시적으로, 앞서 설명된 통계확률 모델은 통계확률 모형의 방법 중 하나인 콕스비례위험모형을 이용하여 전진선택법, 후진선택법 및 단계 삽입법의 3가지의 변수 선정 과정을 통해 2번 이상 선정된 변수에 대해 1차 변수(주요 변수)를 선정할 수 있다.
또한, 기본 통계확률 모델 생성부(161)는 의학적 임상적 기반으로 만성신장 질환의 각 지병과 관련된 변수를 추가 선정할 수 있다. 유전정보에 기반한 유전체 선정은 먼저 입력된 유전 정보를 기반으로 각 만성신장 질환의 질병별 유의한 유전체를 선정하고, 통계적으로 유의하지는 않았으나 기존에 질병과 연관성이 있다고 보고된 유전자에 대해 추가 선정이 이뤄져 최종적으로 유전체가 선별될 수 있다. 또한, 기본 통계확률 모델 선정부(161)는 전문가의 의학적 판단 하에, 임상적으로 유의한 변수에 대한 추가적인 입력을 통해 최종적으로 만성신장 질환의 각 질병예측에 포함된 변수를 선정할 수 있다.
또한, 기본 통계확률 모델 생성부(161)는 모형 구축과 검증을 위해 대상자를 7대 3 비율로 구축데이터 (training set)과 검증 데이터 (test set)으로 구분할 수 있다. 기본 통계확률 모델 생성부(161)는 선정된 변수를 이용하여 구축데이터 내에서 통계적 모델 기반인 경쟁적 확률 위험 위험 모형을 이용한 대상자의 현재 만성신장 질환 위험을 예측하는 기본 통계확률 모델을 생성할 수 있다. 기본 통계확률 모델 생성부(161)는 검증 데이터에서 검증하는 내부검증 (internal validation)과 5겹 교차검증 (cross-validation)을 통해 각 변수 별(복수의 상태 변수 각각) 질병 발생에 미치는 영향도(b)에 대한 최적의 값을 추출하고, 이를 이용한 최종 질병 발생 기본 통계확률 모델을 생성할 수 있다.
가중치 통계확률 모델 생성부(162)는 만성신장 질환과 연관된 유전자 정보의 존재 여부에 따라 만성신장 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 통계확률 모델을 생성할 수 있다.
질병 위험도 예측부(170)는 질병 위험도 기계학습 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다. 또한, 질병 위험도 예측부(170)는 질병 위험도 기계학습 모델 및 유전자 정보 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다.
본원의 일 실시예에 따르면 질병 위험도 예측부(170)는 기계학습 모델 및 통계확률 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다. 또한, 질병 위험도 예측부(170)는 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화할 수 있다. 예를 들어, 질병 위험도 예측부(170)는 딥러닝 기반의 시각화 알고리즘을 구축하여 기계학습 모델 생성부(120)의 기계학습 모델 및 통계확률 모델 생성부(130)의 통계확률 모델을 기반으로 각 대상자별 시각화된 결과를 제공할 수 있다. 질병 위험도 예측부(170)는 부정적 요인의 변화양상을 바탕으로 개인의 질병 위험 경로의 변화를 예측하여 시각화하여 제공할 수 있다. 또한, 질병 위험도 예측부(170)는 긍정적 요인의 변화양상을 바탕으로 개인의 질병 위험 확률이 감소될 수 있는 안전 경로를 시각화하여 제공할 수 있다. 또한, 질병 위험도 예측부(170)는 부정적 요인 및 긍정적 요인의 변화 양상을 통합적으로 고려하여, 각 대상자별 생활 습관의 변화양상을 바탕으로 만성신장질환 및 최종 건강상태인 심혈관계 질환, 만성심장질환 및 사망에 대한 위험회피 경로 안내를 통해 개인 맞춤형 예방 관리 서비스 모형을 제공할 수 있다.
예시적으로, 질병 위험도 예측부(170)는 추후 반복 측정된 대상자(개인)의 복수의 상태 정보(생활 습관 및 건강 상태 정보)를 기계학습 모델 생성부(120) 및 통계확률 모델 생성부(130)에 재입력하여 각 역학적 변수의 시간에 따른 변화를 파악하고 변화 속도를 예측 모형에 적용하여 계산하여, 대상자의 중간건강관리에 따른 건강상태 수정결과와 그에 따른 재 예측된 질병 발생 위험도를 제공할 수 있다.
본원의 일 실시예에 따르면 질병 위험도 예측부(170)는 [수학식 4]
Figure PCTKR2018000061-appb-I000026
에 표현된 콕스 비례위험 모형을 통하여 각각의 생활 습관 및 건강 상태 변수와 만성신장질환 발생 사이의 상관관계를 평가하며, 각 질병 발생과 유의한 상관성을 갖는 변수들을 모두 모형에 ‘포하였다’하여 다변량 콕스 비례위험 모형을 유전자 정보 기계학습 모델 생성부(140)에 적용 복수의 상태변수 만성신장질환 발생 사이의 상관관계를 평가할 수 있따. 예시적으로, 유전자 정보 기계학습 모델 생성부 (120)는다변량 콕스 비례위험 모형에서 각 질병의 발생과 유의한 상관관계를 보이는 변수들을 선정하고, 마지막으로 임상적인 유의성을 기준으로 변수를 선정하여 최종적으로 콕스 비례위험 모형을 구축할 수 있다.
도3은 본원의 일 실시예에 따른 질병 위험도 기계학습 모델 생성부 및 유전자 정보 통계확률 모델 생성부에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 만성질환 질병 위험도를 예측하는 과정을 개략적으로 도시한 도면이다. 예시적으로 도 3을 참조하면, 유전자 정보 통계확률 모델 생성부(150)는 대상자의 환경요인(생활습관 등)의 기저 및 반복 측정된 복수의 상태 변수 정보를 입력으로 할 수 있다. 유전자 정보 통계확률 모델 생성부(150)는 만성신장 질환과 연계된 환경 요인을 유전자 정보 통계확률 모델에 기반하여 선정할 수 있다. 유전자 정보 통계확률 모델 생성부(150)는 임상검사 및 신체측정 등의 기저 및 반복측정 정보를 입력으로 할 수 있다. 유전자 정보 통계확률 모델 생성부(150)는 유전자 정보 통계확률 모델에 기반하여 검사지표를 선정할 수 있다. 유전자 정보 통계확률 모델 생성부(150)는 제 1 유전자 정보 통계확률 모델에 기반하여 문제가 있는 유전자 요인 변수를 제외할 수 있다. 유전자 정보 통계확률 모델 생성부(150)는 제 2 유전자 정보 통계확률 모델에 기반하여 생물학적 타당성 및 인과성 평가 과정을 거쳐 유전자 정보를 추가할 수 있다. 또한, 유전자 정보 통계확률 모델 생성부(150)는 만성신장 질환과 연계된 의학적 주 요인이나 유전자 정보 통계확률 모델에서 제외된 유전자 정보를 입력받을 수 있다. 유전자 정보 통계확률 모델 생성부(150)는 제 1 유전자 정보 통계확률 모델 및 제 2 유전자 정보 통계확률 모델, 의학적 주 요인이나 모형에서 빠진 요인을 추가로 하여 만성신장 질환과 연계된 유전자의 최종 환경 요인을 선정할 수 있다.
본원의 일 실시예에 따르면, 유전자 정보 기계학습 모델 생성부(120)는 질병 서버(200)에 저장된 유전 정보 빅데이터를 유전자 정보 통계 확률 모델에 적용하여 유전 지표를 선정할 수 있다. 유전자 정보 통계 확률 모델에서 선정된 유전자 정보를 핵심 유전자 1로 구분할 수 있다. 유전자 정보 기계학습 모델 생성부(120)는 질병 서버(200)에 저장된 유전 정보 빅데이터를 질병 위험도 기계학습 모델에 적용하여 유전 지표를 선정할 수 있다. 유전자 기계 학습 모델에서 선정된 유전자 정보를 핵심 유전자 2로 구분할 수 있다. 핵심 유전자 정보 선택부(130)는 핵심 유전자 1 및 핵심 유전자 2에 기반하여 최종 핵심 유전자 지표를 선정할 수 있다. 유전자 정보 기계학습 모델 생성부(120)는 제 2 유전 정보 기계학습 모델에 기반하여 부가 유전자 지표를 선정할 수 있다. 질병 위험도 예측부(170)는 유전자 기계학습 모델 및 유전자 정보 통계확률 모델에서 선정된 유전자에 기반하여 질병 위험을 예측할 수 있다. 예를 들어, 유전자 정보 통계 확률 모델 생성부(150)는 선정된 환경요인 및 선정된 검사 지표를 제공하고, 유전자 정보 기계학습 모델 생성부(120)는 핵심 유전자 지표 및 부가 유전자 지표를 제공하 수 있다. 질병 위험도 예측부(170)는 질병 서버(200)로부터 기존 연구에서 보고된 주요 유전자를 추가적으로 입력받을 수 있다. 질병 위험도 예측부(170)는 현재 유병자를 제외하고 질병 없는 정상인과 대상자의 대상자 유전자 정보에 기반하여 만성신장 질환 질병을 예측할 수 있다.
예시적으로, 질병 위험도 예측부(170)는 질병 발생 위험 예측을 통계확률 모델 생성부(160)의 질병 위험 통계 확률 모델에서 생성된 통계적 위험 예측값 및 질병 위험도 기계학습 모델 생성부(140)의 질병 위험 기계학습 모델에서 생성된 기계학습 위험 예측값에 기반하여 질병 발생 위험을 예측할 수 있다. 이때, 질병 위험도 예측부(170)는 개인의 요인 입력 정보의 수, 입력 정보의 질, 무응답 상태, 측정 시점 등에 기반하여 통계모형모델에서 예측값 또는 기계학습 모델에서의 예측값 중 최적의 모델을 선정하여 발생위험 예측값을 제공할 수 있다.
질병 위험도 예측부(170)는 선정된 위험 예측값을 최고위험군, 고위험군, 중간정도 위험군, 저위험군 중 적어도 하나를 선정하여 대상자의 질병 위험도를 예측할 수 있다. 또한, 질병 위험도 예측부(170)는 부정적 요인의 시계열 변동 경로, 긍정적 요인의 시계열 변동 경로에 기반하여 개인맞춤형 위험 경로를 제공할 수 있다.
도 4는 본원의 일 실시예에 따른 유전자 정보 통계 확률 모델 생성부(150)의 질병유병 위험 발생위험 확률 예측과 사망위험을 통한 위험도를 평가하는 실시예를 설명하기 위한 예시도이다.
예시적으로, 도4를 참조하면, 유전자 정보 통계 확률 모델 생성부(150)는 입력1로 개인이 인식하고 있는 요인들을 입력받을 수 있다. 일예로, 개인이 인식하고 있는 요인은 생활습관, 신체 계측치, 질병력과 같은 요인일 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 입력2로 개인이 인식하지 못하고 있는 요인들을 입력 받을 수 있다. 개인이 인식하지 못하고 있는 요인들은 영양소 섭취 및 임상수치와 같은 요인일 수 있다.
유전자 정보 통계 확률 모델 생성부(150)는 입력1 및 입력2를 기반으로 특정 질환과 연계된 주요 상태 변수를 선정하고, 대상자의 현재 질병가능 확률을 예측할 수 있다. 본원에서는 만성신장 질환의 질병의 유병확률을 예측할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 확률 평가 결과를 매우 높음, 높음, 보통, 낮음과 같은 위험도 중 하나를 선정하여 확률 평가 결과를 제공할 수 있다. 질병 위험도 예측부(170)는 확률 평가 결과에 기반하여 각 위험도에 해당하는 대상자(개인)의 맞춤형 위험 조치 정보를 제공할 수 있다. 대상자(개인)의 맞춤형 위험 조치 정보는 고확률 대상에 대한 병원 내원, 건강 검진 등의 정보 및 현재 질병가능확률을 감소할 수 있는 방안일 수 있다.
유전자 정보 통계 확률 모델 생성부(150)는 중간건강상태 제공 이후 일정 시간이 지난 후 향후 만성이상 질환의 질병발생 위험 평가를 제공할 수 있다. 통계확률 모델 생성부(130)는 위험 평가 결과를 최고 위험군, 고 위험군, 중간정도 위험군, 저위험군으로 구분하여 대상자의 위험 평가 결과를 제공할 수 있다. 질병 위험도 예측부(140)는 위험 평가 결과에 기반하여 개인 맞춤형 위험 조치 정보를 제공할 수 있다.
또한, 유전자 정보 통계 확률 모델 생성부(150)는 향후 질병발생 위험 및 사망위험의 위험 평가 결과를 제공할 수 있다. 예를 들어, 최종결과는 만성신장 질환 질병 발생 이후 발생할 수 잇는 만성신장질환, 심혈관질환 사망의 위험 평가 결과일 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 최종 결과에 대한 위험 평가를 최고 위험군, 고 위험군, 중간정도 위험군, 저위험군으로 구분하여 대상자의 최종 결과 위험 평가 결과를 제공할 수 있다. 질병 위험도 예측부(170)는 최종 결과 위험 평가 결과에 기반하여 개인 맞춤형 위험 조치 정보를 제공할 수 있다.
질병 위험도 예측부(170)는 만성신장 질환의 부정적 영향 요인의 시계열적 변동 정보를 제공할 수 있다. 또한, 질병 위험도 예측부(170)는 긍정적 영향 요인의 시계열적 변동 정보를 제공할 수 있다. 질병 위험도 예측부(170)는 부정적 영향 요인이 가상 중재될 경우, 긍정적 시계열 요인 변동경로를 제공할 수 있다. 질병 위험도 예측부(170)는 중재 전후 가상시뮬레이션 위험 예측값을 제공할 수 있다.
본원의 일 실시예에 따르면, 사용자는 질병 위험도 예측부(170)가 제공한 개인 맞춤형 위험 조치 정보를 기반으로 개인의 건강상태 개선을 시행하고, 기 설정된 주기(예를 들어, 1년)마다 복수의 상태 변수, 즉, 개인이 인식하고 있는 요인들을 입력하고, 유전자 정보 통계 확률 모델 생성부(150)는 복수의 상태 변수에 기반하여 중간건강상태, 결과, 최종결과를 반복적으로 예측할 수 있다.
도 5는 본원의 일 실시예에 따른 만성신장 질환 위험도 예측 과정의 일 실시예를 설명하기 위한 도면이다.
예시적으로 도 5를 참조하면, 만성신장 질환 질병 위험도 예측 장치(100)는 질병 예측 서버(200)로부터 다기관 코호트 빅데이터 취합 및 연계 정보를 제공받을 수 있다. 질병 예측 서버(200)는 한국인 유전체역학 코호트 기초자료(KoGesm n=21만명), 한국인 유전체역학 코호트 유전자 자료(KoGES, n=1만명), 국가 암 등록 자료 및 통계청 사망원인 자료를 포함할 수 있으나, 이에 한정되는 것은 아니다. 예를 들면, 만성신장 질환 질병 위험도 예측 장치(100)에 한국인 유전체역학 코호트 기초자료(KoGesm n=21만명), 한국인 유전체역학 코호트 유전자 자료(KoGES, n=1만명), 국가 암 등록 자료 및 통계청 사망원인 자료가 저장되어 있을 수 있다.
만성신장 질환 질병 위험도 예측 장치(100)는 기저 측정자료 및 생활습관 역동패턴의 통합모델을 구축할 수 있다. 만성신장 질환 질병 위험도 예측 장치(100)는코호트 기저자료(n=21만명) 기반 건강나이를 모형화할 수 있다. 만성신장 질환 질병 위험도 예측 장치(100)는유전체 역학자료기반 생활습관 역동성 및 유전변이를 연계분석하고 인공지능 모델을 기반으로 통합모델을 구축할 수 있다. 만성신장 질환 질병 위험도 예측 장치(100)는 건강나이, 생활습관 역동성, 유전정보 통합 모델을 구축할 수 있다.
또한, 만성신장 질환 질병 위험도 예측 장치(100)는 한국인 주요질병 위험인자 및 위험 회피 모형을 도출할 수 있다. 만성신장 질환 질병 위험도 예측 장치(100)는 유전자, 과거력, 가족력, 치료력, 생활습관, 식습관, 여성력, 검사수치, 신체계측 등의 입력 정보를 기반으로 기계학습 모델 및 통계학적 모델을 통해 만성신장 질환을 예측할 수 있다.
만성신장 질환 질병 위험도 예측 장치(100)는 개인맞춤 질병위험 및 위험회피 안내지도를 생성할 수 있다. 만성신장 질환 질병 위험도 예측 장치(100)는 개인맞춤 질병위험 및 위험회피 안내지도를 제공함으로써, 개인별 건강상태 개선을 시행하여 질병 위험 확률을 감소시킬 수 있다.
도 6은 본원의 일 실시예에 따른 만성신잘 질환 질병 위험도 예측 장치의 일 실시예를 설명하기 위한 도면이다. 예시적으로 도 6을 참조하면 만성신잘 질환 질병 위험도 예측 장치(100)는 다층 퍼셉트론 구조의 인공신경망 (ANN) 모형을 적용하여 핵십유전정보를 선정할 수 있다. 만성신잘 질환 질병 위험도 예측 장치(100)에 입력되는 변수는 질병의 자연사 개념에 따르는데, 출생 시점부터 결정되어 있는 생식세포 유전자와 이후 반복적인 환경 노출, 환경노출에 의해 결정되는 후생유전자, 반복적 환경 노출과 유전자와의 상호작용, 이후 생체 내에서의 변화를 통해 관찰되는 임상검사 지표들의 변화, 이후 질병에 대한 진단으로 인한 만성신장질환의 발생과 악화, 사망 등을 고려하여 순차적으로 입력되도록 하여 차원을 줄이는 방법을 적용할 수 있다. 예시적으로, 인공신경망에 입력되는 변수는 생식세포와 관련된 유전정보부터 입력하되, 위에서 언급한 원칙에 따라 핵심 유전 정보를 먼저 포함하여 차원을 줄여 첫 번째 층을 만들고, 부가 유전 정보를 추가로 포함하여 차원을 줄여 두 번째 층을 만들며, 다음 생활습관 요인 등의 환경 요인들을 포함하여 차원을 줄여 세 번째 층을 만들고, 다음 임상검사 지표들을 포함하여 네 번째 층을 만들도록 하였다. 이후 은닉층을 거쳐 반복적 훈련을 통해 만성신장질환의 발생을 예측하도록 하였다.
만성신잘 질환 질병 위험도 예측 장치(100)는 모든 입력 요인들(복수의 상태 변수 및 유전자 정보)을 포함하여 질병 발생 및 사망 위험을 예측하는 머신러닝 모형으로, 여러 개의 결정 트리들을 임의적으로 훈련하여 학습하는 방식인 랜덤 포레스트 (Random forest) 과 잘못 분류된 변수에 집중하여 새로운 분류규칙을 반복해서 만드는 방법인 부스팅(Boosting)을 이용하는 방식으로, 이 방식들은 학습을 반복함으로써 예측모형의 정확도를 향상시키는 방법으로 유전정보를 선정할 수 있다.
만성신잘 질환 질병 위험도 예측 장치(100)는 통계적 확률 모형을 이용하여 변수를 선정한 다음 다중 일반인구집단의 평균적인 건강요인 노출을 제외한 시간변이 콕스회귀모형을 이용한 방식을 통해 질병 발생 및 사망 위험을 예측할 수 있다. 통계적 확률 모형을 이용하여 질병 발생 혹은 사망에 관련된 요인 변수들은 사전에 선정 과정을 거쳐 최종 모형에 포함하도록 하였는데, 변수 선정은 콕스비례위험 모형에서 전진선택법, 후진선택법, 단계 삽입법 등의 3가지 과정에서 2번 이상 동일한 변수가 선정될 때 우선적으로 요인 변수로 선정하여 모형을 만든 다음 이 모형에서 각 질병이나 사망과 인과적 측면에서 볼 때 역인과성 관계이거나 (질병 발생 이후 변화되는 인자인 경우) 혹은 우연이나 노이즈, 바이어스로 인해 포함되어졌을 가능성이 있을만한 요인들은 제외하고, 이후 의학적으로 중요한 요인이나 모형에서 빠진 요인 변수를 추가하여 최종 모형을 형성한 다음, 최종 모형을 이용하여 이후 우선 선정된 변수들의 다변량모형에서 공선성 문제가 없으면서 가장 적합한 모형을 선정하여 최적의 요인 변수를 선정한 다음, 이후 의학적으로 중요한 요인 변수이나 통계모형에서 빠진 변수를 추가하여 최종 다변량 모형을 설정하였다. 이 때, 개인의 연령은 통계적 선정에서 유의하던 유의하지 않던 간에 모형에 포함하였으며, 이 방식에 의해 의학적 인과성 모형을 설정하였다. 모형 구축과 검증을 위해 대상자를 7대 3 비율로 구축데이터 (training set)과 검증 데이터 (test set)으로 구분하였으며, 이후 선정된 변수를 이용해 구축데이터 내에서 통계적 모형 기반인 경쟁적 확률 위험 모형을 이용하여 대상자의 향후 질병 발생 위험을 예측하였고, 이를 검증 데이터를 이용한 내부검증 (internal validation)과 5겹 교차검증 (cross-validation)을 통해 질병 발생 예측을 실시하였다. 최종 선정된 모형에서 변수 별 질병 발생 위험에 미치는 영향 (beta=b)을 기반으로 각 대상자별 관측된 (observed) 질병발생 위험 (R)과 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) 를 예측하여 아래와 같은 공식을 이용하여 최종적으로 각 대상자 고유의 위험점수 (risk score)를 연산하여 현재 대상자에 대한 만성신장질환 발생위험을 확인할 수 있다.
만성신잘 질환 질병 위험도 예측 장치(100)는 만성신장질환의 발생과 사망 위험에 대한 예측값이 2개의 모형에서 각각 산출된다. 개인의 정보를 입력하였을 때, 개인의 정보들은 정보의 결측 상태 (무응답으로 인한 결측, 인식하지 못하는 요인 정보들 중 알지 못하는 값들로 인한 값없음, 원하는 형태로 구분되지 못하는 경우의 값 등)와 정보의 양 등 많은 차이가 있게 된다. 시간변이 콕스회귀모형의 경우는 최소한의 정보로 최적의 예측 성능을 가지도록 만든 모형이므로, 해당 요인 변수만으로 가동되는 장점이 있으며, 만약 개인이 많은 빅데이터를 가질 경우는 더 예측 성능이 높은 머신러닝 방식의 예측 방법을 채택하는 것이 좋다. 따라서 개인의 정보의 상태와 량을 평가하여 적합한 모형에서 결과를 산출하게끔 하기 위하여 두 가지 모형을 모두 제공하도록 하였으나, 이에 한정되는 것은 아니다.
도7은 본원의 일 실시예에 따른 유전자 정보 통계 확률 모델 생성부(150)의 일 실시예를 설명하기 위한 도면이다. 예시적으로 도 7을 참조하면, 유전자 정보 통계 확률 모델 생성부(150)는 만성신장질환 상식세포 유전체를 입력으로 할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 만성신장질환 핵심유전자를 선별할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)만성신장 질환 환경 요인들을 입력으로 할 수 있다. 유전자 정보 통계 확률 모델 생성부(150) 만성신장 질환 핵심 환경요인을 선별할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 만성신장질환 핵심유전자 선별 및 만성신장 질환 핵심 환경요인 선별에 기반하여 중간건강상태인 대상자의 현재 신장 기능을 예측할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 중간건강상태 이후 향후 만성 신장질환의 발생 위험을 생성할 수 있다. 또한, 유전자 정보 통계 확률 모델 생성부(150)는 향후 만성신장 질환 악화 및 사망 위험을 예측할 수 있다. 유전자 정보 통계 확률 모델 생성부(150)는 향후 만성 신장질환 발생 위험 및 사망 위험 예측 정도를 각각 최고 위험군, 고 위험군, 중간정도 위험군, 저 위험군으로 구분하여 예측 결과를 제공할 수 있다.
질병 위험도 예측부(170)는 만성 신장질환 발생 위험 및 사망 위험 예측 정도에 기반하여 개인(대상자) 맞춤형 개선 지침 및 질병 요인, 건강정보를 제공할 수 있다. 사용자는 질병 위험도 예측부(170)에서 제공한 건강 개선 지침에 기반하여 개인의 건강상태 개선을 시행하고, 기 설정된 주기(예를 들어, 1년)로 반복적으로 입력 값을 입력할 수 있다.
도8은 본원의 일 실시예에 따른 복수의 만성신장 질환의 클러스터링을 나타낸 도면이다. 도 8을 참조하면, 질병 위험도 기계학습 모델 생성부(140)는 복수의 상태 변수들을 만성신장 질환 각각에 해당하는 복수의 상태 변수들끼리 클러스터링 할 수 있다.
도9는 본원의 일 실시예에 따른 만성신장 질환의 질병위험에 대한 안내지도를 시각화한 도면이다. 도 9을 참조하면, 질병 위험도 예측부(170)는 복수의 상태 변수들을 기반으로 만성신장 질환의 질병들의 위험, 안전, 최적 등의 질병위험도에 대한 안내지도를 시각화하여 제공할 수 있다.
이하에서는 만성신장 질환을 예측하는 유전자를 만성신장 질환 질병 위험도 예측 장치(100)에 적용하여 향후 만성신장질환 발생을 예측하는 실시예를 설명하고자 한다.
도 10a는 5-fold cross-validation을 이용하여, 총 100번의 반복을 시행해 유전자들을 조합을 이용해 만성신장질환 발생을 예측결과이다.
도 10b는 인공신경망을 통해 유전자 조합에 따른 만성신장질환 발생의 예측도를 검증한 결과이다.
도 10c는 Q-Q plot과 lambda (1.03305) 값을 통해 추정사구체여과율과 관련하여 집단간 이질성 혹은 숨겨진 관련성이 있는 지 진단하고, Manhattan plot을 통해 추정사구체여과율과 들과의 연관성을 도시한 도면이다.
도 10c를 참조하면, 만성신장질환 유전체 분석 대상자 선정과정을 통해 역학, 유전체 통합 자료를 모두 가지고 있는 대상자 8,840명을 최종 선정하였다. 만성신장질환을 평가할 수 있는 결과변수로는 혈청 크레아티닌 (serum creatinine)을 이용하여 MDRD 공식으로 추정사구체여과율을 이용하여 만성신장질환 발생에 영향을 미치는 유전자를 발굴하였다. 추가적으로 알부민뇨(Urine albumin), 단백뇨(Urine protein)을 이용하여 만성신장질환 발생에 영향을 미치는 유전자를 발굴하였다. 안산안성 역학자료를 이용하여 만성신장질환의 발생에 영향을 미칠 수 있는 나이, 성별, 고혈압 과거력, 당뇨 과거력에 대해 보정을 시행하였고 유전체 분석Q-Q plot과 lambda를 통해 보정해야할 집단 간 이질성이 확인되지 않았음을 확인하고, 유전자에 대한 통계적인 유의성은 (< 1 x 10-6)을 기준으로 하여 각 SNP의 p-value가 그 미만일 경우 유의한 로 선정하였다. Manhattan plot을 통해 만성신장질환 발생과 들과의 연관성을 시각화하였다.
앞서 설명된 결과는 추정사구체여과율과 연관된 유전자를 발굴한 결과이다. 도 10c에 도시된 도면은, Q-Q plot과 lambda (1.03305) 값을 통해 추정사구체여과율과 관련하여 집단간 이질성 혹은 숨겨진 관련성이 있는 지 진단하고, Manhattan plot을 통해 추정사구체여과율과 들과의 연관성을 나타내었다.
도10d는 추정사구체여과율과 연관된 를 나타낸 도면이다.
예시적으로, 도10d의 결과와 같이 만성신장 질환 질병 위험도 예측 장치(100)는 추정사구체여과율과 관련하여 총 15개의를 확인하였으며, 그 중 14개의 Gene 위치를 확인하였다. 염색체 2번에서 유의한 GPD2 유전자가 가장 많이 발견되었으며, 이 유전자는 기존 연구에서 만성신장질환과 관련이 있는 유전자로 알려져 있었다. 또한 염색체 8번의 LOC107986931 유전자는 기존 연구에서 Renal carcinoma와 관련이 있는 유전자로 알려져 있었다.
도 10e는 Q-Q plot과 lambda (1.023052) 값을 통해 Urine albumin과 관련하여 집단간 이질성 혹은 숨겨진 관련성이 있는 지 진단하고, Manhattan plot을 통해 추정사구체여과율과 들과의 연관성을 나타낸 도면이다.
도10f는 Urine albumin과 연관된 를 나타낸 도면이다. 도 10f를 참조하면, 추정사구체여과율과 관련하여 총 41개의 를 확인하였으며, 그중 1개의 Gene 위치를 확인하였다. 특히 알부민뇨와 관련된 유전자들은 모두 염색체 4번에서 발견된 ANXA10 이며, 이 유전자는 기존 연구에서 renal cancer와 관련이 있는 것으로 알려져 있었다.
도 10g는 단백뇨와 만성신장질환 발생과 관련된 유전자를 발굴한 결과이다. 도 10g를 참조하면, Q-Q plot과 lambda (1.025902) 값을 통해 단백뇨와 관련하여 집단간 이질성 혹은 숨겨진 관련성이 있는 지 진단하고, Manhattan plot을 통해 Urine total protein과 들과의 연관성을 보였다.
도10h를 참조하면, 단백뇨와 관련하여 총 3개의 를 확인하였으며, 그중 1개의 Gene 위치를 확인하였다. 특히 단백뇨 관련된 유전자는 염색체 13번에 위치한 GPC6이며, 이 유전자는 기존 연구에서 renal cell carcinoma와 관련이 있는 것으로 보고되어 있었다.
앞서 설명된 도 10a 내지 도 10h의 예시처럼 유전정보는 인공신경망 (ANN) 모형과 기존의 통계적 모형을 이용하여 만성신장질환 발생과 관련된 유전 정보를 발굴한다. 이를 이용하여, 출생 시점부터 결정되어 있는 생식세포 유전자와 이후 반복적인 환경 노출, 환경노출에 의해 결정되는 후생유전자, 반복적 환경 노출과 유전자와의 상호작용, 이후 생체 내에서의 변화를 통해 관찰되는 임상검사 지표들의 변화, 이후 질병에 대한 진단으로 인한 만성신장질환의 발생과 악화, 사망 등을 예측할 수 있다.
또한, 통계 확률 모델에 기반한 만성신장질환 발생 위험 예측에 대해서는 시간변이 콕스회귀모형과 인공신경망 기법으로, 사망 위험 예측에 대해서는 시간변이 콕스회귀모형과 랜덤 포레스트를 이용하였다.
[표 1] 내지 [표3]은 반복 측정된 개인의 생활 습관 및 건강 상태 정보의 재입력을 통해 각 역학적 변수의 시간에 따른 변화를 파악하고 변화 속도를 계산하여, 대상자의 중간건강관리에 따른 건강상태 수정결과와 그에 따라 재예측된 만성신장질환 발생 위험도를 제공한 모형의 예시이다.
표1은 변수선택법 중 전진 선택법(forward)를 적용하여 선정된 변수들의 결과일 수 있다.
Variables P-value
1 Age <0.0001
2 HbA1C <0.0001
3 Sex <0.0001
4 History of hypertension <0.0001
5 Urine proteinuria <0.0001
6 Serum TG <0.0001
7 Waist circumference 0.0037
8 History of diabetes 0.0037
9 Education level 0.0178
10 Blood pressure 0.0110
[표2]는 변수선택법(backward: 제거된 변수 리스트, SLS=0.05) 중 후진제거법을 적용하여 선정된 선정 변수일 수 있다.
Variables P-value
1 Serum ALT 0.9394
2 History of dyslipidemia 0.8963
3 Smoking status 0.5058
4 HDL cholesterol level 0.3024
5 Glucose level 0.2545
6 BUN 0.2043
7 Urine glycosuria 0.1225
8 diet protein intake 0.1199
9 Income 0.0638
[표3]는 변수선택법 중 단계적 선택법(stepwise: SLE=0.2, SLS=0.1)을 적용하여 선정된 선정 변수일 수 있다.
Variables P-value
1 Age <0.0001
2 HbA1C <0.0001
3 Sex <0.0001
4 History of hypertension <0.0001
5 Urine proteinuria <0.0001
6 Serum TG <0.0001
7 Waist circumference 0.0037
8 History of diabetes 0.0037
9 Education level 0.0178
10 Blood pressure 0.0110
11 Diet protein intake 0.1199
예시적으로, [표1] 내지 [표 3]에 도시된 변수선택법을 최종선정된 변수들을 모두 이분형으로 정리하였다. 연령의 경우, 50세 이전과 이후로, 신체 계측치 및 임상수치와 같은 연속형 변수의 경우, 임상적 기준에 의거하여 정상범위와 정상을 벗어난 위험수준 범위로 구분하였다. 이와 같은 과정을 통해 각 변수의 상태별 만성신장질환 발생에 미치는 영향을 평가할 수 있었다.
변수선택법을 통해 선별된 위험요인이 만성신장질환 발생에 미치는 영향을 도10i와 같이 그래프로 도식화하여, 가장 큰 영향을 끼치는 위험요인을 확인할 수 있다.
도10i는 만성신장질환 발생 위험요인의 상관관계를 나타낸 도면이다.
만성신장 질환 질병 위험도 예측 장치(100)는 선정된 콕스 비례위험 모형에서 변수별 질병 발생 위험도에 미치는 영향도(b)값을 이용하여 [수학식 5]와 같이 joint risk (JR)를 연산할 수 있다.
Figure PCTKR2018000061-appb-M000004
만성신장 질환 질병 위험도 예측 장치(100)는 각 대상자별 관측된 (observed) 질병발생 위험 (R)과 기저위험을 나타내는 각 변수 조합 별 기대되는 (expected) 질병의 위험도 (R0) 를 예측하여 아래와 같은 공식을 이용하여 최종적으로 각 대상자 고유의 risk score를 연산한다.
Figure PCTKR2018000061-appb-M000005
Figure PCTKR2018000061-appb-M000006
Figure PCTKR2018000061-appb-M000007
수학식 6 내지 수학식 8을 이용해 만성신장질환의 발생 위험점수 (risk score)를 예시로 구한 결과는 다음과 같다.
R=(1.10396*나이+0.69081*[성별=여성]+0.10600*education+0.33667*[고혈압 과거력=있었다] +0.46900*[당뇨병 과거력=있었다] +0.32334*[당화혈색소=100 이상]+0.28523*[중성지방=150 이상]+0.31170*[혈압=130, 90이상] +0.65394*[단백뇨]+0.17482*[허리둘레=남자90이상, 여자 80이상]);
R0 = 나이 (1.10396*(0.273926) + 성별 0.69081*(0.266384) + 교육정도 0.10600*(0.020622) + 고혈압 과거력 0.33667*(0.021758) + 당뇨 과거력 0.46900*(0.003997) + 당화혈색소 100이상 0.32334*(0.009157) + 중성지방 150 이상 0.28523*(0.171003) + 혈압 130, 90 이상 0.31170*(0.164121) + 단백뇨 0.65394*(0.000756) + 허리둘레 남자 90이상, 여자 80이상 0.17482*(0.085622));
앞서 설명된 수학식 6 내지 수학식 8을 이용해 전체 대상에 대해 위험점수를 계산하였고, 이를 바탕으로, 만성신장질환의 2년, 5년 ,10년 발생 위험도를 산출할 수 있다.
Figure PCTKR2018000061-appb-I000027
도 10j의 도면부호 (a)는 만성신장질환 발생확률 그래프이고, 도10j의 도면부호 (b)는 만성신장질환 발생의 주요 요인의 risk score와 10년 발생위험도이다.
예시적으로, 만성신장 질환 질병 위험도 예측 장치(100)는 경쟁 위험 모형을 완성하기 위하여서는 일반 인구집단에서의 각 질병(고혈압, 당뇨병, 비만, 대사증후군 및 만성신장질환)에 대한 발생률과, 각 질병으로 인한 사망률, 전체 사망 원인으로 인한 사망률 자료가 필요하며, 전체 사망률 자료는 통계청의 연령별 사망 원인 통계 자료를 통해, 만성신장 질환으로 인한 사망률은 기존 문헌의 만성신장 질환으로 인한 사망의 인구집단 기여위험도 정보와 통계청의 연령별 사망 원인 통계 자료를 이용해 산출한다. 각 질병에 대한 연령별 발생률은 건강보험공단의 건강검진 표본코호트 자료를 이용하여 산출한다.
Figure PCTKR2018000061-appb-M000008
산출된 연령별 질병의 발생률, 사망률, 전체 사망률을 기반으로 [수학식 9]와 같이 경쟁 위험 모형을 구축한다. 구축된 경쟁 위험 모형은 타당도 검증을 위하여 전체 대상자를 5등분하여 교차 검증을 시행하여 검증과정을 진행한다.
이하에서는 만성신장질환 발생위험 예측모형의 예측력 검증과정을 설명하고자한다.
만성신장질환 발생위험 모형의 예측력 및 검증은 총 3가지 방법을 이용하여 실행하였다. ROC curve와 AUC값을 이용하여 내적 타당도와 교차검증을 시행하고, 기 산출된 Risk score 값에 대해 만성신장질환 발생의 관찰값과 발생 예측값을 비교하였다. 만성신장질환 발생 위험의 optimal cutpoint에 대해 Youden index와 Distance to (0, 1)과 민감도 타당도의 일치도 3가지 방법의 민감도와 타당도를 확인을 통해 구축된 riskscore에 따른 만성신장질환 발생예측의 예측도를 평가하였다.
도11a에 도시된 것처럼, 70%의 training set(대상자: 6,657명) 을 사용하여 구축한 만성신장질환 발생 예측모형에서의 AUC 값은 0.7405, 95% 신뢰구간은 0.7239-0.7570 으로 확인하였다. 30%의 training set (대상자: 2,2853명)을 사용하여 구축한 만성신장질환 발생 예측모형에서의 AUC 값은 0.7257, 95% 신뢰구간은 0.6986-0.7527 으로 확인되었다.
만성신장질환 발생위험의 예측력을 검정하기 위해 교차검증(cross-validation)을 실시하였다. 교차검증의 방법은 boot-straping 기법을 이용하여 training set과 test set에서 각 1,000번의 permutation을 시행하였다. permutation 결과, training set은 6,657,000개, test set은 2,853,000개의 관측치를 확인하였다. 기 산출된 모형의 확률 산출 방식을 그대로 적용하여 validation set의 관찰값과 기댓값이 일치되는지에 대해 교차검증을 시행하였다. 도11b와 같이 training set에 대한 만성신장질환 발생 위험의 예측력 검증값은 AUC=0.7399, 95% 신뢰구간 0.7394-0.7404로 나타남. test set에 대한 예측력은 AUC=0.7255, 95% 신뢰구간 0.7247-0.7264로 나타났다.
도11c는 전체 대상자에 대한 만성신장질환 발생값과 예측값의 비교결과값이다.
도11c를 참조하면, 기 산출된 Risk score 값에 대해 만성신장질환 발생의 관찰값과 발생 예측값을 비교하였다 (10년 발생 위험도 비교), 추적관찰 기간 10년간 만성신장질환 실제 발생값과 모형을 통해 예측한 위험도가 거의 비슷하게 산출된 것을 확인할 수 있었다.
도11d는 training set (대상자: 6,657명)을 이용한 만성신장질환 발생예측 모형의 예측력이다.
도11d를 참조하면, training set에 대해 Yoden index, Distance to (0,1), Sensitivity, Specificity equality의 원칙을 이용하여 optimal cutpoint와 민감도와 타당도를 확인하였다. 상기의 결과에서 training set에서의 AUC 값은 0.7405, 95% 신뢰구간은 0.7239-0.7570로 계산되었다.
Yoden index를 산출하는 방법은 최대값 (J=민감도+특이도-1)을 이용하며, 이 때의 최대값은 0.3752로 산출되었다. 이에 따른 cut-point는 0.2702이며, 민감도=0.6390, 특이도=0.7362를 확인하였다. Distance to (0,1) 방법은 아래의 공식에 따라 값을 산출하였다. 아래 공식에 따라 산출된 최소값은 0.4453이였으며, 이에 따른 cut-point는 0.2655이며, 민감도=0.6528, 특이도=0.7211을 확인하였다.
Distance to (0,1) = SQRT ((1-Sensitivity2)+(1-Specificity2))
도11e를 참조하면, Sensitivity, Specificity equality 방법은 민감도와 특이도의 차이값이 최소인 경우를 뜻하며, 이 때 산출된 최소값은 0.00026이며, 이에 따른 cut-point는 0.2557이며, 민감도=0.6841, 특이도=0.6843을 확인하였다. 아래는 3가지 방법을 이용한 optimal cut-point와 민감도, 타당도를 확인하였다.
도 11f를 참조하면, 이후 재입력된 대상자의 요인 정보를 바탕으로 다음과 같이 대상자 개인의 중간건강관리에 따른 건강상태 수정결과에 따른 위험요인의 변화 양상을 확인한다. 이러한 변화 양상을 바탕으로 대상자의 재입력된 요인을 기반으로 한 만성신장질환의 발생위험 예측이 새로 연산된다.
도 12는 본원의 일 실시예에 따른 만성신장 질환 질병 위험도 예측 방법의 개략적인 흐름도이다. 도 12에 따른 만성신장 질환 질병 위험도 예측 방법은 도 1 내지 도 11를 통해 설명된 만성신장 질환 질병 위험도 예측 장치(100)의 각 부에서 리되는 내용을 개략적으로 설명한다. 따라서 이하 설명되지 않은 내용이라 할지라고, 도 1내지 도 11를 통해 설명된 만성신장 질환 질병 위험도 예측 장치의 동작 설명에 포함되거나 유추 가능하므로 자세한 설명은 생략된다.
도 12을 참조하면, 단계 S121에서 만성신장 질환 질병 위험도 예측 장치(100)는 만성신장 질환의 질환자의 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 유전자 정보와 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성할 수 있다.
단계 S122에서, 만성신장 질환 질병 위험도 예측 장치(100)는 유전자 정보 기계학습 모델을 이용하여 유전자 정보로부터 핵심 유전자 정보를 선택할 수 있다.
단계 S123에서 만성신장 질환 질병 위험도 예측 장치(100)는 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성할 수 있다.
단계 S124에서 만성신장 질환 질병 위험도 예측 장치(100)는 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받을 수 있다.
단계 S125에서 만성신장 질환 질병 위험도 예측 장치(100)는 질병 위험도 기계학습 모델에 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 대상자의 대상자 질병 위험도를 예측할 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

Claims (12)

  1. 만성신장 질환의 질병 위험도를 예측하는 장치에 있어서,
    상기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보와 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성하는 유전자 정보 기계학습 모델 생성부;
    상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택하는 핵심 유전자 정보 선택부;
    상기 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성하는 질병 위험도 기계학습 모델 생성부;
    대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 정보 입력부; 및
    상기 질병 위험도 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함하는 만성신장 질환 질병 위험도 예측 장치.
  2. 제 1 항에 있어서,
    상기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보 각각의 존재 유무 또는 값에 따라 상기 만성신장 질환의 질병 위험도를 확률적으로 나타내는 유전자 정보 통계확률 모델을 생성하는 유전자 정보 통계확률 모델 생성부를 더 포함하되,
    상기 핵심 유전자 정보 선택부는 상기 유전자 정보 통계확률 모델 및 상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택하는 것인, 만성신장 질환 질병 위험도 예측 장치.
  3. 제 1 항에 있어서,
    상기 만성신장 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상의 존재 유무 또는 값에 따라 상기 만성신장 질환의 질병 위험도를 확률적으로 나타내는 통계확률 모델을 생성하는 통계확률 모델 생성부를 더 포함하되,
    상기 질병 위험도 기계학습 모델 및 상기 유전자 정보 통계확률 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 질병 위험도 예측부를 포함하는 만성신장 질환 질병 위험도 예측 장치.
  4. 제 3 항에 있어서,
    상기 통계확률 모델 생성부는,
    상기 만성신장 질환의 질환자의 상기 복수의 상태 변수, 상기 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하고, 상기 복수의 상태 변수 중 상기 만성신장 질환과 연관된 적어도 하나 이상의 상태 변수를 선택하고, 상기 적어도 하나 이상의 상태 변수의 존재 여부 또는 값에 대한 상기 만성신장 질환의 질병 위험도를 확률적으로 나타내는 기본 통계확률 모델을 생성하는 기본 통계확률 모델 생성부; 및
    상기 만성신장 질환과 연관된 유전자 정보의 존재 여부에 따라 상기 만성신장 질환의 질병 위험도에 가중치를 적용함으로써, 기본 통계확률 모델로부터 상기 통계확률 모델을 생성하는 가중치 통계확률 모델 생성부를 포함하는 만성신장 질환 질병 위험도 예측 장치.
  5. 제1항에 있어서,
    상기 유전자 정보 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수를 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것인, 만성신장 질환 질병 위험도 예측 장치.
  6. 제 1 항에 있어서,
    상기 유전자 정보 기계학습 모델은 상기 복수의 상태 변수의 이전 시점 상태 변수를 입력층으로 하고 상기 복수의 상태 변수의 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것인, 만성신장 질환 질병 위험도 예측 장치.
  7. 제 1 항에 있어서,
    상기 유전자 정보 기계학습 모델은 상기 복수의 상태 변수 중 제 1 상태 변수 및 이전 시점 은닉층을 입력층으로 하고 상기 복수의 상태 변수 중 제 2 상태 변수 또는 현재 시점 상태 변수를 은닉층으로 할 때, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 제 1 학습을 하고,
    상기 은닉층 및 상기 유전자 정보를 입력층으로 하고 상기 질병 위험도를 출력층으로 할 때, 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 제 2 학습을 함으로써, 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 것이되,
    상기 제 1 학습은 [수학식 1]을 기반으로, 상기 입력층과 은닉층 사이의 관계의 정도를 학습하는 것이되,
    [수학식 1]
    Figure PCTKR2018000061-appb-I000028
    이때, 상기
    Figure PCTKR2018000061-appb-I000029
    는 t 시점에서의 은닉층이고, 상기
    Figure PCTKR2018000061-appb-I000030
    은 이전 시점 은닉층이고,
    Figure PCTKR2018000061-appb-I000031
    는 제 1 상태 변수이고, 상기
    Figure PCTKR2018000061-appb-I000032
    는 입력층과 은닉층 사이의 제 1 유형의 관계의 정도를 나타내는 제 1 가중치이고, 상기
    Figure PCTKR2018000061-appb-I000033
    는 입력층과 은닉층 사이의 제 2 유형의 관계의 정도를 나타내는 제 2 가중치인 것인, 만성신장 질환 질병 위험도 예측 장치.
  8. 제6항에 있어서,
    상기 제 2학습은 [수학식 1] 및 [수학식2]를 기반으로 상기 은닉층과 출력층 사이의 관계의 정도를 학습하는 것이되,
    [수학식 2]
    Figure PCTKR2018000061-appb-I000034
    이때, 상기 y는 출력층이고, 상기
    Figure PCTKR2018000061-appb-I000035
    는 은닉층과 출력층 사이의 관계의 정도를 나타내는 제 3 가중치이고, 는 은닉층이고, 상기
    Figure PCTKR2018000061-appb-I000037
    는 입력층 중 유전자 정보와 출력층 사이의 관계의 정도를 나타내는 제4 가중치이고, z는 입력층 중 유전자 정보인 것인, 만성신장 질환 질병 위험도 예측 장치.
  9. 제 1 항에 있어서,
    상기 유전자 정보 기계학습 모델 생성부는,
    [수학식 3]을 기반으로 상기 복수의 상태 변수 및 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 기계학습 모델을 생성 시 발생하는 오차에 가중치를 갱신하는 것이되,
    [수학식 3]
    Figure PCTKR2018000061-appb-I000038
    상기 E는 상기 기계학습 모델 생성부의 오차의 검출값이고, 상기 t는 상기 만성신장 질환의 발생 여부이고, 상기 y는 기계학습 모델을 통해 예측된 질병 위험도이고,
    Figure PCTKR2018000061-appb-I000039
    는 오차에 따른 과적합(overfitting)을 방지하기 위한 L2 정규식인 것인, 만성신장 질환 질병 위험도 예측 장치.
  10. 제 1항에 있어서,
    상기 질병 위험도 예측부는,
    상기 대상자의 질병 위험도 예측 결과를 기 설정된 분류 항목에 기반하여 시각화하는 것인, 만성신장 질환 질병 위험도 예측 장치.
  11. 제 1항에 있어서,
    상기 질병 위험도 예측부는,
    상기 대상자의 질병 위험도 예측 결과와 연계된 질병 예방 관리 정보를 제공하는 것인, 만성신장 질환 질병 위험도 예측 장치.
  12. 만성신장 질환의 질병 위험도를 예측하는 방법에 있어서,
    상기 만성신장 질환의 질환자의 유전자 정보 및 상기 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 유전자 정보와 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 유전자 정보 기계학습 모델을 생성하는 단계;
    상기 유전자 정보 기계학습 모델을 이용하여 상기 유전자 정보로부터 핵심 유전자 정보를 선택하는 단계;
    상기 만성신장 질환의 질환자의 생활상태 변수 및 건강상태 변수를 포함하는 복수의 상태 변수, 상기 핵심 유전자 정보 및 만성신장 질환의 질병 위험도를 입력으로 하여, 상기 복수의 상태 변수 및 핵심 유전자 정보 중 적어도 하나 이상과 상기 만성신장 질환의 질병 위험도 사이의 관계의 정도를 학습하는 질병 위험도 기계학습 모델을 생성하는 단계;
    대상자의 대상자 상태 변수 및 대상자 유전자 정보를 입력받는 단계; 및
    상기 질병 위험도 기계학습 모델에 상기 대상자의 대상자 상태 변수 및 대상자 유전자 정보를 적용하여 상기 대상자의 대상자 질병 위험도를 예측하는 단계를 포함하는 만성신장 질환 질병 위험도 예측 방법.
PCT/KR2018/000061 2016-12-30 2018-01-02 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법 WO2018124854A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160183851 2016-12-30
KR10-2016-0183851 2016-12-30

Publications (1)

Publication Number Publication Date
WO2018124854A1 true WO2018124854A1 (ko) 2018-07-05

Family

ID=62709635

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/KR2017/015773 WO2018124831A1 (ko) 2016-12-30 2017-12-29 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법
PCT/KR2018/000061 WO2018124854A1 (ko) 2016-12-30 2018-01-02 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/015773 WO2018124831A1 (ko) 2016-12-30 2017-12-29 대사이상 질환의 질병 위험도를 예측하는 장치 및 방법

Country Status (3)

Country Link
US (1) US20190172587A1 (ko)
KR (2) KR102024375B1 (ko)
WO (2) WO2018124831A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200126636A1 (en) * 2018-10-18 2020-04-23 Medimmune, Llc Methods for determining treatment for cancer patients
CN113178261A (zh) * 2021-06-04 2021-07-27 福州大学 基于机器学习的糖尿病预测模型构建方法及系统
WO2023023159A1 (en) * 2021-08-18 2023-02-23 Klinrisk, Inc. Systems and methods for predicting kidney function decline

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568982B1 (en) 2014-02-17 2023-01-31 Health at Scale Corporation System to improve the logistics of clinical care by selectively matching patients to providers
US10592554B1 (en) 2017-04-03 2020-03-17 Massachusetts Mutual Life Insurance Company Systems, devices, and methods for parallelized data structure processing
US11238989B2 (en) * 2017-11-08 2022-02-01 International Business Machines Corporation Personalized risk prediction based on intrinsic and extrinsic factors
JP7007027B2 (ja) * 2018-03-30 2022-01-24 Necソリューションイノベータ株式会社 予測システム、モデル生成システム、方法およびプログラム
US11621081B1 (en) * 2018-11-13 2023-04-04 Iqvia Inc. System for predicting patient health conditions
KR102311269B1 (ko) * 2018-12-13 2021-10-12 주식회사 케이티 건강 정보 관리 서버, 이를 이용한 건강 정보 관리 방법 및 컴퓨터 프로그램
KR102316403B1 (ko) * 2019-01-03 2021-10-22 서울대학교 산학협력단 만성신장 질환 발생 예측 장치 및 방법
CA3126455A1 (en) * 2019-01-11 2020-07-16 Quadrus Medical Technologies, Inc. Systems and methods for assessing and evaluating renal health diagnosis, staging, and therapy recommendation
KR102202864B1 (ko) * 2019-03-05 2021-01-15 (주)비바이노베이션 빅데이터 분석 및 인공지능 문진을 통한 질병 예측 정보를 제공하는 사용자 단말기
US20200289889A1 (en) 2019-03-11 2020-09-17 Rom Technologies, Inc. Bendable sensor device for monitoring joint extension and flexion
US11541274B2 (en) 2019-03-11 2023-01-03 Rom Technologies, Inc. System, method and apparatus for electrically actuated pedal for an exercise or rehabilitation machine
US10553319B1 (en) * 2019-03-14 2020-02-04 Kpn Innovations, Llc Artificial intelligence systems and methods for vibrant constitutional guidance
US11915827B2 (en) * 2019-03-14 2024-02-27 Kenneth Neumann Methods and systems for classification to prognostic labels
KR102188115B1 (ko) 2019-03-20 2020-12-07 인천대학교 산학협력단 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법
US11250062B2 (en) * 2019-04-04 2022-02-15 Kpn Innovations Llc Artificial intelligence methods and systems for generation and implementation of alimentary instruction sets
KR102188118B1 (ko) 2019-04-15 2020-12-07 인천대학교 산학협력단 암에 따른 유전자 간의 상관관계에 기초하여 유전자 분산 표현을 위한 유전자 특징 벡터를 생성하는 전자 장치 및 그 동작 방법
US11801423B2 (en) 2019-05-10 2023-10-31 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to interact with a user of an exercise device during an exercise session
US11904207B2 (en) 2019-05-10 2024-02-20 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to present a user interface representing a user's progress in various domains
US11433276B2 (en) 2019-05-10 2022-09-06 Rehab2Fit Technologies, Inc. Method and system for using artificial intelligence to independently adjust resistance of pedals based on leg strength
US11957960B2 (en) 2019-05-10 2024-04-16 Rehab2Fit Technologies Inc. Method and system for using artificial intelligence to adjust pedal resistance
US11205140B2 (en) * 2019-06-03 2021-12-21 Kpn Innovations Llc Methods and systems for self-fulfillment of an alimentary instruction set based on vibrant constitutional guidance
KR102102848B1 (ko) * 2019-06-12 2020-04-22 주식회사 프로카젠 전립선암 위험점수 산출기, 상기 산출기의 동작 방법
TWI774964B (zh) * 2019-06-19 2022-08-21 宏碁股份有限公司 患病機率預測方法與電子裝置
KR102248732B1 (ko) * 2019-06-27 2021-05-06 (주)해피마인드 종합주의력 검사 데이터에 기초하여 주의력 결핍 및 과잉 행동 장애를 분류 및 치료반응을 예측하는 시스템 및 방법
KR102467999B1 (ko) * 2019-06-27 2022-11-17 서울대학교산학협력단 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형
US11114193B2 (en) * 2019-07-03 2021-09-07 Kpn Innovations, Llc Methods and systems for optimizing dietary levels utilizing artificial intelligence
KR20210014305A (ko) 2019-07-30 2021-02-09 삼성전자주식회사 생체정보 추정 장치 및 방법
US20210038166A1 (en) * 2019-08-05 2021-02-11 Yeda Research And Development Co. Ltd. Method and system for predicting childhood obesity
CN112349412B (zh) * 2019-08-06 2024-03-22 宏碁股份有限公司 患病机率预测方法与电子装置
KR102303272B1 (ko) * 2019-08-20 2021-09-17 주식회사 프로카젠 전립선암 위험도의 변화 정도 예측 시스템
US11923088B2 (en) * 2019-08-30 2024-03-05 AR & NS Investment, LLC Artificial intelligence-based personalized health maintenance system to generate digital therapeutic environment for multi-modal therapy
US20220409114A1 (en) * 2019-09-17 2022-12-29 Quadrus Medical Technologies, Inc. System and method for personalized kidney evaluation, diagnosis and therapy recommendation
US11071597B2 (en) 2019-10-03 2021-07-27 Rom Technologies, Inc. Telemedicine for orthopedic treatment
US11701548B2 (en) 2019-10-07 2023-07-18 Rom Technologies, Inc. Computer-implemented questionnaire for orthopedic treatment
US11101028B2 (en) 2019-10-03 2021-08-24 Rom Technologies, Inc. Method and system using artificial intelligence to monitor user characteristics during a telemedicine session
US11282599B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouragement of rehabilitative compliance through patient-based virtual shared sessions
US11139060B2 (en) 2019-10-03 2021-10-05 Rom Technologies, Inc. Method and system for creating an immersive enhanced reality-driven exercise experience for a user
US11515028B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to create optimal treatment plans based on monetary value amount generated and/or patient outcome
US11978559B2 (en) 2019-10-03 2024-05-07 Rom Technologies, Inc. Systems and methods for remotely-enabled identification of a user infection
US11069436B2 (en) 2019-10-03 2021-07-20 Rom Technologies, Inc. System and method for use of telemedicine-enabled rehabilitative hardware and for encouraging rehabilitative compliance through patient-based virtual shared sessions with patient-enabled mutual encouragement across simulated social networks
US11075000B2 (en) 2019-10-03 2021-07-27 Rom Technologies, Inc. Method and system for using virtual avatars associated with medical professionals during exercise sessions
US11955223B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning to provide an enhanced user interface presenting data pertaining to cardiac health, bariatric health, pulmonary health, and/or cardio-oncologic health for the purpose of performing preventative actions
US11317975B2 (en) 2019-10-03 2022-05-03 Rom Technologies, Inc. Method and system for treating patients via telemedicine using sensor data from rehabilitation or exercise equipment
US11887717B2 (en) 2019-10-03 2024-01-30 Rom Technologies, Inc. System and method for using AI, machine learning and telemedicine to perform pulmonary rehabilitation via an electromechanical machine
US20210142893A1 (en) 2019-10-03 2021-05-13 Rom Technologies, Inc. System and method for processing medical claims
US11961603B2 (en) 2019-10-03 2024-04-16 Rom Technologies, Inc. System and method for using AI ML and telemedicine to perform bariatric rehabilitation via an electromechanical machine
US11955221B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML to generate treatment plans to stimulate preferred angiogenesis
US11325005B2 (en) 2019-10-03 2022-05-10 Rom Technologies, Inc. Systems and methods for using machine learning to control an electromechanical device used for prehabilitation, rehabilitation, and/or exercise
US11337648B2 (en) 2020-05-18 2022-05-24 Rom Technologies, Inc. Method and system for using artificial intelligence to assign patients to cohorts and dynamically controlling a treatment apparatus based on the assignment during an adaptive telemedical session
US11282608B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for using artificial intelligence and machine learning to provide recommendations to a healthcare provider in or near real-time during a telemedicine session
US20210134425A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method for using artificial intelligence in telemedicine-enabled hardware to optimize rehabilitative routines capable of enabling remote rehabilitative compliance
US20210134432A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Method and system for implementing dynamic treatment environments based on patient information
US11830601B2 (en) 2019-10-03 2023-11-28 Rom Technologies, Inc. System and method for facilitating cardiac rehabilitation among eligible users
US11923065B2 (en) 2019-10-03 2024-03-05 Rom Technologies, Inc. Systems and methods for using artificial intelligence and machine learning to detect abnormal heart rhythms of a user performing a treatment plan with an electromechanical machine
US11756666B2 (en) 2019-10-03 2023-09-12 Rom Technologies, Inc. Systems and methods to enable communication detection between devices and performance of a preventative action
US11282604B2 (en) 2019-10-03 2022-03-22 Rom Technologies, Inc. Method and system for use of telemedicine-enabled rehabilitative equipment for prediction of secondary disease
US11915816B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. Systems and methods of using artificial intelligence and machine learning in a telemedical environment to predict user disease states
US20210134412A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method for processing medical claims using biometric signatures
US20210134458A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. System and method to enable remote adjustment of a device during a telemedicine session
US11915815B2 (en) 2019-10-03 2024-02-27 Rom Technologies, Inc. System and method for using artificial intelligence and machine learning and generic risk factors to improve cardiovascular health such that the need for additional cardiac interventions is mitigated
US20210127974A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Remote examination through augmented reality
US20210128080A1 (en) 2019-10-03 2021-05-06 Rom Technologies, Inc. Augmented reality placement of goniometer or other sensors
US11955222B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for determining, based on advanced metrics of actual performance of an electromechanical machine, medical procedure eligibility in order to ascertain survivability rates and measures of quality-of-life criteria
US11270795B2 (en) 2019-10-03 2022-03-08 Rom Technologies, Inc. Method and system for enabling physician-smart virtual conference rooms for use in a telehealth context
US11515021B2 (en) 2019-10-03 2022-11-29 Rom Technologies, Inc. Method and system to analytically optimize telehealth practice-based billing processes and revenue while enabling regulatory compliance
US11955220B2 (en) 2019-10-03 2024-04-09 Rom Technologies, Inc. System and method for using AI/ML and telemedicine for invasive surgical treatment to determine a cardiac treatment plan that uses an electromechanical machine
KR102281793B1 (ko) * 2019-10-15 2021-07-26 계명대학교 산학협력단 혈중 메타볼리즘을 이용한 건강 상태 정보 제공 장치 및 그 방법
US11826613B2 (en) 2019-10-21 2023-11-28 Rom Technologies, Inc. Persuasive motivation for orthopedic treatment
KR102474661B1 (ko) * 2019-10-31 2022-12-06 주식회사 이노제닉스 인공지능 기반 아토피 피부염 예측 및 예방 상품 추천 방법
CN111048214A (zh) * 2019-11-11 2020-04-21 北京荣之联科技股份有限公司 外来畜禽疫病传播态势的预警方法及装置
KR102374326B1 (ko) 2019-11-21 2022-03-15 경북대학교 산학협력단 주의 계층적 적응 신경 퍼지 추론 시스템을 이용한 유방암 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
CN111081334B (zh) * 2019-12-18 2023-04-18 鲁东大学 一种基于风险因素概率组合分析的慢性疾病早期预警方法
KR102186486B1 (ko) * 2019-12-20 2020-12-03 주식회사 슈파스 인공지능 기반의 이미지 분석을 통한 의학적 이벤트 발생 감지 방법, 장치 및 컴퓨터프로그램
KR102446005B1 (ko) * 2020-01-30 2022-09-21 연세대학교 원주산학협력단 딥러닝 기반 건강 위험도 예측을 통한 건강 개선 프로그램 제공 방법
KR102369001B1 (ko) * 2020-02-04 2022-02-28 연세대학교 원주산학협력단 대사 증후군 점수 추정 방법과 이를 이용한 표시 방법
KR102425629B1 (ko) * 2020-03-30 2022-07-28 주식회사 헤링스 사용자의 생활습관 관리 방법 및 장치
KR102558970B1 (ko) * 2020-04-17 2023-07-25 서울대학교병원 뇌동맥류 발병 위험도 예측 장치 및 방법
US11610679B1 (en) * 2020-04-20 2023-03-21 Health at Scale Corporation Prediction and prevention of medical events using machine-learning algorithms
KR102264498B1 (ko) * 2020-04-23 2021-06-14 주식회사 바스젠바이오 유병 확률 예측을 위한 컴퓨터 프로그램
KR102489070B1 (ko) * 2020-05-29 2023-01-16 연세대학교 산학협력단 학습 모델 기반의 아토피 피부염 관리 장치 및 그 방법
KR102314107B1 (ko) * 2020-06-02 2021-10-19 (주)어메이징푸드솔루션 식품의 알러지 증상 발현도를 산출하기 위한 플랫폼 제공 장치 및 방법
KR102504883B1 (ko) * 2020-06-05 2023-03-02 인하대학교 산학협력단 인공 지능 기반 기계 학습을 이용한 급성 신부전 발생 예측 장치 및 그 방법
KR102278646B1 (ko) * 2020-08-12 2021-07-19 주식회사 디이프 고객 맞춤형 식품 추천 시스템
CN112086130B (zh) * 2020-08-13 2021-07-27 东南大学 一种基于测序和数据分析的肥胖风险预测装置的预测方法
KR102478613B1 (ko) * 2020-08-24 2022-12-16 경희대학교 산학협력단 스마트 헬스케어 의사결정 지원 시스템을 위한 진화 가능한 증상-질병 예측 시스템
US11227690B1 (en) * 2020-09-14 2022-01-18 Opendna Ltd. Machine learning prediction of therapy response
KR102599132B1 (ko) * 2020-11-26 2023-11-09 가톨릭대학교 산학협력단 빅데이터 기반의 질환 발병 위험도 예측 시스템, 예측 방법, 및 프로그램
KR20220077892A (ko) * 2020-12-02 2022-06-09 (주)지놈오피니언 선천적 대사질환 위험도 점수를 이용한 심뇌혈관질환의 위험도 측정 방법
US11164669B1 (en) * 2020-12-29 2021-11-02 Kpn Innovations, Llc. Systems and methods for generating a viral alleviation program
CN112951421A (zh) * 2021-01-26 2021-06-11 吾征智能技术(北京)有限公司 一种基于饮食习惯推导高血压的系统、设备及存储介质
KR102599840B1 (ko) * 2021-02-04 2023-11-07 가톨릭대학교 산학협력단 당뇨병 발병 위험도 산출 시스템, 산출 방법, 및 프로그램
KR102662469B1 (ko) * 2021-02-05 2024-04-30 가천대학교 산학협력단 소비자 직접 의뢰 유전자 검사 기반 피검사자의 맞춤형 영양 가이드 제공 시스템 및 제공 방법
KR102510347B1 (ko) * 2021-02-10 2023-03-20 고려대학교 산학협력단 위암 수술 이후 제2형 당뇨병 예후의 예측 방법
CN112967807B (zh) * 2021-03-03 2023-12-01 吾征智能技术(北京)有限公司 基于饮食行为预测脑卒中的系统、设备及存储介质
US20220318626A1 (en) * 2021-04-05 2022-10-06 Nec Laboratories America, Inc. Meta-training framework on dual-channel combiner network system for dialysis event prediction
KR102417448B1 (ko) * 2021-05-20 2022-07-06 한국과학기술정보연구원 머신 러닝 기반 잠복기별 치매 예측 방법, 그리고 이를 구현하기 위한 장치
KR102646527B1 (ko) * 2021-11-12 2024-03-11 가천대학교 산학협력단 Ai 기반 감염 의심자 분류 장치 및 그 방법
US20230075176A1 (en) * 2021-09-08 2023-03-09 Optum Services (Ireland) Limited Interactable and interpretable temporal disease risk profiles
CN114358989A (zh) * 2021-12-07 2022-04-15 重庆邮电大学 一种基于标准差和交互信息的慢性疾病特征选择方法
KR20240009132A (ko) 2022-07-13 2024-01-22 포체인스 주식회사 가중치 거리함수를 이용한 질병 예측 장치 및 그 방법
US20240071623A1 (en) * 2022-08-31 2024-02-29 AXL Health, LLC Patient health platform
KR102553562B1 (ko) 2022-10-13 2023-07-10 서울대학교산학협력단 유방암 발생 위험도 예측 장치 및 방법
KR102531776B1 (ko) * 2022-10-31 2023-05-12 대한민국 유전 및 라이프스타일 위험도 평가 기반 제2형 당뇨병 고위험군 진단 방법
KR102660560B1 (ko) * 2024-02-14 2024-04-25 삼성화재해상보험 주식회사 심뇌혈관 위험도 평가 서비스 제공 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050032066A1 (en) * 2003-08-04 2005-02-10 Heng Chew Kiat Method for assessing risk of diseases with multiple contributing factors
US20150219670A1 (en) * 2012-08-13 2015-08-06 Randox Laboratories Ltd. Kidney disease biomarker
WO2016022437A1 (en) * 2014-08-08 2016-02-11 Icahn School Of Medicine At Mount Sinai Electronic phenotyping technique for diagnosing chronic kidney disease
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202486A1 (en) * 2009-07-21 2011-08-18 Glenn Fung Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
KR20160043527A (ko) * 2016-03-31 2016-04-21 강수진 당뇨병 및 당뇨 합병증 관리시스템과 방법
US20170308981A1 (en) * 2016-04-22 2017-10-26 New York University Patient condition identification and treatment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050032066A1 (en) * 2003-08-04 2005-02-10 Heng Chew Kiat Method for assessing risk of diseases with multiple contributing factors
US20150219670A1 (en) * 2012-08-13 2015-08-06 Randox Laboratories Ltd. Kidney disease biomarker
WO2016022437A1 (en) * 2014-08-08 2016-02-11 Icahn School Of Medicine At Mount Sinai Electronic phenotyping technique for diagnosing chronic kidney disease
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S. RAMYA: "Diagnosis of Chronic Kidney Disease Using Machine Learning Algorithms", INTERNATIONAL JOURNAL OF INNOVATIVE RESEARCH IN COMPUTER AND COMMUNICATION ENGINEERING, vol. 4, no. 1, January 2016 (2016-01-01), pages 812 - 820, XP055607250, Retrieved from the Internet <URL:https://www.ijircce.com/upload/2016/january/49-3-Diagnosis.pdf> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200126636A1 (en) * 2018-10-18 2020-04-23 Medimmune, Llc Methods for determining treatment for cancer patients
US11798653B2 (en) * 2018-10-18 2023-10-24 Medimmune, Llc Methods for determining treatment for cancer patients
CN113178261A (zh) * 2021-06-04 2021-07-27 福州大学 基于机器学习的糖尿病预测模型构建方法及系统
WO2023023159A1 (en) * 2021-08-18 2023-02-23 Klinrisk, Inc. Systems and methods for predicting kidney function decline

Also Published As

Publication number Publication date
WO2018124831A1 (ko) 2018-07-05
KR102024373B1 (ko) 2019-09-23
KR102024375B1 (ko) 2019-09-23
US20190172587A1 (en) 2019-06-06
KR20180079209A (ko) 2018-07-10
KR20180079208A (ko) 2018-07-10

Similar Documents

Publication Publication Date Title
WO2018124854A1 (ko) 만성신장 질환의 질병 위험도를 예측하는 장치 및 방법
US11488718B2 (en) Computer aided medical method and medical system for medical prediction
CN108648827B (zh) 心脑血管疾病风险预测方法及装置
WO2019168334A1 (ko) 기계 학습을 통한 치매 예측용 데이터 처리 장치 및 그 방법, 이를 수록한 기록 매체
WO2018143540A1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
Yan et al. Selecting critical clinical features for heart diseases diagnosis with a real-coded genetic algorithm
CN113284623B (zh) 基于用户能力的个性化认知训练任务推荐算法及系统
WO2016068391A1 (ko) 환자 개인 특성에 대한 분석 방법 및 그 장치
JP2011501276A (ja) 健康関連の転帰を予測するためのオンラインコミュニティを使用した自己改善方法
KR102316403B1 (ko) 만성신장 질환 발생 예측 장치 및 방법
WO2019112366A1 (ko) 생체인식 연령 예측 모델 생성 방법 및 장치
JP2012064087A (ja) 生活習慣病の診断予測装置、生活習慣病の診断予測方法及びプログラム
US20180150608A1 (en) Device and method for diagnosing cardiovascular disease using genome information and health medical checkup data
KR20200001777A (ko) 우울증 발병 예측 방법 및 이를 이용한 우울증 발병 예측 디바이스
Xue et al. Predicting the risk of acute care readmissions among rehabilitation inpatients: A machine learning approach
Rongjun et al. Collaborative extreme learning machine with a confidence interval for P2P learning in healthcare
KR20150007468A (ko) 임상의사결정 지원방법 및 그 장치
US20230046951A1 (en) System and method for assessing risk of type 2 mellitus diabetes complications
Liu et al. Frailty and hearing loss: from association to causation
Lee et al. Network dependence and confounding by network structure lead to invalid inference
US20220285025A1 (en) Medical system and control method thereof
US20050158736A1 (en) Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
KR102474661B1 (ko) 인공지능 기반 아토피 피부염 예측 및 예방 상품 추천 방법
Chekin et al. A Clinical Decision Support System for Assessing the Risk of Cervical Cancer: Development and Evaluation Study
Putzel et al. Dynamic Survival Analysis with Individualized Truncated Parametric Distributions

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18734021

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18734021

Country of ref document: EP

Kind code of ref document: A1