WO2023033275A1 - 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템 - Google Patents

개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템 Download PDF

Info

Publication number
WO2023033275A1
WO2023033275A1 PCT/KR2022/002749 KR2022002749W WO2023033275A1 WO 2023033275 A1 WO2023033275 A1 WO 2023033275A1 KR 2022002749 W KR2022002749 W KR 2022002749W WO 2023033275 A1 WO2023033275 A1 WO 2023033275A1
Authority
WO
WIPO (PCT)
Prior art keywords
age
probability
oagm
group
training data
Prior art date
Application number
PCT/KR2022/002749
Other languages
English (en)
French (fr)
Inventor
유진태
유진호
Original Assignee
유진바이오소프트 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유진바이오소프트 주식회사 filed Critical 유진바이오소프트 주식회사
Priority to US18/259,054 priority Critical patent/US20240047077A1/en
Priority to JP2024513366A priority patent/JP2024530322A/ja
Priority to CN202280063597.7A priority patent/CN117999617A/zh
Publication of WO2023033275A1 publication Critical patent/WO2023033275A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to a method for generating a model for predicting biological age in a personalized manner, and based on health examination data, a personalized biological age for generating a model capable of predicting individual biological age by obtaining an excess age for each age-specific birth age It relates to a method for generating a predictive model and a system therefor.
  • the age of birth represents the difference between the current year and the year of birth, and regardless of the individual's current health status, all people born in the same year inevitably have the same birth age.
  • Bio age unlike birth age, is a digitization of parts that vary depending on the overall health condition of the body, that is, it is a numerical expression of the health and aging degree of the body.
  • biomarkers used to measure biological age are:
  • biomarkers that are physical, physiological, and biochemical.
  • Biomarkers commonly used to measure biological age include body mass index (BMI), blood pressure (systolic blood pressure, diastolic blood pressure), waist circumference, lung capacity, muscle mass, albumin, cholesterol level, etc.
  • BMI body mass index
  • PCA multivariable linear regression analysis
  • PCA principal component analysis
  • Levine and Crimmins conducted a study to predict mortality for 10 years using biological age
  • Brown and McDaid conducted a study on birth age, education level, gender, income, marital status, occupation, race, religion, smoking, drinking, activity level, and obesity. Investigations and studies on the effects of factors such as these on adult mortality were conducted.
  • R2 means a coefficient of determination
  • the points shown in FIG. 3 represent the measured coordinates X (checkup value) and Y (age) of each individual. As the checkup value increases, the birth age tends to increase. Expressing this as a linear regression model, the larger the screening value, the more the effect of age.
  • Equation 1 The multiple linear regression analysis model can be expressed as in Equation 1 below.
  • Equation 1 shows the linear influence of the independent variable on the age of birth, with the dependent variable (Y) as the age of birth and three variables of BMI, SBP, and HDL as independent variables.
  • a1, a2, and a3 are regression coefficients and indicate the influence of BMI, SBP, and HDL on birth age, respectively.
  • Y calculated through Equation 1 is a value calculated when BMI, SBP, and HDL measurement values are input, and the key to the MLR model is to consider this value as biological age.
  • Such a multiple linear regression model has the following problems.
  • BA biological age
  • CA birth age
  • BA biological age
  • FIG. 4 is a graph showing the relationship between birth age (X) and biological age (Y), and shows an example of over (under) estimation of a multiple linear regression model.
  • birth age is not a health examination item, but is dependent on calendar time.
  • PCA Principal Component Analysis
  • PCA analysis is performed using five variables such as SBP, DBP, HDL, LDL, and TG, two independent factors, "blood pressure factor” and "cholesterol factor” can be extracted.
  • PCA is applied to a number of health examination variables (BMI, WST, SBP, DBP, AST, ALT, GGTP, HDL, LDL, TG, vital capacity, etc.) to extract "one factor" common to these variables.
  • BMI health examination variables
  • WST SBP
  • DBP DBP
  • AST ALT
  • GGTP HDL
  • LDL LDL
  • TG vital capacity
  • the core of the PCA biological age prediction model is to determine that "one factor” extracted by the PCA method is "biological age” representing a person's actual aging state.
  • the biological age prediction model using PCA does not use birth age (CA) as a dependent variable, but the extracted factor with the greatest influence is age (e.g., 1 year old, 2 years old). ), and the birth age (CA) is entered into the BA prediction model as an independent variable in order to correct the bias in predicting the biological age (BA).
  • CA birth age
  • BA biological age
  • Equation 2 By arranging the PCA model, it can be expressed as Equation 2 below.
  • BA biological age
  • X1 is one principal component factor extracted through PCA
  • CA birth age
  • F is a conversion function using X1 as an input variable
  • G is a conversion function using CA as an input variable. do.
  • the biological age means a numerical value calculated by multiplying the PCA principal component factors and the birth age by weights, respectively, and then adding them together.
  • Another reason for including "birth age” as a parameter in the biological age model is that before using "birth age” as a parameter, it was overestimated in the younger group and underestimated in the older group like the MLR model. This is because the phenomenon underestimation occurs in the same way.
  • Korean Patent Publication No. 0126229 of 2014 “Method and system for generating a biological age calculation model and biological age calculation method and system therefor," provides a method for calculating biological age using the PCA biological age prediction model.
  • a biological age prediction model is constructed for each gender and birth age, and the biological age can be predicted according to the biological age prediction model for each age group. It is intended to provide a method and system for generating a custom biological age prediction model.
  • the present invention provides biological age information that can be more objectively and clearly interpreted by expressing the individual's aging state in the form of a biological age probability spectrum/distribution rather than simply presenting only one numerical value of biological age (eg, 55 years old). It is intended to provide a personalized bio-age prediction model and service system so that it can be provided.
  • the present invention does not directly predict biological age using examination data, but rather "excess aging factor (ie, ⁇ ) that birth age cannot explain” through examination data It is a technical feature to calculate ".
  • the present invention intends to develop a plurality of biological age measurement models that operate differently according to gender and birth age.
  • the present invention aims to predict biological age with a statistical model considering the distribution of differences in checkup values measured in individuals when compared with values representing people of the same birth age (eg, average body mass index, average blood pressure, etc.).
  • An age interval setting process for setting an age interval (x to y) to be used as training data to generate a binary logistic regression model
  • each age unit is set as one unit, and the training data for each age unit is divided into two groups: an under-age group (UAGm) and an over-age group (OAGm), and each age unit A binary logistic regression model generation process for generating a star binary logistic regression model (Mx ⁇ My);
  • ROC curve Receiveiver Operating Characteristic curve
  • It is characterized in that it comprises a biological age calculation process of calculating the biological age by adding the excess age of each individual obtained through the excess age calculation process to the birth age.
  • the training data in the process of generating the binary logistic regression model is made according to the examination item information, and further comprises a examination item information setting process for searching, adding, and deleting examination item information used as training data.
  • condition information setting process for setting male and female condition information for training data in the process of generating the binary logistic regression model may be further included.
  • Examination data collection means for collecting health examination data provided from the health examination system and storing and managing them in a data storage means
  • Training data setting means for determining valid training data from the examination data provided from the examination data collection means according to the set training data reference age range (x to y) and examination item information;
  • Binary logistic regression model generation means for generating a binary logistic regression model (Mx-My) for each age unit within an age interval (x-y) set for the training data set by the training data setting means;
  • Age prediction probability calculation means for calculating a probability (Pm) of being predicted as an over-age group for each individual in the training data according to the binary logistic regression model generated by the binary logistic regression model generation means;
  • the under-age group (UAGm) and over-age group (OAGm) are set as bipartite response variables, and the probability (Pm) of being predicted by the over-age group (OAGm) is set as a predictor variable through ROC curve analysis.
  • the excess probability (Dm) to be predicted by the individual overage group (OAGm) by applying a cutoff (cm) (Pm-Cm) from the probability (Pm) predicted by the overage group (OAGm) calculated through the age prediction probability calculation means ) and age prediction probability correction means for correcting the probability (Pm) of being predicted as an over-age group (OAGm) calculated by the age prediction probability calculation means;
  • Excess age calculation means for calculating individual's excess aging by obtaining a weighted average ( ⁇ i) for the excess probability (Dm) predicted by the over age group (OAGm) obtained through the age prediction probability correction means;
  • Biological age calculation means for calculating biological age from birth age using the excess age of each individual obtained through the excess age calculation means
  • It is characterized in that it is configured to include a data storage means for storing and managing health examination data collected from the examination data collection means and training data set through the training data setting means.
  • It is characterized in that it is configured to further include a user setting means for providing a process so that the user can inquire and set the age section and checkup item information of the training data setting means.
  • the training data setting means further includes a user setting means for providing a process so that the user can set condition information for determining training data, and the condition information is male/female gender information.
  • Physical examination indicators such as body mass index, waist circumference, systolic blood pressure, and diastolic blood pressure, 3 types of liver values (AST, ALT, ⁇ -GTP), creatinine, 3 types of cholesterol (HDL, LDL, TG), fasting blood glucose, hemoglobin and It is characterized in that it consists of health insurance checkup item data including the same blood test index.
  • the present invention develops a bio-age prediction model by utilizing high-quality, large-scale health examination data already accumulated in the National Health Insurance Corporation. cost and time can be reduced.
  • the present invention calculates the individual's excess age using the relative values of each individual according to men and women and age groups using examination data, and calculates the age of each individual as weight information.
  • 1 is a diagram showing an example of data distribution showing the correlation between birth age and systolic blood pressure.
  • Figure 2 is a diagram showing an example of data distribution showing the correlation between birth age and hemoglobin.
  • FIG 3 is a diagram showing a linear regression line in a multiple linear regression analysis model (MLR).
  • FIG. 4 is a graph showing the relationship between birth age (X) and biological age (Y).
  • PCA Principal Component Analysis
  • FIG. 6 is a flowchart showing the process of the method for generating a personalized bio-age prediction model of the present invention.
  • FIG. 7 is a diagram showing a process of generating a binary logistic regression model in the present invention.
  • Pm probability values
  • 9 is a chart showing cutoff values extracted through a cutoff extraction process in the present invention.
  • FIG. 10 is a chart showing an excess probability (Dm) to be predicted with an overage group (OAGm) obtained through an age prediction probability correction process in the present invention.
  • 11 is a diagram showing an example of an overage profile for each individual in the present invention.
  • FIG. 12 is a flowchart showing an embodiment of a process of generating a model for predicting biological age in the present invention.
  • FIG. 13 is a block diagram showing the configuration of the personalized bio-age model generation system of the present invention as described above.
  • the method for generating a personalized bio-age prediction model of the present invention has a technical feature in that it calculates an "excess aging factor ( ⁇ )" that cannot be explained by birth age through examination data, and predicts the biological age using this.
  • the process of generating a personalized bio-age model according to the present invention is performed as follows.
  • An age interval setting process for setting an age interval (x to y) to be used as training data to generate a binary logistic regression model, and each age unit in the age interval set in the age interval setting process is 1 unit Binary logistic regression that divides the training data into two groups, an under-age group (UAGm) and an over-age group (OAGm) for each age unit, and creates a binary logistic regression model (Mx ⁇ My) for each age unit model creation process,
  • UAGm under-age group
  • OAGm over-age group
  • the under-age group (UAGm) and over-age group (OAGm) are set as bipartite response variables, and the probability (Pm) of being predicted by the over-age group (OAGm) is set as a predictor variable through ROC curve analysis.
  • the biological age prediction model of the present invention can be defined as multivariable binary logistic regression (MBLR), and its characteristics can be simplified as follows.
  • MBLR multivariable binary logistic regression
  • MBLR Biological Age Prediction Model
  • BA birth age (CA) + ⁇
  • f(BMI, SBP, 7) represents an overaging factor calculation function based on a binary logistic regression model using health checkup values as input variables.
  • the technical feature is that the excess age ( ⁇ i) for the birth age (CA) can be obtained. As shown in FIG. 6,
  • an age interval (x to y) used to obtain a binary logistic regression model is set.
  • An embodiment of the present invention sets 26 years old (x) to 75 years old (y) as subjects of health insurance checkup data.
  • 26 and 75 years old are values used because of the characteristics of health insurance data, and in the case of non-health insurance data, x (26 years old) and y (75 years old) may be changed.
  • the binary logistic regression model generation process is a process for generating a binary logistic regression model for obtaining the probability (Pm) of being seen as over-age (OAGm) in two groups, and "birth age” is divided into two groups It is a process for generating a model capable of predicting any one group (OAGm) from these two groups.
  • UAGm under-age group
  • OAGm over-age group
  • FIG. 7 is a diagram illustrating a process of generating a binary logistic regression model.
  • each unit age is divided into a group under the corresponding age (UAGm) and a group above the corresponding age (OAGm), and in each unit, one of the two groups is selected as training data, and a total of 50 This will create a binary logistic regression model.
  • a group under the age of 26 and a group over the age of 26 are set, and age prediction is made by dividing the group under the age of 26 and the age of 26 or older by (0,1) in the examination item data unit set as training data.
  • a binary logistic regression model (M26) is created to predict the age of 26 or older, and for specific values for each examination item, people under the age of 26 are classified as '0' and those over the age of 26 as '1'
  • a binary logistic regression model (M26) is created.
  • Physical examination indicators such as body mass index, waist circumference, systolic blood pressure, and diastolic blood pressure, 3 types of liver values (AST, ALT, ⁇ -GTP), creatinine, 3 types of cholesterol (HDL, LDL, TG), fasting blood glucose, hemoglobin and A binary logistic regression model (M26) is created by dividing each examination data of the same blood test index and the same health insurance examination item into people under the age of 26 and those having a value of over 26 years of age.
  • M26 binary logistic regression model
  • a binary logistic regression model is constructed according to a predictor variable having the under-age group (UAGm) and the over-age group (OAGm) as the response variable as the Y-axis and the training data (examination data) as the X-axis.
  • a checkup item information setting process may be further included so that health insurance checkup items to be used as training data may be searched and added or deleted as checkup item information.
  • condition information setting process for setting condition information for training data may be further included, and the condition information may be composed of male and female gender information.
  • biological age prediction models according to male and female sexes can be configured separately.
  • This process is performed from the age of 26 to 76 to generate a total of 50 binary logistic regression models (M26 to M75).
  • the age prediction probability calculation process is a process of calculating the probability (Pm) of being predicted as an over-age group (OAGm) for each individual according to the binary logistic regression models (M26 to M75) generated as described above.
  • Equation 3 shows the age prediction probability calculation process according to the binary logistic regression model.
  • Pm probability values
  • the probability value "P45” is a probability value obtained using a binary logistic regression model (M45), and means a probability value predicted to be 45 years of age or older.
  • the probability (P45) of being predicted to be 45 years old or older is 0.655
  • the probability of being predicted to be 75 years old or older is 0.211.
  • the age prediction probability calculation process calculates 50 of these probability values for all ages (P26 to P75) for all people (sample) to generate a chart as shown in FIG. 8 above.
  • the probability (Pm) value is obtained for all age units for each individual.
  • the cutoff extraction process involves ROC (Reciever Operating Characteristic curve and Area Under the Curve) curve analysis for the probability values (Pm) obtained for 50 models (M26 to M75) for all people aged 26 to 75 years.
  • ROC Reciever Operating Characteristic curve and Area Under the Curve
  • the under-age group (UAGm) and the over-age group (OAGm) are set as two-part response variables, and the probability (Pm) predicted by the over-age group (OAGm)
  • ROC curve analysis is performed to extract a cutoff (Cm).
  • This cutoff extraction process is to extract the cutoff (Cm) at the point of maximizing Youden's J statistic, meaning the result of extracting the cutoff at which the sum of Sensitivity and Specificity is maximized. do.
  • 9 is a chart showing cutoff values extracted through a cutoff extraction process.
  • C45 is a cutoff value obtained from model M45, and when the probability value is calculated as 0.547 or higher, it means that the person is predicted to belong to a group whose age is 45 years or older.
  • the age prediction probability correction process applies (Pm-Cm) the cutoff (Cm) value obtained through the age prediction probability calculation process to the probability (Pm) of being predicted as an over-age group (OAGm) to form an over-age group (OAGm). This is the process of correcting with the predicted excess probability (Dm).
  • FIG. 10 is a chart showing the excess probability (Dm) to be predicted with the over-age group (OAGm) obtained through the age prediction probability correction process.
  • the excess age calculation process calculates the weighted average ( ⁇ i) of the excess probability (Dm) predicted by the over age group (OAGm) obtained through the above process to obtain individual's excess aging to obtain the biological age. It is a process.
  • Equation 4 shows a process of calculating the weighted average ⁇ i for the excess probability Dm to be predicted by the overage group OAGm.
  • the weighted average of the excess probability (Dm) predicted by the overage group (OAGm) is obtained for each individual's excess age. If there is an additional weight (Wm) to be applied, the weighted average can be obtained by applying it.
  • Equation 5 shows a process of calculating the weighted average ⁇ i for the excess probability Dm to be predicted by the overage group OAGm.
  • the biological age calculation process is a process of calculating the biological age by adding the excess age obtained in the excess age calculation process to the birth age.
  • the technical feature of the present invention is to generate a model (algorithm) for predicting biological age using health insurance checkup data.
  • the biological age can be predicted by obtaining the excess age ( ⁇ i) for the birth age (CA).
  • an object of health insurance checkup data for using training data to obtain biological age is set.
  • 26 to 75 years old is set as the training data age target (x to y), which is an age interval for obtaining a binary logistic regression model.
  • checkup item information setting process for setting checkup items to be used as training data as checkup item information may be further included, and a user (manager) may set checkup items to be used as training data for biological age prediction.
  • FIG. 12 is a flowchart showing an embodiment of a process of generating a model for predicting biological age in the present invention. An embodiment of the operation process will be described with reference to FIG. 12 .
  • UAG26 under-age group
  • OAG26 over-age group
  • the health checkup data is classified into those under the age of 26 and over the age of 26, and the sample target (person) of the checkup data is checked for specific values for each health checkup item, and the sample (person) under the age of 26 is not age
  • the group (UAGm) is set to '0'
  • the sample (person) aged 26 or older is set to the overage group (OAGm) '1'
  • a binary logistic regression model (M26) corresponding to the age of 26 is generated. .
  • the binary logistic regression model is for obtaining the probability (Pm) of being seen as over age (OAGm) in the two groups, and as described above, physical tests such as body mass index, waist circumference, systolic blood pressure, and diastolic blood pressure Indices, three types of liver values (AST, ALT, ⁇ -GTP), creatinine, three types of cholesterol (HDL, LDL, TG), fasting blood sugar, and blood test indicators such as hemoglobin, etc. It is used, and it can be set as examination item information by adding or deleting it as needed.
  • the probability (P26) of being predicted as an over-age group (OAG26) for each individual is calculated through Equation 3 to obtain an age prediction probability.
  • such an age prediction probability represents an individual's aging status, and represents a probability to be predicted as OAGm of an over-age group.
  • the cutoff (Cm) which is the reference value for determining the biological age
  • UAGm under-age group
  • OAGm over-age group
  • the predictor variable By setting the probability (Pm) of being predicted as the over-age group (OAGm) and extracting the cutoff (Cm) through ROC curve analysis, the probability (P26) of being predicted to be 26 years old or older is targeted , a cutoff (C26) value for determining biological age is obtained through ROC curve analysis.
  • the cutoff (C26) value obtained through the age prediction probability calculation process is calculated (P26-C26) from the probability (P26) to be predicted as the over age group (OAG26) to predict the over age group (OAG26) Calculate the excess probability (D26).
  • the excess probability D26 to be predicted as the overage group 0AG26 is obtained by applying the cutoff C26 to each individual.
  • UAGm under-age group
  • OAGm over-age group
  • a binary logistic regression model is created by dividing people with values less than 26 years old and those with values greater than 26 years old, such as This process creates a binary logistic regression model (M27 to M75) for the ages of 27, 28, ...., 75.
  • the cutoffs (C26 to C75) obtained as described above are values extracted through ROC curve analysis, and mean that the cutoff (Cm) is extracted at the point of maximizing Youden's J statistic.
  • the excess probability (Dm) to be predicted by the overage group (OAGm) calculated through the age prediction probability calculation process is a cutoff (Cm) to the probability (Pm) to be predicted by the overage group (OAGm) obtained in the age prediction probability process is applied, and as shown in FIG. 10 for each individual, D26 to D75 is obtained from 26 to 75 years of age.
  • the weighted average ( ⁇ i) of such an individual's excess age can be obtained through Equation 4 above.
  • the weighted average obtained in this way can be applied to the birth age as the excess age of each individual to obtain the biological age.
  • 11 is a diagram showing an example of an over-age profile for each individual, with the X-axis set to training data age targets 26 to 75 and the Y-axis set to the over-age probability (Dm) predicted by the over-age group (OAGm), and the over-age for each age target It represents the excess probability (Dm) predicted by the age group (OAGm).
  • the present invention obtains average information of information representing the degree of aging of each individual using health insurance checkup data, and accordingly creates a model (algorithm) capable of predicting biological age.
  • FIG. 13 shows the configuration of the personalized bio-age model generation system of the present invention as described above.
  • Examination data collection means 110 for collecting health examination data provided from the health examination system and storing and managing them in the data storage means 190;
  • Training data setting means 120 for determining valid training data from the examination data collected from the examination data collection means 110 according to the set training data reference age interval (x to y) and examination item information;
  • Binary logistic regression model generation means 130 for generating a binary logistic regression model (Mx-My) for each age unit within the age interval (x-y) set for the training data set by the training data setting means 120;
  • the under-age group (UAGm) and over-age group (OAGm) are set as bipartite response variables, and the probability (Pm) of being predicted by the over-age group (OAGm) is set as a predictor variable through ROC curve analysis.
  • a cutoff (cm) is applied (Pm-Cm) from the probability (Pm) predicted by the overage group (OAGm) calculated through the age prediction probability calculation means 140 to exceed the predicted overage group (OAGm) for each individual.
  • an age prediction probability correcting unit 160 for calculating a probability Dm and correcting a probability Pm of being predicted as an over-age group OAGm calculated in the age prediction probability calculating unit 140;
  • Excess age calculation means for calculating individual's excess aging by obtaining the weighted average ( ⁇ i) for the excess probability (Dm) predicted by the over age group (OAGm) obtained through the age prediction probability correction means (160) ( 170) and,
  • Biological age calculation means 180 for calculating biological age from birth age using the excess age of each individual obtained through the excess age calculation means 170;
  • It is configured to include a data storage means 190 for storing and managing health checkup data collected from the checkup data collection means 110 and training data set through the training data setting means 120 .
  • the technical feature of the personalized bio-age prediction system of the present invention is that it sets training data from health check-up data provided from the health check-up system and extracts individual over-age information therefrom to predict the biological age.
  • It consists of a biological age prediction model generation system for generating a personalized biological age model by receiving health examination data from the health examination system,
  • the examination data collection means 110 is a means for collecting health examination data provided from the health examination system, and is a means for storing and managing the collected health examination data in the data storage means 190.
  • the training data setting means 120 is a means for setting training data for generating a biological age prediction model, and the data storage means 190 according to the set training data reference age interval (x-y) and checkup item information. It is a means for determining valid training data for the binary logistic regression model generating means from the checkup data stored in .
  • the binary logistic regression model generating means 130 is a means for generating a binary logistic regression model (Mx to My) for each age unit within the age interval set for the training data set by the training data setting means 120,
  • each age unit is set as one unit, and the training data for each age unit is divided into two groups: an under-age group (UAGm) and an over-age group (OAGm), and the under-age group (UAGm) and over-age group
  • UAGm under-age group
  • UAGm over-age group
  • Mx ⁇ My binary logistic regression model
  • the age prediction probability calculation means 140 calculates the probability (Pm) of being predicted as an over-age group (OAGm) for each individual according to 50 binary logistic regression models generated by the binary logistic regression model generation means 130 is a means for
  • the cutoff extracting means 150 is a means for extracting a cutoff (Cm) for correcting the probability (Pm) of being predicted by the overage group (OAGm) calculated through the age prediction probability calculation means 140,
  • Age group (UAGm) and over age group (OAGm) are set as bipartite response variables, and the probability (Pm) of being predicted by the over age group (OAGm) is set as a predictor variable to cut off through ROC curve analysis. It is a means for extracting (Cm).
  • the age prediction probability correcting means 160 is a means for correcting the probability Pm predicted by the over age group OAGm calculated through the age prediction probability calculation means 140, By applying the cutoff (cm) to the predicted probability (Pm) (Pm-Cm), the excess probability (Dm) to be predicted by the individual overage group (OAGm) is calculated, and the overage calculated in the age prediction probability calculation means 140 This is a means for correcting the probability Pm to be predicted by the age group OAGm.
  • the excess age calculation means 170 is a means for obtaining the excess age of each individual to obtain the biological age, and the excess probability Dm to be predicted by the overage group OAGm obtained through the age prediction probability correction means 160 It is a means for obtaining the weighted average ( ⁇ i) for , and obtaining the excess age of each individual.
  • the biological age calculator 180 is a means for calculating the biological age from the birth age using the individual excess age obtained through the excess age calculator 170.
  • the examination data collection means 110 collects examination data provided from the health examination system and stores them in the data storage means 190 .
  • the training data setting means 120 sets training data for obtaining a binary logistic regression model from the health examination data stored in the data storage means 190.
  • the training data setting unit 120 determines training data for the set age range (x-y) and health examination items.
  • An embodiment of the present invention uses health insurance checkup data, and the age range is set to 26 years old (x) to 75 years old (y).
  • the user setting means for providing a process so that the user (manager) can inquire and reset the age section and checkup item information of the training data setting means 120 can be configured to be further included.
  • training data setting means 120 may further include a user setting means for providing a process so that the user can set condition information for determining training data.
  • the condition information may be composed of male and female gender information, and by setting male and female gender information, biological age prediction models according to male and female gender may be configured separately.
  • the binary logistic regression model generating means 130, 50 are set for each age unit within the age section of the training data setting means 120, and training data for each unit is set as an under-age group (UAGm) and an over-age group ( OAGm) and generate a binary logistic regression model.
  • UAGm under-age group
  • OAGm over-age group
  • a group under the age of 26 UAG26
  • a group over the age of 26 OAG26
  • M26 binary logistic regression model
  • a binary logistic regression model is created by dividing the training data for health insurance checkup items, such as blood test indicators such as hemoglobin, into people under the age of 26 and those over the age of 26.
  • This process is performed from the age of 26 to 76 to generate a total of 50 binary logistic regression models (M26 to M75).
  • the probability (Pm) of being predicted as an overage group (OAGm) for each individual is calculated according to the binary logistic regression model (M26 to M75) generated as described above.
  • the probability (Pm) of being predicted as such an over-age group (OAGm) is information for obtaining the over-age of each individual in order to predict the biological age, and can be obtained through Equation 3 above.
  • the probability value (Pm) for each individual can be obtained according to the binary logistic regression model.
  • the cutoff extracting unit 150 extracts a cutoff (Cm) for the probability (Pm) of each individual to be predicted as an over-age group (OAGm) through ROC curve analysis.
  • the cutoff (Cm) is a reference value for determining the biological age
  • the under-age group (UAGm) and the over-age group (OAGm) are set as two-part response variables, and the probability (Pm) predicted by the over-age group (OAGm) ) as a predictor variable, ROC curve analysis can be performed to obtain a cutoff (Cm) value as shown in FIG. 9 .
  • the age prediction probability correction unit 160 uses the cutoff value (Cm) obtained from the cutoff extraction unit 150 to predict the probability (Pm) of the overage group OAGm obtained from the age prediction probability calculation unit 140. ) is corrected.
  • Such age prediction probability correction is performed by applying the cutoff (Cm) value obtained through the age prediction probability calculation means 140 to the probability (Pm) of being predicted as the overage group (OAGm) (Pm-Cm) to overage group (Pm-Cm) to overage group (
  • Pm overage group
  • Pm-Cm overage group
  • Dm excess probability predicted by OAGm
  • the overage calculation means 170 obtains the weighted average ⁇ i through Equation 4 for the overprobability Dm predicted for the overage group OAGm, thereby obtaining the overage for each individual.
  • the weighted average of the excess probability (Dm) predicted by the overage group (OAGm) obtains the individual excess age. If there is an additional weight (Wm) to be applied, it is applied to average the weight as in Equation 5 above. can be obtained.
  • the present invention can provide a more reliable biological age by calculating the age in excess of the birth age from health insurance checkup data and predicting the biological age therefrom.
  • the present invention developed a bio-age prediction model by utilizing high-quality, large-scale health examination data accumulated by the National Health Insurance Service, and is widely used in the medical and statistical analysis industries to realize its practical and economical value. am.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Computational Linguistics (AREA)
  • Surgery (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)

Abstract

본 발명은 건강 검진 데이터를 기반으로 연령별 출생나이에 대한 초과나이를 구하여 개인별 생체나이를 예측할 수 있는 모델을 생성하기 위한 개인 맞춤 생체나이 예측 모형 생성 방법 및 그 시스템에 관한 것이다. 보다 구체적으로, 본 발명은 남,녀 또는 출생 연령대에 따라 노화 메커니즘이 서로 다른 것임을 감안하여, 성별과 출생 연령대별로 생체나이 예측 모델을 구축하고, 각 연령대별 생체나이 예측 모델에 따라서 생체나이를 예측할 수 있도록 하는 개인 맞춤 생체나이 예측 모형 생성 방법 및 그 시스템에 관한 것이다.

Description

개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템
본 발명은 개인 맞춤형으로 생체나이를 예측하기 위한 모형 생성 방법에 관한 것으로, 건강 검진 데이터를 기반으로 연령별 출생나이에 대한 초과나이를 구하여 개인별 생체나이를 예측할 수 있는 모델을 생성하기 위한 개인 맞춤 생체나이 예측 모형 생성 방법 및 그 시스템에 관한 것이다.
일반적으로 출생나이는 금년도와 출생 연도와의 차이를 나타내는 것으로, 개인의 현재 건강 상태와는 관계없이 동일 연도에 태어난 사람은 모두 출생나이가 동일하게 나타날 수밖에 없다.
따라서 개인의 현재 건강 상태 또는 전반적인 신체 기능 저하와 관련이 있는 "노화"를 출생나이만으로는 온전히 나타낼 수 없기 때문에 노화와 관련된 신체 기능 저하를 나타내는 "생체나이"를 예측 또는 측정할 수 있는 기술 개발이 필요하다.
생체나이란 출생나이와는 달리, 몸의 전반적인 건강 상태에 따라서 달라지는 부분들을 수치화한 것으로, 즉 몸의 건강 및 노화 정도를 수치로 나타낸 것이다.
똑같은 출생나이인 사람들이라 하더라도 몸의 건강 상태가 서로 다를 수 있기 때문에, 몸의 전반적인 건강 상태를 측정 또는 추정하여 구해진 생체나이를 이용하는 것이, 출생나이보다는 현재의 전반적인 건강 상태, 노화, 더 나아가 실질적인 기대 수명을 측정하는 것이 보다 정확하다고 할 수 있다.
< 생체나이 예측/측정을 위한 기존 연구 >
생체나이를 측정하고자 하는 연구는 1969년 Comfort로부터 시작하여 현재까지 꾸준히 지속 되어 오고 있다.
생체나이를 측정하는 데 사용하는 바이오마커가 갖추어야 할 요인으로는,
1). 신체의 기능이나 신진대사 시스템에 대한 정보 제공,
2). 출생나이와 상관관계가 있는 정량적인 특성 보유,
3). 재현성, 민감성, 구체적인 특성 보유,
4). 인간뿐 아니라 실험동물에 적용하는 데도 적합할 것 등이 있음
이러한 것들을 고려하여 신체적(physical), 생리적(physiological), 생화적(biochemical) 인 바이오마커를 사용하여 생체나이를 측정하고자 하는 연구가 진행되었다.
생체나이를 측정하는 데 많이 사용하는 바이오마커로는 체질량 지수(BMI), 혈압(수축기 혈압, 이완기 혈압), 허리둘레, 폐활량, 근육량, 알부민, 콜레스테롤 수치 등이 있으며, 이들을 독립 인자로 사용하여 다중 회귀 분석(multivariable linear regression analysis), 주성분분석 (PCA, principal component analysis)을 사용하여 생체나이 측정 모형을 연구하고 있다.
< 사망 위험도 예측 연구 >
Levine and Crimmins 는 생체나이를 사용해 10년 동안 사망률을 예측하는 연구를 진행하였으며, Brown and McDaid 는 출생나이, 교육 정도, 성별, 소득, 결혼상태, 직업, 인종, 종교, 흡연, 음주, 활동량, 비만 등의 요인이 성인의 사망률에 미치는 영향에 대한 조사 및 연구를 진행하였다.
한편, 성별, 흡연유무, 출생나이, underwriting class를 포함한 9개의 요인으로 로지스틱 회귀 모형을 구축하여 사망위험도를 평가하는 모형을 연구한 사례도 있다.
국내에서는 대규모 한국인을 대상으로 한 건강 검진 데이터를 사용하여 생체나이를 측정하는 모형을 구축한 후 생체나이가 출생나이보다 많게 측정된 경우 17년 동안의 사망에 미치는 영향력을 Cox regression 모형을 사용하여 연구한 사례가 있다.
현재 논문이나 특허 형태로 공개되어 있는 생체나이 측정 모형에서는 개인의 생체나이= 55.7 세와 같이 수치 1개만으로 제시되는데, 이 수치가 의미하는 정량 및 정성적인 해석이 객관적이지 못하며 불분명하기 때문에 개인의 노화 상태를 수치 1개가 아닌 생체나이 확률 스펙트럼/분포와 같이 다른 형태로 나타낼 필요가 있다.
< 생체나이 측정 관련 SCI급 논문 >
현재 공개되어 있는 생체나이 측정 모형
(a). A new approach to the concept and computation of biological age
2006, Mechanisms of Ageing and Development (체코인 대상)
바이오마커의 영향력을 비선형적으로 모델링
(b). A method for identifying biomarkers of aging and constructing an index of biological age in humans.
2007, Journal of Gerontology (교토대, 일본 남자 대상)
PCA 분석 기법을 이용한 모델링 (R2 = 0.52 )
(c). Development of models for predicting biological age (BA) with physical, biochemical, and hormonal parameters
2008, Arch Gerontol Geriatr. (종합 생체, 신체, 생화학, 호르몬 나이로 구분, 한국인 대상)
Multiple linear regression 모델링 (남자 R2=0.62, 여자 R2=0.66 )
(d). Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean men
2009, Archives of Gerontology and Geriatrics (연령대별 정상, 당 이상, 당뇨환자 구분, 서울대, 한국인 남자 대상)
PCA 분석 기법을 이용한 모델링 (R2=0.581 )
(e). Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults
2012, Gerontology (연령대별 정상, 비만 환자 구분, 아산병원, 한국인 대상)
PCA 분석 기법을 이용한 모델링 (남자 R2=0.638, 여자 R2=0.672 )
(f). 생체나이가 사망에 미치는 영향력 분석
Biological age as a useful index to predict seventeen-year survival and mortality in Koreans
2017, BMC Geriatrics (55만여 한국인을 대상으로 17년 추적 조사한 자료를 사용하여 생체나이가 사망에 미치는 영향력 분석
여기서, 상기 R2 는 결정계수 (coefficient of determination)을 의미한다.
< 다중 선형 회귀 분석 모형 : MLR >
도 3은 선형 회귀 직선을 나타낸다.
도 3에서의 선형 회기 직선은 Y = a + b*X 와 같은 선형 회기식으로 표시할 수 있다.
도 3에서 나타낸 점들은 각 개인의 측정된 좌표 X(검진 수치), Y(나이)를 나타내는데, 검진 수치가 커질수록 출생나이가 증가하는 경향을 보인다. 이를 선형회귀 모형으로 표현하면, 검진 수치는 커질수록 나이를 시키는 영향을 나타낸다.
(검진 수치가 나이 증가에 미치는 정량적인 영향력이 선형 회귀 식의 기울기)
즉, 검진 수치와 나이(보다 정확하게는 출생나이) 사이의 증/감 관계 어딘 가에 존재할 것으로 추정되는 생체나이를 위 선형 회귀 식의 Y 값으로 생각해 보자 라고 하는 것이 선형 회귀 모형을 사용한 생체나이예측 모형의 개요라 할 수 있다.
다중 선형 회귀 분석 모형은 다음의 수학식 1과 같이 나타낼 수 있다.
< 수학식 1 >
Figure PCTKR2022002749-appb-I000001
다중 선형 회귀 모형 (MLR, Multivariable Linear Regression)
상기 수학식 1은 종속 변수(Y)를 출생나이로 두고 BMI, SBP, HDL 변수 3개를 독립 변수로 삼아 독립 변수가 출생나이에 미치는 선형적인 영향력을 나타낸 것이다.
여기서, a1, a2, a3 는 회귀 계수(regression coefficient) 로 각각 BMI, SBP, HDL 이 출생나이에 미치는 영향력을 나타낸다.
그리고 a0는 회귀 상수 (intercept 또는 regression constant)이다.
상기 수학식 1을 통해 계산되는 Y는 BMI, SBP, HDL 측정값을 입력했을 때 계산되는 수치인데, 이 수치를 생체나이로 생각하자는 것이 MLR 모형의 핵심이다.
이와 같은 다중 선형 회귀 모형(MLR)은 다음과 같은 문제점이 있다.
젊은 사람의 경우 BA(생체나이)가 CA(출생나이)에 비해 높게 예측(overestimate)이 되고 나이가 많은 사람의 경우 생체나이(BA)가 낮게(underestimate) 예측된다.
이는 데이터가 가지고 있는 특성 때문인 것으로 추정되며, 정확히 어떤 메커니즘 때문인지는 알 수 없다.
도 4는 출생나이(X)와 생체나이(Y)의 관계를 나타낸 그래프로써, 다중 선형 회귀 모델의 over(under) estimation 예를 나타낸다.
생체나이(BA)에서 출생나이(CA)가 건강 검진 항목에 종속적(종속 변수)이라고 하는 점에서 모순이 존재한다.
즉, 출생나이(CA)는 건강 검진 항목이 아니라 달력 시간(calendar time)에 종속적인 것이다.
특히, 건강 검진 항목과 출생나이(CA)와의 상관관계가 "1"이라고 하면 건강 검진 항목 자체는 그 자체로 쓸모가 없다.(근거: Ingram, 1988)
이는 모델 수립 시에 세운 가정 자체에 모순이 있는 것을 의미한다.
다음은 다중 선형 회귀 모형의 문제점을 언급한 논문들이다.
(a). 2008 선형회귀모델- MLR 모형
Development of models for predicting biological age (BA) with physical, biochemical, and hormonal parameters
(b). 2009 서울대 병원 모델 - PCA 모형
Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean
(c). 2011 아산병원 모델 - PCA 모형
Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults
(d). 2010 생체나이 모형 간 비교 논문
An empirical comparative study on biological age estimation algorithms with an application of Work Ability Index (WAI)
< 주성분 분석 모형 설명 ; PCA >
주성분 분석법(PCA ; Principal Component Analysis)은,
도 5에서와 같이, 다수 변수들(v1 ~ v5) 이 나타내는 공통적인 특성을 분석하여 이들을 대표할 수 있는 소수의 독립적인 요인(요인 1, 요인 2)을 찾아내는 방법이다.
예를 들어 SBP, DBP, HDL, LDL, TG 와 같은 5개 변수를 사용해서 PCA 분석을 하게 되면 "혈압요인" 과 "콜레스테롤 요인"이라는 2개의 독립적인 요인을 추출할 수 있다.
다수의 건강 검진 변수 (BMI, WST, SBP, DBP, AST, ALT, GGTP, HDL, LDL, TG, 폐활량 등)에 PCA를 적용하여 이들 변수에 공통적으로 존재하는 "1개의 요인"을 추출한다.
이와 같이 PCA를 통해 추출된"1개의 요인과 출생나이는 상당한 수준의 양의 상관관계"가 있는 것으로 분석된다. (Pearson' correlation coefficient 0.8)
따라서 PCA 방법으로 추출된 "1개의 요인" 이 사람의 실제 노화 상태를 나타내는 "생체나이"로 결정하자는 것이 PCA 생체나이 예측 모형의 핵심이다.
다음은 PCA를 사용한 생체나이 예측 모형들이다.
(a). 2009 서울대병원모델-PCA모형
Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean men
(b). 2011 아산병원모델-PCA모형
Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults
(c). 2007 일본인모델-PCA모형
A Method for Identifying Biomarkers of Aging and Constructing an Index of Biological Age in HumansPCA
PCA를 사용한 생체나이 예측 모형 특징
PCA 분석에서는 다중회귀 분석법과는 달리 종속 변수, 독립 변수의 구분이 없다. 즉, 건강 검진 항목이 5개라고 할 때, 5개의 수치들에서 공통적으로 나오는 요소(주성분)를 추려내는 방법이라고 할 수 있다.
도 5에서, 5개의 변수들이 좌표상에서의 위치를 보면 v1~v3 과 v4~v5는 서로 다른 2개의 묶음(cluster)에 속해있다고 볼 수 있으며 이것은 곧 5개의 변수들을 2개의 요인으로 설명할 수 있다고 말할 수 있다.
결국 입력값으로는 5개 변수가 들어가지만 실제 생체나이(BA) 예측에 사용되는 변수는 요인1 과 요인 2라고 말할 수 있다.
여기서, 실제 생체나이 예측모형에는 가장 영향력이 큰 요인 1개만 사용한다.
PCA를 사용한 생체나이 예측모형은 다중선형회귀분석(MLR) 모형과는 다르게 출생나이(CA)를 종속 변수로 사용하지는 않으나, 추출된 가장 큰 영향력을 나타내는 요인을 나이(예; 1세, 2세)와 같은 단위(즉, unit)을 가지게 하고, 생체나이(BA) 예측에서의 바이어스(bias)를 보정 하기 위해 출생나이(CA)가 독립 변수로서 생체 나이(BA) 예측 모델에 들어간다.
PCA 모형을 정리하면 다음과 같은 수학식 2와 같이 나타낼 수 있다.
< 수학식 2 >
Figure PCTKR2022002749-appb-I000002
여기서, BA는 생체나이, X1은 PCA를 통해 추출된 주성분 요인 1개, CA는 출생나이를 의미하며, F는 X1을 입력변수로 사용한 변환 함수, G는 CA를 입력변수로 사용한 변환 함수를 의미한다.
즉, 생체나이는 PCA 주성분 요인 및 출생나이에 각각 가중치를 곱한 후 더해서 계산한 수치를 의미하는 것이다.
< PCA 모형의 단점 >
PCA를 통해 추출한 주성분이 출생나이와 상당히 높은 상관관계가 있기 때문에 이것이 생체나이를 대표하는 수치라고 하는 것은 연구자들의 주관적인 의견일 뿐이다.
또한, PCA를 통해 추출된 요인을 "나이"라는 단위를 가진 변수(생체나이)로 만들기 위해서 "출생나이"를 매개변수로 사용한 변환 함수를 도입한 것으로, 객관적으로 입증된 것이 아닌 연구자의 단순한 아이디어일 뿐이다.
"출생나이"를 매개변수로 사용하여 생체나이 모형에 포함한 또 하나의 이유는, "출생나이"를 매개변수로 사용하기 전에는 MLR 모형과 같이 젊은 층에서는 과대평가(overestimation)이 되고 나이든 층에서는 과소평가(underestimation)되는 현상이 동일하게 발생하기 때문이다.
대한민국 특허공개 2014년 제0126229호, "생체나이 연산 모델 생성 방법 및 시스템과 그 생체나이 연산 방법 및 시스템"에서는 상기 PCA 생체나이 예측 모델을 이용하여 생체나이를 연산하는 방법을 제공하고 있다.
노령화가 급속히 진행되고 있는 국내 환경에서 보다 건강한 삶을 오랫동안 영위하기 위한 예방 차원에서 개인별 노화 상태를 예측하기 위한 방법이 필요하다.
본 발명은 남,녀 또는 출생 연령대에 따라 노화 메커니즘이 서로 다른 것임을 감안하여, 성별과 출생 연령대별로 생체나이 예측 모델을 구축하고, 각 연령대별 생체나이 예측 모델에 따라서 생체나이를 예측할 수 있도록 하는 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템을 제공하고자 한 것이다.
본 발명은 단순히 생체나이(예 : 55세) 만의 수치 1개만을 제시하기 보다는 개인의 노화 상태를 생체나이 확률 스펙트럼/분포와 같은 형태로 나타내도록 함으로써, 보다 객관적이고 명확한 해석이 가능한 생체나이 정보를 제공할 수 있도록 한 개인 맞춤 생체나이 예측모형 및 서비스 시스템을 제공하고자 한 것이다.
현재 논문이나 특허로 공개 되어 있는 생체나이 측정 모형에서는 개인의 생체나이= 55.7 세와 같이 수치 1개만으로 제시되는데, 이 수치가 의미하는 정량 및 정성적인 해석이 객관적이지 못하며 불분명하기 때문에 개인의 노화 상태를 수치 1개가 아닌 생체나이 확률 스펙트럼/분포와 같은 형태로 나타낼 필요가 있다.
본 발명은 종래의 생체나이 예측 모형(MLR, PCA)과는 달리 검진데이터를 사용해서 생체나이를 직접 예측하는 것이 아니라, 검진데이터를 통해 출생나이가 설명하지 못하는"초과노화요인 (즉, Δ)"을 산출하는 것을 기술적 특징으로 한다.
본 발명은 남,녀 또는 출생 연령대에 따라 노화 메커니즘이 서로 다를 것으로 예상되기 때문에, 성별과 출생 연령대에 따라 다르게 동작하는 복수 개의 생체나이 측정 모델을 개발하고자 한다.
본 발명은 출생나이가 동일한 사람들을 대표하는 수치(예: 체질량 지수 평균, 혈압 평균 등)와 비교했을 때 개인에서 측정된 검진 수치 차이의 분포를 고려한 통계 모형으로 생체나이를 예측하고자 한다.
본 발명 개인 맞춤 생체나이 예측 모형 생성 방법은,
바이너리 로지스틱 회귀 모형을 생성하기 위하여 트레이닝 데이터(training data)로 이용될 연령 구간(x~y)을 설정하기 위한 연령 구간 설정 과정과,
상기 연령 구간 설정 과정에서 설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고, 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성과정과,
바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm) 연산하는 연령예측확률연산과정과,
언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(Receiver Operating Characteristic curve) 분석을 통해 컷오프(Cm)를 추출하는 컷오프추출과정과,
오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(Cm)를 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 연령예측확률보정과정과,
상기 연령예측확률보정과정을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산과정과,
상기 초과나이 연산과정을 통해 구한 개인별 초과나이를 출생나이에 더해 생체나이를 구하는 생체나이 연산과정, 을 포함하여 이루어지는 것을 특징으로 한다.
그리고 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터는 검진항목정보에 따라 이루어지며, 트레이닝 데이터로 이용되는 검진항목정보를 조회 및 추가, 삭제 설정하기 위한 검진항목정보설정과정을 더 포함하여 이루어지는 것을 특징으로 한다.
또한 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터에 대한 남,녀 조건정보를 설정하기 위한 조건정보설정과정을 더 포함하여 이루어질 수 있다.
상기 초과나이 연산과정에 있어서, 개인별 초과나이는,
개인별로 계산된 Dm (m=26, …, 75) 에 해당 나이 (=m)를 곱해서 모두 더한 값의 평균으로 연산되는 것을 특징으로 한다.
본 발명 개인 맞춤 생체나이 예측 모형 생성 시스템은,
건강검진시스템으로부터 제공되는 건강 검진 데이터를 수집하여 데이터 저장수단에 저장 관리하기 위한 검진데이터수집수단과,
설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 검진데이터수집수단으로부터 제공되는 검진데이터로부터 유효한 트레이닝 데이터를 결정하기 위한 트레이닝데이터 설정수단과,
상기 트레이닝 데이터 설정수단에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간(x~y)내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단과,
바이너리 로지스틱 회귀 모형 생성수단을 통해 생성된 바이너리 로지스틱 회귀 모형에 따라서 트레이닝 데이터의 각 개인별로 오버에이지 그룹으로 예측될 확률(Pm)을 연산하는 연령예측확률연산수단과,
언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단과,
상기 연령예측확률연산수단을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하는 연령예측확률보정수단과,
상기 연령예측확률보정수단을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산수단과,
상기 초과나이 연산수단을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하는 생체나이 연산수단과,
검진데이터수집수단으로부터 수집된 건강검진데이터, 트레이닝 데이터 설정수단을 통해 설정된 트레이닝 데이터가 저장 관리되는 데이터저장수단을 포함하여 구성되는 것을 특징으로 한다.
상기 트레이닝데이터 설정수단의 연령구간, 검진항목정보를 사용자가 조회, 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성된 것을 특징으로 한다.
상기 트레이닝데이터 설정수단에서 트레이닝 데이터를 결정하기 위한 조건정보를 사용자가 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성되며, 조건정보는 남,녀 성별 정보인 것을 특징으로 한다.
상기 트레이닝데이터 설정수단의 검진항목정보는,
체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표를 포함하는 건강보험 검진항목 데이터로 이루어지는 것을 특징으로 한다.
이와 같은 본 발명은, 국민건강보험공단에 이미 축적되어 있는 고품질의 대규모 건강 검진 데이터를 활용하여 생체나이 예측 모형을 개발함으로써, 생체나이 예측 모형을 개발하기 위한 데이터를 별도로 구축, 연구하는 과정에 소요되는 비용 및 시간을 줄일 수 있다.
또한 본 발명은 남녀, 연령대에 따라서 그 노화정도를 달리함을 감안하여, 검진데이터를 이용하여 남녀, 연령대별에 따른 각 개인의 상대적인 값들을 이용하여 개인별 초과나이를 연산하여 이를 가중치 정보로 생체나이를 예측할 수 있도록 함으로써, 보다 신뢰도 있는 개인 맞춤 생체 예측 모형을 생성할 수 있다.
도 1은 출생나이와 수축기 혈압과의 상관관계를 나타낸 데이터 분포 예시를 나타낸 도면.
도 2는 출생나이와 헤모글로빈과의 상관관계를 보인 데이터 분포 예시를 나타낸 도면.
도 3은 다중 선형 회귀 분석 모형(MLR)에 있어서, 선형 회귀 직선을 나타낸 도면.
도 4는 출생나이(X)와 생체나이(Y)의 관계를 나타낸 그래프.
도 5는 주성분 분석법(PCA ; Principal Component Analysis)를 사용한 생체나이 예측모형을 나타낸 도면.
도 6은 본 발명 개인 맞춤 생체나이 예측 모형 생성 방법의 과정을 보인 플로우챠트.
도 7은 본 발명에 있어서, 바이너리 로지스틱 회귀 모형을 생성하는 과정을 나타낸 도면.
도 8은 본 발명에 있어서, 바이너리 로지스틱 회귀모형에 따라서 구해진 확률값(Pm)을 나타낸 도표.
도 9는 본 발명에 있어서, 컷오프추출과정을 통해 추출된 컷오프 값을 나타낸 도표.
도 10은 본 발명에 있어서, 연령예측확률수정과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 나타낸 도표.
도 11은 본 발명에 있어서, 개인별 초과나이 프로파일 예를 나타낸 도면.
도 12는 본 발명에 있어서, 생체나이를 예측하기 위한 모형 생성 과정에 대한 실시 예를 나타낸 플로우챠트.
도 13은 상기와 같은 본 발명 개인 맞춤형 생체나이 모형 생성 시스템의 구성을 나타낸 블록도.
본 발명 개인 맞춤 생체나이 예측모형 생성 방법은, 검진데이터를 통해 출생나이가 설명하지 못하는 "초과노화요인(Δ)"을 산출하고, 이를 이용하여 생체나이를 예측하도록 함을 그 기술적 특징으로 한다.
본 발명 개인 맞춤형 생체나이 모형 생성과정은 다음과 같이 이루어진다.
바이너리 로지스틱 회귀 모형을 생성하기 위하여 트레이닝 데이터(training data)로 이용될 연령 구간(x~y)을 설정하기 위한 연령 구간 설정 과정과, 상기 연령 구간 설정 과정에서 설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고, 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성과정과,
바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm) 연산하는 연령예측확률연산과정과,
언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출과정과,
오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(Cm)를 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 연령예측확률보정과정과,
상기 연령예측확률보정과정을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산과정과,
상기 초과나이 연산과정을 통해 구한 개인별 초과나이를 출생나이에 더해 생체나이를 구하는 생체나이 연산과정, 을 포함하여 이루어진다.
본 발명 생체나이 예측모형은 다중 이진 로지스틱 회귀 분석(MBLR ; Multivariable binary logistic regression)이라 정의할 수 있으며, 이의 특징을 단순화시키면 다음과 같이 나타낼 수 있다.
본 발명 생체나이 예측 모형(MBLR) ;
생체나이(BA) = 출생나이(CA) + Δ
Δ=f(BMI,SBP,.....,CA)
여기서, f(BMI, SBP, …)는 건강 검진 수치를 입력변수로 사용한 바이너리 로지스틱 회귀 분석(binary logistic regression) 모형에 기반한 초과노화요인 계산 함수를 나타낸다.
이에 대비되는 종래 MLR 모형, PCA모형은 다음과 같이 나타낼 수 있다.
MLR 모형 : BA = a0+a1×BMI+a2×SBP+...
PCA 모형 : BA = F(BMI,SBP,...) + G(CA)
이와 같이 이루어지는 본 발명은,
생체나이(BA)를 구함에 있어서, 출생나이(CA)에 대한 초과나이(Δi)를 구할 수 있도록 함을 그 기술적 특징으로 하는 것으로, 도 6에 도시된 바와 같이,
(a). 연령구간 설정과정,
(b). 바이너리 로지스틱 회귀 모형 생성과정,
(c). 연령예측확률 연산과정,
(d). 컷오프추출과정,
(e). 연령예측 확률 수정과정,
(f). 초과나이 연산과정,
(g). 생체나이 연산과정, 을 포함하여 이루어진다.
상기 연령구간 설정과정은,
생체나이를 구하기 위한 트레이닝 데이터를 이용하기 위한 건강보험 검진데이터의 대상을 설정하기 위한 과정으로, 바이너리 로지스틱 회귀 모형을 구하기 위하여 사용되는 연령 구간(x~y)을 설정한다.
본 발명 실시 예는 26세(x) 내지 75세(y)를 건강보험 검진데이터의 대상으로 설정한다.
상기 26, 75세는 건강보험 데이터의 특성 때문에 사용된 값으로, 건강보험 데이터가 아닌 경우, x(26세), y(75세)는 변경될 수 있다.
상기 바이너리 로지스틱 회귀 모형 생성과정은, 2개의 그룹에서 오버에이지(OAGm)로 보일 수 있는 확률(Pm)을 구하기 위한 바이너리 로지스틱 회기 모형을 생성하기 위한 과정으로, "출생나이"를 2개 그룹으로 구분하고, 이 두 개의 그룹에서 어느 하나의 그룹(OAGm)을 예측할 수 있는 모형을 생성하기 위한 과정이다.
상기 설정된 26세 내지 75세의 구간에서 설정할 수 있는 연령 단위는 50개 단위이며, 각 단위마다 검진항목별 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 나눈다.
도 7은 바이너리 로지스틱 회귀 모형을 생성하는 과정을 나타낸 도면이다.
도 7에 도시된 바와 같이, 각 단위 나이에서 해당 나이의 미만 그룹(UAGm), 해당 나이 이상 그룹(OAGm)으로 구분하고, 각 단위에서 트레이닝 데이터로 두 개의 그룹에서 어느 하나를 선택하여 총 50개의 바이너리 로지스틱 회귀 모형을 생성하게 된다.
예를 들면, 26세 단위에서, 26세 미만 그룹과, 26세 이상 그룹을 설정하고, 트레이닝 데이터로 설정된 검진항목 데이터 단위로 26세 미만, 26세 이상 그룹을 구분(0,1)하여 연령예측확률연산과정에서 26세 이상을 예측하기 위한 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되는 것으로, 검진항목별 특정 값들에 대하여 26세 미만 사람들은 '0', 26세 이상 사람들은 '1'로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 된다.
체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표와 같은 건강보험 검진항목의 각 검진데이터에 대하여 26세 미만인 사람들과 26세 이상인 값을 갖는 사람들로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되는 것이다.
즉, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 Y축으로 하는 반응변수로 하고, 상기 트레이닝 데이터(검진데이터)를 X축으로 하는 예측변수에 따라서 바이너리 로지스틱 회귀 모형을 생성하게 되는 것이다.
트레이닝 데이터로 이용될 상기와 같은 건강보험 검진항목을 조회 및 검진항목정보로 추가 및 삭제 설정할 수 있도록 검진항목정보설정과정을 더 포함하여 구성할 수 있다.
또한 트레이닝 데이터에 대한 조건정보를 설정하기 위한 조건정보설정과정을 더 포함할 수 있으며, 상기 조건정보는 남녀 성별정보로 구성할 수 있다.
이에 따르면, 남녀 성별에 따른 생체나이 예측 모형을 별개로 구성할 수 있다.
이와 같은 과정을 26세 내지 76세까지 수행하여 총 50개의 바이너리 로지스틱 회귀 모형(M26~M75)을 생성한다.
상기 연령예측확률연산과정은, 상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26~M75)에 따라서 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하는 과정이다.
다음의 수학식 3은 상기 바이너리 로지스틱 회귀 모형에 따른 연령예측확률 연산과정을 나타낸다.
< 수학식 3 >
Figure PCTKR2022002749-appb-I000003
Figure PCTKR2022002749-appb-I000004
여기서,
Y: 개인별 노화 상태(individual's aging status)
p(Y = OAGm) : 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)
Yi: i번째 개인별 노화 상태(ith individual's aging status)
i = 1,2, … , : 샘플번호(sample number)
m = 26(x),27, … , 75(y) ; 트레이닝 데이터에 이용되는 나이
(chronological age observed in the training data)
CA: 출생나이(Chronological age)
Xk: k번째 독립 변수(kth independent variable)
βk : k번째 독립변수의 회귀계수 (regression coefficient of kth independent variable)
p: 독립변수의 수(number of independent variable)
도 8은 바이너리 로지스틱 회귀모형에 따라서 구해진 확률값(Pm)을 나타낸 도표이다.
도 8의 도표에서 확률값 "P45"는 바이너리 로지스틱 회귀모형(M45)을 사용해 구해진 확률 값으로, 45세 이상으로 예측될 확률값을 의미한다.
예를 들어, 샘플 ID=1인 사람은 45세 이상으로 예측될 확률(P45)이 0.655이고, 75세 이상으로 예측될 확률은 0.211로 나타나는 것을 의미한다.
연령예측확률연산과정은 이런 확률값들을 모든 사람(샘플)들에 대하여 모든 연령에 대한 각 50개(P26~P75) 씩 계산하여 상기 도 8에서와 같은 도표를 생성한다.
즉 개인별로 모든 연령 단위에 대하여 확률(Pm) 값을 구하는 것이다.
여기서 도 8에 도시된 바와 같이, 오버에이지 그룹(OAG26)으로 예측될 확률(P26)을 살펴보면, 0.998로서, 1에 가까운 것을 알 수 있다.
이는 절대적인 값으로 상기와 같은 확률(Pm)에 대하여 생체나이를 예측하는 경우 부정확함으로써, 상대적인 값을 이용해야 하는 보다 정확한 생체나이 예측이 가능해진다.
따라서 생체나이를 판단하기 위한 기준값인 컷오프(Cm)가 필요하다.
상기 컷오프추출과정은, 26세~75세 대한 모든 사람을 대상으로 50개 모형 (M26 ~ M75)에 대하여 구해진 확률값(Pm)을 대상으로 ROC(Reciever Operating Characteristic curve and Area Under the Curve) 커브 분석을 통해 생체나이를 판단하기 위한 기준값을 구하기 위한 과정으로, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 수행하여 컷오프(cutoff)(Cm)를 추출한다.
이와 같은 컷오프추출과정은 유든의 J 통계량(Youden's J statistic)를 최대화하는 시점에서 컷오프(Cm) 추출하는 것으로, 민감도(Sensitivity)와 특이도(Specificity)를 더 한 것이 최대가 되는 컷오프 추출한 결과를 의미한다.
도 9는 컷오프추출과정을 통해 추출된 컷오프 값을 나타낸 도표이다.
예를 들어 도 9의 도표에서 C45는 모형 M45에서 구해진 컷오프 값으로 확률값이 0.547 이상으로 계산될 때는 해당 사람의 나이가 45세 이상인 집단에 속할 것으로 예측한다는 의미이다.
상기 연령예측확률보정과정은 상기 연령예측확률연산과정을 통해 구해진 컷오프(Cm) 값을 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)로 보정하는 과정이다.
도 10은 상기 연령예측확률보정과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 나타낸 도표이다.
도 10의 도표에서 D26 ~ D75는, 개인별 50개씩 계산된 확률값(P26 ~ P75)에서 ROC 커브를 통해 계산된 컷오프(C26 ~ C75)를 각각 뺀 값이다. (Dm=Pm-Cm)
예를 들어, ID=1인 사람의 출생나이가 35세인데, 이 사람이 45세 이상으로 예측될 가능성인 D45가 "D45=0.108(P45-C45 ; 0.655-0.547)"와 같다는 것이다.
여기서 (-) 값인 경우에는 해당 나이 미만으로 생각할 수 있다는 것이다.
상기 초과나이 연산과정은, 상기 과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 생체나이를 구하기 위한 개인별 초과나이(Individual's excess aging)를 구하는 과정이다.
다음의 수학식 4는 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 연산하는 과정을 나타낸다.
< 수학식 4 >
Figure PCTKR2022002749-appb-I000005
여기서, N: sample number i = 1,2, … , N
Δi : weighted mean of (Pim-Cm)
Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값
(cutoff of Pm to predict individual′s aging status from ROC curve analysis)
즉, 각 개인별로 계산된 Dm (m=26, …, 75) 에 해당 나이 (=m) 를 곱해서 모두 더한 값의 평균을 각 개인의 "초과나이"로 정의한 것이다.
여기서, 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균으로 개인별 초과나이를 구하게 되는 바, 추가적으로 적용할 가중치(Wm)가 있는 경우 이를 적용하여 가중치 평균을 구할 수 있다.
다음의 수학식 5는 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 연산하는 과정을 나타낸다.
< 수학식 5 >
Figure PCTKR2022002749-appb-I000006
Figure PCTKR2022002749-appb-I000007
여기서, N: sample number i = 1,2, … , N
Δi : weighted mean of (Pim-Cm)
Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값
(cutoff of Pm to predict individual′s aging status from ROC curve analysis)
Wm: 출생나이가 m 이상으로 예측하기 위한 가중치(weight applied for the model to predict CA ≥ m)
상기 생체나이 연산과정은 상기 초과나이 연산과정에서 구한 초과나이를 이용하여 출생나이에 더하여 생체나이를 구하는 과정이다.
이와 같은 본 발명은 건강보험 검진데이터를 이용하여 생체나이를 예측하기 위한 모형(알고리듬)을 생성하는 것을 그 기술적 특징으로 한다.
본 발명에서는 출생나이(CA)에 대한 초과나이(Δi)를 구하여 생체나이를 예측할 수 있도록 한다.
먼저, 생체나이를 구하기 위한 트레이닝 데이터를 이용하기 위한 건강보험 검진데이터의 대상을 설정한다.
본 발명 실시 예에서는 26세 내지 75세를 그 트레이닝 데이터 연령 대상(x~y)으로 설정하며, 이는 바이너리 로지스틱 회귀 모형을 구하기 위한 연령 구간이다.
상기에서 설명한 바와 같이, 건강보험 검진데이터의 특성을 고려하여 26세에서 75세를 바이너리 로지스틱 회귀 모형을 구하기 위한 연령구간으로 설정한다.
또한 트레이닝 데이터로 이용될 검진항목을 검진항목정보로 설정하기 위한 검진항목정보설정과정을 더 포함할 수 있으며, 사용자(관리자)가 생체나이 예측을위해 트레이닝 데이터로 이용될 검진항목을 설정할 수 있다.
도 12는 본 발명에 있어서, 생체나이를 예측하기 위한 모형 생성 과정에 대한 실시 예를 나타낸 플로우챠트이다. 도 12를 참조하여 그 동작 과정의 실시 예를 설명하면 다음과 같다.
먼저, 트레이닝 데이터에 이용될 나이를 초기화하고, m=26세를 설정한다.
이후 트레이닝 데이터에 따라서 26세 미만인 언더에이지 그룹(UAG26)과 26세 이상인 오버에이지 그룹(OAG26)으로 구분한다.
즉, 건강검진 데이터에 대하여 상기 26세 미만, 26세 이상으로 구분하는 것으로, 건강검진 항목별 특정 값들에 대하여 검진데이터의 샘플대상(사람)을 확인하여 26세 미만의 샘플(사람)은 언데에이지 그룹(UAGm)'0'으로 설정하고, 26세 이상의 샘플(사람)은 오버에이지 그룹(OAGm)'1'로 설정하고, 이에 따라서 26세에 해당하는 바이너리 로지스틱 회귀 모형(M26)을 생성하는 것이다.
상기 바이너리 로지스틱 회귀 모형은, 2개의 그룹에서 오버에이지(OAGm)로 보일 수 있는 확률(Pm)을 구하기 위한 것으로, 상기에서 설명한 바와 같이, 체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표 등과 같은 건강보험 검진항목의 각 검진데이터를 이용하며, 필요에 따라서 추가 또는 삭제하여 검진항목정보로 설정할 수 있다.
이후, 상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26)에 따라서 개인별로 오버에이지 그룹(OAG26)으로 예측될 확률(P26)을 상기 수학식3을 통해 연산하여 연령예측확률을 구한다.
즉, 이와 같은 연령예측확률은 개인별 노화 상태(individual's aging status)를 나타낸 것으로, 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)을 나타낸다.
이후, 상기에서 설명한 바와 같이, 생체나이를 판단하기 위한 기준값인 컷오프(Cm)를 구하게 되는 바, 2분형 반응변수로 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)으로 설정하고, 예측변수로 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 설정하여, ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 것으로, 26세 이상으로 예측될 확률(P26)을 대상으로, ROC 커브 분석을 통해 생체나이를 판단하기 위한 컷오프(C26) 값을 구하게 된다.
이후 상기와 같이 구한 컷오프(C26)를 적용하여 상기 연령예측확률을 보정하는 과정을 수행하게 된다.
연령예측확률보정과정에서는 오버에이지 그룹(OAG26)으로 예측될 확률(P26)에서 상기 연령예측확률연산과정을 통해 구해진 컷오프(C26) 값을 연산(P26-C26)하여 오버에이지 그룹(OAG26)으로 예측될 초과확률(D26)을 구한다.
이와 같이 각 개인별로 컷오프(C26)를 적용하여 오버에이지 그룹(0AG26)으로 예측될 초과확률(D26)을 구하게 된다.
상기와 같이, 개인(샘플)별로 오버에이지 그룹(OAG26)으로 예측될 초과확률(D26)까지 모두 구하면, 리턴해서 m=27로 설정하고, 상기와 같은 과정을 통해 각 바이너리 로지스틱 모형(M27), 오버에이지 그룹(0AG27)으로 예측될 확률(P27), 컷오프(C27), 오버에이지 그룹(0AG27)으로 예측될 초과확률(D27)을 구하게 된다.
이와 같은 과정을 m=75까지 반복하여 각 개인별로 오버에이지 그룹(0AG75)으로 예측될 초과확률(D75)까지 구하게 된다.
26세 내지 75세의 구간에서 설정할 수 있는 단위는 총 50개 단위이며, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)으로 구분하고, 도 7에서와 같이, 50개 모형에 대하여 바이너리 로지스틱 회귀 모형을 생성한다.
상기에서 예를 들어 설명한 바와 같이, 체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표 등과 같은 트레이닝 데이터에 대하여 26세 미만인 값을 갖는 사람들과 26세 이상인 값을 갖는 사람들로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되며, 이러한 과정을 27,28,....,75세에 대한 바이너리 로지스틱 회귀 모형(M27~M75)을 생성하게 되는 것이다.
상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26~M75)에 따라서 개인별노화 상태를 나타내는 도 8에 도시된 바와 같이, 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 모든 연령 단위(m=26~75)에서의 Pm(P26~P75)을 계산하여 구한다.
이는 상기에서 예를 든 바와 같이, 샘플 ID=1인 사람은 45세 이상인 집단에 속할 확률(P45)이 0.655이고, 75세 이상인 집단에 속할 확률은 0.211로 나타나는 것을 의미한다.
상기와 같이 구해진 컷오프(C26~C75)는 ROC 커브(curve) 분석을 통해 추출된 값으로, 유든의 J 통계량(Youden's J statistic)를 최대화하는 시점에서 컷오프(Cm) 추출하는 것을 의미한다.
상기 연령예측확률연산보정과정을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)은 연령예측확률과정에서 구해진 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 컷오프(Cm)를 적용한 것으로, 각 개인별로 도 10에서와 같이, 26세에서 75세까지 D26~D75를 구한다.
이와 같은 m=75까지 반복하여 각 개인별로 오버에이지 그룹(0AG75)으로 예측될 초과확률(D75)까지 모두 구하게 되면, 상기 과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 생체나이를 구하기 위한 개인별 초과나이(Individual's excess aging)를 구한다.
이와 같은 개인별 초과나이는 상기 수학식 4를 통해 가중치 평균(Δi)을 구할 수 있다.
즉, 수학식 4에 따르면 각 개인별로 계산된 Dm (m=26, …, 75)에 해당 나이 (=m)를 곱해서 모두 더한 값의 평균을 각 개인의"초과나이"로 정의하는 것이다.
이와 같이 구한 가중치 평균으로 개인별 초과나이로 하여 출생나이에 적용하여 생체나이를 구할 수 있다.
도 11은 각 개인별 초과나이 프로파일 예를 나타낸 도면으로, X축을 트레이닝 데이터 연령 대상 26~75로 설정하고, Y축을 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)로 하여 각 연령 대상 별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 나타낸다.
이와 같은 본 발명은 건강보험 검진데이터를 이용하여 각 개인별 노화 정도를 나타낸 정보의 평균 정보를 구하고, 이에 따라서 생체나이를 예측할 수 있는 모형(알고리듬)을 생성하도록 한다.
한편, 도 13은 상기와 같은 본 발명 개인 맞춤형 생체나이 모형 생성 시스템의 구성을 나타낸다.
건강검진시스템으로부터 제공되는 건강 검진 데이터를 수집하여 데이터 저장수단(190)에 저장 관리하기 위한 검진데이터수집수단(110)과,
설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 검진데이터수집수단(110)으로부터 수집된 검진데이터로부터 유효한 트레이닝 데이터를 결정하기 위한 트레이닝데이터 설정수단(120)과,
상기 트레이닝 데이터 설정수단(120)에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간(x~y)내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단(130)과,
바이너리 로지스틱 회귀 모형 생성수단(130)을 통해 생성된 바이너리 로지스틱 회귀 모형에 따라서 트레이닝 데이터의 각 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하는 연령예측확률연산수단(140)과,
언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단(150)과,
상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단(140)에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하는 연령예측확률보정수단(160)과,
상기 연령예측확률보정수단(160)을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산수단(170)과,
상기 초과나이 연산수단(170)을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하는 생체나이 연산수단(180)과,
검진데이터수집수단(110)으로부터 수집된 건강검진데이터, 트레이닝 데이터 설정수단(120)을 통해 설정된 트레이닝 데이터가 저장 관리되는 데이터저장수단(190)을 포함하여 구성된다.
이와 같은 본 발명 개인 맞춤 생체나이 예측 시스템은, 건강검진시스템으로부터 제공된 건강 검진 데이터로부터 트레이닝 데이터를 설정하고, 이로부터 개인별 초과나이 정보를 추출하여 생체나이를 예측할 수 있도록 함을 그 기술적 특징으로 한다.
건강검진시스템으로부터 건강 검진 데이터를 제공받아 개인 맞춤형 생체나이 모형을 생성하기 위한 생체나이 예측 모형 생성시스템으로 구성되며,
상기 생체나이 예측 모형 생성시스템에 있어서,
상기 검진데이터수집수단(110)은 건강검진시스템으로부터 제공된 건강 검진 데이터를 수집하기 위한 수단으로, 수집된 건강 검진데이터를 데이터저장수단(190)에 저장 관리하기 위한 수단이다.
상기 트레이닝데이터 설정수단(120)은 생체나이 예측 모형을 생성하기 위한 트레이닝 데이터를 설정하기 위한 수단으로, 설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 상기 데이터저장수단(190)에 저장된 검진데이터로부터 바이너리 로지스틱 회귀 모형 생성수단의 유효한 트레이닝 데이터를 결정하기 위한 수단이다.
상기 바이너리 로지스틱 회귀 모형 생성수단(130)은, 상기 트레이닝 데이터 설정수단(120)에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간 내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 수단으로,
설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 구분하고, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹과 트레이닝 데이터(검진데이터)를 반응변수로 하여 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하기 위한 수단이다.
상기 연령예측확률연산수단(140)은 상기 바이너리 로지스틱 회귀 모형 생성수단(130)을 통해 생성된 50개의 바이너리 로지스틱 회귀 모형에 따라서 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하기 위한 수단이다.
상기 컷오프추출수단(150)은 상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하기 위한 컷오프(Cm)를 추출하기 위한 수단으로, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(Cm)를 추출하기 위한 수단이다.
상기 연령예측확률보정수단(160)은 상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하기 위한 수단으로, 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단(140)에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하기 위한 수단이다.
상기 초과나이 연산수단(170)은, 생체나이를 구하기 위한 개인별 초과나이를 구하기 위한 수단으로, 상기 연령예측확률보정수단(160)을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이를 구하기 위한 수단이다.
상기 생체나이 연산수단(180)은 상기 초과나이 연산수단(170)을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하기 위한 수단이다.
이와 같은 구성으로 이루어진 본 발명 시스템의 동작을 설명하면 다음과 같다.
검진데이터수집수단(110)에서는 건강검진시스템으로부터 제공된 검진데이터를 수집하여 데이터저장수단(190)에 저장하게 된다.
트레이닝데이터 설정수단(120)에서는 상기 데이터저장수단(190)에 저장된 건강검진데이터로부터 바이너리 로지스틱 회귀 모형을 구하기 위한 트레이닝 데이터를 설정한다.
트레이닝데이터 설정수단(120)에서는 설정된 연령 구간(x~y) 및 건강검진항목에 대하여 트레이닝 데이터를 결정하게 된다.
본 발명 실시 예는 건강보험 검진데이터를 이용하며, 26세(x) 내지 75세(y)로 연령 구간이 설정된다.
상기 트레이닝데이터 설정수단(120)의 연령구간, 검진항목정보를 사용자(관리자)가 조회, 재설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성할 수 있다.
또한 상기 트레이닝데이터 설정수단(120)에서 트레이닝 데이터를 결정하기 위한 조건정보를 사용자가 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성할 수 있다.
상기 조건정보는 남녀 성별 정보로 구성할 수 있으며, 남,녀 성별 정보를 설정하여 남녀 성별에 따른 생체나이 예측 모형을 구분하여 구성할 수 있다.
이후 바이너리 로지스틱 회귀 모형 생성수단(130)에서는 상기 트레이닝 데이터설정수단(120)의 연령구간 내 각 연령 단위로 50개를 설정하고, 각 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고 바이너리 로지스틱 회귀 모형을 생성한다.
이는 2개의 그룹에서 오버에이지(OAGm)로 보일 수 있는 확률(Pm)을 구하기 위한 바이너리 로지스틱 회귀 모형을 생성하기 위한 과정이다.
m=26세 단위에서, 26세 미만 그룹(UAG26)과, 26세 이상 그룹(OAG26)을 설정하고, 트레이닝 데이터 별로 26세 미만의 샘플(사람)은 0, 26세 이상의 샘플(사람)은 1로 구분하고, 바이너리 로지스틱 회귀 모형(M26)을 생성하게 된다.
즉, 체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표 등과 같은 건강보험 검진항목에 대한 트레이닝 데이터에 대하여 26세 미만인 사람들과 26세 이상인 사람들로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되는 것이다.
즉, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 Y축으로 하는 반응변수로 하고, 상기 트레이닝 데이터(검진항목별 검진데이터)를 X축으로 하는 예측변수로 하여 바이너리 로지스틱 회귀 모형을 생성하게 되는 것이다.
이와 같은 과정을 26세 내지 76세까지 수행하여 총 50개의 바이너리 로지스틱 회귀 모형(M26~M75)을 생성한다.
상기와 같이 바이너리 로지스틱 모형이 생성되면, 상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26~M75)에 따라서 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산한다.
이와 같은 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)은 생체나이를 예측하기 위하여 개인별 초과나이를 구하기 위한 정보로서, 상기 수학식 3을 통해 구할 수 있다.
도 8에서와 같이 바이너리 로지스틱 회귀모형에 따라서 개인별 확률값(Pm)을 구할 수 있다.
예를 들어, 샘플 ID=1인 사람은 45세 이상인 집단에 속할 확률(P45)이 0.655이고, 75세 이상인 집단에 속할 확률은 0.211로 나타나는 것을 의미한다.
한편 컷오프추출수단(150)에서는 상기 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 대하여 ROC 커브 분석을 통해 컷오프(cutoff)(Cm)를 추출한다.
상기 컷오프(Cm)는 생체나이를 판단하기 위한 기준값으로, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 수행하여 도 9에서와 같은 컷오프(Cm) 값을 구할 수 있다.
이후 연령예측확률보정수단(160)에서는 상기 컷오프추출수단(150)에서 구한 컷오프(Cm) 값을 이용하여 상기 연령예측확률연산수단(140)에서 구한 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정한다.
이와 같은 연령예측확률보정은 상기 연령예측확률연산수단(140)을 통해 구해진 컷오프(Cm) 값을 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 것으로, 도 10에서와 같이 개인별 보정된 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 구할 수 있다.
도 10에 따르면, ID=1인 사람의 출생나이가 35세인데, D45 모형으로 연산했을 때, 즉 이 사람이 45세 이상인 집단에 속할 것으로 예측될 가능성인 D45는 "D45=0.108(P45-C45 ; 0.655-0.547)"와 같다는 것이다.
여기서, (-) 값인 경우에는 해당 나이 미만으로 생각할 수 있다는 것이다.
초과나이 연산수단(170)에서는 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 수학식 4를 통해 가중치 평균(Δi)을 구하여 개인별 초과나이를 구한다.
이때 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균으로 개인별 초과나이를 구하게 되는 바, 추가적으로 적용할 가중치(Wm)가 있는 경우 이를 적용하여 상기 수학식 5에서와 같이 가중치 평균을 구할 수 있다.
생체나이연산수단에서는 상기 초과나이연산수단에서 구한 초과나이를 이용하여 출생나이로부터 생체나이(BA=CA+Δi)를 구한다.
이와 같은 본 발명에 따르면, 본 발명은 건강보험 검진데이터로부터 출생나이에 대한 초과나이를 산출하고, 이로부터 생체나이를 예측할 수 있도록 함으로써, 보다 신뢰할 수 있는 생체나이를 제공할 수 있다.
본 발명은 국민건강보험공단에 축적되어 있는 고품질의 대규모 건강 검진 데이터를 활용하여 생체나이 예측 모형을 개발한 것으로, 의료 및 통계분석 산업 분야에서 널리 이용하여 그 실용적이고 경제적인 가치를 실현할 수 있는 기술이다.

Claims (18)

  1. 건강검진시스템으로부터 수집된 건강 검진 데이터로부터 생체나이 예측 모형을 생성하기 위한 개인 맞춤 생체나이 예측 모형 생성시스템에서 수행되는,
    바이너리 로지스틱 회귀 모형을 생성하기 위하여 트레이닝 데이터(training data)로 이용될 연령 구간(x~y)을 설정하기 위한 트레이닝데이터 설정수단(120)의 연령 구간 설정 과정과,
    상기 연령 구간 설정 과정에서 설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고, 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단(130)의 바이너리 로지스틱 회귀 모형 생성과정과,
    바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm) 연산하는 연령예측확률연산수단(140)의 연령예측확률연산과정과,
    언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단(150)의 컷오프추출과정과,
    오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(Cm)를 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 연령예측확률보정수단(160)의 연령예측확률보정과정과,
    상기 연령예측확률보정과정을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이연산수단(170)의 초과나이 연산과정과,
    상기 초과나이 연산과정을 통해 구한 개인별 초과나이를 출생나이에 더해 생체나이를 구하는 생체나이 연산수단(180)의 생체나이 연산과정, 을 포함하여 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  2. 제1항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터는 검진항목정보에 따라 이루어지며,
    상기 검진항목정보는,
    체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표를 포함하는 건강보험 검진항목 데이터로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터는 검진항목정보에 따라 이루어지며,
    트레이닝 데이터로 이용되는 검진항목정보를 조회 및 추가, 삭제 설정하기 위한 검진항목정보설정과정을 더 포함하여 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  4. 제1항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터에 대한 조건정보를 설정하기 위한 조건정보설정과정을 더 포함하여 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  5. 제4항에 있어서, 상기 조건정보설정과정에서의 조건정보는 남,녀 성별정보인 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  6. 제1항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성과정에 있어서,
    바이너리 로지스틱 회귀 모형(Mx~My)은,
    설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 구분하고, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 반응변수로 하고, 트레이닝 데이터를 예측변수로 하여 각 연령 단위별로 생성하도록 한 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  7. 제1항에 있어서, 상기 연령예측확률연산과정에 있어서, 바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)의 연산은 다음의 수학식,
    Figure PCTKR2022002749-appb-I000008
    Figure PCTKR2022002749-appb-I000009
    여기서,
    Y: 개인별 노화 상태(individual's aging status)
    p(Y = OAGm) : 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)
    Yi: i번째 개인별 노화 상태(ith individual's aging status)
    i = 1,2, … , : 샘플번호(sample number)
    m = 26(x),27, … , 75(y) ; 트레이닝 데이터에 이용되는 나이
    (chronological age observed in the training data)
    CA: 출생나이(Chronological age)
    Xk: k번째 독립 변수(kth independent variable)
    βk : k번째 독립변수의 회귀계수 (regression coefficient of kth independent variable)
    p: 독립변수의 수(number of independent variable),
    으로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  8. 제1항에 있어서,
    상기 초과나이 연산과정에 있어서, 개인별 초과나이는,
    개인별로 계산된 Dm (m=26, …, 75) 에 해당 나이 (=m)를 곱해서 모두 더한 값의 평균을 나타내는 다음의 수학식,
    Figure PCTKR2022002749-appb-I000010
    여기서, N: sample number i = 1,2, … , N
    Δi : weighted mean of (Pim-Cm)
    Cm: 상기 연령예측확률연산과정을 통해 구해진 컷오프(Cm) 값
    (cutoff of Pm to predict individual′s aging status from ROC curve analysis),
    으로 연산되는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  9. 제1항에 있어서, 상기 초과나이 연산과정에 있어서, 개인별 초과나이는,
    오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균으로 구하되, 추가적으로 적용할 가중치(Wm)를 적용하여 가중치 평균은 다음의 수학식,
    Figure PCTKR2022002749-appb-I000011
    Figure PCTKR2022002749-appb-I000012
    여기서, N: sample number i = 1,2, … , N
    Δi : weighted mean of (Pim-Cm)
    Cm: 상기 연령예측확률연산과정을 통해 구해진 컷오프(Cm) 값
    (cutoff of Pm to predict individual′s aging status from ROC curve analysis)
    Wm: 출생나이가 m이상으로 예측하기 위한 가중치(weight applied for the model to predict CA ≥ m),
    을 통해 연산되는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
  10. 건강검진시스템으로부터 제공되는 건강 검진 데이터를 수집하여 데이터 저장수단에 저장 관리하기 위한 검진데이터수집수단(110)과,
    설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 검진데이터수집수단(110)으로부터 제공되는 검진데이터로부터 유효한 트레이닝 데이터를 결정하기 위한 트레이닝데이터 설정수단(120)과,
    상기 트레이닝 데이터 설정수단(120)에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간(x~y)내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단(130)과,
    바이너리 로지스틱 회귀 모형 생성수단(130)을 통해 생성된 바이너리 로지스틱 회귀 모형에 따라서 트레이닝 데이터의 각 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하는 연령예측확률연산수단(140)과,
    언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단(150)과,
    상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단(140)에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하는 연령예측확률보정수단(160)과,
    상기 연령예측확률보정수단(160)을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산수단(170)과,
    상기 초과나이 연산수단(170)을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하는 생체나이 연산수단(180)과,
    검진데이터수집수단(110)으로부터 수집된 건강검진데이터, 트레이닝 데이터 설정수단(120)을 통해 설정된 트레이닝 데이터가 저장 관리되는 데이터저장수단(190)을 포함하여 구성되는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  11. 제10항에 있어서, 상기 트레이닝데이터 설정수단(120)의 연령구간, 검진항목정보를 사용자가 조회, 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성된 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  12. 제10항 또는 제11항에 있어서, 상기 트레이닝데이터 설정수단(120)에서 트레이닝 데이터를 결정하기 위한 조건정보를 사용자가 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성된 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  13. 제12항에 있어서, 상기 사용자설정수단의 조건정보는 남,녀 성별정보인 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  14. 제10항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성수단(130)에서의 바이너리 로지스틱 회귀 모형(Mx~My)은,
    설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 구분하고, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 반응변수로 하고, 트레이닝 데이터를 예측변수로 하여 각 연령 단위별로 생성하도록 한 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  15. 제10항 또는 제11항에 있어서,
    상기 트레이닝데이터 설정수단(120)의 검진항목정보는,
    체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표를 포함하는 건강보험 검진항목 데이터로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  16. 제10항에 있어서, 상기 연령예측확률연산수단(140)은 바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)의 연산은 다음의 수학식,
    Figure PCTKR2022002749-appb-I000013
    Figure PCTKR2022002749-appb-I000014
    여기서,
    Y: 개인별 노화 상태(individual's aging status)
    p(Y = OAGm) : 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)
    Yi: i번째 개인별 노화 상태(ith individual's aging status)
    i = 1,2, … , : 샘플번호(sample number)
    m = 26(x),27, … , 75(y) ; 트레이닝 데이터에 이용되는 나이
    (chronological age observed in the training data)
    CA: 출생나이(Chronological age)
    Xk: k번째 독립 변수(kth independent variable)
    βk : k번째 독립변수의 회귀계수 (regression coefficient of kth independent variable)
    p: 독립변수의 수(number of independent variable),
    으로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  17. 제10항에 있어서, 상기 초과나이 연산수단(170)에서는 오버에이지 그룹(OAGm)으로 예측될 확률(Dm)에 대하여 다음의 수학식,
    Figure PCTKR2022002749-appb-I000015
    여기서, N: sample number i = 1,2, … , N
    Δi : weighted mean of (Pim-Cm)
    Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값
    (cutoff of Pm to predict individual′s aging status from ROC curve analysis),
    을 통해 가중치 평균(Δi)을 구하여 개인별 초과나이를 구하는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
  18. 제10항에 있어서, 상기 초과나이 연산수단(170)에서는 오버에이지 그룹(OAGm)으로 예측될 확률(Dm)에 대하여 다음의 수학식,
    Figure PCTKR2022002749-appb-I000016
    Figure PCTKR2022002749-appb-I000017
    여기서, N: sample number i = 1,2, … , N
    Δi : weighted mean of (Pim-Cm)
    Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값
    (cutoff of Pm to predict individual′s aging status from ROC curve analysis)
    Wm: 출생나이가 m이상으로 예측하기 위한 가중치(weight applied for the model to predict CA ≥ m),
    을 통해 가중치 평균(Δi)을 구하여 개인별 초과나이를 구하는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
PCT/KR2022/002749 2021-08-28 2022-02-24 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템 WO2023033275A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/259,054 US20240047077A1 (en) 2021-08-28 2022-02-24 Method and system for generating personalized biological age prediction model
JP2024513366A JP2024530322A (ja) 2021-08-28 2022-02-24 パーソナライズ生体年齢予測モデル生成方法及びシステム
CN202280063597.7A CN117999617A (zh) 2021-08-28 2022-02-24 个性化的生体年龄预测模型生成方法及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210114310A KR102371440B1 (ko) 2021-08-28 2021-08-28 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템
KR10-2021-0114310 2021-08-28

Publications (1)

Publication Number Publication Date
WO2023033275A1 true WO2023033275A1 (ko) 2023-03-09

Family

ID=80817388

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/002749 WO2023033275A1 (ko) 2021-08-28 2022-02-24 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템

Country Status (5)

Country Link
US (1) US20240047077A1 (ko)
JP (1) JP2024530322A (ko)
KR (1) KR102371440B1 (ko)
CN (1) CN117999617A (ko)
WO (1) WO2023033275A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230187076A1 (en) * 2021-12-03 2023-06-15 MEDIAGE Co.,Ltd Disease risk prediction method and system based on biological age using medical check-up clinical data independent of dyslipidemia data
KR20240012704A (ko) 2022-07-21 2024-01-30 주식회사 로그미 건강나이를 예측하는 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101603308B1 (ko) * 2013-11-20 2016-03-14 주식회사 바이오에이지 생체 나이 연산 모델 생성 방법 및 시스템과, 그 생체 나이 연산 방법 및 시스템
KR101669526B1 (ko) * 2015-03-04 2016-10-26 주식회사 바이오에이지 생체나이를 이용한 잔여 수명 예측방법
KR20190067727A (ko) * 2017-12-07 2019-06-17 서울대학교산학협력단 생체인식 연령 예측 모델 생성 방법 및 장치
KR102106428B1 (ko) * 2018-02-19 2020-05-06 주식회사 셀바스에이아이 건강나이 예측 방법
KR102189233B1 (ko) * 2018-05-17 2020-12-09 재단법인차세대융합기술연구원 생활 나이를 제공하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101603308B1 (ko) * 2013-11-20 2016-03-14 주식회사 바이오에이지 생체 나이 연산 모델 생성 방법 및 시스템과, 그 생체 나이 연산 방법 및 시스템
KR101669526B1 (ko) * 2015-03-04 2016-10-26 주식회사 바이오에이지 생체나이를 이용한 잔여 수명 예측방법
KR20190067727A (ko) * 2017-12-07 2019-06-17 서울대학교산학협력단 생체인식 연령 예측 모델 생성 방법 및 장치
KR102106428B1 (ko) * 2018-02-19 2020-05-06 주식회사 셀바스에이아이 건강나이 예측 방법
KR102189233B1 (ko) * 2018-05-17 2020-12-09 재단법인차세대융합기술연구원 생활 나이를 제공하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Also Published As

Publication number Publication date
CN117999617A (zh) 2024-05-07
JP2024530322A (ja) 2024-08-16
US20240047077A1 (en) 2024-02-08
KR102371440B1 (ko) 2022-03-07

Similar Documents

Publication Publication Date Title
WO2023033275A1 (ko) 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템
WO2023080379A1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
WO2021132851A1 (ko) 전자 장치, 두피 케어 시스템 및 그들의 제어 방법
WO2020101108A1 (ko) 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법
WO2016082267A1 (zh) 语音识别方法和系统
WO2023153818A1 (en) Method of providing neural network model and electronic apparatus for performing the same
WO2017191858A1 (ko) 개인 맞춤형 정보를 제공하는 체성분 측정 장치 및 서버
WO2023172025A1 (ko) 시계열적 정보를 인코딩하는 모델을 사용하여 개체-쌍 사이의 연관성 관련 정보를 예측하는 방법 및 이를 이용하여 생성되는 예측 시스템
WO2019000466A1 (zh) 人脸识别方法、装置、存储介质及电子设备
WO2015084091A1 (ko) 채혈횟수를 최소화한 혈당 측정 시스템 및 그 방법
Talib et al. Fuzzy decision-making framework for sensitively prioritizing autism patients with moderate emergency level
EP3973418A1 (en) Method, apparatus, electronic device and storage medium for predicting user attribute
EP4252203A1 (en) Action localization method, device, electronic equipment, and computer-readable storage medium
WO2023182774A1 (ko) 심박 정보를 기초로 사용자의 질환을 모니터링하는 방법 및 이를 수행하는 서버
WO2023191206A1 (ko) 변수 속성에 기반한 탐색적 데이터 분석 자동화 시스템과 방법
WO2023080766A1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
WO2020017827A1 (ko) 전자 장치, 및 전자 장치의 제어 방법
WO2020060161A1 (ko) 대화형 인터페이스를 이용한 통계 분석 시스템과 통계분석 방법
WO2022186607A1 (ko) 정확도 높은 배뇨 정보 획득 방법
WO2023063528A1 (ko) 시간 변동성 기반의 질환 연관성 요인 분석을 통한 질환 발병 정보 생성 장치 및 그 방법
WO2019045320A1 (ko) 소재의 전자 구조를 예측하는 방법 및 전자 장치
WO2017014483A1 (ko) 기술적 파급효과 분석 방법
WO2022234952A1 (ko) 햅틱 피드백을 제공하는 웨어러블 디바이스 및 그 동작 방법
WO2023229279A1 (ko) 마이크로바이옴을 이용한 나이 판단 방법
WO2022145590A1 (ko) 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22864784

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18259054

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2024513366

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280063597.7

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22864784

Country of ref document: EP

Kind code of ref document: A1