KR20240053340A - System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium - Google Patents

System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium Download PDF

Info

Publication number
KR20240053340A
KR20240053340A KR1020220133312A KR20220133312A KR20240053340A KR 20240053340 A KR20240053340 A KR 20240053340A KR 1020220133312 A KR1020220133312 A KR 1020220133312A KR 20220133312 A KR20220133312 A KR 20220133312A KR 20240053340 A KR20240053340 A KR 20240053340A
Authority
KR
South Korea
Prior art keywords
diabetes
probability
obese type
prediction
variable
Prior art date
Application number
KR1020220133312A
Other languages
Korean (ko)
Inventor
변해원
Original Assignee
인제대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인제대학교 산학협력단 filed Critical 인제대학교 산학협력단
Priority to KR1020220133312A priority Critical patent/KR20240053340A/en
Publication of KR20240053340A publication Critical patent/KR20240053340A/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 일 실시예에 의하면, 복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축하는 학습 모델 구축부; 구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택하는 변수 선택부; 선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성하는 예측 모델 생성부; 및 생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출하는 유병 확률 산출부를 포함하는 비비만 제2형 당뇨 확률 예측 시스템이 제공될 수 있다.According to one embodiment of the present invention, a learning model construction unit for constructing a learning model for predicting a non-obese type 2 diabetes risk group by machine learning of sample data including data on a plurality of explanatory variables and outcome variables; A variable selection unit for selecting explanatory variables used in a prediction model for predicting the probability of non-obese type 2 diabetes prevalence based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable; A prediction model generator for generating a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables; A non-obese type 2 diabetes probability prediction system including a prevalence probability calculation unit that calculates a non-obese type 2 diabetes prevalence probability from data on explanatory variables of the prediction subject based on the generated prediction model.

Description

비비만 제2형 당뇨 확률 예측 시스템, 비비만 제2형 당뇨 확률 예측 방법, 및 기록 매체에 저장된 프로그램{SYSTEM FOR PREDICTING NON-OBESE TYPE 2 DIABETES MELLITUS, METHOD FOR PREDICTING NON-OBESE TYPE 2 DIABETES MELLITUS AND PROGRAM STORED IN A RECORDING MEDIUM}Non-obese type 2 diabetes probability prediction system, non-obese type 2 diabetes probability prediction method, and program stored in a recording medium {SYSTEM FOR PREDICTING NON-OBESE TYPE 2 DIABETES MELLITUS, METHOD FOR PREDICTING NON-OBESE TYPE 2 DIABETES MELLITUS AND PROGRAM STORED IN A RECORDING MEDIUM}

본 발명은 당뇨 확률을 예측하는 기술에 관한 것으로, 보다 상세하게는 비비만 제2형 당뇨의 유병 확률을 예측하기 위한 시스템, 방법, 기록 매체에 저장된 프로그램에 관한 것이다.The present invention relates to a technology for predicting the probability of diabetes, and more specifically, to a system, method, and program stored in a recording medium for predicting the probability of developing non-obese type 2 diabetes.

당뇨병(Diabetes mellitus)은 혈당 조절의 항상성 유지에 이상이 생겨 나타나는 고혈당증(hyperglycemia)과 인슐린 저항성(Insulin resistance)이 동반되는 질환이다. 당뇨병은 췌장에서 인슐린이 전혀 분비되지 않아서 발생한 제1형 당뇨병과 인슐린 분비기능은 일부 남아있지만 다양한 원인에 의해 상대적으로 인슐린 저항성이 증가하여 발생하는 제2형 당뇨병으로 나뉜다.Diabetes mellitus is a disease accompanied by hyperglycemia and insulin resistance caused by abnormalities in maintaining homeostasis in blood sugar control. Diabetes is divided into type 1 diabetes, which occurs when the pancreas does not secrete any insulin, and type 2 diabetes, which occurs due to relatively increased insulin resistance due to various causes although some insulin secretion function remains.

우리나라의 당뇨병은 서구의 비만형 당뇨병과는 다르게 췌장의 베타세포의 크기가 작으며 인슐린 분비 결함이 특징적으로 발견된다. 이러한 질병 특성의 차이에도 불구하고, 우리나라의 당뇨병의 유병률은 3.5~7.2%로 미국과 비슷한 것으로 보고되어 서양과 우리나라 제2형 당뇨병의 발병 특성이 다를 수 있음을 가정하게 되었고, 이를 명명하는 용어로 “비비만 제2형 당뇨병”이라는 용어가 의료현장에서 사용되었다. Unlike obesity-type diabetes in the West, diabetes in Korea is characterized by small size of pancreatic beta cells and defects in insulin secretion. Despite these differences in disease characteristics, the prevalence of diabetes in Korea is reported to be 3.5-7.2%, which is similar to that in the United States, leading to the assumption that the onset characteristics of type 2 diabetes in the West and Korea may be different, and the term for this was used. The term “non-obese type 2 diabetes” has been used in medical practice.

비비만 제2형 당뇨병의 특징이 서구인의 제2형 당뇨병의 특징과 다름에도 불구하고, 예방 및 관리는 서구의 기준을 따르고 있으므로 비비만 제2형 당뇨병의 특성을 고려한 빅데이터 기반 비비만 당뇨병 예측 기술이 필요하다. 특히, 비비만 당뇨병 고위험군을 효율적으로 예측하는 모델을 개발하기 위해서는 HBA1C 검사나 C-펩타이드(C-peptide) 검사와 같은 인슐린 저항성 검사만을 시행하기보다는 생활습관, 영양상태 등 대상자의 다양한 위험예측인자를 함께 평가하는 것이 중요하다.Although the characteristics of non-obese type 2 diabetes are different from those of Western people, prevention and management follow Western standards, so prediction of non-obese diabetes based on big data considering the characteristics of non-obese type 2 diabetes Technology is needed. In particular, in order to develop a model that efficiently predicts non-obese diabetes high-risk groups, various risk predictors such as lifestyle habits and nutritional status of the subject should be evaluated rather than only performing insulin resistance tests such as HBA1C test or C-peptide test. It is important to evaluate together.

또한, 질병 예측 모델링에서는 정확도와 함께 AI가 도출한 결과에 대해 의료인이 이를 해석할 수 있는 설명가능성이 중요한 이슈로 떠오르고 있다. 이는 심층학습(딥러닝) 기반 AI 알고리즘의 발전으로 인해 분류나 예측 정확도는 비약적으로 개선됐으나, AI모델의 구조와 학습 및 판단 과정은 매우 복잡하기에 AI가 어떻게 학습하고 판단하는지에 대한 이해가 더 어려워지는 '블랙박스'의 문제가 발생했기 때문이다. 특히, 의료분야의 경우 AI가 제시하는 의견은 의료종사자가 참고할 수 있는 다양한 정보중 하나라는 의미에서 Clinical Decision Support System(CDSS)로 명명되며, 현재까지는 CDSS가 제시하는 정보를 참고하여 진단과 치료의 최종 의사결정은 의료인이 담당한다. 이러한 이유로 AI의 인식 및 판단 결과에 대한 근거를 의료종사자가 이해할 수 있도록 돕는 '설명가능성'은 의료 AI 분야에서 중요한 주제이다.In addition, in disease prediction modeling, accuracy and explainability for medical professionals to interpret the results derived from AI are emerging as important issues. This is due to the development of deep learning-based AI algorithms, which have dramatically improved classification and prediction accuracy, but the structure and learning and judgment process of AI models are very complex, so understanding of how AI learns and makes decisions is difficult. This is because the problem of the increasingly difficult ‘black box’ has arisen. In particular, in the medical field, the opinions provided by AI are called Clinical Decision Support System (CDSS) in the sense that they are one of various information that medical workers can refer to. To date, the information provided by CDSS has been used to determine diagnosis and treatment. The final decision is made by medical professionals. For this reason, 'explainability', which helps medical workers understand the basis for AI's recognition and judgment results, is an important topic in the field of medical AI.

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 도출된 것으로서, 본 발명이 해결하기 위한 과제는, 복합적인 영향 요인을 고려하여 비비만 제2형 당뇨 확률을 높은 정확도로 예측하면서도, 의료인이 이해할 수 있도록 시각적인 형태로 제시할 수 비비만 제2형 당뇨 확률 예측 시스템, 청소년 비만 확률 예측 방법 및 프로그램을 제공하는 것이다.The present invention was derived to solve the problems of the prior art as described above, and the problem to be solved by the present invention is to predict the probability of non-obese type 2 diabetes with high accuracy by considering complex influencing factors, while also allowing medical personnel to It provides a non-obese type 2 diabetes probability prediction system, a youth obesity probability prediction method, and a program that can be presented in a visual form so that it can be understood.

상술한 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템은, 복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축하는 학습 모델 구축부; 구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택하는 변수 선택부; 선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성하는 예측 모델 생성부; 및 생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출하는 유병 확률 산출부를 포함할 수 있다. As a means to solve the above-described problem, the non-obese type 2 diabetes probability prediction system according to an embodiment of the present invention is based on machine learning of sample data including data on a plurality of explanatory variables and outcome variables. A learning model construction department that builds a learning model to predict type 2 diabetes risk groups; A variable selection unit for selecting explanatory variables used in a prediction model for predicting the probability of non-obese type 2 diabetes prevalence based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable; A prediction model generator for generating a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables; and a prevalence probability calculation unit that calculates the probability of non-obese type 2 diabetes from data on explanatory variables of the prediction subject based on the generated prediction model.

일 실시예에서, 상기 샘플 데이터의 복수의 설명 변수는 인구사회학적 요인, 식습관, 영양지식, 정신건강, 신체활동, 생활습관, 비만, 당뇨병 가족력 및 임상 검사에 관한 정보를 포함하고, 상기 샘플 데이터의 결과 변수는 비비만 제2형 당뇨의 유병 여부에 관한 정보를 포함할 수 있다. In one embodiment, the plurality of explanatory variables of the sample data include information on sociodemographic factors, eating habits, nutritional knowledge, mental health, physical activity, lifestyle habits, obesity, family history of diabetes, and clinical examination, and the sample data The outcome variable may include information on the presence or absence of non-obese type 2 diabetes.

일 실시예에서, 상기 학습 모델 구축부는 샘플 데이터의 일부 데이터의 잔여 오차(Residual Error)를 계산하여 학습 모델을 구축하는 순서형 부스팅(Ordered Boosting), 학습을 위한 샘플 데이터의 순서를 랜덤하게 섞는 랜덤 순열(Random Permutation) 및 동일한 정보 이득(information gain)을 갖는 설명 변수들을 하나의 피처(feature)로 묶는 변수 조합(feature combinations)의 특성을 포함하는 부스팅 알고리즘에 기초하여 학습 모델을 구축할 수 있다. In one embodiment, the learning model building unit uses ordered boosting to build a learning model by calculating the residual error of some data of the sample data, and random mixing to randomly mix the order of sample data for learning. A learning model can be built based on a boosting algorithm that includes random permutation and the characteristics of variable combinations that group explanatory variables with the same information gain into one feature.

일 실시예에서, 상기 변수 선택부는 구축된 학습 모델의 Shapley value에 기초하여 예측 모델에 사용되는 설명 변수를 선택할 수 있다. In one embodiment, the variable selection unit may select explanatory variables used in the prediction model based on the Shapley value of the constructed learning model.

일 실시예에서, 선택된 설명 변수는 (1) 연령, (2) 요당, (3) 형제 자매와 관련된 당뇨병 가족력, (4) 어머니와 관련된 당뇨병 가족력, (5) 허리둘레, (6) 요단백, (7) 식품에 대한 영양표시 인지여부, (8) 지난 1년간 자살생각경험 및 (9) 지난 1주간 중강도 신체활동 실천 여부를 포함할 수 있다.In one embodiment, the selected explanatory variables are (1) age, (2) urine sugar, (3) family history of diabetes involving siblings, (4) family history of diabetes involving mother, (5) waist circumference, (6) urine protein, This may include (7) awareness of nutrition labels on food, (8) experience of suicidal thoughts in the past year, and (9) participation in moderate-intensity physical activity in the past week.

일 실시예에서, 상기 예측 모델은 로지스틱 회귀에 기초하여 작성된 노모그램(nomogram)을 이용하여 비비만 제2형 당뇨 유병 확률을 산출할 수 있다. In one embodiment, the prediction model may calculate the probability of non-obese type 2 diabetes using a nomogram created based on logistic regression.

일 실시예에서, 상기 노모그램은, 각 설명 변수에 할당된 비만 예측 점수를 나타내고, 0과 100 사이의 점수 범위를 갖는 예측 점수선(prediction point line); 각 설명 변수에 대하여 유병 확률에 영향을 미치는 정도에 대응하는 길이를 갖고, 상기 예측 점수선의 점수 범위의 적어도 일부에 매칭되는 시점(start point) 및 종점(end point)을 포함하는 변수선(variable line); 각 설명 변수에 대하여 산출된 예측 점수의 총합계를 나타내는 총점선(total point line); 상기 총점선의 총합계에 대응하는 유병 확률을 나타내는 확률선(probability line)을 포함할 수 있다. In one embodiment, the nomogram includes: a prediction point line representing the obesity prediction score assigned to each explanatory variable and having a score range between 0 and 100; For each explanatory variable, a variable line has a length corresponding to the degree of influence on the probability of prevalence and includes a start point and an end point that match at least a portion of the score range of the prediction score line. ); a total point line representing the total sum of predicted scores calculated for each explanatory variable; It may include a probability line indicating the probability of prevalence corresponding to the total of the total dot lines.

일 실시예에서, 상기 유병 확률 산출부는 각 설명 변수의 가중치를 반영하여 비비만 제2형 당뇨 유병 확률을 산출하고, 각 설명 변수의 가중치는, (1) 연령, (2) 요당, (3) 형제 자매와 관련된 당뇨병 가족력, (4) 어머니와 관련된 당뇨병 가족력, (5) 허리둘레, (6) 요단백, (7) 식품에 대한 영양표시 인지여부, (8) 지난 1년간 자살생각경험, (9) 지난 1주간 중강도 신체활동 실천 여부의 순서로 큰 값을 가질 수 있다. In one embodiment, the prevalence probability calculator calculates the probability of non-obese type 2 diabetes by reflecting the weight of each explanatory variable, and the weight of each explanatory variable is: (1) age, (2) urine sugar, (3) Family history of diabetes related to siblings, (4) Family history of diabetes related to mother, (5) waist circumference, (6) urine protein, (7) awareness of nutritional labels on foods, (8) experience of suicidal thoughts in the past year, ( 9) It can have a large value in the order of whether or not you have performed moderate-intensity physical activity over the past week.

상술한 과제를 해결하기 위한 다른 수단으로서, 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템에 의해 수행되는 비비만 제2형 당뇨 확률 예측 방법은, 복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축하는 학습 모델 구축 단계; 구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택하는 변수 선택 단계; 선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성하는 예측 모델 생성 단계; 및 생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출하는 유병 확률 산출 단계를 포함함할 수 있다. As another means to solve the above-described problem, the non-obese type 2 diabetes probability prediction method performed by the non-obese type 2 diabetes probability prediction system according to an embodiment of the present invention includes a plurality of explanatory variables and outcome variables. A learning model building step of constructing a learning model for predicting a non-obese type 2 diabetes risk group by machine learning of sample data including data for; A variable selection step of selecting explanatory variables used in a prediction model for predicting the probability of non-obese type 2 diabetes prevalence based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable; A prediction model generation step of generating a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables; And it may include a prevalence probability calculation step of calculating the probability of non-obese type 2 diabetes from data on explanatory variables of the predicted person based on the generated prediction model.

상술한 과제를 해결하기 위한 다른 수단으로서, 본 발명의 일 실시예에 따른프로그램은, 상기 비비만 제2형 당뇨 확률 예측 방법을 컴퓨터에 의해 수행시키기 위해 기록 매체에 저장된 프로그램을 포함할 수 있다. As another means of solving the above-described problem, the program according to an embodiment of the present invention may include a program stored in a recording medium to perform the method for predicting the probability of non-obese type 2 diabetes by a computer.

본 발명의 일 실시예에 따르면, 복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축하고, 구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택하며, 선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성하고, 생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출함으로써, 복합적인 영향 요인을 고려하여 비비만 제2형 당뇨 확률을 높은 정확도로 예측하면서도, 의료인이 이해할 수 있도록 시각적인 형태로 제시할 수 비비만 제2형 당뇨 확률 예측 시스템, 청소년 비만 확률 예측 방법 및 프로그램이 제공될 수 있다. According to an embodiment of the present invention, a learning model for predicting a non-obese type 2 diabetes risk group is constructed by machine learning of sample data including data on a plurality of explanatory variables and outcome variables, and the constructed learning model Based on the degree to which each explanatory variable affects the outcome variable, the explanatory variables used in the prediction model to predict the probability of developing non-obese type 2 diabetes are selected, and based on the selected explanatory variables, the explanatory variables used in the prediction model are selected. By creating a prediction model to predict the probability of prevalence, and calculating the probability of prevalence of non-obese type 2 diabetes from data on the explanatory variables of the predicted person based on the generated prediction model, A non-obese type 2 diabetes probability prediction system and a method and program for predicting the probability of obesity in adolescents can be provided that can predict the probability of type 2 diabetes with high accuracy and present it in a visual form so that medical personnel can understand it.

도 1은 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템의 구성을 도시하는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템을 컴퓨터에서 구현하는 경우의 구성을 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템을 서버와 클라이언트 단말기에 의해 구현하는 경우의 구성을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템에 의해 구현되는 비비만 제2형 당뇨 확률 예측 방법의 흐름도이다.
도 5는 Catboost 알고리즘의 파이프라인을 도시한다.
도 6은 Catboost의 SHAP value를 이용한 비비만 당뇨 예측요인의 모델 출력에 대한 영향도를 나타내는 그래프이다.
도 7은 본 발명의 일 실시예에 따라 생성된 비비만 제2형 당뇨 확률 예측을 위한 노모그램을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 예측 노모그램의 accuracy를 나타내는 그래프이다.
도 9는 본 발명의 일 실시예에 따른 예측 노모그램의 AUC를 나타내는 그래프이다.
도 10은 본 발명의 일 실시예에 따른 예측 노모그램의 Calibration plot를 나타내는 그래프이다.
Figure 1 is a block diagram showing the configuration of a non-obese type 2 diabetes probability prediction system according to an embodiment of the present invention.
Figure 2 is a diagram showing the configuration when a non-obese type 2 diabetes probability prediction system according to an embodiment of the present invention is implemented on a computer.
Figure 3 is a diagram showing the configuration of a non-obese type 2 diabetes probability prediction system implemented by a server and a client terminal according to an embodiment of the present invention.
Figure 4 is a flowchart of a non-obese type 2 diabetes probability prediction method implemented by a non-obese type 2 diabetes probability prediction system according to an embodiment of the present invention.
Figure 5 shows the pipeline of the Catboost algorithm.
Figure 6 is a graph showing the influence of non-obese diabetes prediction factors on model output using Catboost's SHAP value.
Figure 7 is a diagram showing a nomogram for predicting the probability of non-obese type 2 diabetes generated according to an embodiment of the present invention.
Figure 8 is a graph showing the accuracy of the prediction nomogram according to an embodiment of the present invention.
Figure 9 is a graph showing the AUC of the prediction nomogram according to an embodiment of the present invention.
Figure 10 is a graph showing a calibration plot of a prediction nomogram according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the attached drawings.

본 발명의 실시예들은 당해 기술 분야에서 통상의 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위하여 제공되는 것이며, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 오히려, 이들 실시예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 발명의 사상을 완전하게 전달하기 위하여 제공되는 것이다.The embodiments of the present invention are provided to more completely explain the present invention to those skilled in the art, and the following examples may be modified into various other forms, and the scope of the present invention is as follows. It is not limited to the examples. Rather, these embodiments are provided to make the disclosure more faithful and complete, and to fully convey the spirit of the invention to those skilled in the art.

여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.Various embodiments described herein may be implemented, for example, in a recording medium readable by a computer or similar device using software, hardware, or a combination thereof.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. According to hardware implementation, the embodiments described herein include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), and field programmable gate arrays (FPGAs). It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and electrical units for performing functions.

소프트웨어적인 구현에 의하면, 절차나 기능과 같은 실시예들은 적어도 하나의 기능 또는 작동을 수행하게 하는 별개의 소프트웨어 모듈과 함께 구현될 수 있다. 소프트웨어 코드는 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다.According to software implementation, embodiments such as procedures or functions may be implemented with a separate software module that performs at least one function or operation. Software code can be implemented by a software application written in an appropriate programming language.

본 명세서에서 사용되는 용어 중 ''비비만 제2형 당뇨”는 BMI가 25kg/m2 미만이고(비비만: NON-OBESE), 당화혈색소수치가 6.5%이상이면서 공복혈당수치가 126mg/dl 이상인 경우로 정의된다. Among the terms used in this specification, ''non-obese type 2 diabetes'' refers to a person with a BMI of less than 25 kg/m 2 (non-obese: NON-OBESE), a glycated hemoglobin level of 6.5% or more, and a fasting blood sugar level of 126 mg/dl or more. It is defined as a case.

도 1은 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템(10)의 구성을 도시하는 블록도이다.Figure 1 is a block diagram showing the configuration of a non-obese type 2 diabetes probability prediction system 10 according to an embodiment of the present invention.

도 1을 참조하면, 비비만 제2형 당뇨 확률 예측 시스템(10)은 학습 모델 구축부(110), 변수 선택부(130), 예측 모델 생성부(150) 및 유병 확률 산출부(170)를 포함할 수 있다. 비비만 제2형 당뇨 확률 예측 시스템(10)은 정보 처리 단말기에 탑재된 프로세서 및 메모리에 의해 구현될 수 있다. 또한, 비비만 제2형 당뇨 확률 예측 시스템(10)는 정보 처리 단말기와 네트워크를 통하여 연결된 처리 서버에 의해 구현될 수 있다. 비비만 제2형 당뇨 확률 예측 시스템(10)의 구성 요소들을 이하에서 상세히 설명하며, 이러한 구성 요소들은 정보 처리 단말기에 모듈 형태로 구현되거나, 또는 서버 및 클라이언트에 의해 제공되는 서비스 형태로 구현될 수 있다. Referring to FIG. 1, the non-obese type 2 diabetes probability prediction system 10 includes a learning model construction unit 110, a variable selection unit 130, a prediction model creation unit 150, and a prevalence probability calculation unit 170. It can be included. The non-obese type 2 diabetes probability prediction system 10 can be implemented by a processor and memory mounted on an information processing terminal. Additionally, the non-obese type 2 diabetes probability prediction system 10 may be implemented by an information processing terminal and a processing server connected through a network. The components of the non-obese type 2 diabetes probability prediction system 10 are described in detail below, and these components can be implemented in the form of modules in an information processing terminal, or in the form of services provided by servers and clients. there is.

학습 모델 구축부(110)는 복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축할 수 있다. The learning model construction unit 110 may build a learning model for predicting a non-obese type 2 diabetes risk group by machine learning of sample data including data on a plurality of explanatory variables and outcome variables.

샘플 데이터의 복수의 설명 변수는 인구사회학적 요인, 식습관, 영양지식, 정신건강, 신체활동, 생활습관, 비만, 당뇨병 가족력 및 임상 검사에 관한 정보를 포함할 수 있다. 또한, 샘플 데이터의 결과 변수는 비비만 제2형 당뇨의 유병 여부에 관한 정보를 포함할 수 있다. Multiple explanatory variables in the sample data may include information on sociodemographic factors, eating habits, nutritional knowledge, mental health, physical activity, lifestyle habits, obesity, family history of diabetes, and clinical examination. Additionally, the outcome variable of the sample data may include information regarding the presence or absence of non-obese type 2 diabetes.

학습 모델 구축부(110)는 복수의 설명 변수인 인구사회학적 요인, 식습관, 영양지식, 정신건강, 신체활동 등의 데이터와 비비만 제2형 당뇨의 유병 여부에 관한 정보를 포함하는 샘플 데이터를 머신 러닝에 의한 학습을 통하여 학습 모델을 구축할 수 있다. 일 실시예에서, 학습 모델은 CatBoost 알고리즘 등의 부스팅 알고리즘을 포함할 수 있다. The learning model construction unit 110 generates sample data including data on a plurality of explanatory variables such as sociodemographic factors, eating habits, nutritional knowledge, mental health, and physical activity, and information on the prevalence of non-obese type 2 diabetes. A learning model can be built through learning through machine learning. In one embodiment, the learning model may include a boosting algorithm, such as the CatBoost algorithm.

본 발명의 일 실시예에 따른 CatBoost 알고리즘은 샘플 데이터의 일부 데이터의 잔여 오차(Residual Error)를 계산하여 학습 모델을 구축하는 순서형 부스팅(Ordered Boosting), 학습을 위한 샘플 데이터의 순서를 랜덤하게 섞는 랜덤 순열(Random Permutation) 및 동일한 정보 이득(information gain)을 갖는 설명 변수들을 하나의 피처(feature)로 묶는 변수 조합(feature combinations)의 특성을 포함할 수 있다. The CatBoost algorithm according to an embodiment of the present invention is ordered boosting, which builds a learning model by calculating the residual error of some data of sample data, and randomly shuffles the order of sample data for learning. It may include characteristics of random permutation and variable combinations that group explanatory variables with the same information gain into one feature.

변수 선택부(130)는 구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택할 수 있다. 변수 선택부(130)는 구축된 학습 모델의 Shapley value에 기초하여 예측 모델에 사용되는 설명 변수를 선택할 수 있다. The variable selection unit 130 may select explanatory variables used in a prediction model for predicting the probability of developing non-obese type 2 diabetes based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable. The variable selection unit 130 may select explanatory variables used in the prediction model based on the Shapley value of the constructed learning model.

선택된 설명 변수는 (1) 연령, (2) 요당, (3) 형제 자매와 관련된 당뇨병 가족력, (4) 어머니와 관련된 당뇨병 가족력, (5) 허리둘레, (6) 요단백, (7) 식품에 대한 영양표시 인지여부, (8) 지난 1년간 자살생각경험 및 (9) 지난 1주간 중강도 신체활동 실천 여부를 포함할 수 있다. The explanatory variables selected were (1) age, (2) urine sugar, (3) family history of diabetes related to siblings, (4) family history of diabetes related to mother, (5) waist circumference, (6) urine protein, and (7) food intake. This may include whether or not they are aware of nutritional labels, (8) whether they have experienced suicidal thoughts in the past year, and (9) whether they have engaged in moderate-intensity physical activity over the past week.

예측 모델 생성부(150)는 선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성할 수 있다. 예측 모델은 로지스틱 회귀에 기초하여 작성된 노모그램(nomogram)을 이용하여 비비만 제2형 당뇨 유병 확률을 산출할 수 있다. The prediction model generator 150 may generate a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables. The prediction model can calculate the probability of non-obese type 2 diabetes using a nomogram created based on logistic regression.

노모그램은 예측 점수선(prediction point line), 변수선(variable line), 총점선(total point line) 및 확률선(probability line)을 포함할 수 있다. 예측 점수선(prediction point line)은 각 설명 변수에 할당된 비만 예측 점수를 나타내고, 0과 100 사이의 점수 범위를 갖는다. 변수선(variable line)은 각 설명 변수에 대하여 유병 확률에 영향을 미치는 정도에 대응하는 길이를 갖고, 상기 예측 점수선의 점수 범위의 적어도 일부에 매칭되는 시점(start point) 및 종점(end point)을 포함한다. 총점선(total point line)은 각 설명 변수에 대하여 산출된 예측 점수의 총합계를 나타낼 수 있다. 확률선(probability line)은 총점선의 총합계에 대응하는 유병 확률을 나타낸다. The nomogram may include a prediction point line, variable line, total point line, and probability line. The prediction point line represents the obesity prediction score assigned to each explanatory variable and has a score range between 0 and 100. The variable line has a length corresponding to the degree of influence on the probability of prevalence for each explanatory variable, and has a start point and an end point that match at least part of the score range of the prediction score line. Includes. The total point line can represent the total sum of prediction scores calculated for each explanatory variable. The probability line represents the probability of prevalence corresponding to the sum of the total points.

로지스틱 회귀에 기초한 노모그램은 질병 등의 예측 확률을 간단하고 능률적으로 계산하기 위하여 다중위험요인간의 관계를 2차원으로 나타낸 도표이다. A nomogram based on logistic regression is a two-dimensional diagram that shows the relationship between multiple risk factors in order to simply and efficiently calculate the predicted probability of disease, etc.

로지스틱 회귀 노모그램은 점수선(point line), 위험요인선(risk factor line), (probability line), (total point line)으로 구성된다. 점수선은 개별 위험요인의 범주(class)에 해당하는 점수를 도출하기 위해 노모그램 최상단에 배치하며, 위험요인선(risk factor line)은 비비만 제2형 당뇨 확률의 위험요인의 개수만큼 위험요인선이 구성된다. The logistic regression nomogram consists of a score line, a risk factor line, a probability line, and a total point line. The score line is placed at the top of the nomogram to derive a score corresponding to the category (class) of each individual risk factor, and the risk factor line is a risk factor equal to the number of risk factors for the probability of non-obese type 2 diabetes. A line is formed.

당뇨 여부(당뇨인 경우=1, 당뇨가 아닌 경우=0)를 종속 변수라 할 때, 종속 변수 Y는 베르누이 분포를 따르며, 당뇨인 경우의 확률은 P(Y = 1) = , 당뇨가 아닌 경우의 확률은 P(Y = 0) = 1 - 이다. 따라서, 설명변수 X=x일 때, 종속 변수 Y=y일 확률은 다음과 같다.When diabetes (diabetes = 1, non-diabetes = 0) is the dependent variable, the dependent variable Y follows Bernoulli distribution, and the probability of diabetes is P(Y = 1) = , the probability of not being diabetic is P(Y = 0) = 1 - am. Therefore, when the explanatory variable X=x, the probability that the dependent variable Y=y is as follows.

[식 1-1][Equation 1-1]

성공확률 를 선형 확률모형으로 나타내면 이며 이 때, 구조적 결함을 가진다. 즉, 좌변은 0에서 1사이의 확률을 가지지만 우변은 실수 전체의 값을 가지며, 회귀계수 를 추정할 때 최소제곱추정량 (LSE)은 더 이상 최소분산을 가지지 않는다. 따라서, 설명변수 x에 대한 성공확률 를 비선형 함수로 다음과 같이 나타낼 수 있다. Success probability If expressed as a linear probability model, And at this time, there is a structural defect. In other words, the left side has a probability between 0 and 1, but the right side has the value of all real numbers, and the regression coefficient and When estimating , the least squares estimator (LSE) no longer has minimum variance. Therefore, the success probability for the explanatory variable x can be expressed as a non-linear function as follows.

[식 1-2][Equation 1-2]

[식 1-2]는 양변 모두 0에서 1사이의 실수값을 가진다. 또한, k개의 영향 요인 를 고려할 때의 식은 다음과 같다.[Equation 1-2] has real values on both sides between 0 and 1. Additionally, k influencers The equation when considering is as follows.

[식 1-3][Equation 1-3]

[식 1-3]에서 우항이 선형함수가 되도록 정리하면 다음과 같다. In [Equation 1-3], the right-hand term can be rearranged to be a linear function as follows.

[식 1-4][Equation 1-4]

[식 1-4]는 로지스틱 회귀모형(logistic regression model)이다. [Equation 1-4] is a logistic regression model.

로지스틱 회귀모형에 대한 계수가 추정되면, 각 요인에 대하여 LP (Linear Predictor) 값을 이용하여 점수가 계산된다. i번째 요인의 j번째 속성값에 대하여 가 계산되고 각 요인은 다음의 식에 의하여 점수가 할당된다.Once the coefficients for the logistic regression model are estimated, scores are calculated using LP (Linear Predictor) values for each factor. Regarding the jth attribute value of the ith factor is calculated and each factor is assigned a score according to the following formula.

[식 1-5][Equation 1-5]

여기에서 는 추정된 회귀계수의 절대값이 가장 큰 인자에 대한 LP값들을 의미한다. 따라서, 모든 요인은 point line을 기준으로 [식 1-5]에 의해 0∼100점 사이의 점수가 할당되며, 가장 영향력 있는 속성값이 100점이 할당되어 가장 큰 점수를 가진다.From here means the LP values for the factor with the largest absolute value of the estimated regression coefficient. Therefore, all factors are assigned scores between 0 and 100 points according to [Equation 1-5] based on the point line, and the most influential attribute value is assigned 100 points and has the highest score.

모든 요인의 속성에 점수가 할당되면 각 개인은 요인에 대하여 총점수 (total points = )를 계산할 수 있다. 따라서 이 값에 대응하는 확률 (p)은 total points line과 probability line를 이용하여 찾게 된다. 총점수에 대응되는 probability line을 그리기 위해 먼저 총점수의 최소값과 최대값에 대응하는 최소확률과 최대확률을 구해야 하며 다음의 과정을 통하여 계산된다.Once all factor attributes are assigned points, each individual receives a total score for the factor (total points = ) can be calculated. Therefore, the probability (p) corresponding to this value is found using the total points line and probability line. In order to draw a probability line corresponding to the total score, the minimum and maximum probabilities corresponding to the minimum and maximum values of the total score must first be obtained, and are calculated through the following process.

[식 1-6][Equation 1-6]

[식 1-7][Equation 1-7]

[식 1-8][Equation 1-8]

노모그램에서 당뇨인 경우에 대한 최대 확률과 최소 확률은 값은 고정되고, 총 점수에 따라 달라지며 확률은 LP값 당 단위 점수 (points per unit of LP)를 이용하여 [식 1-7], [식 1-8]과 같이 구할 수 있다. In the nomogram, the maximum and minimum probabilities for diabetes are and The value is fixed and varies depending on the total score, and the probability can be obtained using points per unit of LP as shown in [Equation 1-7] and [Equation 1-8].

Probability line에 최소 총점수와 최대 총점수에 대응하는 최대 확률과 최대 확률이 정해지면 사이에 존재하는 확률에 대응하는 총점수는 다음의 식을 통해 계산된다. Once the probability line and the maximum probability corresponding to the minimum and maximum total scores are determined on the probability line, the total score corresponding to the probability that exists between them is calculated using the following equation.

[식 1-9][Equation 1-9]

최종적으로 [식 1-9]를 통해 예측 확률 (p)에 대응되는 총점수가 계산되면 total points line과 probability line을 logistic 노모그램에 표현할 수 있다.Finally, when the total score corresponding to the predicted probability (p) is calculated through [Equation 1-9], the total points line and probability line can be expressed in the logistic nomogram.

유병 확률 산출부(170)는 생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출할 수 있다. The prevalence probability calculation unit 170 may calculate the probability of non-obese type 2 diabetes from data on explanatory variables of the predicted subject based on the generated prediction model.

유병 확률 산출부(170)는 각 설명 변수의 가중치를 반영하여 비비만 제2형 당뇨 유병 확률을 산출할 수 있다. 각 설명 변수의 가중치는, (1) 연령, (2) 요당, (3) 형제 자매와 관련된 당뇨병 가족력, (4) 어머니와 관련된 당뇨병 가족력, (5) 허리둘레, (6) 요단백, (7) 식품에 대한 영양표시 인지여부, (8) 지난 1년간 자살생각경험, (9) 지난 1주간 중강도 신체활동 실천 여부의 순서로 큰 값을 가질 수 있다. The prevalence probability calculation unit 170 may calculate the probability of non-obese type 2 diabetes by reflecting the weight of each explanatory variable. The weight of each explanatory variable is: (1) age, (2) urine sugar, (3) family history of diabetes related to siblings, (4) family history of diabetes related to mother, (5) waist circumference, (6) urine protein, (7) ), (8) whether they are aware of nutritional labels on food, (8) have experienced suicidal thoughts in the past year, and (9) whether they have practiced moderate-intensity physical activity in the past week.

다중 설명 변수는 CatBoost 알고리즘을 이용하여 산출된 비비만 제2형 당뇨에 관련된 영향 요인의 Shapley Value에 기초하여 선택될 수 있다. Shapley Value는 게임 이론에 기초한 개념이고, 본 발명에서는 각 설명 변수의 비비만 제2형 당뇨 확률에 대한 영향도를 계산한 값으로 사용될 수 있다. CatBoost 알고리즘을 이용하여 산출된 Shapley Value가 큰 값을 가질수록 해당 설명 변수의 비비만 제2형 당뇨에 대한 영향도가 크다고 해석될 수 있다. Multiple explanatory variables can be selected based on the Shapley Value of influencing factors related to non-obese type 2 diabetes calculated using the CatBoost algorithm. Shapley Value is a concept based on game theory, and in the present invention, it can be used as a value calculated by calculating the influence of each explanatory variable on the probability of non-obese type 2 diabetes. The larger the Shapley Value calculated using the CatBoost algorithm, the greater the influence of the explanatory variable on non-obese type 2 diabetes.

CatBoost 알고리즘은 Gradient Boosting 알고리즘의 문제를 해결하기 위하여 개발된 알고리즘이다. Gradient Boosting 알고리즘을 사용하면, 부스팅이 진행되는 순간마다 학습 데이터가 전체 예측 데이터의 잔차로 도출되고, 이에 따라 학습 데이터가 예측 데이터로 수렴하는 분포로 변화하게 된다. 이와 같은 분포의 변화는 과적합 문제나 부정확한 예측을 발생시키는 예측 변화(Prediction Shift)가 나타난다. 또한, Gradient Boosting 알고리즘의 사용시에는 범주형 변수의 처리가 어렵다는 문제가 있다. 이전까지 범주형 변수는 각 범주에 대하여 새로운 이진 변수를 추가해야 하므로 범주가 많아질수록 다수의 이진 변수가 새로 만들어져야 하며, 이에 따라 통계량이 증가하므로 계산 시간(Computation Time)과 메모리 소모(Memory Consumption)가 증가한다.The CatBoost algorithm is an algorithm developed to solve the problem of the Gradient Boosting algorithm. When using the Gradient Boosting algorithm, the learning data is derived as the residual of the entire prediction data at every moment of boosting, and the learning data changes into a distribution that converges to the prediction data. Such changes in distribution result in prediction shifts that cause overfitting problems or inaccurate predictions. Additionally, there is a problem that processing categorical variables is difficult when using the Gradient Boosting algorithm. Previously, categorical variables required the addition of a new binary variable for each category, so as the number of categories increased, more binary variables had to be created, and statistics increased accordingly, resulting in computation time and memory consumption. ) increases.

Gradient Boosting 알고리즘과는 다르게, Catboost는 순차적 부스팅(Ordered Boosting)을 활용하여 모형을 구축한다. 기존의 부스팅 모형은 모든 잔여 오차(Residual Error)를 차례로 학습하는 방식이지만, Catboost는 일부 데이터의 잔여 오차를 계산하여 모델을 만들고, 이 모델을 통해 남은 데이터의 잔여 오차를 계산하는 방식이다. 또한, Catboost는 Ordered Boosting에 Random Permutation을 통해 데이터 순서를 섞어줌으로써 오버피팅(overfitting)을 방지한다. Unlike the Gradient Boosting algorithm, Catboost uses ordered boosting to build the model. The existing boosting model learns all residual errors in order, but Catboost creates a model by calculating the residual error of some data, and calculates the residual error of the remaining data through this model. Additionally, Catboost prevents overfitting by mixing the data order through Random Permutation in Ordered Boosting.

범주형 변수 전처리를 위해서 Catboost 알고리즘은 Random Permutation을 거친 데이터셋에서 같은 범주를 가진 변수들의 평균 표본 값을 계산하며, 이를 수학식으로 표현하면 [식 2]와 같다. For preprocessing of categorical variables, the Catboost algorithm calculates the average sample value of variables with the same category in a dataset that has undergone random permutation, and this is expressed in a mathematical equation as [Equation 2].

[식 2][Equation 2]

Shapley Value란 게임 이론을 바탕으로 게임에서 각 변수의 영향도(기여도)를 계산한 값이다. 데이터 분석 측면에서, 하나의 특성 변수에 대한 중요도를 알기 위해 여러 특성 변수의 조합을 구성하고, 해당 특성 변수의 유무에 따른 평균적인 변화를 통하여 취득된 값이다. Shapley Value is a value calculated by calculating the influence (contribution) of each variable in the game based on game theory. In terms of data analysis, it is a value obtained by forming a combination of several characteristic variables to determine the importance of one characteristic variable, and through the average change depending on the presence or absence of the characteristic variable.

Shapley Value의 수식적 개념에 대해 선형 모델을 예를 들어 설명한다. 특정 관측값에 따른 선형 모델의 예측 결과는 다음의 [식 3-1]로 나타낼 수 있다. The mathematical concept of Shapley Value is explained using a linear model as an example. The prediction results of the linear model according to specific observation values can be expressed as the following [Equation 3-1].

[식 3-1][Equation 3-1]

여기서, 는 관측치이고, 는 특성에 대한 가중치이다. 즉, 가 1만큼 변할 때, 만큼 변화한다. 예측값 에서 번째 특성의 기여도 는 아래의 [식 3-2]로 나타낼 수 있다. here, is the observation value, is the weight for the feature. in other words, When changes by 1, Is changes as much as predicted value at Contribution of the second feature can be expressed as [Equation 3-2] below.

[식 3-2][Equation 3-2]

여기서, 는 특성 에 대한 평균 추정값을 나타내고, 기여도는 이것과 각 특성값의 차이 즉, 동일한 특성의 나머지 데이터들의 평균값과의 차이가 된다. 하나의 관측치에 대한 모든 특성의 기여도는 다음의 [식 3-3]과 같이 나타낼 수 있다. here, is a characteristic It represents the average estimated value for , and the contribution is the difference between this and each feature value, that is, the difference between the average value of the remaining data of the same feature. The contribution of all characteristics to one observation can be expressed as in [Equation 3-3] below.

[식 3-3][Equation 3-3]

위의 식에서 수식을 보면, 결국 특정 데이터 에서 평균 예측값을 뺀 것과 같으며, Shapley Value는 다음의 [식 3-4] 을 이용하여 계산할 수 있다. If you look at the formula in the above equation, you will end up with specific data It is the same as subtracting the average predicted value from , and the Shapley Value can be calculated using the following [Equation 3-4].

[식 3-4][Equation 3-4]

여기서, 데이터에 대한 Shapley Value이고, 는 전체 집합을 나타내고, 는 전체 집합에서 i번째 데이터가 제외된 나머지의 모든 부분 집합을 나타내며, 는 i번째 데이터를 포함한 전체 기여도이고, 는 i번째 데이터가 제외된 나머지 부분 집합의 기여도를 나타낸다. here, Is is the Shapley Value for the data, represents the entire set, represents all remaining subsets excluding the ith data from the entire set, is the total contribution including the ith data, represents the contribution of the remaining subset from which the ith data is excluded.

[식 3-4]에서 함수는 집합 S에 포함되지 않은 특성을 모두 marginalized한 집합 S의 특성값들에 대한 예측치이고, 수식으로 표현하면 [식 3-5]와 같다. In [Equation 3-4] The function is a predicted value for the characteristic values of the set S that excludes all characteristics not included in the set S, and when expressed as a formula, it is the same as [Equation 3-5].

[식 3-5][Equation 3-5]

도 2는 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템(10)을 컴퓨터에서 구현하는 경우의 구성을 나타내는 도면이다.Figure 2 is a diagram showing the configuration of a non-obese type 2 diabetes probability prediction system 10 according to an embodiment of the present invention when implemented on a computer.

비비만 제2형 당뇨 확률 예측 시스템(10)이 구현되는 컴퓨터 장치(200)는 PC, 노트북, 스마트기기 또는 서버 등과 같은 정보 처리 장치를 의미한다. 컴퓨터 장치(100)는 입력장치(210), 연산장치(220), 저장장치(230) 및 출력장치(240)를 포함할 수 있다.The computer device 200 on which the non-obese type 2 diabetes probability prediction system 10 is implemented refers to an information processing device such as a PC, laptop, smart device, or server. The computer device 100 may include an input device 210, an arithmetic device 220, a storage device 230, and an output device 240.

입력 장치(210)는 복수의 샘플 데이터와 예측 대상자의 설명 변수에 대한 측정값을 입력 받을 수 있다. 입력 받은 샘플 데이터와 예측 대상자의 설명 변수에 대한 측정값은 저장 장치(230)에 저장될 수 있다. The input device 210 can receive a plurality of sample data and measurement values for explanatory variables of the prediction target. The input sample data and measurement values for the explanatory variables of the predicted person may be stored in the storage device 230.

저장 장치(230)은 입력 받은 샘플 데이터와 예측 대상자의 설명 변수에 대한 측정값을 저장할 수 있다. 또한, 저장 장치(230)는 구축된 예측 모델 및 생성된 예측 노모그램을 저장할 수 있다. The storage device 230 may store input sample data and measurement values for explanatory variables of the prediction target. Additionally, the storage device 230 may store the constructed prediction model and the generated prediction nomogram.

연산 장치(220)는 샘플 데이터를 머신 러닝에 의해 학습하여 비비만 제2형 당뇨의 위험군을 예측하기 위한 예측 모델을 구축할 수 있다. 또한, 연산 장치(220)는 구축된 예측 모델로부터 중요 변수를 선택하고, 선택된 중요 변수에 기초하여 예측 노모그램을 생성하고, 생성된 예측 노모그램을 이용하여 예측 대상자의 비비만 제2형 당뇨 확률의 예측값을 산출할 수 있다. The computing device 220 may learn sample data using machine learning to build a prediction model for predicting a risk group for non-obese type 2 diabetes. In addition, the computing device 220 selects important variables from the constructed prediction model, generates a prediction nomogram based on the selected important variables, and uses the generated prediction nomogram to predict the probability of non-obese type 2 diabetes of the subject. The predicted value can be calculated.

출력 장치(240)은 비비만 제2형 당뇨 확률을 일정한 형태로 출력하는 장치이다. 출력장치(140)는 디스플레이 장치, 문서를 출력하는 출력 장치 및 당뇨 예측 정보를 다른 장치에 전달하는 통신 장치 중 적어도 하나를 포함할 수 있다. The output device 240 is a device that outputs the probability of non-obese type 2 diabetes in a certain form. The output device 140 may include at least one of a display device, an output device that outputs a document, and a communication device that transmits diabetes prediction information to another device.

도 3은 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템(10)을 서버(330)와 클라이언트 단말기(310)에 의해 구현하는 경우의 구성을 나타내는 도면이다.Figure 3 is a diagram showing the configuration of the non-obese type 2 diabetes probability prediction system 10 according to an embodiment of the present invention when implemented by the server 330 and the client terminal 310.

비비만 제2형 당뇨 확률 예측 시스템(10)은 클라이언트 단말(210), 검사 DB(220), 처리서버(230) 및 모델 DB(240)를 포함한다.The non-obese type 2 diabetes probability prediction system 10 includes a client terminal 210, a test DB 220, a processing server 230, and a model DB 240.

클라이언트 단말(210)은 공공 기관, 의료 기관 또는 환자의 집 등의 장소에 설치될 수 있다. 클라이언트 단말(210)은 샘플 데이터 또는 예측 대상자의 설명 변수에 대한 측정값을 입력 받을 수 있다. 입력된 샘플 데이터 또는 예측 대상자의 설명 변수에 대한 측정값은 검사 DB(220)에 저장될 수 있다. The client terminal 210 may be installed in places such as public institutions, medical institutions, or patients' homes. The client terminal 210 may receive sample data or measurement values for explanatory variables of the prediction target. Measured values for the input sample data or explanatory variables of the predicted person may be stored in the test DB 220.

검사 DB(220)는 입력 받은 샘플 데이터와 예측 대상자의 설명 변수에 대한 측정값을 저장하는 데이터베이스를 포함할 수 있다. The test DB 220 may include a database that stores input sample data and measurement values for explanatory variables of the predicted person.

처리 서버(330)는 샘플 데이터를 머신 러닝에 의해 학습하여 비비만 제2형 당뇨의 위험군을 예측하기 위한 예측 모델을 구축할 수 있다. 또한, 처리 서버(330)는 구축된 예측 모델로부터 중요 변수를 선택하고, 선택된 중요 변수에 기초하여 예측 노모그램을 생성하고, 생성된 예측 노모그램을 이용하여 예측 대상자의 비비만 제2형 당뇨 확률의 예측값을 산출할 수 있다.The processing server 330 can learn sample data using machine learning to build a prediction model to predict the risk group of non-obese type 2 diabetes. In addition, the processing server 330 selects important variables from the constructed prediction model, generates a prediction nomogram based on the selected important variables, and uses the generated prediction nomogram to predict the probability of non-obese type 2 diabetes of the subject. The predicted value can be calculated.

모델 DB(340)는 구축된 예측 모델 및 생성된 예측 노모그램에 관련된 데이터를 포함할 수 있다. 처리 서버(330)는 구축된 예측 모델을 모델 DB(340)에 저장할 수 있고, 생성된 예측 노모그램을 모델 DB(340)에 저장할 수 있다. The model DB 340 may include data related to the built prediction model and the generated prediction nomogram. The processing server 330 may store the constructed prediction model in the model DB 340 and store the generated prediction nomogram in the model DB 340.

도 3에는 검사 DB(320), 처리 서버(330) 및 모델 DB(340)를 별개의 구성 요소로 도시하였지만, 검사 DB(320), 처리 서버(330) 및 모델 DB(340)는 하나의 일체화된 구성 요소로 구성될 수 있다.In Figure 3, the test DB 320, the processing server 330, and the model DB 340 are shown as separate components, but the test DB 320, the processing server 330, and the model DB 340 are integrated into one. It can be composed of components.

도 4는 본 발명의 일 실시예에 따른 비비만 제2형 당뇨 확률 예측 시스템에 의해 구현되는 비비만 제2형 당뇨 확률 예측 방법의 흐름도이다.Figure 4 is a flowchart of a non-obese type 2 diabetes probability prediction method implemented by a non-obese type 2 diabetes probability prediction system according to an embodiment of the present invention.

도 4를 참조하면, 비비만 제2형 당뇨 확률 예측 방법은 학습 모델 구축 단계(S110), 변수 선택 단계(S130), 예측 모델 생성 단계(S150) 및 유병 확률 산출 단계(S170)를 포함할 수 있다. Referring to FIG. 4, the method for predicting the probability of non-obese type 2 diabetes may include a learning model building step (S110), a variable selection step (S130), a prediction model creation step (S150), and a prevalence probability calculation step (S170). there is.

학습 모델 구축 단계(S110)에서는, 학습 모델 구축부(110)가 복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축할 수 있다. In the learning model building step (S110), the learning model building unit 110 creates a learning model for predicting a non-obese type 2 diabetes risk group by machine learning of sample data including data on a plurality of explanatory variables and outcome variables. can be built.

변수 선택 단계(S130)에서는, 변수 선택부(130)가 구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택할 수 있다. In the variable selection step (S130), the variable selection unit 130 is used in a prediction model to predict the probability of non-obese type 2 diabetes based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable. You can select explanatory variables.

예측 모델 생성 단계(S150)에서는, 예측 모델 생성부(150)가 선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성할 수 있다. In the prediction model creation step (S150), the prediction model generator 150 may generate a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables.

유병 확률 산출 단계(S170)에서는, 유병 확률 산출부(170)가 생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출할 수 있다. In the prevalence probability calculation step (S170), the prevalence probability calculation unit 170 may calculate the probability of non-obese type 2 diabetes from data on the explanatory variables of the predicted person based on the generated prediction model.

학습 모델 구축 단계(S110), 변수 선택 단계(S130), 예측 모델 생성 단계(S150) 및 유병 확률 산출 단계(S170)에 대한 상세한 설명은 학습 모델 구축부(110), 변수 선택부(130), 예측 모델 생성부(150) 및 유병 확률 산출부(170)의 상술한 설명이 참조될 수 있다. Detailed descriptions of the learning model building step (S110), variable selection step (S130), prediction model generation step (S150), and prevalence probability calculation step (S170) are provided in the learning model building unit 110, variable selection unit 130, The above description of the prediction model creation unit 150 and the prevalence probability calculation unit 170 may be referred to.

이하에서는 비비만 제2형 당뇨 확률 예측 모델의 개발 및 검증 과정의 설명을 통하여 본 발명에 따른 비비만 제2형 당뇨 확률 예측 시스템 및 예측 방법의 특징에 대하여 설명한다.Hereinafter, the characteristics of the non-obese type 2 diabetes probability prediction system and prediction method according to the present invention will be described through explanation of the development and verification process of the non-obese type 2 diabetes probability prediction model.

[자료원][Data source]

본 발명자는 우리나라 질병관리본부 주관으로 2019년부터 2020년까지 수행된 국민건강영양조사 원시자료를 이용한 이차자료(secondary data)를 분석 및 연구하였다. The present inventor analyzed and studied secondary data using raw data from the National Health and Nutrition Examination Survey conducted from 2019 to 2020 by the Korea Centers for Disease Control and Prevention.

국민건강 영양조사는 보건복지부와 질병관리본부가 주관하는 국가통계자료이다. 국민건강영양조사의 조사방법은 건강설문조사의 경우 질병이환, 삶의 질, 건강행위, 신체활동, 영양조사 등으로 구성되어 있으며 1:1면접조사와 자기기입 방법으로 수행되었다. 검진조사는 조사기간 동안 의료인(의사, 간호사)이 이동검진차량을 이용하여 해당지역을 방문하여 1:1검진(e.g. 소변검사, 신체계측, 혈액검사)과 건강설문조사를 진행하였다. The National Health and Nutrition Survey is a national statistical data hosted by the Ministry of Health and Welfare and the Korea Centers for Disease Control and Prevention. The survey method of the National Health and Nutrition Survey consists of disease morbidity, quality of life, health behavior, physical activity, and nutritional surveys in the case of the health survey, and was conducted through 1:1 interview survey and self-inquiry method. During the survey period, medical personnel (doctors, nurses) visited the area using a mobile examination vehicle and conducted 1:1 examinations (e.g. urine tests, physical measurements, blood tests) and health surveys.

본 발명자는 이전에 당뇨진단 경험이 없고, 건강설문조사, 영양조사, 혈액검사, 소변검사, 당화혈색소 검사를 완료한 30세 이상 성인 6,267명 중에서 검진결과 당뇨전단계(당화혈색소수치가 5.7%~6.4%이며 공복혈당수치가 100~125mg/dl)로 진단된 2,640명을 제외한 3627명(정상혈당 2,797명, 비비만 제2형당뇨 830명)을 분석하였다.The present inventors found that among 6,267 adults aged 30 or older who had no previous experience of being diagnosed with diabetes and who completed a health survey, nutritional survey, blood test, urine test, and glycated hemoglobin test, the results showed that they were in the pre-diabetic stage (glycated hemoglobin level of 5.7% to 6.4). %, and excluding 2,640 people diagnosed with fasting blood sugar levels of 100 to 125 mg/dl), 3,627 people (2,797 with normal blood sugar, 830 with non-obese type 2 diabetes) were analyzed.

[변수의 측정과 정의][Measurement and definition of variables]

결과변수인 비비만 제2형당뇨는 (1)대한비만학회의 비만진료지침을 기준으로 BMI가 25kg/m2 미만인 사람중에서 (2)Korean Diabetes Association(2021)의 임상진료지침(Clinical Practice Guidelines)을 기준으로 의료인의 진단에 의해서 정상혈당(당화혈색소수치가 5.7% 미만이면서 공복혈당수치가 100mg/dl이하)과 당뇨(당화혈색소수치가 6.5%이상이면서 공복혈당수치가 126mg/dl이상)로 이분되었다. 이때, 체질량지수 산출을 위한 신체 측정은 키와 몸무게를 소수점 첫째 자리까지 입력한 것을 이용하였고, 체질량지수는 체중(kg)/신장2(m2) 공식으로 구하였다. 검체 용기는 혈당검사용의 경우 NaF tube, 일반화학검사용의 경우 SST, 혈액학검사용의 경우 EDTA tube를 사용하고 검체 보관 및 분리 규정에 맞게 처리되었다. 분리된 혈장 및 혈청으로 공복혈당, HbA1c, Insulin, 중성지방, 총 콜레스테롤 등이 측정되었다. 혈액검사용 자동화학 분석기는 Hitachi 7600-210(Hitachi high-technologies Co., Tokyo, Japan) 을 사용하여 공복혈당의 경우 Pureauto S GLU(Hexokinase UV법) 시약으로 측정되었고, 효소법을 이용하여 중성지방은 Pureauto S TG-N, 총콜레스테롤은 Pureauto SCHO-N(Daiichi Pure Chemicals Corporation, Tokyo, Japan)을 사용하여 측정되었다.The outcome variable, non-obese type 2 diabetes, was determined among (1) people with a BMI less than 25 kg/m 2 based on the obesity treatment guidelines of the Korean Obesity Association (2) clinical practice guidelines of the Korean Diabetes Association (2021). Based on the diagnosis by a medical professional, blood sugar is divided into normal blood sugar (glycated hemoglobin level less than 5.7% and fasting blood sugar level less than 100 mg/dl) and diabetes (glycated hemoglobin level more than 6.5% and fasting blood sugar level more than 126 mg/dl). It has been done. At this time, body measurements to calculate body mass index used height and weight entered to the first decimal place, and body mass index was calculated using the formula weight (kg)/height 2 (m 2 ). The sample containers used were NaF tubes for blood sugar tests, SST tubes for general chemistry tests, and EDTA tubes for hematology tests, and were processed in accordance with sample storage and separation regulations. Fasting blood sugar, HbA1c, insulin, triglycerides, and total cholesterol were measured using separated plasma and serum. Using an automated chemical analyzer for blood testing, Hitachi 7600-210 (Hitachi high-technologies Co., Tokyo, Japan), fasting blood sugar was measured using Pureauto S GLU (Hexokinase UV method) reagent, and neutral fat was measured using an enzymatic method. Pureauto S TG-N, total cholesterol was measured using Pureauto SCHO-N (Daiichi Pure Chemicals Corporation, Tokyo, Japan).

설명변수는 인구사회학적 요인, 식습관, 영양지식, 정신건강, 신체활동, 생활습관, 비만, 당뇨병가족력, 임상검사(소변검사, 혈액검사)를 포함하였다. 인구사회학적 요인은 성(남/여), 나이(30-39/40-49/50-59/60-69/70세 이상), 가구소득(4분위수), 교육수준(초등학교졸업 이하, 중학교졸업, 고등학교졸업, 대학졸업이상), 직업유형(한국표준직업분류에 의한 구분)으로 정의하였다. 식습관요인은 아침식사빈도(주5-7회/주3-4회/주1-2회/거의안함), 점심식사빈도(주5-7회/주3-4회/주1-2회/거의안함), 저녁식사빈도(주5-7회/주3-4회/주1-2회/거의안함)로 정의하였다. Explanatory variables included sociodemographic factors, eating habits, nutritional knowledge, mental health, physical activity, lifestyle habits, obesity, family history of diabetes, and clinical tests (urine test, blood test). Sociodemographic factors include gender (male/female), age (30-39/40-49/50-59/60-69/70 or older), household income (quartile), and education level (elementary school graduation or lower, middle school). It was defined as graduation, high school graduation, college graduation or higher), and occupation type (classification according to the Korean Standard Occupational Classification). Eating habits include breakfast frequency (5-7 times a week/3-4 times a week/1-2 times a week/rarely), lunch frequency (5-7 times a week/3-4 times a week/1-2 times a week) /almost never) and dinner frequency (5-7 times a week/3-4 times a week/1-2 times a week/rarely).

영양지식요인은 영양표시 인지여부(네/아니오), 영양교육 경험(네/아니오)으로 정의하였다. 정신건강요인은 스트레스인지수준(적음/많음), 지난 1년간 2주 이상 연속적인 우울증경험(주요우울장애:네/아니오), 지난 1년간 자살생각(네/아니오), 주관적 건강수준(좋음/보통/나쁨), 하루평균 수면시간(5시간 미만/5-6시간/7-8시간/9시간 이상)으로 정의하였다. 신체활동은 지난 1주일 동안 하루평균10분이상 걷기 일수(전혀없음/1-3일/4-6일/7일(매일)) 지난1년간 하루평균 좌식시간(7시간이하/8~12시간/13시간 이상), 지난 1주일 동안 하루평균10분이상 고강도 신체활동(ex.등산,스포츠,수영 등)여부(네/아니오), 지난 1주일 동안 하루평균10분이상 중강도 신체활동(ex.조깅 등)여부(네/아니오)으로 정의하였다. The nutritional knowledge factor was defined as awareness of nutrition labels (yes/no) and nutrition education experience (yes/no). Mental health factors include perceived stress level (low/high), continuous experience of depression for more than 2 weeks over the past year (major depressive disorder: yes/no), suicidal thoughts over the past year (yes/no), and subjective health level (good/no). Average/poor), defined as average sleep time per day (less than 5 hours/5-6 hours/7-8 hours/9 hours or more). Physical activity was measured by walking for more than 10 minutes on average per day over the past week (none/1-3 days/4-6 days/7 days (daily)) and average sedentary time per day over the past year (less than 7 hours/8-12 hours). /13 hours or more), high-intensity physical activity (ex. hiking, sports, swimming, etc.) for more than 10 minutes per day on average over the past week (yes/no), moderate-intensity physical activity for more than 10 minutes per day on average over the past week (ex. Jogging, etc.) was defined as (yes/no).

건강습관은 지난 1년간 폭음빈도(없음/월1회이하/월2회 이상), 흡연경험(네/아니오)으로 정의하였다. 비만은 주관적 체형인식(마른편/보통/비만), 허리둘레(남90미만/여자85미만, 남/90이상/여85이상), 목둘레(남37이하/여32이하, 남38이상/여33이상)로 정의하였다. Healthy habits were defined as frequency of binge drinking (none/less than once a month/twice or more per month) and smoking experience (yes/no) over the past year. Obesity is determined by subjective body type perception (thin/normal/obese), waist circumference (under 90 for men/under 85 for women, over 90 for men/over 85 for women), and neck circumference (under 37 for men/under 32 for women, over 38 for men/ Female 33 or older).

당뇨병 가족력은 부(네/아니오), 모(네/아니오), 형제 또는 자매(네/아니오)로 정의하였다. 소변검사는 요단백(음성(정상)/양성), 요당(음성/양성), 요케톤(음성/양성)을 포함하였다. 혈액검사는 총콜레스테롤(200미만(정상)/200이상), HDL콜레스테롤(40이상(정상)/40미만), 중성지방(150미만/150이상), 혈중요소질소(20mg/dL이하(정상)/20mg/dL초과), 혈중크레아티닌(1.4mg/dL이하(정상)/1.4mg/dL초과), AST(SGOT: 40이하(정상)/40초과), ATL(SGPT: 40이하(정상)/40초과), 헤모글로빈(16이하(정상)/16초과)로 정의하였다.Family history of diabetes was defined as father (yes/no), mother (yes/no), and brother or sister (yes/no). Urinalysis included urine protein (negative (normal)/positive), urine sugar (negative/positive), and urine ketone (negative/positive). Blood tests include total cholesterol (less than 200 (normal)/more than 200), HDL cholesterol (more than 40 (normal)/less than 40), neutral fat (less than 150/more than 150), and blood urea nitrogen (less than 20 mg/dL (normal). />20mg/dL), blood creatinine (1.4mg/dL or less (normal)/>1.4mg/dL), AST (SGOT: 40 or less (normal)/>40), ATL (SGPT: 40 or less (normal)/ It was defined as hemoglobin (over 40) and hemoglobin (under 16 (normal)/over 16).

[변수의 선택][Selection of variables]

예측을 위한 노모그램에 투입되는 설명 변수의 수가 많아질 경우 예측 확률을 계산하기 위한 경우의 수도 많아진다. 따라서, 노모그램을 개발하는 경우에는 노모그램에서 이용할 설명 변수의 선택이 중요하다. 본 발명자는 CatBoost 알고리즘을 이용하여 산출된 비만에 관련된 영향 요인의 Shapley Value에 기초하여 비만 확률의 예측을 위한 설명 변수를 선택하였다. 일 실시예에서, Shapley Value가 높은 상위 9개의 변수를 노모그램에 이용할 변수로 선택하였다. As the number of explanatory variables input into the nomogram for prediction increases, the number of cases for calculating the prediction probability also increases. Therefore, when developing a nomogram, the selection of explanatory variables to be used in the nomogram is important. The present inventor selected explanatory variables for predicting the probability of obesity based on the Shapley Value of the influencing factors related to obesity calculated using the CatBoost algorithm. In one example, the top 9 variables with high Shapley Value were selected as variables to be used in the nomogram.

Catboost 알고리즘은 범주형 변수 전처리와 오버피팅 문제 해결에 초점을 둔 Ordered Boosting 기법이다. Ordered Boosting은 모든 잔여 오차(Residual Error)를 차례로 학습하는 기존의 부스팅 모델과 달리 일부 데이터의 잔여 오차를 계산하여 모델을 만들며, 이 모델을 통해 남은 데이터의 잔여 오차를 계산하는 기법이다. 또한, Ordered Boosting에 Random Permutation을 통해 데이터 순서를 섞어줌으로써 오버피팅(Overfitting)을 방지한다.The Catboost algorithm is an ordered boosting technique that focuses on preprocessing categorical variables and solving overfitting problems. Ordered Boosting is a technique that creates a model by calculating the residual errors of some data, unlike the existing boosting model that learns all residual errors in order, and calculates the residual errors of the remaining data through this model. In addition, overfitting is prevented by mixing the data order through Random Permutation in Ordered Boosting.

범주형 변수 전처리를 위해서 Catboost 알고리즘은 Random Permutation을 거친 데이터셋에서 같은 범주를 가진 변수들의 평균 표본 값을 계산한다. To preprocess categorical variables, the Catboost algorithm calculates the average sample value of variables with the same category in a dataset that has undergone random permutation.

Catboost 알고리즘은 동일한 information gain을 가진 변수들을 하나로 묶는 변수 조합(feature combinations)을 통해 훈련 속도를 향상시킨다. 또한, 최적의 하이퍼 파라미터를 찾기 위해 GridSearchcv나 RandomizedSearchcv를 사용하는 다른 앙상블 알고리즘과 달리 초기 하이퍼 파라미터값이 최적화 되어있어서 별도의 파라미터 튜닝 절차가 요구되지 않는다. 본 발명에서 catboost의 learning rate는 0.300, number of trees는 100, limit depth of individual trees는 6, regularization의 Lambda는 3으로 설정하였다. Catboost 알고리즘의 파이프라인은 도 5에 제시하였다.The Catboost algorithm improves training speed through feature combinations that combine variables with the same information gain. Additionally, unlike other ensemble algorithms that use GridSearchcv or RandomizedSearchcv to find optimal hyperparameters, the initial hyperparameter values are optimized, so a separate parameter tuning procedure is not required. In the present invention, the learning rate of catboost was set to 0.300, the number of trees was set to 100, the limit depth of individual trees was set to 6, and the Lambda of regularization was set to 3. The pipeline of the Catboost algorithm is presented in Figure 5.

기계학습 기반 예측모델 결과에 대한 올바른 해석은 항상 관심의 대상이 되어왔다. 특히나 복잡한 모델일수록 예측력은 향상될 수 있으나 해석 가능성이 떨어진다는 단점(블랙박스)이 존재한다. 그러나, 모델 결과를 활용하는 의료종사자 입장에서는 개발된 머신러닝 모델의 해석 가능성은 매우 중요하며, 특히 예측모델을 고도화할 수 있는 방법에 대한 통찰력과 예측 모델의 개발 과정에 대한 이해를 돕는다는 측면에서 필수적이라고 할 수 있다Correct interpretation of machine learning-based prediction model results has always been a subject of interest. In particular, the more complex the model, the better its predictive power, but it has the disadvantage of being less interpretable (black box). However, from the perspective of medical workers who use model results, the interpretability of the developed machine learning model is very important, especially in terms of providing insight into how to improve the prediction model and helping understand the development process of the prediction model. It can be said to be essential

본 연구에서 응용하는 트리 기반 부스팅 알고리즘들은 scikit-learn에서 제공하는 불순도(impurity)기준의 변수 중요도 산출 기능을 활용할 수 있는데, 이때의 변수 중요도는 불순도의 평균 증가분(mean decrease inimpurity) 기반으로 산출된다. 따라서 학습 데이터에서 개별 변수가 모델의 예측 성능을 향상시키는 데 얼마나 기여했는지를 평가할 수는 있으나, 학습에 포함되지 않은 데이터에 대학 중요도를 반영하지 못하며 카디널러티(cardinality) 즉, 원소의 개수가 많은 변수를 더 중요하게 보는 경향이 있다. 또한 개별 데이터 포인트의 변수 중요도를 파악할 수 없고 오로지 모델 전체의 전역적(global) 변수 중요도만 확인 가능하다는 제한점이 있다. The tree-based boosting algorithms applied in this study can utilize the variable importance calculation function based on impurity provided by scikit-learn, where variable importance is calculated based on the mean decrease in impurity. do. Therefore, it is possible to evaluate how much individual variables in the training data contributed to improving the model's prediction performance, but it does not reflect the importance of the university in data that was not included in the training and has cardinality, that is, variables with a large number of elements. There is a tendency to view as more important. Additionally, there is a limitation in that the variable importance of individual data points cannot be determined, and only the global variable importance of the entire model can be checked.

이와 같은 문제를 해결하기 위해 최근 SHAP이라는 프레임워크가 제안되었다. SHAP은 게임이론을 기반으로 개발된 Shapley Value의 개념에 기초한 것으로서 개별 변수가 타겟 데이터에 얼만큼의 공헌도를 가지는지를 설명 가능하게 하는 모델 불가지론적(model-agnostic) 방법이다. 특히 contrastive explanation(개별 변수와 타겟변수 상호간의 의존성에 대한 파악)뿐만 아니라 지역적(local) 변수 중요도(개별 데이터 포인트의 변수 중요도)를 확인할 수 있다는 것이 가장 큰 장점이므로 본 발명에서 모델 결과의 해석을 위해 사용하였다.To solve this problem, a framework called SHAP was recently proposed. SHAP is based on the concept of Shapley Value, developed based on game theory, and is a model-agnostic method that allows explaining how much contribution individual variables have to target data. In particular, the biggest advantage is that it is possible to check not only the contrastive explanation (identification of the dependence between individual variables and target variables) but also the local variable importance (variable importance of individual data points), so for the interpretation of model results in the present invention. used.

[로지스틱 노모그램의 개발과 검증][Development and verification of logistic nomogram]

CatBoost에서 확인된 Shapley Value가 높은 상위 9개의 변수를 투입하여 우리나라 비비만 당뇨에 대한 예측요인들의 관계를 파악하고자 logistic regression을 이용하여 비비만 당뇨 예측모형을 개발하였고, odds ratio(OR)와 95% confidence interval(CI)를 각각 제시하였다. We developed a prediction model for non-obese diabetes using logistic regression to identify the relationship between predictive factors for non-obese diabetes in Korea by inputting the top 9 variables with high Shapley Value identified in CatBoost, and odds ratio (OR) and 95% Confidence interval (CI) was presented for each.

개발된 비비만 당뇨 예측모형은 의료종사자들이 비비만 당뇨 고위험군의 예측확률을 손쉽게 해석할 수 있도록 시각화 모델인 노모그램(nomogram)을 개발하였다. 노모그램은 질병의 예측확률을 쉽고 효율적으로 계산하기 위하여 다중위험요인간의 관계를 2차원으로 나타낸 도표로서 점수선(point line), 위험요인선(risk factor line), 확률선(probability line), 총점선(total point line)으로 구성된다. 점수선은 개별 위험요인의 범주(class)에 해당하는 점수를 도출하기 위해 노모그램 최상단에 배치한다. 위험요인선(risk factor line)은 본 발명의 일 실시예에서는 비비만 당뇨의 위험요인의 개수인 9개이다. 총점수선(total point line)은 개별 위험요인들의 점수의 총합을 의미한다. 확률선(probability line)은 총점수선을 기반으로 최종적으로 산출된 비비만 당뇨의 예측의 확률값으로 노모그램 최하단에 배치하였다. The developed non-obese diabetes prediction model developed a nomogram, a visualization model, so that medical workers can easily interpret the prediction probability of non-obese diabetes high-risk groups. A nomogram is a two-dimensional diagram of the relationship between multiple risk factors in order to easily and efficiently calculate the prediction probability of a disease. It consists of a point line, risk factor line, probability line, and total. It consists of a total point line. The score line is placed at the top of the nomogram to derive the score corresponding to the category (class) of the individual risk factor. In one embodiment of the present invention, the risk factor line is 9, which is the number of risk factors for non-obese diabetes. The total point line refers to the sum of the scores of individual risk factors. The probability line was placed at the bottom of the nomogram as the probability value of predicting non-obese diabetes, which was finally calculated based on the total score line.

최종적으로 개발된 청소년 비만 예측 노모그램의 예측성능은 Leave-One-Out Cross-Validation(LOOCV)을 이용하여 평가하였다. LOOCV는 n개의 데이터에서 1개를 Test Set으로 정하고 나머지 n-1개의 데이터로 모델링을 하는 검정방법이다. 즉, n개의 data set에서 하나의 관측치(xi,yi)를 빼서 validation set으로 사용하고 나머지 관측치 {(x1,y1)~(xi-1,yi-1)}를 training set으로 사용한다. model은 (n-1) 개의 training set으로 적합하고 나머지 1개로 n 회 반복해서 mean square error(MSE)을 계산한다. LOOCV는 validation set approach에 비해 검정과정에서 bias가 훨씬 적을 뿐만 아니라 error rate를 과대 추정하지 않으며 여러 번 적용해도 똑같은 MSE를 갖는다는 장점이 있다. 예측성능의 평가지표로는 general accuracy, precision, recall, F1-score, the area under the curve(AUC), calibration plot을 이용하였다. 모든 분석은 Python version 3.9.5(https://www.python.org)를 이용하였다.The predictive performance of the ultimately developed adolescent obesity prediction nomogram was evaluated using Leave-One-Out Cross-Validation (LOOCV). LOOCV is a testing method that sets one out of n pieces of data as a test set and models it with the remaining n-1 pieces of data. In other words, one observation (xi,yi) is subtracted from n data sets and used as a validation set, and the remaining observations {(x1,y1)~(xi-1,yi-1)} are used as a training set. The model is fitted with (n-1) training sets, and the mean square error (MSE) is calculated by repeating n times with the remaining one. LOOCV not only has much less bias in the testing process than the validation set approach, but also has the advantage of not overestimating the error rate and having the same MSE even when applied multiple times. General accuracy, precision, recall, F1-score, the area under the curve (AUC), and calibration plot were used as evaluation indicators of prediction performance. All analyzes used Python version 3.9.5 (https://www.python.org).

[비비만 당뇨 유병에 따른 대상자의 일반적 특성][General characteristics of subjects according to non-obese diabetes]

비비만 당뇨 유병에 따른 대상자의 일반적 특성은 [표 1-1], [표 1-2], [표 1-3]에 제시하였다. 대상자 3627명 중에서 정상혈당을 가진 성인은 2,797명, 비비만 제2형당뇨병은 830명이었다. 카이제곱검정결과, 정상혈당을 가진 성인과 비비만 제2형당뇨병은 성별, 연령, 가구소득, 교육수준, 직업, 최근1년동안 주당 평균 아침식사빈도, 최근1년동안 주당 평균 저녁식사빈도, 식품의 영양표시 인지여부, 주관적 스트레스 인지수준, 지난 1년간 자살생각경험, 주관적 건강수준, 주당 평균 10준이상 걷기실천 일수, 일일평균 좌식시간, 주당 고강도 신체활동 실천여부, 주당 중강도 신체활동 실천여부, 지난 1년간 폭음빈도, 평생흡연 여부, 허리둘레, 목둘레, 요단백, 요당, 요케뇬, 총콜레스테롤, HDL콜레스테롤, 중성지방, AST, ALT, 혈중크레아티닌, 혈중요소질소, 헤모글로빈, 당뇨병가족력(어머니, 형제/자매)에서 유의미한 차이가 있었다(p<0.05).The general characteristics of the subjects according to non-obese diabetes were presented in [Table 1-1], [Table 1-2], and [Table 1-3]. Among the 3,627 subjects, 2,797 adults had normal blood sugar levels and 830 were non-obese and had type 2 diabetes. As a result of the chi-square test, adults with normal blood sugar and non-obese type 2 diabetes had gender, age, household income, education level, occupation, average frequency of breakfast per week over the past year, average frequency of dinner per week over the past year, Awareness of nutrition labels on food, subjective level of perceived stress, experience of suicidal thoughts over the past year, subjective health level, average number of days walking at least 10 points per week, average daily sitting time, whether high-intensity physical activity per week is practiced, medium-intensity physical activity per week practiced Whether or not, frequency of binge drinking in the past year, lifetime smoking status, waist circumference, neck circumference, urine protein, urine sugar, urine cholesterol, total cholesterol, HDL cholesterol, triglycerides, AST, ALT, blood creatinine, blood urea nitrogen, hemoglobin, family history of diabetes There was a significant difference in (mother, brother/sister) (p<0.05).

[표 1-1] 비비만 당뇨의 유병에 따른 대상자의 일반적 특성, n (%)[Table 1-1] General characteristics of subjects according to the presence of non-obese diabetes, n (%)

[표 1-2] (표 1-1로부터 계속됨)[Table 1-2] (Continued from Table 1-1)

[표 1-3] (표 1-2로부터 계속됨)[Table 1-3] (Continued from Table 1-2)

[CatBoost를 이용한 우리나라 성인인구의 비비만 당뇨 예측요인][Predictive factors for non-obese diabetes in the Korean adult population using CatBoost]

CatBoost를 이용하여 우리나라 성인인구의 비비만 당뇨와 관련된 요인의 SHAP value를 산출한 결과는 도 6에 제시하였다. SHAP value를 기준으로 모델의 출력 값에 대한 영향도가 높은 상위 9개의 변수는 연령, 요당, 당뇨병가족력(형제/자매), 허리둘레, 지난 1년간 자살생각경험, 중강도 신체활동 실천여부, 요단백, 식품의 영양표시 인지여부, 당뇨병가족력(어머니)로 확인되었다.The results of calculating SHAP values of factors related to non-obese diabetes in the Korean adult population using CatBoost are presented in Figure 6. Based on SHAP value, the top 9 variables with high influence on the model's output value are age, urine sugar, family history of diabetes (brother/sister), waist circumference, experience of suicidal thoughts in the past year, practice of moderate-intensity physical activity, and urine consumption. It was confirmed by protein, awareness of food nutrition labels, and family history of diabetes (mother).

상위 9개의 변수의 구체적인 내용은 (1) 연령(1=30-39, 2=40-49, 3=50-59, 4=60-69, 5=70-79, 6=80세 이상), (2) 요당(0=음성, 1=양성), (3) 당뇨병 가족력(형제/자매: 0=없음, 1=있음), (4) 허리둘레 (0=남90/여자85 미만, 1=남90/여85이상), (5) 지난 1년간 자살생각경험(1=없음, 2=있음), (6) 지난 1주간 중강도 신체활동 실천 여부(1=예, 2=아니오), (7) 요단백(0=음성, 1=양성), (8) 식품에 대한 영양표시 인지여부(1=예, 2=아니오), (9) 당뇨병 가족력(어머니: 0=없음, 1=있음)이다.The specific details of the top nine variables are (1) age (1=30-39, 2=40-49, 3=50-59, 4=60-69, 5=70-79, 6=80 years or older); (2) Urinary sugar (0=negative, 1=positive), (3) family history of diabetes (brother/sister: 0=none, 1=present), (4) waist circumference (0=less than 90 for men/85 for women, 1= (Male 90/Female 85 or above), (5) Experience of suicidal thoughts over the past year (1=none, 2=yes), (6) Whether or not you have engaged in moderate-intensity physical activity in the past week (1=yes, 2=no), ( 7) Urine protein (0=negative, 1=positive), (8) Awareness of nutrition labeling on food (1=yes, 2=no), (9) Family history of diabetes (mother: 0=none, 1=present) am.

Catboost에서 모델의 출력 값에 대한 영향도가 높은 상위 9개의 변수를 이용하여 우리나라 비비만 당뇨 예측을 위한 로지스틱 회귀분석의 결과는 [표 2]에 제시하였다. 우리나라 비비만 당뇨의 영향요인으로는 연령(40~49세:OR=4.23, 50~59세:OR=23.20, 60~69세:OR=61.68, 70~79세:OR=101.83, 80세 이상:OR=74.76), 요당(양성:OR=41.69), 당뇨병 가족력(형제/자매:OR=10.20, 어머니:OR=2.73), 허리둘레(남자 90cm이상/여자 85cm이상:OR=5.51), 최근 1년간 자살생각경험(있음:OR=1.91), 주당 중강도 신체활동 실천여부(아니오:OR=1.48), 요단백(양성:OR=1.77), 식품의 영양표시 인지여부(아니오:OR=4.06)이 확인되었다(p<0.05).The results of the logistic regression analysis for predicting non-obese diabetes in Korea using the top 9 variables with high influence on the output value of the model in Catboost are presented in [Table 2]. Factors influencing non-obese diabetes in Korea include age (40-49 years: OR = 4.23, 50-59 years: OR = 23.20, 60-69 years: OR = 61.68, 70-79 years: OR = 101.83, 80 years or older :OR=74.76), urine sugar (positive: OR=41.69), family history of diabetes (brother/sister: OR=10.20, mother: OR=2.73), waist circumference (over 90cm for men/over 85cm for women: OR=5.51), recent Experience of suicidal thoughts for 1 year (Yes: OR = 1.91), whether or not to engage in moderate-intensity physical activity per week (No: OR = 1.48), urine protein (positive: OR = 1.77), awareness of nutritional labels on food (no: OR = 4.06) ) was confirmed (p<0.05).

[표 2] [Table 2]

[비비만 당뇨 고위험군 예측 노모그램의 개발과 검증][Development and validation of a nomogram for predicting non-obese diabetes high-risk groups]

비비만 당뇨 고위험군 예측 노모그램은 도 7에 제시하였다. The nomogram for predicting the non-obese diabetes high-risk group is presented in Figure 7.

도 7에 도시된 예측 노모그램의 위험 변수는 모두 9개이다. 노모그램의 예측치에 영향을 미치는 가중치의 크기가 큰 위험 변수가 가장 상위에 위치하도록 도시되었다. There are a total of 9 risk variables in the prediction nomogram shown in Figure 7. Risk variables with large weights that affect the predicted value of the nomogram are shown at the top.

도 7에 도시된 위험 변수는 가장 위로부터 순차적으로, (1) 연령(1=30-39, 2=40-49, 3=50-59, 4=60-69, 5=70-79, 6=80세 이상), (2) 요당(0=음성, 1=양성), (3) 당뇨병 가족력(형제/자매: 0=없음, 1=있음), (4) 당뇨병 가족력(어머니: 0=없음, 1=있음), (5) 허리둘레 (0=남90/여자85 미만, 1=남90/여85이상), (6) 요단백(0=음성, 1=양성), (7) 식품에 대한 영양표시 인지여부(1=예, 2=아니오), (8) 지난 1년간 자살7생각경험(1=없음, 2=있음), (9) 지난 1주간 중강도 신체활동 실천 여부(1=예, 2=아니오)이다. The risk variables shown in Figure 7 are sequentially from the top: (1) age (1=30-39, 2=40-49, 3=50-59, 4=60-69, 5=70-79, 6 =80 years or older), (2) urine sugar (0=negative, 1=positive), (3) family history of diabetes (brother/sister: 0=none, 1=present), (4) family history of diabetes (mother: 0=none) , 1=yes), (5) waist circumference (0=less than 90 for men/85 for women, 1=90 for men/over 85 for women), (6) urine protein (0=negative, 1=positive), (7) food (1 = yes, 2 = no), (8) experienced suicidal thoughts in the past year (1 = none, 2 = yes), (9) engaged in moderate-intensity physical activity in the past week (1) =Yes, 2=No).

노모그램에서는 소변검사결과 요당과 요단백이 양성이며, 당뇨병 가족력(어머니,형제/자매)이 있고, 식품의 영양표시를 인지하지 못하고, 중강도 신체활동을 실천하지 않는 허리둘레가 복부비만(남성90cm이상/여성85cm이상)에 해당하는 70대 노인은 비비만 당뇨의 고위험 예측확률이 95%로 매우 높게 도출되었다. In the nomogram, the urine test result is positive for urine sugar and urine protein, there is a family history of diabetes (mother, brother/sister), the person does not recognize nutritional labels on food, and the waist circumference is abdominal obesity (male) who does not engage in moderate-intensity physical activity. For seniors in their 70s (over 90 cm/over 85 cm for women), the high risk prediction probability of non-obese diabetes was found to be very high at 95%.

개발된 비비만 당뇨병 예측 노모그램은 AUC, F1-score, general accuracy, recall, precision, Calibration plot(도 8, 도 9 및 도 10 참조)을 이용해서 예측성능을 검증하였다. 정상혈당군과 비비만 당뇨군을 대상으로 예측확률값과 관찰확률을 Calibration plot과 카이제곱검정을 이용하여 비교한 결과(도 10 참조), 예측확률값과 관찰확률값에서 유의미한 차이가 없었다(P<0.05). LOOCV결과, 비비만 당뇨 예측 노모그램의 AUC는 0.91, general accuracy는 0.86, Precision 0.74, recall 0.62, F-measure 0.67이었다.The developed non-obese diabetes prediction nomogram verified the prediction performance using AUC, F1-score, general accuracy, recall, precision, and calibration plot (see Figures 8, 9, and 10). As a result of comparing the predicted and observed probabilities for the normal blood sugar group and the non-obese diabetic group using a calibration plot and chi-square test (see Figure 10), there was no significant difference in the predicted and observed probabilities (P<0.05). . As a result of LOOCV, the AUC of the non-obese diabetes prediction nomogram was 0.91, general accuracy 0.86, precision 0.74, recall 0.62, and F-measure 0.67.

이상에서 설명된 단계 또는 프로세스는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합에 의해 실행될 수 있다. 예를 들어, 실시예들에서 설명된 단계 또는 프로세스는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 실행될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The steps or processes described above may be performed by hardware components, software components, and/or a combination of hardware components and software components. For example, the steps or processes described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), or a PLU. It may be executed using one or more general-purpose or special-purpose computers, such as a programmable logic unit, microprocessor, or any other device capable of executing and responding to instructions. A processing device may execute an operating system (OS) and one or more software applications that run on the operating system. Additionally, a processing device may access, store, manipulate, process, and generate data in response to the execution of software. For ease of understanding, a single processing device may be described as being used; however, those skilled in the art will understand that a processing device includes multiple processing elements and/or multiple types of processing elements. It can be seen that it may include. For example, a processing device may include a plurality of processors or one processor and one controller. Additionally, other processing configurations, such as parallel processors, are possible.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of these, which may configure a processing unit to operate as desired, or may be processed independently or collectively. You can command the device. Software and/or data may be used on any type of machine, component, physical device, virtual equipment, computer storage medium or device to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc., singly or in combination. Program instructions recorded on the medium may be specially designed and configured for the embodiment or may be known and usable by those skilled in the art. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -Includes optical media (magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include machine language code, such as that produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter, etc. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, various modifications and variations can be made by those skilled in the art from the above description. For example, the described techniques are performed in a different order than the described method, and/or components of the described system, structure, device, circuit, etc. are combined or combined in a different form than the described method, or other components are used. Alternatively, appropriate results may be achieved even if substituted or substituted by an equivalent.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims also fall within the scope of the claims described below.

Claims (10)

복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축하는 학습 모델 구축부;
구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택하는 변수 선택부;
선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성하는 예측 모델 생성부; 및
생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출하는 유병 확률 산출부
를 포함하는 비비만 제2형 당뇨 확률 예측 시스템.
A learning model construction unit that builds a learning model for predicting a non-obese type 2 diabetes risk group by machine learning of sample data including data on a plurality of explanatory variables and outcome variables;
A variable selection unit for selecting explanatory variables used in a prediction model for predicting the probability of non-obese type 2 diabetes prevalence based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable;
A prediction model generator for generating a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables; and
Prevalence probability calculation unit that calculates the probability of non-obese type 2 diabetes from data on the explanatory variables of the predicted person based on the generated prediction model
Non-obese type 2 diabetes probability prediction system including.
제1항에 있어서,
상기 샘플 데이터의 복수의 설명 변수는 인구사회학적 요인, 식습관, 영양지식, 정신건강, 신체활동, 생활습관, 비만, 당뇨병 가족력 및 임상 검사에 관한 정보를 포함하고,
상기 샘플 데이터의 결과 변수는 비비만 제2형 당뇨의 유병 여부에 관한 정보를 포함하는 비비만 제2형 당뇨 확률 예측 시스템.
According to paragraph 1,
A plurality of explanatory variables in the sample data include information on sociodemographic factors, eating habits, nutritional knowledge, mental health, physical activity, lifestyle habits, obesity, family history of diabetes, and clinical examination,
A non-obese type 2 diabetes probability prediction system in which the outcome variable of the sample data includes information on the presence or absence of non-obese type 2 diabetes.
제1항에 있어서,
상기 학습 모델 구축부는 샘플 데이터의 일부 데이터의 잔여 오차(Residual Error)를 계산하여 학습 모델을 구축하는 순서형 부스팅(Ordered Boosting), 학습을 위한 샘플 데이터의 순서를 랜덤하게 섞는 랜덤 순열(Random Permutation) 및 동일한 정보 이득(information gain)을 갖는 설명 변수들을 하나의 피처(feature)로 묶는 변수 조합(feature combinations)의 특성을 포함하는 부스팅 알고리즘에 기초하여 학습 모델을 구축하는 비비만 제2형 당뇨 확률 예측 시스템.
According to paragraph 1,
The learning model building unit performs ordered boosting to build a learning model by calculating the residual error of some of the sample data, and random permutation to randomly mix the order of sample data for learning. And non-obese type 2 diabetes probability prediction that builds a learning model based on a boosting algorithm that includes the characteristics of variable combinations that group explanatory variables with the same information gain into one feature. system.
제1항에 있어서,
상기 변수 선택부는 구축된 학습 모델의 Shapley value에 기초하여 예측 모델에 사용되는 설명 변수를 선택하는 비비만 제2형 당뇨 확률 예측 시스템.
According to paragraph 1,
A non-obese type 2 diabetes probability prediction system in which the variable selection unit selects explanatory variables used in the prediction model based on the Shapley value of the constructed learning model.
제1항에 있어서,
선택된 설명 변수는 (1) 연령, (2) 요당, (3) 형제 자매와 관련된 당뇨병 가족력, (4) 어머니와 관련된 당뇨병 가족력, (5) 허리둘레, (6) 요단백, (7) 식품에 대한 영양표시 인지여부, (8) 지난 1년간 자살생각경험 및 (9) 지난 1주간 중강도 신체활동 실천 여부를 포함하는 비비만 제2형 당뇨 확률 예측 시스템.
According to paragraph 1,
The explanatory variables selected were (1) age, (2) urine sugar, (3) family history of diabetes related to siblings, (4) family history of diabetes related to mother, (5) waist circumference, (6) urine protein, and (7) food intake. A prediction system for the probability of non-obese type 2 diabetes, including (8) awareness of nutritional labels, (8) experience of suicidal thoughts in the past year, and (9) participation in moderate-intensity physical activity in the past week.
제1항에 있어서,
상기 예측 모델은 로지스틱 회귀에 기초하여 작성된 노모그램(nomogram)을 이용하여 비비만 제2형 당뇨 유병 확률을 산출하는 비비만 제2형 당뇨 확률 예측 시스템.
According to paragraph 1,
The prediction model is a non-obese type 2 diabetes probability prediction system that calculates the probability of non-obese type 2 diabetes using a nomogram created based on logistic regression.
제6항에 있어서,
상기 노모그램은,
각 설명 변수에 할당된 비만 예측 점수를 나타내고, 0과 100 사이의 점수 범위를 갖는 예측 점수선(prediction point line);
각 설명 변수에 대하여 유병 확률에 영향을 미치는 정도에 대응하는 길이를 갖고, 상기 예측 점수선의 점수 범위의 적어도 일부에 매칭되는 시점(start point) 및 종점(end point)을 포함하는 변수선(variable line);
각 설명 변수에 대하여 산출된 예측 점수의 총합계를 나타내는 총점선(total point line);
상기 총점선의 총합계에 대응하는 유병 확률을 나타내는 확률선(probability line)
을 포함하는 비비만 제2형 당뇨 확률 예측 시스템.
According to clause 6,
The nomogram is,
a prediction point line indicating the obesity prediction score assigned to each explanatory variable and having a score range between 0 and 100;
For each explanatory variable, a variable line has a length corresponding to the degree of influence on the probability of prevalence and includes a start point and an end point that match at least a portion of the score range of the prediction score line. );
a total point line representing the total sum of predicted scores calculated for each explanatory variable;
A probability line indicating the probability of prevalence corresponding to the sum of the total dot lines.
Non-obese type 2 diabetes probability prediction system including.
제1항에 있어서,
상기 유병 확률 산출부는 각 설명 변수의 가중치를 반영하여 비비만 제2형 당뇨 유병 확률을 산출하고,
각 설명 변수의 가중치는, (1) 연령, (2) 요당, (3) 형제 자매와 관련된 당뇨병 가족력, (4) 어머니와 관련된 당뇨병 가족력, (5) 허리둘레, (6) 요단백, (7) 식품에 대한 영양표시 인지여부, (8) 지난 1년간 자살생각경험, (9) 지난 1주간 중강도 신체활동 실천 여부의 순서로 큰 값을 갖는 비비만 제2형 당뇨 확률 예측 시스템.
According to paragraph 1,
The prevalence probability calculation unit calculates the probability of non-obese type 2 diabetes by reflecting the weight of each explanatory variable,
The weight of each explanatory variable is: (1) age, (2) urine sugar, (3) family history of diabetes related to siblings, (4) family history of diabetes related to mother, (5) waist circumference, (6) urine protein, (7) ) A non-obese type 2 diabetes probability prediction system with the largest values in the following order: (8) awareness of nutrition labels on food, (8) experience of suicidal thoughts in the past year, and (9) participation in moderate-intensity physical activity in the past week.
비비만 제2형 당뇨 확률 예측 시스템에 의해 수행되는 비비만 제2형 당뇨 확률 예측 방법으로서,
복수의 설명 변수 및 결과 변수에 대한 데이터를 포함하는 샘플 데이터의 머신 러닝에 의해 비비만 제2형 당뇨 위험군을 예측하기 위한 학습 모델을 구축하는 학습 모델 구축 단계;
구축된 학습 모델에서 각 설명 변수가 결과 변수에 영향을 미치는 정도에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델에 사용되는 설명 변수를 선택하는 변수 선택 단계;
선택된 설명 변수에 기초하여 비비만 제2형 당뇨 유병 확률을 예측하기 위한 예측 모델을 생성하는 예측 모델 생성 단계; 및
생성된 예측 모델에 기초하여 예측 대상자의 설명 변수에 대한 데이터로부터 비비만 제2형 당뇨 유병 확률을 산출하는 유병 확률 산출 단계
를 포함하는 비비만 제2형 당뇨 확률 예측 방법.
A non-obese type 2 diabetes probability prediction method performed by a non-obese type 2 diabetes probability prediction system,
A learning model construction step of constructing a learning model for predicting a non-obese type 2 diabetes risk group by machine learning of sample data including data on a plurality of explanatory variables and outcome variables;
A variable selection step of selecting explanatory variables used in a prediction model for predicting the probability of non-obese type 2 diabetes prevalence based on the degree to which each explanatory variable in the constructed learning model affects the outcome variable;
A prediction model generation step of generating a prediction model for predicting the probability of non-obese type 2 diabetes based on the selected explanatory variables; and
Prevalence probability calculation step in which the probability of non-obese type 2 diabetes is calculated from data on the explanatory variables of the predicted person based on the generated prediction model.
Non-obese type 2 diabetes probability prediction method including.
제9항에 기재된 비비만 제2형 당뇨 확률 예측 방법을 컴퓨터에 의해 수행시키기 위해 기록 매체에 저장된 프로그램.A program stored in a recording medium for performing the method for predicting the probability of non-obese type 2 diabetes according to claim 9 by a computer.
KR1020220133312A 2022-10-17 2022-10-17 System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium KR20240053340A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220133312A KR20240053340A (en) 2022-10-17 2022-10-17 System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220133312A KR20240053340A (en) 2022-10-17 2022-10-17 System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium

Publications (1)

Publication Number Publication Date
KR20240053340A true KR20240053340A (en) 2024-04-24

Family

ID=90884392

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220133312A KR20240053340A (en) 2022-10-17 2022-10-17 System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium

Country Status (1)

Country Link
KR (1) KR20240053340A (en)

Similar Documents

Publication Publication Date Title
Schwab et al. Clinical predictive models for COVID-19: systematic study
Ikemura et al. Using automated machine learning to predict the mortality of patients with COVID-19: prediction model development study
Austin et al. Automated variable selection methods for logistic regression produced unstable models for predicting acute myocardial infarction mortality
KR20180079209A (en) Apparatus and method for predicting disease risk of chronic kidney disease
Marill et al. Estimating negative likelihood ratio confidence when test sensitivity is 100%: a bootstrapping approach
Hiesmayr et al. The patient-and nutrition-derived outcome risk assessment score (PANDORA): development of a simple predictive risk score for 30-day in-hospital mortality based on demographics, clinical observation, and nutrition
Warren et al. Critical window variable selection: estimating the impact of air pollution on very preterm birth
Wang et al. Dynamic prediction for multiple repeated measures and event time data: an application to Parkinson’s disease
Jewell et al. Net reclassification improvement
Gormley et al. Combining biomarker and self-reported dietary intake data: A review of the state of the art and an exposition of concepts
Wang et al. A Bayesian normal mixture accelerated failure time spatial model and its application to prostate cancer
Schroeder et al. A patient-centered proposal for bayesian analysis of self-experiments for health
Mannan A practical application of a simple bootstrapping method for assessing predictors selected for epidemiologic risk models using automated variable selection
Adhikary et al. Firth's penalized method in Cox proportional hazard framework for developing predictive models for sparse or heavily censored survival data
Wong et al. Derivation and validation of a model to predict daily risk of death in hospital
Lu et al. Bayesian approaches to variable selection in mixture models with application to disease clustering
Bernard et al. Explainable machine learning framework to predict personalized physiological aging
KR102541510B1 (en) Method for constructing prediction model of suicide using national medical check-up data
KR20240053340A (en) System for predicting non-obese type 2 diabetes mellitus, method for predicting non-obese type 2 diabetes mellitus and program stored in a recording medium
Fiorentino et al. An early warning risk prediction tool (RECAP-V1) for patients diagnosed with COVID-19: protocol for a statistical analysis plan
Park et al. Bayesian approach to multivariate component-based logistic regression: analyzing correlated multivariate ordinal data
Ibrahim et al. Development and validation of a simple risk model for predicting metabolic syndrome (MetS) in midlife: a cohort study
Singh et al. On missingness features in machine learning models for critical care: observational study
Imperiale et al. Risk stratification strategies for colorectal cancer screening: from logistic regression to artificial intelligence
Gupta et al. Assessing the relationship between gestational glycemic control and risk of preterm birth in women with type 1 diabetes: A joint modeling approach