WO2023033275A1

WO2023033275A1 - 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템

Info

Publication number: WO2023033275A1
Application number: PCT/KR2022/002749
Authority: WO
Inventors: 유진태; 유진호
Original assignee: 유진바이오소프트 주식회사
Priority date: 2021-08-28
Filing date: 2022-02-24
Publication date: 2023-03-09
Also published as: CN117999617A; JP2024530322A; US20240047077A1; KR102371440B1

Abstract

본 발명은 건강 검진 데이터를 기반으로 연령별 출생나이에 대한 초과나이를 구하여 개인별 생체나이를 예측할 수 있는 모델을 생성하기 위한 개인 맞춤 생체나이 예측 모형 생성 방법 및 그 시스템에 관한 것이다. 보다 구체적으로, 본 발명은 남,녀 또는 출생 연령대에 따라 노화 메커니즘이 서로 다른 것임을 감안하여, 성별과 출생 연령대별로 생체나이 예측 모델을 구축하고, 각 연령대별 생체나이 예측 모델에 따라서 생체나이를 예측할 수 있도록 하는 개인 맞춤 생체나이 예측 모형 생성 방법 및 그 시스템에 관한 것이다.

Description

개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템

본 발명은 개인 맞춤형으로 생체나이를 예측하기 위한 모형 생성 방법에 관한 것으로, 건강 검진 데이터를 기반으로 연령별 출생나이에 대한 초과나이를 구하여 개인별 생체나이를 예측할 수 있는 모델을 생성하기 위한 개인 맞춤 생체나이 예측 모형 생성 방법 및 그 시스템에 관한 것이다.

일반적으로 출생나이는 금년도와 출생 연도와의 차이를 나타내는 것으로, 개인의 현재 건강 상태와는 관계없이 동일 연도에 태어난 사람은 모두 출생나이가 동일하게 나타날 수밖에 없다.

따라서 개인의 현재 건강 상태 또는 전반적인 신체 기능 저하와 관련이 있는 "노화"를 출생나이만으로는 온전히 나타낼 수 없기 때문에 노화와 관련된 신체 기능 저하를 나타내는 "생체나이"를 예측 또는 측정할 수 있는 기술 개발이 필요하다.

생체나이란 출생나이와는 달리, 몸의 전반적인 건강 상태에 따라서 달라지는 부분들을 수치화한 것으로, 즉 몸의 건강 및 노화 정도를 수치로 나타낸 것이다.

똑같은 출생나이인 사람들이라 하더라도 몸의 건강 상태가 서로 다를 수 있기 때문에, 몸의 전반적인 건강 상태를 측정 또는 추정하여 구해진 생체나이를 이용하는 것이, 출생나이보다는 현재의 전반적인 건강 상태, 노화, 더 나아가 실질적인 기대 수명을 측정하는 것이 보다 정확하다고 할 수 있다.

< 생체나이 예측/측정을 위한 기존 연구 >

생체나이를 측정하고자 하는 연구는 1969년 Comfort로부터 시작하여 현재까지 꾸준히 지속 되어 오고 있다.

생체나이를 측정하는 데 사용하는 바이오마커가 갖추어야 할 요인으로는,

1). 신체의 기능이나 신진대사 시스템에 대한 정보 제공,

2). 출생나이와 상관관계가 있는 정량적인 특성 보유,

3). 재현성, 민감성, 구체적인 특성 보유,

4). 인간뿐 아니라 실험동물에 적용하는 데도 적합할 것 등이 있음

이러한 것들을 고려하여 신체적(physical), 생리적(physiological), 생화적(biochemical) 인 바이오마커를 사용하여 생체나이를 측정하고자 하는 연구가 진행되었다.

생체나이를 측정하는 데 많이 사용하는 바이오마커로는 체질량 지수(BMI), 혈압(수축기 혈압, 이완기 혈압), 허리둘레, 폐활량, 근육량, 알부민, 콜레스테롤 수치 등이 있으며, 이들을 독립 인자로 사용하여 다중 회귀 분석(multivariable linear regression analysis), 주성분분석 (PCA, principal component analysis)을 사용하여 생체나이 측정 모형을 연구하고 있다.

< 사망 위험도 예측 연구 >

Levine and Crimmins 는 생체나이를 사용해 10년 동안 사망률을 예측하는 연구를 진행하였으며, Brown and McDaid 는 출생나이, 교육 정도, 성별, 소득, 결혼상태, 직업, 인종, 종교, 흡연, 음주, 활동량, 비만 등의 요인이 성인의 사망률에 미치는 영향에 대한 조사 및 연구를 진행하였다.

한편, 성별, 흡연유무, 출생나이, underwriting class를 포함한 9개의 요인으로 로지스틱 회귀 모형을 구축하여 사망위험도를 평가하는 모형을 연구한 사례도 있다.

국내에서는 대규모 한국인을 대상으로 한 건강 검진 데이터를 사용하여 생체나이를 측정하는 모형을 구축한 후 생체나이가 출생나이보다 많게 측정된 경우 17년 동안의 사망에 미치는 영향력을 Cox regression 모형을 사용하여 연구한 사례가 있다.

현재 논문이나 특허 형태로 공개되어 있는 생체나이 측정 모형에서는 개인의 생체나이= 55.7 세와 같이 수치 1개만으로 제시되는데, 이 수치가 의미하는 정량 및 정성적인 해석이 객관적이지 못하며 불분명하기 때문에 개인의 노화 상태를 수치 1개가 아닌 생체나이 확률 스펙트럼/분포와 같이 다른 형태로 나타낼 필요가 있다.

< 생체나이 측정 관련 SCI급 논문 >

현재 공개되어 있는 생체나이 측정 모형

(a). A new approach to the concept and computation of biological age

2006, Mechanisms of Ageing and Development (체코인 대상)

바이오마커의 영향력을 비선형적으로 모델링

(b). A method for identifying biomarkers of aging and constructing an index of biological age in humans.

2007, Journal of Gerontology (교토대, 일본 남자 대상)

PCA 분석 기법을 이용한 모델링 (R2 = 0.52 )

(c). Development of models for predicting biological age (BA) with physical, biochemical, and hormonal parameters

2008, Arch Gerontol Geriatr. (종합 생체, 신체, 생화학, 호르몬 나이로 구분, 한국인 대상)

Multiple linear regression 모델링 (남자 R2=0.62, 여자 R2=0.66 )

(d). Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean men

2009, Archives of Gerontology and Geriatrics (연령대별 정상, 당 이상, 당뇨환자 구분, 서울대, 한국인 남자 대상)

PCA 분석 기법을 이용한 모델링 (R2=0.581 )

(e). Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults

2012, Gerontology (연령대별 정상, 비만 환자 구분, 아산병원, 한국인 대상)

PCA 분석 기법을 이용한 모델링 (남자 R2=0.638, 여자 R2=0.672 )

(f). 생체나이가 사망에 미치는 영향력 분석

Biological age as a useful index to predict seventeen-year survival and mortality in Koreans

2017, BMC Geriatrics (55만여 한국인을 대상으로 17년 추적 조사한 자료를 사용하여 생체나이가 사망에 미치는 영향력 분석

여기서, 상기 R2 는 결정계수 (coefficient of determination)을 의미한다.

< 다중 선형 회귀 분석 모형 : MLR >

도 3은 선형 회귀 직선을 나타낸다.

도 3에서의 선형 회기 직선은 Y = a + b*X 와 같은 선형 회기식으로 표시할 수 있다.

도 3에서 나타낸 점들은 각 개인의 측정된 좌표 X(검진 수치), Y(나이)를 나타내는데, 검진 수치가 커질수록 출생나이가 증가하는 경향을 보인다. 이를 선형회귀 모형으로 표현하면, 검진 수치는 커질수록 나이를 시키는 영향을 나타낸다.

(검진 수치가 나이 증가에 미치는 정량적인 영향력이 선형 회귀 식의 기울기)

즉, 검진 수치와 나이(보다 정확하게는 출생나이) 사이의 증/감 관계 어딘 가에 존재할 것으로 추정되는 생체나이를 위 선형 회귀 식의 Y 값으로 생각해 보자 라고 하는 것이 선형 회귀 모형을 사용한 생체나이예측 모형의 개요라 할 수 있다.

다중 선형 회귀 분석 모형은 다음의 수학식 1과 같이 나타낼 수 있다.

< 수학식 1 >

다중 선형 회귀 모형 (MLR, Multivariable Linear Regression)

상기 수학식 1은 종속 변수(Y)를 출생나이로 두고 BMI, SBP, HDL 변수 3개를 독립 변수로 삼아 독립 변수가 출생나이에 미치는 선형적인 영향력을 나타낸 것이다.

여기서, a1, a2, a3 는 회귀 계수(regression coefficient) 로 각각 BMI, SBP, HDL 이 출생나이에 미치는 영향력을 나타낸다.

그리고 a0는 회귀 상수 (intercept 또는 regression constant)이다.

상기 수학식 1을 통해 계산되는 Y는 BMI, SBP, HDL 측정값을 입력했을 때 계산되는 수치인데, 이 수치를 생체나이로 생각하자는 것이 MLR 모형의 핵심이다.

이와 같은 다중 선형 회귀 모형(MLR)은 다음과 같은 문제점이 있다.

젊은 사람의 경우 BA(생체나이)가 CA(출생나이)에 비해 높게 예측(overestimate)이 되고 나이가 많은 사람의 경우 생체나이(BA)가 낮게(underestimate) 예측된다.

이는 데이터가 가지고 있는 특성 때문인 것으로 추정되며, 정확히 어떤 메커니즘 때문인지는 알 수 없다.

도 4는 출생나이(X)와 생체나이(Y)의 관계를 나타낸 그래프로써, 다중 선형 회귀 모델의 over(under) estimation 예를 나타낸다.

생체나이(BA)에서 출생나이(CA)가 건강 검진 항목에 종속적(종속 변수)이라고 하는 점에서 모순이 존재한다.

즉, 출생나이(CA)는 건강 검진 항목이 아니라 달력 시간(calendar time)에 종속적인 것이다.

특히, 건강 검진 항목과 출생나이(CA)와의 상관관계가 "1"이라고 하면 건강 검진 항목 자체는 그 자체로 쓸모가 없다.(근거: Ingram, 1988)

이는 모델 수립 시에 세운 가정 자체에 모순이 있는 것을 의미한다.

다음은 다중 선형 회귀 모형의 문제점을 언급한 논문들이다.

(a). 2008 선형회귀모델- MLR 모형

Development of models for predicting biological age (BA) with physical, biochemical, and hormonal parameters

(b). 2009 서울대 병원 모델 - PCA 모형

Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean

(c). 2011 아산병원 모델 - PCA 모형

Development and Application of Biological Age Prediction Models with Physical Fitness and Physiological Components in Korean Adults

(d). 2010 생체나이 모형 간 비교 논문

An empirical comparative study on biological age estimation algorithms with an application of Work Ability Index (WAI)

< 주성분 분석 모형 설명 ; PCA >

주성분 분석법(PCA ; Principal Component Analysis)은,

도 5에서와 같이, 다수 변수들(v1 ~ v5) 이 나타내는 공통적인 특성을 분석하여 이들을 대표할 수 있는 소수의 독립적인 요인(요인 1, 요인 2)을 찾아내는 방법이다.

예를 들어 SBP, DBP, HDL, LDL, TG 와 같은 5개 변수를 사용해서 PCA 분석을 하게 되면 "혈압요인" 과 "콜레스테롤 요인"이라는 2개의 독립적인 요인을 추출할 수 있다.

다수의 건강 검진 변수 (BMI, WST, SBP, DBP, AST, ALT, GGTP, HDL, LDL, TG, 폐활량 등)에 PCA를 적용하여 이들 변수에 공통적으로 존재하는 "1개의 요인"을 추출한다.

이와 같이 PCA를 통해 추출된"1개의 요인과 출생나이는 상당한 수준의 양의 상관관계"가 있는 것으로 분석된다. (Pearson' correlation coefficient 0.8)

따라서 PCA 방법으로 추출된 "1개의 요인" 이 사람의 실제 노화 상태를 나타내는 "생체나이"로 결정하자는 것이 PCA 생체나이 예측 모형의 핵심이다.

다음은 PCA를 사용한 생체나이 예측 모형들이다.

(a). 2009 서울대병원모델-PCA모형

Developing a biological age assessment equation using principal component analysis and clinical biomarkers of aging in Korean men

(b). 2011 아산병원모델-PCA모형

(c). 2007 일본인모델-PCA모형

A Method for Identifying Biomarkers of Aging and Constructing an Index of Biological Age in HumansPCA

PCA를 사용한 생체나이 예측 모형 특징

PCA 분석에서는 다중회귀 분석법과는 달리 종속 변수, 독립 변수의 구분이 없다. 즉, 건강 검진 항목이 5개라고 할 때, 5개의 수치들에서 공통적으로 나오는 요소(주성분)를 추려내는 방법이라고 할 수 있다.

도 5에서, 5개의 변수들이 좌표상에서의 위치를 보면 v1~v3 과 v4~v5는 서로 다른 2개의 묶음(cluster)에 속해있다고 볼 수 있으며 이것은 곧 5개의 변수들을 2개의 요인으로 설명할 수 있다고 말할 수 있다.

결국 입력값으로는 5개 변수가 들어가지만 실제 생체나이(BA) 예측에 사용되는 변수는 요인1 과 요인 2라고 말할 수 있다.

여기서, 실제 생체나이 예측모형에는 가장 영향력이 큰 요인 1개만 사용한다.

PCA를 사용한 생체나이 예측모형은 다중선형회귀분석(MLR) 모형과는 다르게 출생나이(CA)를 종속 변수로 사용하지는 않으나, 추출된 가장 큰 영향력을 나타내는 요인을 나이(예; 1세, 2세)와 같은 단위(즉, unit)을 가지게 하고, 생체나이(BA) 예측에서의 바이어스(bias)를 보정 하기 위해 출생나이(CA)가 독립 변수로서 생체 나이(BA) 예측 모델에 들어간다.

PCA 모형을 정리하면 다음과 같은 수학식 2와 같이 나타낼 수 있다.

< 수학식 2 >

여기서, BA는 생체나이, X1은 PCA를 통해 추출된 주성분 요인 1개, CA는 출생나이를 의미하며, F는 X1을 입력변수로 사용한 변환 함수, G는 CA를 입력변수로 사용한 변환 함수를 의미한다.

즉, 생체나이는 PCA 주성분 요인 및 출생나이에 각각 가중치를 곱한 후 더해서 계산한 수치를 의미하는 것이다.

< PCA 모형의 단점 >

PCA를 통해 추출한 주성분이 출생나이와 상당히 높은 상관관계가 있기 때문에 이것이 생체나이를 대표하는 수치라고 하는 것은 연구자들의 주관적인 의견일 뿐이다.

또한, PCA를 통해 추출된 요인을 "나이"라는 단위를 가진 변수(생체나이)로 만들기 위해서 "출생나이"를 매개변수로 사용한 변환 함수를 도입한 것으로, 객관적으로 입증된 것이 아닌 연구자의 단순한 아이디어일 뿐이다.

"출생나이"를 매개변수로 사용하여 생체나이 모형에 포함한 또 하나의 이유는, "출생나이"를 매개변수로 사용하기 전에는 MLR 모형과 같이 젊은 층에서는 과대평가(overestimation)이 되고 나이든 층에서는 과소평가(underestimation)되는 현상이 동일하게 발생하기 때문이다.

대한민국 특허공개 2014년 제0126229호, "생체나이 연산 모델 생성 방법 및 시스템과 그 생체나이 연산 방법 및 시스템"에서는 상기 PCA 생체나이 예측 모델을 이용하여 생체나이를 연산하는 방법을 제공하고 있다.

노령화가 급속히 진행되고 있는 국내 환경에서 보다 건강한 삶을 오랫동안 영위하기 위한 예방 차원에서 개인별 노화 상태를 예측하기 위한 방법이 필요하다.

본 발명은 남,녀 또는 출생 연령대에 따라 노화 메커니즘이 서로 다른 것임을 감안하여, 성별과 출생 연령대별로 생체나이 예측 모델을 구축하고, 각 연령대별 생체나이 예측 모델에 따라서 생체나이를 예측할 수 있도록 하는 개인 맞춤 생체나이 예측 모형 생성 방법 및 시스템을 제공하고자 한 것이다.

본 발명은 단순히 생체나이(예 : 55세) 만의 수치 1개만을 제시하기 보다는 개인의 노화 상태를 생체나이 확률 스펙트럼/분포와 같은 형태로 나타내도록 함으로써, 보다 객관적이고 명확한 해석이 가능한 생체나이 정보를 제공할 수 있도록 한 개인 맞춤 생체나이 예측모형 및 서비스 시스템을 제공하고자 한 것이다.

현재 논문이나 특허로 공개 되어 있는 생체나이 측정 모형에서는 개인의 생체나이= 55.7 세와 같이 수치 1개만으로 제시되는데, 이 수치가 의미하는 정량 및 정성적인 해석이 객관적이지 못하며 불분명하기 때문에 개인의 노화 상태를 수치 1개가 아닌 생체나이 확률 스펙트럼/분포와 같은 형태로 나타낼 필요가 있다.

본 발명은 종래의 생체나이 예측 모형(MLR, PCA)과는 달리 검진데이터를 사용해서 생체나이를 직접 예측하는 것이 아니라, 검진데이터를 통해 출생나이가 설명하지 못하는"초과노화요인 (즉, Δ)"을 산출하는 것을 기술적 특징으로 한다.

본 발명은 남,녀 또는 출생 연령대에 따라 노화 메커니즘이 서로 다를 것으로 예상되기 때문에, 성별과 출생 연령대에 따라 다르게 동작하는 복수 개의 생체나이 측정 모델을 개발하고자 한다.

본 발명은 출생나이가 동일한 사람들을 대표하는 수치(예: 체질량 지수 평균, 혈압 평균 등)와 비교했을 때 개인에서 측정된 검진 수치 차이의 분포를 고려한 통계 모형으로 생체나이를 예측하고자 한다.

본 발명 개인 맞춤 생체나이 예측 모형 생성 방법은,

바이너리 로지스틱 회귀 모형을 생성하기 위하여 트레이닝 데이터(training data)로 이용될 연령 구간(x~y)을 설정하기 위한 연령 구간 설정 과정과,

상기 연령 구간 설정 과정에서 설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고, 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성과정과,

바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm) 연산하는 연령예측확률연산과정과,

언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(Receiver Operating Characteristic curve) 분석을 통해 컷오프(Cm)를 추출하는 컷오프추출과정과,

오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(Cm)를 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 연령예측확률보정과정과,

상기 연령예측확률보정과정을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산과정과,

상기 초과나이 연산과정을 통해 구한 개인별 초과나이를 출생나이에 더해 생체나이를 구하는 생체나이 연산과정, 을 포함하여 이루어지는 것을 특징으로 한다.

그리고 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터는 검진항목정보에 따라 이루어지며, 트레이닝 데이터로 이용되는 검진항목정보를 조회 및 추가, 삭제 설정하기 위한 검진항목정보설정과정을 더 포함하여 이루어지는 것을 특징으로 한다.

또한 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터에 대한 남,녀 조건정보를 설정하기 위한 조건정보설정과정을 더 포함하여 이루어질 수 있다.

상기 초과나이 연산과정에 있어서, 개인별 초과나이는,

개인별로 계산된 Dm (m=26, …, 75) 에 해당 나이 (=m)를 곱해서 모두 더한 값의 평균으로 연산되는 것을 특징으로 한다.

본 발명 개인 맞춤 생체나이 예측 모형 생성 시스템은,

건강검진시스템으로부터 제공되는 건강 검진 데이터를 수집하여 데이터 저장수단에 저장 관리하기 위한 검진데이터수집수단과,

설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 검진데이터수집수단으로부터 제공되는 검진데이터로부터 유효한 트레이닝 데이터를 결정하기 위한 트레이닝데이터 설정수단과,

상기 트레이닝 데이터 설정수단에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간(x~y)내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단과,

바이너리 로지스틱 회귀 모형 생성수단을 통해 생성된 바이너리 로지스틱 회귀 모형에 따라서 트레이닝 데이터의 각 개인별로 오버에이지 그룹으로 예측될 확률(Pm)을 연산하는 연령예측확률연산수단과,

언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단과,

상기 연령예측확률연산수단을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하는 연령예측확률보정수단과,

상기 연령예측확률보정수단을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산수단과,

상기 초과나이 연산수단을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하는 생체나이 연산수단과,

검진데이터수집수단으로부터 수집된 건강검진데이터, 트레이닝 데이터 설정수단을 통해 설정된 트레이닝 데이터가 저장 관리되는 데이터저장수단을 포함하여 구성되는 것을 특징으로 한다.

상기 트레이닝데이터 설정수단의 연령구간, 검진항목정보를 사용자가 조회, 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성된 것을 특징으로 한다.

상기 트레이닝데이터 설정수단에서 트레이닝 데이터를 결정하기 위한 조건정보를 사용자가 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성되며, 조건정보는 남,녀 성별 정보인 것을 특징으로 한다.

상기 트레이닝데이터 설정수단의 검진항목정보는,

체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표를 포함하는 건강보험 검진항목 데이터로 이루어지는 것을 특징으로 한다.

이와 같은 본 발명은, 국민건강보험공단에 이미 축적되어 있는 고품질의 대규모 건강 검진 데이터를 활용하여 생체나이 예측 모형을 개발함으로써, 생체나이 예측 모형을 개발하기 위한 데이터를 별도로 구축, 연구하는 과정에 소요되는 비용 및 시간을 줄일 수 있다.

또한 본 발명은 남녀, 연령대에 따라서 그 노화정도를 달리함을 감안하여, 검진데이터를 이용하여 남녀, 연령대별에 따른 각 개인의 상대적인 값들을 이용하여 개인별 초과나이를 연산하여 이를 가중치 정보로 생체나이를 예측할 수 있도록 함으로써, 보다 신뢰도 있는 개인 맞춤 생체 예측 모형을 생성할 수 있다.

도 1은 출생나이와 수축기 혈압과의 상관관계를 나타낸 데이터 분포 예시를 나타낸 도면.

도 2는 출생나이와 헤모글로빈과의 상관관계를 보인 데이터 분포 예시를 나타낸 도면.

도 3은 다중 선형 회귀 분석 모형(MLR)에 있어서, 선형 회귀 직선을 나타낸 도면.

도 4는 출생나이(X)와 생체나이(Y)의 관계를 나타낸 그래프.

도 5는 주성분 분석법(PCA ; Principal Component Analysis)를 사용한 생체나이 예측모형을 나타낸 도면.

도 6은 본 발명 개인 맞춤 생체나이 예측 모형 생성 방법의 과정을 보인 플로우챠트.

도 7은 본 발명에 있어서, 바이너리 로지스틱 회귀 모형을 생성하는 과정을 나타낸 도면.

도 8은 본 발명에 있어서, 바이너리 로지스틱 회귀모형에 따라서 구해진 확률값(Pm)을 나타낸 도표.

도 9는 본 발명에 있어서, 컷오프추출과정을 통해 추출된 컷오프 값을 나타낸 도표.

도 10은 본 발명에 있어서, 연령예측확률수정과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 나타낸 도표.

도 11은 본 발명에 있어서, 개인별 초과나이 프로파일 예를 나타낸 도면.

도 12는 본 발명에 있어서, 생체나이를 예측하기 위한 모형 생성 과정에 대한 실시 예를 나타낸 플로우챠트.

도 13은 상기와 같은 본 발명 개인 맞춤형 생체나이 모형 생성 시스템의 구성을 나타낸 블록도.

본 발명 개인 맞춤 생체나이 예측모형 생성 방법은, 검진데이터를 통해 출생나이가 설명하지 못하는 "초과노화요인(Δ)"을 산출하고, 이를 이용하여 생체나이를 예측하도록 함을 그 기술적 특징으로 한다.

본 발명 개인 맞춤형 생체나이 모형 생성과정은 다음과 같이 이루어진다.

바이너리 로지스틱 회귀 모형을 생성하기 위하여 트레이닝 데이터(training data)로 이용될 연령 구간(x~y)을 설정하기 위한 연령 구간 설정 과정과, 상기 연령 구간 설정 과정에서 설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고, 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성과정과,

언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출과정과,

상기 초과나이 연산과정을 통해 구한 개인별 초과나이를 출생나이에 더해 생체나이를 구하는 생체나이 연산과정, 을 포함하여 이루어진다.

본 발명 생체나이 예측모형은 다중 이진 로지스틱 회귀 분석(MBLR ; Multivariable binary logistic regression)이라 정의할 수 있으며, 이의 특징을 단순화시키면 다음과 같이 나타낼 수 있다.

본 발명 생체나이 예측 모형(MBLR) ;

생체나이(BA) = 출생나이(CA) + Δ

Δ=f(BMI,SBP,.....,CA)

여기서, f(BMI, SBP, …)는 건강 검진 수치를 입력변수로 사용한 바이너리 로지스틱 회귀 분석(binary logistic regression) 모형에 기반한 초과노화요인 계산 함수를 나타낸다.

이에 대비되는 종래 MLR 모형, PCA모형은 다음과 같이 나타낼 수 있다.

MLR 모형 : BA = a0+a1×BMI+a2×SBP+...

PCA 모형 : BA = F(BMI,SBP,...) + G(CA)

이와 같이 이루어지는 본 발명은,

생체나이(BA)를 구함에 있어서, 출생나이(CA)에 대한 초과나이(Δi)를 구할 수 있도록 함을 그 기술적 특징으로 하는 것으로, 도 6에 도시된 바와 같이,

(a). 연령구간 설정과정,

(b). 바이너리 로지스틱 회귀 모형 생성과정,

(c). 연령예측확률 연산과정,

(d). 컷오프추출과정,

(e). 연령예측 확률 수정과정,

(f). 초과나이 연산과정,

(g). 생체나이 연산과정, 을 포함하여 이루어진다.

상기 연령구간 설정과정은,

생체나이를 구하기 위한 트레이닝 데이터를 이용하기 위한 건강보험 검진데이터의 대상을 설정하기 위한 과정으로, 바이너리 로지스틱 회귀 모형을 구하기 위하여 사용되는 연령 구간(x~y)을 설정한다.

본 발명 실시 예는 26세(x) 내지 75세(y)를 건강보험 검진데이터의 대상으로 설정한다.

상기 26, 75세는 건강보험 데이터의 특성 때문에 사용된 값으로, 건강보험 데이터가 아닌 경우, x(26세), y(75세)는 변경될 수 있다.

상기 바이너리 로지스틱 회귀 모형 생성과정은, 2개의 그룹에서 오버에이지(OAGm)로 보일 수 있는 확률(Pm)을 구하기 위한 바이너리 로지스틱 회기 모형을 생성하기 위한 과정으로, "출생나이"를 2개 그룹으로 구분하고, 이 두 개의 그룹에서 어느 하나의 그룹(OAGm)을 예측할 수 있는 모형을 생성하기 위한 과정이다.

상기 설정된 26세 내지 75세의 구간에서 설정할 수 있는 연령 단위는 50개 단위이며, 각 단위마다 검진항목별 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 나눈다.

도 7은 바이너리 로지스틱 회귀 모형을 생성하는 과정을 나타낸 도면이다.

도 7에 도시된 바와 같이, 각 단위 나이에서 해당 나이의 미만 그룹(UAGm), 해당 나이 이상 그룹(OAGm)으로 구분하고, 각 단위에서 트레이닝 데이터로 두 개의 그룹에서 어느 하나를 선택하여 총 50개의 바이너리 로지스틱 회귀 모형을 생성하게 된다.

예를 들면, 26세 단위에서, 26세 미만 그룹과, 26세 이상 그룹을 설정하고, 트레이닝 데이터로 설정된 검진항목 데이터 단위로 26세 미만, 26세 이상 그룹을 구분(0,1)하여 연령예측확률연산과정에서 26세 이상을 예측하기 위한 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되는 것으로, 검진항목별 특정 값들에 대하여 26세 미만 사람들은 '0', 26세 이상 사람들은 '1'로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 된다.

체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표와 같은 건강보험 검진항목의 각 검진데이터에 대하여 26세 미만인 사람들과 26세 이상인 값을 갖는 사람들로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되는 것이다.

즉, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 Y축으로 하는 반응변수로 하고, 상기 트레이닝 데이터(검진데이터)를 X축으로 하는 예측변수에 따라서 바이너리 로지스틱 회귀 모형을 생성하게 되는 것이다.

트레이닝 데이터로 이용될 상기와 같은 건강보험 검진항목을 조회 및 검진항목정보로 추가 및 삭제 설정할 수 있도록 검진항목정보설정과정을 더 포함하여 구성할 수 있다.

또한 트레이닝 데이터에 대한 조건정보를 설정하기 위한 조건정보설정과정을 더 포함할 수 있으며, 상기 조건정보는 남녀 성별정보로 구성할 수 있다.

이에 따르면, 남녀 성별에 따른 생체나이 예측 모형을 별개로 구성할 수 있다.

이와 같은 과정을 26세 내지 76세까지 수행하여 총 50개의 바이너리 로지스틱 회귀 모형(M26~M75)을 생성한다.

상기 연령예측확률연산과정은, 상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26~M75)에 따라서 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하는 과정이다.

다음의 수학식 3은 상기 바이너리 로지스틱 회귀 모형에 따른 연령예측확률 연산과정을 나타낸다.

< 수학식 3 >

여기서,

Y: 개인별 노화 상태(individual's aging status)

p(Y = OAGm) : 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)

Yi: i번째 개인별 노화 상태(ith individual's aging status)

i = 1,2, … , : 샘플번호(sample number)

m = 26(x),27, … , 75(y) ; 트레이닝 데이터에 이용되는 나이

(chronological age observed in the training data)

CA: 출생나이(Chronological age)

Xk: k번째 독립 변수(kth independent variable)

βk : k번째 독립변수의 회귀계수 (regression coefficient of kth independent variable)

p: 독립변수의 수(number of independent variable)

도 8은 바이너리 로지스틱 회귀모형에 따라서 구해진 확률값(Pm)을 나타낸 도표이다.

도 8의 도표에서 확률값 "P45"는 바이너리 로지스틱 회귀모형(M45)을 사용해 구해진 확률 값으로, 45세 이상으로 예측될 확률값을 의미한다.

예를 들어, 샘플 ID=1인 사람은 45세 이상으로 예측될 확률(P45)이 0.655이고, 75세 이상으로 예측될 확률은 0.211로 나타나는 것을 의미한다.

연령예측확률연산과정은 이런 확률값들을 모든 사람(샘플)들에 대하여 모든 연령에 대한 각 50개(P26~P75) 씩 계산하여 상기 도 8에서와 같은 도표를 생성한다.

즉 개인별로 모든 연령 단위에 대하여 확률(Pm) 값을 구하는 것이다.

여기서 도 8에 도시된 바와 같이, 오버에이지 그룹(OAG26)으로 예측될 확률(P26)을 살펴보면, 0.998로서, 1에 가까운 것을 알 수 있다.

이는 절대적인 값으로 상기와 같은 확률(Pm)에 대하여 생체나이를 예측하는 경우 부정확함으로써, 상대적인 값을 이용해야 하는 보다 정확한 생체나이 예측이 가능해진다.

따라서 생체나이를 판단하기 위한 기준값인 컷오프(Cm)가 필요하다.

상기 컷오프추출과정은, 26세~75세 대한 모든 사람을 대상으로 50개 모형 (M26 ~ M75)에 대하여 구해진 확률값(Pm)을 대상으로 ROC(Reciever Operating Characteristic curve and Area Under the Curve) 커브 분석을 통해 생체나이를 판단하기 위한 기준값을 구하기 위한 과정으로, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 수행하여 컷오프(cutoff)(Cm)를 추출한다.

이와 같은 컷오프추출과정은 유든의 J 통계량(Youden's J statistic)를 최대화하는 시점에서 컷오프(Cm) 추출하는 것으로, 민감도(Sensitivity)와 특이도(Specificity)를 더 한 것이 최대가 되는 컷오프 추출한 결과를 의미한다.

도 9는 컷오프추출과정을 통해 추출된 컷오프 값을 나타낸 도표이다.

예를 들어 도 9의 도표에서 C45는 모형 M45에서 구해진 컷오프 값으로 확률값이 0.547 이상으로 계산될 때는 해당 사람의 나이가 45세 이상인 집단에 속할 것으로 예측한다는 의미이다.

상기 연령예측확률보정과정은 상기 연령예측확률연산과정을 통해 구해진 컷오프(Cm) 값을 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)로 보정하는 과정이다.

도 10은 상기 연령예측확률보정과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 나타낸 도표이다.

도 10의 도표에서 D26 ~ D75는, 개인별 50개씩 계산된 확률값(P26 ~ P75)에서 ROC 커브를 통해 계산된 컷오프(C26 ~ C75)를 각각 뺀 값이다. (Dm=Pm-Cm)

예를 들어, ID=1인 사람의 출생나이가 35세인데, 이 사람이 45세 이상으로 예측될 가능성인 D45가 "D45=0.108(P45-C45 ; 0.655-0.547)"와 같다는 것이다.

여기서 (-) 값인 경우에는 해당 나이 미만으로 생각할 수 있다는 것이다.

상기 초과나이 연산과정은, 상기 과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 생체나이를 구하기 위한 개인별 초과나이(Individual's excess aging)를 구하는 과정이다.

다음의 수학식 4는 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 연산하는 과정을 나타낸다.

< 수학식 4 >

여기서, N: sample number i = 1,2, … , N

Δi : weighted mean of (Pim-Cm)

Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값

(cutoff of Pm to predict individual′s aging status from ROC curve analysis)

즉, 각 개인별로 계산된 Dm (m=26, …, 75) 에 해당 나이 (=m) 를 곱해서 모두 더한 값의 평균을 각 개인의 "초과나이"로 정의한 것이다.

여기서, 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균으로 개인별 초과나이를 구하게 되는 바, 추가적으로 적용할 가중치(Wm)가 있는 경우 이를 적용하여 가중치 평균을 구할 수 있다.

다음의 수학식 5는 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 연산하는 과정을 나타낸다.

< 수학식 5 >

여기서, N: sample number i = 1,2, … , N

Δi : weighted mean of (Pim-Cm)

Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값

(cutoff of Pm to predict individual′s aging status from ROC curve analysis)

Wm: 출생나이가 m 이상으로 예측하기 위한 가중치(weight applied for the model to predict CA ≥ m)

상기 생체나이 연산과정은 상기 초과나이 연산과정에서 구한 초과나이를 이용하여 출생나이에 더하여 생체나이를 구하는 과정이다.

이와 같은 본 발명은 건강보험 검진데이터를 이용하여 생체나이를 예측하기 위한 모형(알고리듬)을 생성하는 것을 그 기술적 특징으로 한다.

본 발명에서는 출생나이(CA)에 대한 초과나이(Δi)를 구하여 생체나이를 예측할 수 있도록 한다.

먼저, 생체나이를 구하기 위한 트레이닝 데이터를 이용하기 위한 건강보험 검진데이터의 대상을 설정한다.

본 발명 실시 예에서는 26세 내지 75세를 그 트레이닝 데이터 연령 대상(x~y)으로 설정하며, 이는 바이너리 로지스틱 회귀 모형을 구하기 위한 연령 구간이다.

상기에서 설명한 바와 같이, 건강보험 검진데이터의 특성을 고려하여 26세에서 75세를 바이너리 로지스틱 회귀 모형을 구하기 위한 연령구간으로 설정한다.

또한 트레이닝 데이터로 이용될 검진항목을 검진항목정보로 설정하기 위한 검진항목정보설정과정을 더 포함할 수 있으며, 사용자(관리자)가 생체나이 예측을위해 트레이닝 데이터로 이용될 검진항목을 설정할 수 있다.

도 12는 본 발명에 있어서, 생체나이를 예측하기 위한 모형 생성 과정에 대한 실시 예를 나타낸 플로우챠트이다. 도 12를 참조하여 그 동작 과정의 실시 예를 설명하면 다음과 같다.

먼저, 트레이닝 데이터에 이용될 나이를 초기화하고, m=26세를 설정한다.

이후 트레이닝 데이터에 따라서 26세 미만인 언더에이지 그룹(UAG26)과 26세 이상인 오버에이지 그룹(OAG26)으로 구분한다.

즉, 건강검진 데이터에 대하여 상기 26세 미만, 26세 이상으로 구분하는 것으로, 건강검진 항목별 특정 값들에 대하여 검진데이터의 샘플대상(사람)을 확인하여 26세 미만의 샘플(사람)은 언데에이지 그룹(UAGm)'0'으로 설정하고, 26세 이상의 샘플(사람)은 오버에이지 그룹(OAGm)'1'로 설정하고, 이에 따라서 26세에 해당하는 바이너리 로지스틱 회귀 모형(M26)을 생성하는 것이다.

상기 바이너리 로지스틱 회귀 모형은, 2개의 그룹에서 오버에이지(OAGm)로 보일 수 있는 확률(Pm)을 구하기 위한 것으로, 상기에서 설명한 바와 같이, 체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표 등과 같은 건강보험 검진항목의 각 검진데이터를 이용하며, 필요에 따라서 추가 또는 삭제하여 검진항목정보로 설정할 수 있다.

이후, 상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26)에 따라서 개인별로 오버에이지 그룹(OAG26)으로 예측될 확률(P26)을 상기 수학식3을 통해 연산하여 연령예측확률을 구한다.

즉, 이와 같은 연령예측확률은 개인별 노화 상태(individual's aging status)를 나타낸 것으로, 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)을 나타낸다.

이후, 상기에서 설명한 바와 같이, 생체나이를 판단하기 위한 기준값인 컷오프(Cm)를 구하게 되는 바, 2분형 반응변수로 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)으로 설정하고, 예측변수로 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 설정하여, ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 것으로, 26세 이상으로 예측될 확률(P26)을 대상으로, ROC 커브 분석을 통해 생체나이를 판단하기 위한 컷오프(C26) 값을 구하게 된다.

이후 상기와 같이 구한 컷오프(C26)를 적용하여 상기 연령예측확률을 보정하는 과정을 수행하게 된다.

연령예측확률보정과정에서는 오버에이지 그룹(OAG26)으로 예측될 확률(P26)에서 상기 연령예측확률연산과정을 통해 구해진 컷오프(C26) 값을 연산(P26-C26)하여 오버에이지 그룹(OAG26)으로 예측될 초과확률(D26)을 구한다.

이와 같이 각 개인별로 컷오프(C26)를 적용하여 오버에이지 그룹(0AG26)으로 예측될 초과확률(D26)을 구하게 된다.

상기와 같이, 개인(샘플)별로 오버에이지 그룹(OAG26)으로 예측될 초과확률(D26)까지 모두 구하면, 리턴해서 m=27로 설정하고, 상기와 같은 과정을 통해 각 바이너리 로지스틱 모형(M27), 오버에이지 그룹(0AG27)으로 예측될 확률(P27), 컷오프(C27), 오버에이지 그룹(0AG27)으로 예측될 초과확률(D27)을 구하게 된다.

이와 같은 과정을 m=75까지 반복하여 각 개인별로 오버에이지 그룹(0AG75)으로 예측될 초과확률(D75)까지 구하게 된다.

26세 내지 75세의 구간에서 설정할 수 있는 단위는 총 50개 단위이며, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)으로 구분하고, 도 7에서와 같이, 50개 모형에 대하여 바이너리 로지스틱 회귀 모형을 생성한다.

상기에서 예를 들어 설명한 바와 같이, 체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표 등과 같은 트레이닝 데이터에 대하여 26세 미만인 값을 갖는 사람들과 26세 이상인 값을 갖는 사람들로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되며, 이러한 과정을 27,28,....,75세에 대한 바이너리 로지스틱 회귀 모형(M27~M75)을 생성하게 되는 것이다.

상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26~M75)에 따라서 개인별노화 상태를 나타내는 도 8에 도시된 바와 같이, 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 모든 연령 단위(m=26~75)에서의 Pm(P26~P75)을 계산하여 구한다.

이는 상기에서 예를 든 바와 같이, 샘플 ID=1인 사람은 45세 이상인 집단에 속할 확률(P45)이 0.655이고, 75세 이상인 집단에 속할 확률은 0.211로 나타나는 것을 의미한다.

상기와 같이 구해진 컷오프(C26~C75)는 ROC 커브(curve) 분석을 통해 추출된 값으로, 유든의 J 통계량(Youden's J statistic)를 최대화하는 시점에서 컷오프(Cm) 추출하는 것을 의미한다.

상기 연령예측확률연산보정과정을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)은 연령예측확률과정에서 구해진 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 컷오프(Cm)를 적용한 것으로, 각 개인별로 도 10에서와 같이, 26세에서 75세까지 D26~D75를 구한다.

이와 같은 m=75까지 반복하여 각 개인별로 오버에이지 그룹(0AG75)으로 예측될 초과확률(D75)까지 모두 구하게 되면, 상기 과정을 통해 구해진 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 생체나이를 구하기 위한 개인별 초과나이(Individual's excess aging)를 구한다.

이와 같은 개인별 초과나이는 상기 수학식 4를 통해 가중치 평균(Δi)을 구할 수 있다.

즉, 수학식 4에 따르면 각 개인별로 계산된 Dm (m=26, …, 75)에 해당 나이 (=m)를 곱해서 모두 더한 값의 평균을 각 개인의"초과나이"로 정의하는 것이다.

이와 같이 구한 가중치 평균으로 개인별 초과나이로 하여 출생나이에 적용하여 생체나이를 구할 수 있다.

도 11은 각 개인별 초과나이 프로파일 예를 나타낸 도면으로, X축을 트레이닝 데이터 연령 대상 26~75로 설정하고, Y축을 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)로 하여 각 연령 대상 별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 나타낸다.

이와 같은 본 발명은 건강보험 검진데이터를 이용하여 각 개인별 노화 정도를 나타낸 정보의 평균 정보를 구하고, 이에 따라서 생체나이를 예측할 수 있는 모형(알고리듬)을 생성하도록 한다.

한편, 도 13은 상기와 같은 본 발명 개인 맞춤형 생체나이 모형 생성 시스템의 구성을 나타낸다.

건강검진시스템으로부터 제공되는 건강 검진 데이터를 수집하여 데이터 저장수단(190)에 저장 관리하기 위한 검진데이터수집수단(110)과,

설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 검진데이터수집수단(110)으로부터 수집된 검진데이터로부터 유효한 트레이닝 데이터를 결정하기 위한 트레이닝데이터 설정수단(120)과,

상기 트레이닝 데이터 설정수단(120)에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간(x~y)내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단(130)과,

바이너리 로지스틱 회귀 모형 생성수단(130)을 통해 생성된 바이너리 로지스틱 회귀 모형에 따라서 트레이닝 데이터의 각 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하는 연령예측확률연산수단(140)과,

언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단(150)과,

상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단(140)에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하는 연령예측확률보정수단(160)과,

상기 연령예측확률보정수단(160)을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산수단(170)과,

상기 초과나이 연산수단(170)을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하는 생체나이 연산수단(180)과,

검진데이터수집수단(110)으로부터 수집된 건강검진데이터, 트레이닝 데이터 설정수단(120)을 통해 설정된 트레이닝 데이터가 저장 관리되는 데이터저장수단(190)을 포함하여 구성된다.

이와 같은 본 발명 개인 맞춤 생체나이 예측 시스템은, 건강검진시스템으로부터 제공된 건강 검진 데이터로부터 트레이닝 데이터를 설정하고, 이로부터 개인별 초과나이 정보를 추출하여 생체나이를 예측할 수 있도록 함을 그 기술적 특징으로 한다.

건강검진시스템으로부터 건강 검진 데이터를 제공받아 개인 맞춤형 생체나이 모형을 생성하기 위한 생체나이 예측 모형 생성시스템으로 구성되며,

상기 생체나이 예측 모형 생성시스템에 있어서,

상기 검진데이터수집수단(110)은 건강검진시스템으로부터 제공된 건강 검진 데이터를 수집하기 위한 수단으로, 수집된 건강 검진데이터를 데이터저장수단(190)에 저장 관리하기 위한 수단이다.

상기 트레이닝데이터 설정수단(120)은 생체나이 예측 모형을 생성하기 위한 트레이닝 데이터를 설정하기 위한 수단으로, 설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 상기 데이터저장수단(190)에 저장된 검진데이터로부터 바이너리 로지스틱 회귀 모형 생성수단의 유효한 트레이닝 데이터를 결정하기 위한 수단이다.

상기 바이너리 로지스틱 회귀 모형 생성수단(130)은, 상기 트레이닝 데이터 설정수단(120)에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간 내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 수단으로,

설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 구분하고, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹과 트레이닝 데이터(검진데이터)를 반응변수로 하여 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하기 위한 수단이다.

상기 연령예측확률연산수단(140)은 상기 바이너리 로지스틱 회귀 모형 생성수단(130)을 통해 생성된 50개의 바이너리 로지스틱 회귀 모형에 따라서 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하기 위한 수단이다.

상기 컷오프추출수단(150)은 상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하기 위한 컷오프(Cm)를 추출하기 위한 수단으로, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(Cm)를 추출하기 위한 수단이다.

상기 연령예측확률보정수단(160)은 상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하기 위한 수단으로, 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단(140)에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하기 위한 수단이다.

상기 초과나이 연산수단(170)은, 생체나이를 구하기 위한 개인별 초과나이를 구하기 위한 수단으로, 상기 연령예측확률보정수단(160)을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이를 구하기 위한 수단이다.

상기 생체나이 연산수단(180)은 상기 초과나이 연산수단(170)을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하기 위한 수단이다.

이와 같은 구성으로 이루어진 본 발명 시스템의 동작을 설명하면 다음과 같다.

검진데이터수집수단(110)에서는 건강검진시스템으로부터 제공된 검진데이터를 수집하여 데이터저장수단(190)에 저장하게 된다.

트레이닝데이터 설정수단(120)에서는 상기 데이터저장수단(190)에 저장된 건강검진데이터로부터 바이너리 로지스틱 회귀 모형을 구하기 위한 트레이닝 데이터를 설정한다.

트레이닝데이터 설정수단(120)에서는 설정된 연령 구간(x~y) 및 건강검진항목에 대하여 트레이닝 데이터를 결정하게 된다.

본 발명 실시 예는 건강보험 검진데이터를 이용하며, 26세(x) 내지 75세(y)로 연령 구간이 설정된다.

상기 트레이닝데이터 설정수단(120)의 연령구간, 검진항목정보를 사용자(관리자)가 조회, 재설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성할 수 있다.

또한 상기 트레이닝데이터 설정수단(120)에서 트레이닝 데이터를 결정하기 위한 조건정보를 사용자가 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성할 수 있다.

상기 조건정보는 남녀 성별 정보로 구성할 수 있으며, 남,녀 성별 정보를 설정하여 남녀 성별에 따른 생체나이 예측 모형을 구분하여 구성할 수 있다.

이후 바이너리 로지스틱 회귀 모형 생성수단(130)에서는 상기 트레이닝 데이터설정수단(120)의 연령구간 내 각 연령 단위로 50개를 설정하고, 각 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고 바이너리 로지스틱 회귀 모형을 생성한다.

이는 2개의 그룹에서 오버에이지(OAGm)로 보일 수 있는 확률(Pm)을 구하기 위한 바이너리 로지스틱 회귀 모형을 생성하기 위한 과정이다.

m=26세 단위에서, 26세 미만 그룹(UAG26)과, 26세 이상 그룹(OAG26)을 설정하고, 트레이닝 데이터 별로 26세 미만의 샘플(사람)은 0, 26세 이상의 샘플(사람)은 1로 구분하고, 바이너리 로지스틱 회귀 모형(M26)을 생성하게 된다.

즉, 체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표 등과 같은 건강보험 검진항목에 대한 트레이닝 데이터에 대하여 26세 미만인 사람들과 26세 이상인 사람들로 구분하여 바이너리 로지스틱 회귀 모형(M26)을 생성하게 되는 것이다.

즉, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 Y축으로 하는 반응변수로 하고, 상기 트레이닝 데이터(검진항목별 검진데이터)를 X축으로 하는 예측변수로 하여 바이너리 로지스틱 회귀 모형을 생성하게 되는 것이다.

상기와 같이 바이너리 로지스틱 모형이 생성되면, 상기와 같이 생성된 바이너리 로지스틱 회귀 모형(M26~M75)에 따라서 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산한다.

이와 같은 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)은 생체나이를 예측하기 위하여 개인별 초과나이를 구하기 위한 정보로서, 상기 수학식 3을 통해 구할 수 있다.

도 8에서와 같이 바이너리 로지스틱 회귀모형에 따라서 개인별 확률값(Pm)을 구할 수 있다.

예를 들어, 샘플 ID=1인 사람은 45세 이상인 집단에 속할 확률(P45)이 0.655이고, 75세 이상인 집단에 속할 확률은 0.211로 나타나는 것을 의미한다.

한편 컷오프추출수단(150)에서는 상기 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 대하여 ROC 커브 분석을 통해 컷오프(cutoff)(Cm)를 추출한다.

상기 컷오프(Cm)는 생체나이를 판단하기 위한 기준값으로, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 수행하여 도 9에서와 같은 컷오프(Cm) 값을 구할 수 있다.

이후 연령예측확률보정수단(160)에서는 상기 컷오프추출수단(150)에서 구한 컷오프(Cm) 값을 이용하여 상기 연령예측확률연산수단(140)에서 구한 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정한다.

이와 같은 연령예측확률보정은 상기 연령예측확률연산수단(140)을 통해 구해진 컷오프(Cm) 값을 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)에 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 것으로, 도 10에서와 같이 개인별 보정된 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 구할 수 있다.

도 10에 따르면, ID=1인 사람의 출생나이가 35세인데, D45 모형으로 연산했을 때, 즉 이 사람이 45세 이상인 집단에 속할 것으로 예측될 가능성인 D45는 "D45=0.108(P45-C45 ; 0.655-0.547)"와 같다는 것이다.

여기서, (-) 값인 경우에는 해당 나이 미만으로 생각할 수 있다는 것이다.

초과나이 연산수단(170)에서는 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 수학식 4를 통해 가중치 평균(Δi)을 구하여 개인별 초과나이를 구한다.

이때 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균으로 개인별 초과나이를 구하게 되는 바, 추가적으로 적용할 가중치(Wm)가 있는 경우 이를 적용하여 상기 수학식 5에서와 같이 가중치 평균을 구할 수 있다.

생체나이연산수단에서는 상기 초과나이연산수단에서 구한 초과나이를 이용하여 출생나이로부터 생체나이(BA=CA+Δi)를 구한다.

이와 같은 본 발명에 따르면, 본 발명은 건강보험 검진데이터로부터 출생나이에 대한 초과나이를 산출하고, 이로부터 생체나이를 예측할 수 있도록 함으로써, 보다 신뢰할 수 있는 생체나이를 제공할 수 있다.

본 발명은 국민건강보험공단에 축적되어 있는 고품질의 대규모 건강 검진 데이터를 활용하여 생체나이 예측 모형을 개발한 것으로, 의료 및 통계분석 산업 분야에서 널리 이용하여 그 실용적이고 경제적인 가치를 실현할 수 있는 기술이다.

Claims

건강검진시스템으로부터 수집된 건강 검진 데이터로부터 생체나이 예측 모형을 생성하기 위한 개인 맞춤 생체나이 예측 모형 생성시스템에서 수행되는,

바이너리 로지스틱 회귀 모형을 생성하기 위하여 트레이닝 데이터(training data)로 이용될 연령 구간(x~y)을 설정하기 위한 트레이닝데이터 설정수단(120)의 연령 구간 설정 과정과,

상기 연령 구간 설정 과정에서 설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹으로 구분하고, 각 연령 단위별 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단(130)의 바이너리 로지스틱 회귀 모형 생성과정과,

바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm) 연산하는 연령예측확률연산수단(140)의 연령예측확률연산과정과,

언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단(150)의 컷오프추출과정과,

오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(Cm)를 적용(Pm-Cm)하여 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하는 연령예측확률보정수단(160)의 연령예측확률보정과정과,

상기 연령예측확률보정과정을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이연산수단(170)의 초과나이 연산과정과,

상기 초과나이 연산과정을 통해 구한 개인별 초과나이를 출생나이에 더해 생체나이를 구하는 생체나이 연산수단(180)의 생체나이 연산과정, 을 포함하여 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터는 검진항목정보에 따라 이루어지며,

상기 검진항목정보는,

체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표를 포함하는 건강보험 검진항목 데이터로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항 또는 제2항에 있어서,

상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터는 검진항목정보에 따라 이루어지며,

트레이닝 데이터로 이용되는 검진항목정보를 조회 및 추가, 삭제 설정하기 위한 검진항목정보설정과정을 더 포함하여 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성과정에서의 트레이닝 데이터에 대한 조건정보를 설정하기 위한 조건정보설정과정을 더 포함하여 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제4항에 있어서, 상기 조건정보설정과정에서의 조건정보는 남,녀 성별정보인 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성과정에 있어서,

바이너리 로지스틱 회귀 모형(Mx~My)은,

설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 구분하고, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 반응변수로 하고, 트레이닝 데이터를 예측변수로 하여 각 연령 단위별로 생성하도록 한 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항에 있어서, 상기 연령예측확률연산과정에 있어서, 바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)의 연산은 다음의 수학식,

여기서,

Y: 개인별 노화 상태(individual's aging status)

p(Y = OAGm) : 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)

Yi: i번째 개인별 노화 상태(ith individual's aging status)

i = 1,2, … , : 샘플번호(sample number)

m = 26(x),27, … , 75(y) ; 트레이닝 데이터에 이용되는 나이

(chronological age observed in the training data)

CA: 출생나이(Chronological age)

Xk: k번째 독립 변수(kth independent variable)

βk : k번째 독립변수의 회귀계수 (regression coefficient of kth independent variable)

p: 독립변수의 수(number of independent variable),

으로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항에 있어서,

상기 초과나이 연산과정에 있어서, 개인별 초과나이는,

개인별로 계산된 Dm (m=26, …, 75) 에 해당 나이 (=m)를 곱해서 모두 더한 값의 평균을 나타내는 다음의 수학식,

여기서, N: sample number i = 1,2, … , N

Δi : weighted mean of (Pim-Cm)

Cm: 상기 연령예측확률연산과정을 통해 구해진 컷오프(Cm) 값

(cutoff of Pm to predict individual′s aging status from ROC curve analysis),

으로 연산되는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
제1항에 있어서, 상기 초과나이 연산과정에 있어서, 개인별 초과나이는,

오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균으로 구하되, 추가적으로 적용할 가중치(Wm)를 적용하여 가중치 평균은 다음의 수학식,

여기서, N: sample number i = 1,2, … , N

Δi : weighted mean of (Pim-Cm)

Cm: 상기 연령예측확률연산과정을 통해 구해진 컷오프(Cm) 값

(cutoff of Pm to predict individual′s aging status from ROC curve analysis)

Wm: 출생나이가 m이상으로 예측하기 위한 가중치(weight applied for the model to predict CA ≥ m),

을 통해 연산되는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 방법.
건강검진시스템으로부터 제공되는 건강 검진 데이터를 수집하여 데이터 저장수단에 저장 관리하기 위한 검진데이터수집수단(110)과,

설정된 트레이닝 데이터 기준 연령 구간(x~y) 및 검진항목정보에 따라서 검진데이터수집수단(110)으로부터 제공되는 검진데이터로부터 유효한 트레이닝 데이터를 결정하기 위한 트레이닝데이터 설정수단(120)과,

상기 트레이닝 데이터 설정수단(120)에 의해 설정된 트레이닝 데이터에 대하여 설정된 연령 구간(x~y)내 연령 단위마다 바이너리 로지스틱 회귀 모형(Mx~My)을 생성하는 바이너리 로지스틱 회귀 모형 생성수단(130)과,

바이너리 로지스틱 회귀 모형 생성수단(130)을 통해 생성된 바이너리 로지스틱 회귀 모형에 따라서 트레이닝 데이터의 각 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 연산하는 연령예측확률연산수단(140)과,

언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)을 2분형 반응변수로 설정하고, 상기 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 예측변수로 설정하여 ROC 커브(curve) 분석을 통해 컷오프(cutoff)(Cm)를 추출하는 컷오프추출수단(150)과,

상기 연령예측확률연산수단(140)을 통해 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)로부터 컷오프(cm)를 적용(Pm-Cm)하여 개인별 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)을 연산하여 상기 연령예측확률연산수단(140)에서 연산된 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)을 보정하는 연령예측확률보정수단(160)과,

상기 연령예측확률보정수단(160)을 통해 구한 오버에이지 그룹(OAGm)으로 예측될 초과확률(Dm)에 대한 가중치 평균(Δi)을 구하여 개인별 초과나이(Individual's excess aging)를 구하는 초과나이 연산수단(170)과,

상기 초과나이 연산수단(170)을 통해 구한 개인별 초과나이를 이용하여 출생나이로부터 생체나이를 연산하는 생체나이 연산수단(180)과,

검진데이터수집수단(110)으로부터 수집된 건강검진데이터, 트레이닝 데이터 설정수단(120)을 통해 설정된 트레이닝 데이터가 저장 관리되는 데이터저장수단(190)을 포함하여 구성되는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항에 있어서, 상기 트레이닝데이터 설정수단(120)의 연령구간, 검진항목정보를 사용자가 조회, 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성된 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항 또는 제11항에 있어서, 상기 트레이닝데이터 설정수단(120)에서 트레이닝 데이터를 결정하기 위한 조건정보를 사용자가 설정할 수 있도록 프로세스를 제공하는 사용자설정수단을 더 포함하여 구성된 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제12항에 있어서, 상기 사용자설정수단의 조건정보는 남,녀 성별정보인 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항에 있어서, 상기 바이너리 로지스틱 회귀 모형 생성수단(130)에서의 바이너리 로지스틱 회귀 모형(Mx~My)은,

설정된 연령 구간에서 각 연령 단위를 1단위로 하고, 각 연령 단위마다 트레이닝 데이터를 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 구분하고, 언더에이지 그룹(UAGm), 오버에이지 그룹(OAGm)의 2개 그룹을 반응변수로 하고, 트레이닝 데이터를 예측변수로 하여 각 연령 단위별로 생성하도록 한 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항 또는 제11항에 있어서,

상기 트레이닝데이터 설정수단(120)의 검진항목정보는,

체질량지수, 허리둘레, 수축기 혈압, 이완기 혈압과 같은 신체검사지표와, 간 수치 3종(AST, ALT, γ-GTP), 크레아티닌, 콜레스테롤 3종(HDL, LDL, TG), 공복혈당, 헤모글로빈과 같은 혈액검사지표를 포함하는 건강보험 검진항목 데이터로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항에 있어서, 상기 연령예측확률연산수단(140)은 바이너리 로지스틱 회기 모형에 따라서 샘플 대상인 개인별로 오버에이지 그룹(OAGm)으로 예측될 확률(Pm)의 연산은 다음의 수학식,

여기서,

Y: 개인별 노화 상태(individual's aging status)

p(Y = OAGm) : 오버에이지 그룹으로 예측될 확률(probability to be predicted as OAGm)

Yi: i번째 개인별 노화 상태(ith individual's aging status)

i = 1,2, … , : 샘플번호(sample number)

m = 26(x),27, … , 75(y) ; 트레이닝 데이터에 이용되는 나이

(chronological age observed in the training data)

CA: 출생나이(Chronological age)

Xk: k번째 독립 변수(kth independent variable)

βk : k번째 독립변수의 회귀계수 (regression coefficient of kth independent variable)

p: 독립변수의 수(number of independent variable),

으로 이루어지는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항에 있어서, 상기 초과나이 연산수단(170)에서는 오버에이지 그룹(OAGm)으로 예측될 확률(Dm)에 대하여 다음의 수학식,

여기서, N: sample number i = 1,2, … , N

Δi : weighted mean of (Pim-Cm)

Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값

(cutoff of Pm to predict individual′s aging status from ROC curve analysis),

을 통해 가중치 평균(Δi)을 구하여 개인별 초과나이를 구하는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.
제10항에 있어서, 상기 초과나이 연산수단(170)에서는 오버에이지 그룹(OAGm)으로 예측될 확률(Dm)에 대하여 다음의 수학식,

여기서, N: sample number i = 1,2, … , N

Δi : weighted mean of (Pim-Cm)

Cm: 컷오프추출수단(150)을 통해 구해진 컷오프(Cm) 값

(cutoff of Pm to predict individual′s aging status from ROC curve analysis)

Wm: 출생나이가 m이상으로 예측하기 위한 가중치(weight applied for the model to predict CA ≥ m),

을 통해 가중치 평균(Δi)을 구하여 개인별 초과나이를 구하는 것을 특징으로 하는 개인 맞춤 생체나이 예측 모형 생성 시스템.