KR20200120076A - 기계학습을 이용한 근감소증 예측장치 - Google Patents

기계학습을 이용한 근감소증 예측장치 Download PDF

Info

Publication number
KR20200120076A
KR20200120076A KR1020190042477A KR20190042477A KR20200120076A KR 20200120076 A KR20200120076 A KR 20200120076A KR 1020190042477 A KR1020190042477 A KR 1020190042477A KR 20190042477 A KR20190042477 A KR 20190042477A KR 20200120076 A KR20200120076 A KR 20200120076A
Authority
KR
South Korea
Prior art keywords
input variables
sarcopenia
machine learning
intake
daily
Prior art date
Application number
KR1020190042477A
Other languages
English (en)
Inventor
강양제
유준일
Original Assignee
경상대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경상대학교산학협력단 filed Critical 경상대학교산학협력단
Priority to KR1020190042477A priority Critical patent/KR20200120076A/ko
Publication of KR20200120076A publication Critical patent/KR20200120076A/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/45For evaluating or diagnosing the musculoskeletal system or teeth
    • A61B5/4519Muscles
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Rheumatology (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

기계학습을 이용한 근감소증 예측장치는 대상자들의 제 1 입력변수들과 근감소증에 대한 데이터가 입력되는 데이터 입력부, 데이터를 입력값으로 하고, 근감소증 여부를 출력값으로하여, 제 1 입력변수들과 근감소증간의 관계의 정도를 학습하는 제 1 기계학습부, 제 1 기계학습부에서 출력값에 영향이 큰 제 2 입력변수들을 선택하고, 제 2 입력변수들 중 중복되는 입력변수들을 제외한 제 3 입력변수를 선택하는 제 1 선택부를 포함한다.

Description

기계학습을 이용한 근감소증 예측장치{Apparatus for predicting sarcopenia using machine learning}
본 발명은 기계학습을 이용한 근감소증 예측장치에 관한 것이다.
근감소증은 신체 전반의 기능을 떨어뜨리고, 뼈를 약화시키는 것과도 관련이 있다. 나이가 들면 노화로 인해 근력이 약화되는 것은 당연한 것이나, 서서히 근육량이 줄어드는 것이 아니라 급격히 근육량이 줄어드는 현상을 근감소증이라고 한다. 근감소증은 노인들에게 골절을 일으키며, 골절은 노인 환자의 사망률을 증가시키는 원인이 된다.
근감소증은 여러 가지 요인이 있기 때문에, 이를 진단하고 치료하는 것은 매우 어렵다. 또한 근감소증의 원인이라고 추측되는 서로 다양한 위험인자들이 상호 관련되어 있어, 기존의 통계적 방법을 사용하여 근감소증의 위험인자를 예측하는 것은 매우 어렵다.
본 발명의 일 측면은 정확도를 향상시킨 기계학습을 이용한 근감소증 예측장치를 제공한다.
본 발명의 일 측면은 근감소증에 대해 다각적으로 접근한 기계학습을 이용한 근감소증 예측장치를 제공한다.
본 발명의 사상에 따른 기계학습을 이용한 근감소증 예측장치는 대상자들의 제 1 입력변수들과 근감소증에 대한 데이터가 입력되는 데이터 입력부; 상기 데이터를 입력값으로 하고, 근감소증 여부를 출력값으로하여, 상기 제 1 입력변수들과 근감소증간의 관계의 정도를 학습하는 제 1 기계학습부; 상기 제 1 기계학습부에서 출력값에 영향이 큰 제 2 입력변수들을 선택하고, 상기 제 2 입력변수들 중 중복되는 입력변수들을 제외한 제 3 입력변수를 선택하는 제 1 선택부;를 포함한다.
상기 제 1 기계학습부는 랜덤포레스트(random forest)를 사용할 수 있다.
상기 제 3 입력변수들을 입력값으로 하고, 근감소증 여부를 출력값으로하여, 상기 제 3 입력변수들과 근감소증간의 관계의 정도를 학습하는 제 2 기계학습부;를 더 포함하고, 상기 제 2 기계학습부는, 각각 다른 알고리즘을 가진 복수의 모델생성부;를 포함할 수 있다.
상기 복수의 모델생성부는, 로지스틱 회귀법(logistic regression)를 사용하는 제 1 모델생성부, 서포트 벡터머신(support vector machine)를 사용하는 제 2 모델생성부, 그라디언트 부스팅(gradient boosting)을 사용하는 제 3 모델생성부 및 랜덤포레스트(random forest)를 사용하는 제 4 모델생성부;를 포함할 수 있다.
상기 복수의 모델생성부에서 각각 출력값에 영향이 큰 입력변수들을 선택하되, 각 모델생성부에서 중복되는 입력변수들을 선택하는 제 2 선택부;를 포함할 수 있다.
상기 복수의 생성부는 n개의 생성부를 포함하며, 상기 제 4 입력변수들은, 상기 n개의 생성부에서 n-1회 이상 중복되도록 구성될 수 있다.
상기 제 4 입력변수들은, HE_BMI(체질량지수), HE_RBC(적혈구수), HE_alt(혈청지피티), N_FE(1일 철 섭취량), N_Retin(1일 레티놀 섭취량), N_Ca(1일 칼슘 섭취량), N_K(1일 칼륨 섭취량), N_NA(1일 나트륨 섭취량), N_CAROT(1일 카로틴 섭취량), N_WATER(1일 물섭취량), HE_HDL(HDL콜레스트롤), N_NIAC(1일 나이아신 섭취량), N_VITC(1일 비타민C 섭취량), N_PROT(1일 단백질 섭취량), HE_PTH(부갑상선 호르몬), N_FIBER(1일 조섬유 섭취량), HE_BUN(혈중요소질소), HE_PLS(15초 맥박수), Age(나이), HE_WBC(백혈구수)를 포함할 수 있다.
상기 데이터 입력부에 입력되는 상기 데이터는 질병관리본부 국민건강영양조사를 기초로 하되, 65세이상이며, 골격근 질량이나 식이섭취량에 관한 입력변수가 있는 대상자의 데이터를 기초로 할 수 있다.
본 발명의 일 측면에 따르면 근감소증에 대한 예측 정확도를 향상시킬 수 있다.
본 발명의 일 측면에 따르면 근감소증에 영향을 미치는 요소들을 찾고, 해당 요소들로 근감소증을 예측할 수 있다.
본 발명의 일 측면에 따르면 근감소증을 예측하기 위한 비용을 절감할 수 있다.
도 1a은 본 발명의 일 실시예에 따른 기계학습을 이용한 근감소증 예측 장치의 개략도.
도 1b, 1c는 본 발명의 일 실시예에 따른 기계학습을 이용한 근감소증 예측방법의 순서도.
도 2a, 2b는 본 발명의 일 실시예에 따른 제 2 입력변수들에 따른 근감소증에 대한 각 영향도를 도시한 그래프.
도 3a, 3b은 본 발명의 일 실시예에 따른 제 3 입력변수들에 따른 근감소증에 대한 각 영향도를 도시한 그래프.
도 4a, 4b, 4c는 본 발명의 일 실시예에 따른 로지스틱 회귀를 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 5a, 5b, 5c는 본 발명의 일 실시예에 따른 서포트 벡터머신을 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 6a, 6b, 6c는 본 발명의 일 실시예에 따른 그라디언트 부스팅을 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 7a, 7b는 본 발명의 일 실시예에 따른 랜덤포레스트를 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 8a, 8b, 8c는 본 발명의 일 실시예에 따른 로지스틱 회귀를 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 9a, 9b, 9c는 본 발명의 일 실시예에 따른 서포트 벡터머신을 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 10a, 10b, 10c는 본 발명의 일 실시예에 따른 그라디언트 부스팅을 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 11a, 11b, 11c는 본 발명의 일 실시예에 따른 랜덤포레스트를 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프.
도 12a, 12b, 12c, 12d는 본 발명의 일 실시예에 따른 남성참가자를 대상으로 한 각 알고리즘에 대한 ROC 그래프.
도 13a, 13b, 13c, 13d는 본 발명의 일 실시예에 따른 여성참가자를 대상으로 한 각 알고리즘에 대한 ROC 그래프.
본 명세서에 기재된 실시예와 도면에 도시된 구성은 개시된 발명의 바람직한 일 예에 불과할 뿐이며, 본 출원의 출원시점에 있어서 본 명세서의 실시예와 도면을 대체할 수 있는 다양한 변형 예들이 있을 수 있다.
또한, 본 명세서의 각 도면에서 제시된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다.
또한, 본 명세서에서 사용한 용어는 실시예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.
또한, 본 명세서에서 사용한 “제1”, “제2” 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. “및/또는” 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
이하에서는 본 발명에 따른 실시예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1a은 본 발명의 일 실시예에 따른 기계학습을 이용한 근감소증 예측 장치의 개략도이고, 도 1b, 1c는 본 발명의 일 실시예에 따른 기계학습을 이용한 근감소증 예측장치의 순서도이다.
근감소증은 여러 가지 요인이 있기 때문에 이를 예측하는 것이 어렵고, 단순 개별인자를 통해 추측하는 것은 무리가 있다. 근감소증의 원인이라고 추측되는 서로 다양한 위험인자들이 상호 관련되어 있어, 기존의 통계적 방법을 사용하여 근감소증의 위험인자를 예측하는 것은 매우 어렵다.
근감소증에 대한 신뢰성있고, 정밀한 예측을 위해 본 실시예에서의 기계학습을 이용한 예측장치(100)를 적용할 수 있다.
기계학습을 이용한 근감소증 예측장치(100)는 데이터 입력부(110)와, 기계학습부(210, 310), 선택부(220, 320)를 포함할 수 있다.
데이터 입력부(110)에는 참가자들의 조사데이터와 근감소증유무에 대한 정보가 입력될 수 있다.
조사데이터는 ‘질병관리본부 국민건강영양조사’의 자료를 토대로 이루어질 수 있다. ‘질병관리본부 국민건강영양조사’의 자료는 보건인터뷰, 건강검진 및 식이조사등으로 구성된다. 조사데이터는 2008년부터 2011년의 참가자(37753명)으로부터 수집되었다.
전체 참가자 중 65세미만의 참가자이거나, 골격근 질량이나 식이섭취량을 평가할 수 없는 자료가 있는 참가자는 제외하였다.
이러한 과정을 거친 후, 4020명의 참가자(남성 : 1698명, 여성 : 2322명)를 대상으로 하였다.
최종참가자들의 데이터로서, 참가자의 보건 인터뷰, 건강 검진 및 식이조사등의 세부항목들이 적용될 수 있다. 이러한 세부항목들을 제 1 입력변수들로 정의할 수 있다.
기계학습부(210, 310)는 조사데이터를 기반으로 입력변수와 출력변수 사이의 관계를 학습하여 입력변수에 따른 출력변수를 예측하도록 하는 데이터처리 알고리즘을 포함한다. 기계학습부(210, 310)의 입력변수로는 참가자의 보건 인터뷰, 건강 검진 및 식이조사등의 세부항목들이 적용될 수 있으며, 출력변수로는 참가자의 근감소증의 유무가 적용될 수 있다.
기계학습부는 제 1 기계학습부(210)와 제 2 기계학습부(310)를 포함할 수 있다. 제 1, 2 기계학습부(210, 310)는 입력변수와 출력변수 사이의 관계를 학습하여 입력변수에 따른 출력변수를 예측하는 기계학습모델을 생성하도록 마련된다.
제 1 기계학습부(210)는 랜덤포레스트(Random Forest)를 포함할 수 있다.
제 2 기계학습부(310)는 각각 다른 알고리즘을 가진 복수의 모델생성부를 포함할 수 있다.
복수의 알고리즘은 로지스틱 회귀법(logistic regression), 서포트 벡터머신(support vector machine), 그라디언트 부스팅(gradient boosting) 및 랜덤포레스트(random forest)을 포함할 수 있다. 즉, 제 2 기계학습부는 로지스틱 회귀법(logistic regression)를 사용하는 제 1 모델생성부, 서포트 벡터머신(support vector machine)를 사용하는 제 2 모델생성부, 그라디언트 부스팅(gradient boosting)를 사용하는 제 3 모델생성부, 랜덤포레스트(random forest)를 사용하는 제 4 모델생성부를 포함할 수 있다.
이들 제 1 내지 4 모델생성부를 통해 적합한 하이퍼 파라미터(hyper-parameter) 또는 러닝레이트(learning rate)를 찾고, 이를 기반으로 높은 CV(Cross-Validation)스코어 값을 찾을 수 있다. 이러한 과정을 바탕으로 입력변수들과 근감소증과의 관계를 구할 수 있다.
선택부(220, 320)는 기계학습부에 의해 생성된 학습모델을 통해 입력변수들 중 출력변수에 영향을 미치는 입력변수들의 중요도를 판단하고, 중요도가 높은 입력변수들을 추출해내도록 마련된다. 중요도는 입력변수들의 출력변수에 대한 가중치일 수 있다. 즉, 입력변수들 중 출력변수에 높은 영향을 미치는 입력변수들이 선택될 수 있다.
선택부(220, 320)는 제 1, 2 선택부(220, 320)를 포함할 수 있다. 제 1, 2 선택부(220, 320)는 각각 제 1, 2 기계학습(210, 310)부에서 생성된 기계학습모델을 기반으로 할 수 있다.
제 1 선택부(220)는 제 1 기계학습부(210)를 통해 생성된 모델의 입력변수들 중 중요도가 높은 입력변수들로 이루어진 제 2 입력변수들을 선택할 수 있다. 또한 제 1 선택부(220)는 제 2 입력변수들 중 중복되거나 의미가 유사한 입력변수들을 제거할 수 있다. 제 1 선택부(220)에 의해 제 2 입력변수들 중 선택된 입력변수들을 제 3 입력변수들이라 할 수 있다.
제 2 입력변수들에서 제 3 입력변수들로 선택되는 과정은 사용자에 의해 이루어질 수도 있다. 즉, 제 2 입력변수들을 사용자단말로 전송하며, 사용자는 전송된 입력변수들 중 중복되거나 의미가 유사한 입력변수들을 제거한 제 3 입력변수를 예측장치(100)로 전송할 수 있다. 예측장치(100)는 수신된 제 3 입력변수들을 기초로 다음과정을 진행할 수 있다.
제 2 선택부(320)는 제 2 기계학습부(310)를 통해 생성된 복수의 모델의 입력변수들 에서 각각 선택된 중요도가 높은 입력변수들 중, 복수의 모델에서 중복되는 입력변수들로 이루어진 제 4 입력변수들을 선택할 수 있다. 복수의 생성부를 n개의 생성부라고 할 때, 제 4 입력변수들은 n개의 생성부에서 n-1회 이상 중복되도록 구성될 수 있다.
이하는 본 발명의 일 실시예에 따른 기계학습을 이용한 근감소증 예측방법에 관하여 설명한다. 도 1b를 참고하여 설명한다.
참가자들의 제 1 입력변수들과 근감소증의 유무에 관한 데이터가 입력된다(S110). 제 1 기계학습부(210)는 입력된 데이터를 기반으로 기계학습모델을 생성하게 된다(S120). 제 1 선택부(220)는 제 1 기계학습부에 의해 생성된 학습모델을 통해, 제 1 입력변수들 중 출력변수에 영향을 미치는 입력변수들의 중요도를 판단하고, 중요도가 높은 제 2 입력변수들을 선택한다(S130).
제 1 선택부(220)는 제 2 입력변수들 중 중복되거나 의미가 유사한 입력변수들을 제거한 제 3 입력변수들을 선택한다(S140).
이러한 기계학습을 이용한 근감소증 예측방법을 통해 근감소증에 관련있고, 영향력이 높은 입력변수들을 찾을 수 있으며, 근감소증의 예측가능성을 높일 수 있다.
이하는 본 발명의 일 실시예에 따른 기계학습을 이용한 근감소증 예측방법에 관하여 설명한다. 도 1c를 참고하여 설명한다.
참가자들의 제 1 입력변수들과 근감소증의 유무에 관한 데이터가 입력된다(S210). 제 1 기계학습부(210)는 입력된 데이터를 기반으로 기계학습모델을 생성하게 된다(S220). 제 1 선택부(220)는 제 1 기계학습부에 의해 생성된 학습모델을 통해, 제 1 입력변수들 중 출력변수에 영향을 미치는 입력변수들의 중요도를 판단하고, 중요도가 높은 제 2 입력변수들을 선택한다(S230).
제 1 선택부(220)는 제 2 입력변수들 중 중복되거나 의미가 유사한 입력변수들을 제거한 제 3 입력변수들을 선택한다(S240).
참가자들의 제 3 입력변수들과 근감소증 유무에 관한 데이터가 입력된다(S250).
제 2 기계학습부(310)는 입력된 데이터를 기반으로 복수의 기계학습모델을 생성하게 된다(S260). 제 2 선택부(320)는 복수의 기계학습모델에서 다루어진 각각에 대한 근감소증에 대해 영향도가 높은 입력변수들 중, 기계학습모델들 중에서 중복 선택되는 입력변수들을 선택한 제 4 입력변수들을 선택할 수 있다(S270).
이러한 기계학습을 이용한 근감소증 예측방법을 통해 근감소증에 관련있고, 영향력이 높은 입력변수들을 찾을 수 있으며, 근감소증의 예측가능성을 높일 수 있다.
도 2a, 2b는 본 발명의 일 실시예에 따른 제 2 입력변수들에 따른 근감소증에 대한 각 영향도를 도시한 그래프이다.
도 2a, 2b는 제 1 기계학습부(210)를 이용하여 선별된, 근감소증에 대해 영향력이 높은 입력변수들의 순서를 도시한 그래프이다. 제 1 기계학습부(210) 는 랜덤포레스트(Random Forest)를 포함할 수 있다.
제 1 기계학습부(210)와 제 1 선택부(220)를 이용하여 선택된 입력변수들을 제 2 입력변수들로 정의할 수 있다. 즉 제 2 입력변수들은 제 1 기계학습부를 통해 근감소증에 대해 중요도가 높은 입력변수들로 구성될 수 있다.
도 2a, 2b에서 x축을 구성하는 요소들은 제 2 입력변수들의 적어도 일부일 수 있다.
남성참가자들의 제 2 입력변수들은 다음을 포함할 수 있다.
N_Retin(1일 레티놀 섭취량), AUDIT, HE_chol(총콜레스트롤), HE_HDL(HDL콜레스트롤), HE_dbp1(1차 이완기 혈압), ainc_1(가구총소득), HE_HDL_st(고밀도지단백콜레스테롤(전환식)), N_FE(1일 철 섭취량), HE_TG(중성지방), N_WATER(1일 물섭취량), HE_dbp(이완기혈압), EC1_2(미취업사유), HE_UNa(요나트륨), HE_ht(신장), HE_crea(혈중크레아티닌), HE_BUN(혈중요소질소), N_FAT(1일 지방 섭취량), HE_glu(공복 혈당), N_VA(비타민A 섭취량), N_INTK(1일 식품 섭취량), N_WAT_C(1일 물 섭취량(컵)), N_CAROT(1일 카로틴 섭취량), N_PROT(1일 단백질 섭취량), HE_WBC(백혈구수), N_PHOS(1일 인 섭취량), HE_alt(혈청지피티), N_NA(1일 나트륨 섭취량), HE_ALP(알카라인포스트 파아제), N_ASH(1일 회분 섭취량), N_B1(1일 티아민 섭취량), N_VITC(1일 비타민C 섭취량), N_CHO(1일 탄수화물 섭취량), HE_PTH(부갑상선 호르몬), N_B2(1일 리보플라빈 섭취량), HE_Frtn(페라틴), N_K(1일 칼륨 섭취량), N_EN(1일 에너지 섭취량), Age(나이), N_NIAC(1일 나이아신 섭취량), HE_VITD(비타민D), N_FIBER(1일 조섬유 섭취량), HE_HB(헤모글로빈), HE_HCT(헤마토크리트), HE_RBC(적혈구수), HE_obe(비만여부), BO1(주관적 체형인식), HE_wc(허리둘레), HE_wt(체중), HE_BMI(체질량지수)
여성참가자들의 제 2 입력변수들은 다음을 포함할 수 있다.
HE_dbp(이완기 혈압), HE_chol(총콜레스트롤), HE_Frtn(페라틴), HE_ALP(알카라인포스트 파아제), N_PHOS(1일 인 섭취량), HE_sbp(최종수축기혈압), N_FAT(1일 지방 섭취량), N_EN(1일 에너지 섭취량), HE_TG(중성지방), N_ASH(1일 회분 섭취량), N_NA(1일 나트륨 섭취량), HE_VITD(비타민D), HE_HB(헤모글로빈), N_PROT(1일 단백질 섭취량), N_B2(1일 리보플라빈 섭취량), HE_HCT(헤마토크리트), N_VA(비타민A 섭취량), N_B1(1일 티아민 섭취량), HE_ht(신장), HE_HDL(HDL콜레스트롤), N_Retin(1일 레티놀 섭취량), HE_BUN(혈중요소질소), Age(나이), N_Ca(1일 칼슘 섭취량), N_NIAC(1일 나이아신 섭취량), HE_RBC(적혈구수), N_CHO(1일 탄수화물 섭취량), HE_PTH(부갑상선 호르몬), N_K(1일 칼륨 섭취량), N_FE(1일 철 섭취량), HE_WBC(백혈구수), N_CAROT(1일 카로틴 섭취량), N_FIBER(1일 조섬유 섭취량), HE_obe(비만여부), HE_alt(혈청지피티), O_DMFTP(우식경험영구치수), N_VITC(1일 비타민C 섭취량), ainc_1(가구총소득), HE_PLS(15초 맥박수), N_INTK(1일 식품 섭취량), N_WATER(1일 물섭취량), HE_glu(공복 혈당), HE_wc(허리둘레), HE_wt(체중), HE_BMI(체질량지수).
도 3a, 3b은 본 발명의 일 실시예에 따른 제 3 입력변수들에 따른 근감소증에 대한 각 영향도를 도시한 그래프이다. 도 3a는 남성참가자들에 관한 그래프이며, 도 3b는 여성참가자들에 관한 그래프이다.
제 1 선택부(220)는 제 2 입력변수들 중에서 노이즈를 제거하거나 조사효율을 높일 수 있도록, 의미가 중복되거나, 유사한 입력변수들을 제거할 수 있다. 또한 제 1 선택부(220)는 제 2 입력변수들 중 측정이 용이하고, 각 입력변수들이 다른 입력변수들에 비해 독립적인 입력변수를 선별할 수 있다. 제 2 입력변수들 중에서 선택된 입력변수들을 제 3 입력변수들이라 할 수 있다.
즉, 도 2a, 2b에서의 입력변수들을 제 2 입력변수들이라하고, 도 3a, 3b에서의 입력변수들을 제 3 입력변수들이라 할 수 있다. 도 3a, 3b에서 x축을 구성하는 요소들은 제 3 입력변수들의 적어도 일부일 수 있다.
도 4a 내지 11b는 복수의 알고리즘을 사용하여 근감소증 예측 모델을 구축하는 과정에 대한 그래프이다.
도 4a, 4b, 4c는 본 발명의 일 실시예에 따른 로지스틱 회귀를 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 5a, 5b, 5c는 본 발명의 일 실시예에 따른 서포트 벡터머신을 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 6a, 6b, 6c는 본 발명의 일 실시예에 따른 그라디언트 부스팅을 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 7a, 7b는 본 발명의 일 실시예에 따른 랜덤포레스트를 기초로 남성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 8a, 8b, 8c는 본 발명의 일 실시예에 따른 로지스틱 회귀를 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 9a, 9b, 9c는 본 발명의 일 실시예에 따른 서포트 벡터머신을 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 10a, 10b, 10c는 본 발명의 일 실시예에 따른 그라디언트 부스팅을 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프, 도 11a, 11b, 11c는 본 발명의 일 실시예에 따른 랜덤포레스트를 기초로 여성참가자의 제 4 입력변수들에 대한 근감소증의 대한 각 영향도를 도시한 그래프이다.
도 4a 내지 7b는 참가자 중 남성참가자에 관한 그래프이고, 도 8a 내지 11b은 참가자 중 여성참가자에 관한 그래프이다.
도 4a, 4b, 4c, 8a, 8b, 8c는 로지스틱 회귀법(logistic regression)를 이용한 것이다.
도 5a, 5b, 5c, 9a, 9b, 9c는 서포트 벡터머신(support vector machine)를 이용한 것이다.
도 6a, 6b, 6c, 10a, 10b, 10c는 그라디언트 부스팅(gradient boosting)를 이용한 것이다.
도 7a, 7b, 11a, 11b는 랜덤포레스트(random forest)를 이용한 것이다.
도 4a, 도 5a, 도 6a, 도 8a, 도 9a, 도 10a는 각 알고리즘에서 적합한 파라미터 또는 러닝레이트(learning rate)를 찾는 과정에 관한 그래프이다.
도 4b, 도 5b, 도 6b, 도 8b, 도 9b, 도 10b는 앞서 도출해낸 적합한 하이퍼파라미터(hyper-parameter) 또는 러닝레이트(learning rate)를 토대로 높은 CV(Cross-Validation)스코어 값을 찾는 과정에 관한 그래프이다.
도 7a, 도 11a는 랜덤포레스트에서 트리의 값을 5000으로 지정하고 높은 CV(Cross-Validation)스코어 값을 찾는 과정에 관한 그래프이다.
제 2 기계학습부(310)는 각각 다른 알고리즘을 가진 복수의 모델생성부를 포함할 수 있다.
복수의 알고리즘은 로지스틱 회귀법(logistic regression), 서포트 벡터머신(support vector machine), 그라디언트 부스팅(gradient boosting) 및 랜덤포레스트(random forest)을 포함할 수 있다. 즉, 제 2 기계학습모델 생성부(410)는 로지스틱 회귀법(logistic regression)를 사용하는 제 1 모델생성부, 서포트 벡터머신(support vector machine)를 사용하는 제 2 모델생성부, 그라디언트 부스팅(gradient boosting)를 사용하는 제 3 모델생성부, 랜덤포레스트(random forest)를 사용하는 제 4 모델생성부를 포함할 수 있다.
이들 제 1 내지 4 모델생성부를 통해 적합한 하이퍼 파라미터(hyper-parameter) 또는 러닝레이트(learning rate)를 토대로 높은 CV(Cross-Validation)스코어 값을 찾고 이를 바탕으로 입력변수들과 근감소증과의 관계를 구할 수 있다.
도 4c, 5c, 6c, 7b, 8c, 9c, 10c, 11b는 제 4 입력변수를 기준으로 앞서 구한 CV(Cross-Validation)스코어를 적용하여 각 입력변수들에 따른 영향도를 도시한 것이다.
도 4c, 5c, 6c, 7b, 8c, 9c, 10c, 11b의 X축을 형성하는 인자들을 제 4 입력변수들이라할 수 있다.
제 4 입력변수들은 제 3 입력변수들 중 복수의 모델생성부에서 각각의 중요도에 따라 각각 선택되되, 중복 선택되는 입력변수들로 정의할 수 있다. 본 실시예에서 복수의 모델생성부는 제 1 내지 4 모델생성부를 포함하며, 중복횟수는 적어도 3회이상이 되는 입력변수들을 제 4 입력변수라 할 수 있다. 제 4 입력변수들은 도 4c, 5c, 6c, 7b, 8c, 9c, 10c, 11b의 X축을 형성하는 입력변수들을 포함할 수 있다.
즉, 남성참가자들의 제 4 입력변수들은 다음을 포함할 수 있다.
HE_BMI(체질량지수), HE_RBC(적혈구수), HE_alt(혈청지피티), N_FE(1일 철 섭취량), N_Retin(1일 레티놀 섭취량), N_Ca(1일 칼슘 섭취량), N_K(1일 칼륨 섭취량), N_NA(1일 나트륨 섭취량), N_CAROT(1일 카로틴 섭취량), N_WATER(1일 물섭취량), HE_HDL(HDL콜레스트롤), N_NIAC(1일 나이아신 섭취량), N_VITC(1일 비타민C 섭취량), N_PROT(1일 단백질 섭취량), HE_PTH(부갑상선 호르몬), N_FIBER(1일 조섬유 섭취량), HE_BUN(혈중요소질소), HE_PLS(15초 맥박수), Age(나이), HE_WBC(백혈구수)
여성참가자들의 제 4 입력변수들은 다음을 포함할 수 있다.
HE_BMI(체질량지수), HE_BUN(혈중요소질소), N_FE(1일 철 섭취량), N_PROT(1일 단백질 섭취량), HE_PTH(부갑상선 호르몬), HE_alt(혈청지피티), N_VITC(1일 비타민C 섭취량), N_Ca(1일 칼슘 섭취량), N_CAROT(1일 카로틴 섭취량), N_K(1일 칼륨 섭취량), N_NA(1일 나트륨 섭취량), N_Retin(1일 레티놀 섭취량), N_WATER(1일 물섭취량), HE_HDL(HDL콜레스트롤), N_FIBER(1일 조섬유 섭취량), N_NIAC(1일 나이아신 섭취량), Age(나이), HE_PLS(15초 맥박수), HE_WBC(백혈구수), HE_RBC(적혈구수)
도 12a, 12b, 12c, 12d는 본 발명의 일 실시예에 따른 남성참가자를 대상으로 한 각 알고리즘에 대한 ROC 그래프, 도 13a, 13b, 13c, 13d는 본 발명의 일 실시예에 따른 여성참가자를 대상으로 한 각 알고리즘에 대한 ROC 그래프이다.
앞서 기재한 내용을 바탕으로 각 알고리즘에 대한 ROC(Receiver Operating Characteristics) 그래프를 도시하였다.
대상에 대해 양성과 음성 데이터가 있을 때, 다음과 같이 판단할 수 있다.
양성인데, 양성으로 제대로 검출된 것은 True Positive(TP)
음성인데, 음성으로 제대로 검출된 것은 True Negative(TN)
양성인데 음성으로 잘못 검출된 것은 False Negative(FN)
음성인데 양성으로 잘못 검출된 것은 False Positive(FP)
이때 민감도(Sensitive)는 Positive로 판단한 것 중 실제 Positive값으로서, 다음과 같다.
민감도 = TP/(TP+FN)
이때 특이도(Specificity)는 Negative를 판단한 것중 실제 Negative값으로서, 다음과 같다.
특이도 = TN/(TN+FP)
ROC그래프는 가로축은 FP rate(Specificity, 특이도)값을, 세로축은 TP rate(Sensitive, 민감도)값을 나타낸다.
도 12a, 12b, 12c, 12d와 도 13a, 13b, 13c, 13d는 각각 남성과 여성 참가자에 대한 ROC그래프를 도시한 것이다.
ROC그래프는 상부에 위치할수록 신뢰성이 높은 것으로서, 적어도 Y=X 그래프보다 상부에 위치하여야 한다. ROC그래프에서는 그 정확도를 AUC(Area under curve)라는 값을 사용하여 판단할 수 있다. 즉, 해당그래프의 아래 면적이 클수록 정확도가 높다.
도 12, 13에서와 같이, ROC그래프들의 AUC는 0.8 전후로 형성이 된다. 이와 같이, 본 실시예에서의 기계학습부를 통해 입력변수를 추출함으로서, 근감소증을 보다 정밀하게 예측할 수 있게 된다.
본 실시예에서는 근감소증을 대상으로 한 기계학습을 이용한 예측장치에 관하여 설명하였다. 그러나 기계학습을 이용한 예측장치는 근감소증에 한정되지 않고, 데이터 입력부(110)에 각종 만성질환(chronic diseases)에 관한 데이터를 입력함으로서 각종 만성질환에 대해서도 적용될 수 있다.
이상에서는 특정의 실시예에 대하여 도시하고 설명하였다. 그러나, 상기한 실시예에만 한정되지 않으며, 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 이하의 청구범위에 기재된 발명의 기술적 사상의 요지를 벗어남이 없이 얼마든지 다양하게 변경 실시할 수 있을 것이다.
100 : 근감소증 예측장치 110 : 데이터 입력부
210 : 제 1 기계학습부 220 : 제 1 선택부
310 : 제 2 기계학습부 320 : 제 2 선택부

Claims (8)

  1. 대상자들의 제 1 입력변수들과 근감소증에 대한 데이터가 입력되는 데이터 입력부;
    상기 데이터를 입력값으로 하고, 근감소증 여부를 출력값으로하여, 상기 제 1 입력변수들과 근감소증간의 관계의 정도를 학습하는 제 1 기계학습부;
    상기 제 1 기계학습부에서 출력값에 영향이 큰 제 2 입력변수들을 선택하고, 상기 제 2 입력변수들 중 중복되는 입력변수들을 제외한 제 3 입력변수를 선택하는 제 1 선택부;를 포함하는 기계학습을 이용한 근감소증 예측장치.
  2. 제 1 항에 있어서,
    상기 제 1 기계학습부는 랜덤포레스트(random forest)를 사용하는 기계학습을 통한 근감소증 예측장치.
  3. 제 1 항에 있어서,
    상기 제 3 입력변수들을 입력값으로 하고, 근감소증 여부를 출력값으로하여, 상기 제 3 입력변수들과 근감소증간의 관계의 정도를 학습하는 제 2 기계학습부;를 더 포함하고,
    상기 제 2 기계학습부는,
    각각 다른 알고리즘을 가진 복수의 모델생성부;를 포함하는 기계학습을 통한 근감소증 예측장치.
  4. 제 3 항에 있어서,
    상기 복수의 모델생성부는,
    로지스틱 회귀법(logistic regression)를 사용하는 제 1 모델생성부, 서포트 벡터머신(support vector machine)를 사용하는 제 2 모델생성부, 그라디언트 부스팅(gradient boosting)을 사용하는 제 3 모델생성부 및 랜덤포레스트(random forest)를 사용하는 제 4 모델생성부;를 포함하는 기계학습을 통한 근감소증 예측장치.
  5. 제 3 항에 있어서,
    상기 복수의 모델생성부에서 각각 출력값에 영향이 큰 입력변수들을 선택하되, 각 모델생성부에서 중복되는 입력변수들을 선택하는 제 2 선택부;를 포함하는 기계학습을 이용한 근감소증 예측장치.
  6. 제 5 항에 있어서,
    상기 복수의 생성부는 n개의 생성부를 포함하며,
    상기 제 4 입력변수들은,
    상기 n개의 생성부에서 n-1회 이상 중복되도록 구성되는 기계학습을 통한 근감소증 예측장치.
  7. 제 1 항에 있어서,
    상기 제 4 입력변수들은,
    HE_BMI(체질량지수), HE_RBC(적혈구수), HE_alt(혈청지피티), N_FE(1일 철 섭취량), N_Retin(1일 레티놀 섭취량), N_Ca(1일 칼슘 섭취량), N_K(1일 칼륨 섭취량), N_NA(1일 나트륨 섭취량), N_CAROT(1일 카로틴 섭취량), N_WATER(1일 물섭취량), HE_HDL(HDL콜레스트롤), N_NIAC(1일 나이아신 섭취량), N_VITC(1일 비타민C 섭취량), N_PROT(1일 단백질 섭취량), HE_PTH(부갑상선 호르몬), N_FIBER(1일 조섬유 섭취량), HE_BUN(혈중요소질소), HE_PLS(15초 맥박수), Age(나이), HE_WBC(백혈구수)를 포함하는 기계학습을 통한 근감소증 예측장치.
  8. 제 1 항에 있어서,
    상기 데이터 입력부에 입력되는 상기 데이터는 질병관리본부 국민건강영양조사를 기초로 하되, 65세이상이며, 골격근 질량이나 식이섭취량에 관한 입력변수가 있는 대상자의 데이터를 기초로 하는 기계학습을 통한 근감소증 예측장치.
KR1020190042477A 2019-04-11 2019-04-11 기계학습을 이용한 근감소증 예측장치 KR20200120076A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190042477A KR20200120076A (ko) 2019-04-11 2019-04-11 기계학습을 이용한 근감소증 예측장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190042477A KR20200120076A (ko) 2019-04-11 2019-04-11 기계학습을 이용한 근감소증 예측장치

Publications (1)

Publication Number Publication Date
KR20200120076A true KR20200120076A (ko) 2020-10-21

Family

ID=73034628

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190042477A KR20200120076A (ko) 2019-04-11 2019-04-11 기계학습을 이용한 근감소증 예측장치

Country Status (1)

Country Link
KR (1) KR20200120076A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220042645A (ko) * 2020-09-28 2022-04-05 연세대학교 원주산학협력단 근감소증 진단장치 및 진단방법
KR20220095803A (ko) * 2020-12-30 2022-07-07 원광대학교산학협력단 신체액 샘플을 이용한 근 감소증 인공지능 진단 시스템 및 방법
WO2024043356A1 (ko) * 2022-08-24 2024-02-29 원광대학교산학협력단 흉부 이미지 기반 중증환자용 근감소증 진단 시스템 및 방법
WO2024111921A1 (ko) * 2022-11-23 2024-05-30 원광대학교산학협력단 근육세포 기반 근감소증 진단을 위한 근감소증 진단 기준 제공 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220042645A (ko) * 2020-09-28 2022-04-05 연세대학교 원주산학협력단 근감소증 진단장치 및 진단방법
KR20220095803A (ko) * 2020-12-30 2022-07-07 원광대학교산학협력단 신체액 샘플을 이용한 근 감소증 인공지능 진단 시스템 및 방법
WO2024043356A1 (ko) * 2022-08-24 2024-02-29 원광대학교산학협력단 흉부 이미지 기반 중증환자용 근감소증 진단 시스템 및 방법
WO2024111921A1 (ko) * 2022-11-23 2024-05-30 원광대학교산학협력단 근육세포 기반 근감소증 진단을 위한 근감소증 진단 기준 제공 방법

Similar Documents

Publication Publication Date Title
KR20200120076A (ko) 기계학습을 이용한 근감소증 예측장치
Khan et al. Diabetic retinopathy detection using VGG-NIN a deep learning architecture
Salekin et al. Detection of chronic kidney disease and selecting important predictive attributes
Chitra et al. Review of heart disease prediction system using data mining and hybrid intelligent techniques
Sharma et al. Performance based evaluation of various machine learning classification techniques for chronic kidney disease diagnosis
Ogunleye et al. Enhanced XGBoost-based automatic diagnosis system for chronic kidney disease
Islam et al. Intelligent healthcare platform: cardiovascular disease risk factors prediction using attention module based LSTM
Le et al. Predicting heart failure using deep neural network
CN111696100A (zh) 基于眼底影像确定吸烟程度的方法及设备
Lakhwani et al. Prediction of the onset of diabetes using artificial neural network and pima indians diabetes dataset
Perova et al. Deep hybrid system of computational intelligence with architecture adaptation for medical fuzzy diagnostics
Biswas et al. A robust deep learning based prediction system of heart disease using a combination of five datasets
Bilgaiyan et al. Heart disease prediction using machine learning
Prusty et al. Comparative analysis and prediction of coronary heart disease
Sumathy et al. Diagnosis of diabetes mellitus based on risk factors
Fatemidokht et al. Development of a hybrid neuro-fuzzy system as a diagnostic tool for Type 2 Diabetes Mellitus
Dabass et al. Background Intelligence for Games: A Survey
Sharma et al. A two-stage hybrid ensemble classifier-based diagnostic tool for chronic kidney disease diagnosis using optimally selected reduced feature set
Mehreen et al. A Computer Aided Technique for Classification of Patients with Diabetes
Karaduzovic-Hadziabdica et al. Diagnosis of heart disease using a committee machine neural network
Kavitha et al. Review on cardio vascular disease prediction using machine learning
Barman et al. A framework for selection of membership function using fuzzy rule base system for the diagnosis of heart disease
Jeewandara et al. Data mining techniques in prevention and diagnosis of non communicable diseases
Hirnak et al. Early prediction model for type-2 diabetes based on lifestyle
MISCHIE et al. Artificial neural networks for diagnosis of coronary heart disease

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment