KR102541510B1 - 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법 - Google Patents

국가건강검진 자료를 이용한 자살 예측 모델 구축 방법 Download PDF

Info

Publication number
KR102541510B1
KR102541510B1 KR1020200125144A KR20200125144A KR102541510B1 KR 102541510 B1 KR102541510 B1 KR 102541510B1 KR 1020200125144 A KR1020200125144 A KR 1020200125144A KR 20200125144 A KR20200125144 A KR 20200125144A KR 102541510 B1 KR102541510 B1 KR 102541510B1
Authority
KR
South Korea
Prior art keywords
suicide
prediction model
model
input variables
node
Prior art date
Application number
KR1020200125144A
Other languages
English (en)
Other versions
KR20220042026A (ko
Inventor
나경세
조서은
Original Assignee
(의료)길의료재단
가천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (의료)길의료재단, 가천대학교 산학협력단 filed Critical (의료)길의료재단
Priority to KR1020200125144A priority Critical patent/KR102541510B1/ko
Publication of KR20220042026A publication Critical patent/KR20220042026A/ko
Application granted granted Critical
Publication of KR102541510B1 publication Critical patent/KR102541510B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

본 발명은 (a) 국가건강검진 자료를 수집하는 단계; 및 (b) 상기 국가건강검진 자료를 입력변수로 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트(Random forest) 기법을 사용하여 예측 모델을 구축하는 단계;를 포함하는 자살 예측 모델 구축 방법을 제공한다.

Description

국가건강검진 자료를 이용한 자살 예측 모델 구축 방법{Method for constructing prediction model of suicide using national medical check-up data}
본 발명은 예측 모델의 구축 방법으로서, 상세하게는 국가건강검진 자료를 이용하여 자살 가능성을 예측하는 모델의 구축 방법에 관한 것이다.
자살은 사회, 경제, 교육, 문화적 바탕 위에 개인의 기질적 취약성이 맞물려 발생한다.
사회 구조적인 변화는 다양한 사회 구성원들의 합의를 거쳐야 하고, 막대한 비용이 소요되며, 그 성과를 내기까지의 시간 또한 매우 길다.
한편, 자연 과학적 위험요인을 규명하는 연구의 경우에는 자살의 사회적 맥락이 생략된 채 개인의 생물학적 취약성에만 초점을 맞추게 되며, 극소수의 자살 사망자들을 모집하는 과정에서 선택편향(selection bias)이 발생할 수 있다.
따라서, 자살 사망자들을 최대한 많이 모집할 수 있도록 빅데이터를 기반으로 분석을 시행하여야 할 필요가 있다.
자살시도가 미래 자살 사망의 가장 큰 예측 요인이기 때문에, 흔히 자살 시도를 주요 결과로로 설정하는 경우들이 있다.
하지만, 자살시도와 밀접하게 관련된 요인이 꼭 자살 사망과도 동일하게 밀접한 관련이 있는 것은 아니다.
자살과 직접적으로 관련된 위험 요인이라 할지라도, 자살에 대한 개별적인 영향력은 상당히 제한적이다. 한 분석에서는 지난 50여년간 규명한 어떤 개별적인 위험 요인도 단독으로 자살을 예측하기에는 부족함이 있었음을 보여주었다.
이 때문에, 개별적인 자살의 위험요인들을 파악하기보다는, 다양한 위험요인들의 복합적인 상호작용을 반영할 수 있는 예측 모형의 필요성이 제기되고 있다.
이를 고려할 때 일반 인구집단에서 다양한 변수들을 포괄하여 자살 위험성을 예측하는 모형을 구축하는 것이 필요하지만, 여기에는 몇 가지 어려움들이 있다. 중증정신질환이나 자살시도자들에서는 상대적으로 적은 표본 숫자에서도 자살 사망자들을 발견할 수 있지만, 일반 인구집단에서는 그렇게 할 수 없고, 표본크기가 커야만 한다.
이 때문에 흔히 건강보험청구자료와 같은 빅데이터를 활용한다. 그러나, 이러한 유형의 데이터에는 다양한 변수들이 포함되지 못 하는 경우가 많다.
자살은 인구사회학적, 생물학적, 정신사회적, 정신질환 등 다양한 요인들의 복합적인 상호작용으로 발생하기 때문에 그만큼 여러 유형의 변수들을 포함하여 예측 모형을 설계하여야 한다.
그리고, 자살에 대한 사회적인 오명과 편견으로 인하여 사람들은 쉽게 자신의 자살사고 등을 드러내기를 꺼려하기도 한다. 대상자와 평가자 간에 신뢰관계가 충분히 구축되지 못 한 상태에서 수십만명 이상의 사람들을 대상으로 자살사고 및 의도 등을 명시적으로 물어보는 방법을 활용하는 것은 현실적이지 않다.
Gentil, L., 2020. Predictors of emergency department visits for suicidal ideation and suicide attempt. Psychiatry Res 285, 112805. Simon, G.E., 2018. Predicting Suicide Attempts and Suicide Deaths Following Outpatient Visits Using Electronic Health Records. Am J Psychiatry 175(10), 951-960. Mars, B., 2019. Predictors of future suicide attempt among adolescents with suicidal thoughts or non suicidal self harm: a population based birth cohort study. Lancet Psychiatry 6(4), 327-337.
이에, 본 발명은 상기한 종래의 문제점에 착안하여, 이를 해결하기 위하여 안출된 것으로서, 자살 위험성이 있는 사람들을 효과적으로 선별하는 예측 모델을 제공하고자 한다.
상기한 목적을 달성하기 위하며, 본 발명은 (a) 국가건강검진 자료를 수집하는 단계; 및 (b) 상기 국가건강검진 자료를 입력변수로 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트(Random forest) 기법을 사용하여 예측 모델을 구축하는 단계;를 포함하는 자살 예측 모델 구축 방법을 제공한다.
상기 (b) 단계 이후, (c) 상기 구축된 예측 모델에서 상기 입력변수의 중요도를 판단하는 단계; (d) 상기 입력변수 중 상기 판단된 중요도가 높은 입력변수의 일부를 입력변수로 선택하는 단계; 및 (e) 상기 선택된 입력변수를 새로운 입력변수로 다시 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트 모델 기법을 사용하여 예측 모델을 다시 생성하는 단계;를 더 포함하는 것이 바람직하다.
상기 (b) 단계는, (b1) 상기 수집된 국가건강검진 자료 중에서 소정 갯수의 샘플을 무작위로 추출하는 단계; (b2) 상기 추출된 소정 갯수의 입력변수를 기설정된 분류기준을 이용하여 각각 복수의 의사결정나무로 성장시키는 단계; (b3) 상기 성장한 복수의 의사결정나무를 결합한 랜덤 포레스트 모델로서 예측 모델을 구축하는 단계;를 포함하는 것이 바람직하다.
상기 (b2) 단계는, (b21) 상기 추출된 소정 갯수의 입력변수를 기설정된 분할기준을 이용하여 상위노드로부터 하위노드로 분류하는 단계; (b22) 각 상위노드로부터 각 하위노드로 분류된 변수의 비율로부터 불순도를 연산하는 단계; 및 (b23) 상기 연산된 불순도의 감소량이 최대가 되는 방향으로 의사결정나무를 성장시키는 단계;를 포함하는 것이 바람직하다.
상기 국가건강검진 자료는, 일정 이상의 신체 활동량, 음주량(Alcohol intake), 체질량지수(Boby mass index), 혈액 내 감마 글루타밀 트랜스 펩티다제(γ-glutamyl transpeptidase, γ-GTP) 농도, 연령(Age), 공복혈당치(fasting plasma glucose), 총 콜레스테롤(Total cholesterol), 혈액 내 헤모글로빈(Hemoglobin) 농도를 포함하는 것이 바람직하다.
또한, 상기 자살 예측 모델 구축 방법이 기록된 기록매체를 제공한다.
본 발명에 따른 자살 예측 모델 구축 방법에 의하면, 국가건강검진 자료에 포함된 다양한 변수를 고려하여 예측 모델을 구축함으로써, 향샹된 성능을 가진 자살 예측 모델을 구축할 수 있다.
보다 정확한 규모로 자살 위험자들을 추가로 선별할 수 있으며, 이를 통하여 자살 위험성이 있는 사람들의 효과적인 중재 전략을 개발하기 위한 토대를 마련함으로써, 궁극적으로 국가적 자살률을 낮추는 데에 기여할 수 있다.
도 1 내지 도 3은 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법의 플로우 차트이다.
도 4 내지 도 10은 본 발명의 일 실시예에 다른 자살 예측 모델 구축 방법의 변수로 사용되는 국가건강검진 자료를 나타낸다.
도 11은 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법을 개략적으로 나타낸다.
도 12는 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법에 있어서, 불순도 연산에 따른 의사결정나무의 분류를 개략적으로 나타낸다.
도 13은 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법에 있어서, 입력변수의 중요도를 나타내는 것으로, 도 13(a) 는 건강검진 시점부터 전체 추적 관찰 기간 동안의 입력변수의 중요도를 나타내고, 도13(b) 는 건강검진 시점부터 1년 동안의 입력변수의 중요도를 나타낸다.
도 14는, 본 발명의 일 실시예에 따라 구축된 자살 예측 모델 결과의 혼동 행렬(Confusion matrix)을 나타낸 것으로, 도 14(a)는 건강검진 시점부터 전체 기간 동안의 데이터에 따른 예측 자살자 수 및 실제 자살자 수를 나타내고, 도 14(b)는 건강검진 시점부터 1년 동안의 데이터에 따른 예측 자살자 수 및 실제 자살자 수를 나타낸다.
도 15는 본 발명의 일 실시예에 따라 구축된 자살 예측 모델 결과의 성능을 건강검진 시점부터의 전체 기간 동안과 건강검진 시점부터 1년 동안의 결과로 나누어 나타낸 표이다.
도 16은 도 15의 지표중 민감도와 특이도의 상관관계를 나타낸 AUC(Area Under a ROC Curve) 그래프로서, 도 16(a)는 건강검진 시점부터 전체 기간 동안의 AUC를 나타내고, 도 16(b)는 건강검진 시점부터 1년 동안의 AUC를 나타낸다.
본 발명의 상기와 같은 목적, 특징 및 다른 장점들은 첨부도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명함으로써 더욱 명백해질 것이다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 간략하게 또는 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 기술되어야 할 것이다.
또한, 기술되는 실시예는 발명의 설명을 위해 예시적으로 제공되는 것이며, 본 발명의 기술적 범위를 한정하는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법을 상세히 설명한다.
본 발명은 국가건강검진 자료를 기계 학습(Machine Learning)의 일종인 랜덤 포레스트(Random Forest) 기법을 사용하여 자살 예측 모델을 구축하는 방법을 제공한다.
도 1 내지 도 3은 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법을 나타낸 플로우 차트이다.
도 1에 나타낸 바와 같이, 본 발명의 일 실시예에 따른 자살 예측 모델 구축 방법은, 국가건강검진 자료를 수집하는 단계; 및 수집된 자료를 이용하여 랜덤 포레스트(Random forest) 기법을 사용하여 예측 모델을 구축하는 단계;를 포함한다.
먼저, 국가건강검진 자료가 수집된다(S100).
본 실시예에서의 자살 예측 모델 구축에 사용된 국가건강검진 자료는 국민건강보험공단에서 코호트 형식으로 구축한 데이터베이스를 이용하였으나, 이에 한정되는 것은 아니며, 후술하는 각 정보가 포함된 국가건강검진 자료이면 된다.
도 4 내지 도 10에 나타낸 바와 같이, 수집된 국가건강검진 자료에는 각 대상자의 성병, 연령, 거주지역, 사망일자와 실제 사망원인(자살, 비자살 여부 포함), 건강보장 유형(건강보험 가입자 구분/의료급여), 사회경제적 수준 및 장애 관련 정보(소득분위, 장애등록정보)등을 포함하는 인구사회학적 정보와,
요양급여비용, 진료과목, 진료 상병 정보, 진찰, 처치, 수술 및 기타 행위 급여 내역, 치료 등(행위/수가코드) 상세 진료내역, 원내/원외 처방전 의약품 처방내역 등을 포함하는 진료 정보, 및
검진 및 문진 결과로서, 신체계측, 혈액 검사 등 주요 검사 결과, 과거력, 생활습관에 관한 문진 결과, 평형성, 골밀도 검사, 우울증, 인지기능 검사 결과 등을 포함하는 검진 정보를 포함하며, 이를 이용하여 모델 구축이 가능하도록 각 항목이 분류되고 변수로서 수치화 된다.
다음, 수집된 국가건강검진 자료로 랜덤 포레스트(Random forest) 모델 기법을 사용하여 예측 모델을 구축한다(S200).
상기 국가건강검진 자료를 입력변수로 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트(Random forest) 기법을 사용하여 예측 모델을 구축한다.
도 11에 나타낸 바와 같이, 랜덤 포레스트 기법은 의사결정나무(decision tree) 알고리즘을 기반으로 하여 변형한 앙상블(ensemble) 알고리즘이다.
이는, 복수의 의사결정나무의 예측결과를 회귀의 경우에는 평균으로, 분류의 경우에는 투표로 최종 결과를 산출한다. 그렇기 때문에 단일의 의사결정나무에 비해 일반화 성능이 뛰어나다.
도 11을 참조하면, 의사결정나무에서 가장 상단에 있는 노드를 시작노드(Root node), 가장 말단에 있는 노드를 종단노드(terminal 또는 leaf node라 하고, 시작노드와 종단노드 사이에 있는 노드를 내부노드(internal 또는 split node)라 한다.
각 노드의 위치관계에 따라 상위노드, 하위노드라 한다. 구체적으로, 시작노드는 내부노드의 상위노드가 되고, 반대로 내부노드는 시작노드의 하위노드가 된다. 또한, 내부노드는 종단노드의 상위노드가 되고, 종단노드는 내부노드의 하위노드가 된다.
그리고, 내부노드가 여러 단계로 분류된 경우, 상부에 위치한 내부노드가 하위에 위치한 내부노드의 상위노드가 되고, 하부에 위치한 노드는 상부에 위치한 노드의 하위노드가 된다.
랜덤 포레스트의 특징으로는 무작위 입력변수 선택, 배깅(BAGGING, Bootstrap AGGregatING), Out-Of-Bags 오차율 추정 등이 있다.
배깅 방법은 앙상블 방법의 하나로써, 무작위 복원추출 방법인 부트스트랩
(Bootstrap)을 이용하여 의사결정나무의 불안전성을 보완한다.
배깅의 학습에 사용되는 전체 훈련데이터는 부트스트랩 방법으로 추출되어 n개의 부트스트랩 샘플로 나뉘며, 조금씩 다른 훈련 데이터에 대해 훈련된 n개의 모델을 결합(aggregating)한다.
일반적인 의사결정나무는 작은 편차와 큰 분산을 갖기 때문에, 매우 깊이 성장한 의사결정나무는 훈련 데이터에 대해 과적합(overfitting)된다.
부트스트랩은 각 나무들의 편차는 유지하면서, 분산을 감소시키기 때문에 전체 모델의 성능을 향상시킨다.
즉, 하나의 의사결정나무는 훈련 데이터의 잡음에 대해 매우 민감하게 반응하나, 나무 간의 상관성이 적을 경우, 여러 나무들의 평균은 잡음에 대해 강해진다.
따라서, 배깅은 각 의사결정나무를 서로 다른 데이터 집합으로 훈련시킴으로서 각 나무들을 비상관화시키는 방법이다.
무작위 입력변수 선택은, 의사결정나무의 노드 분할시, 전체 입력 변수 중에서 무작위로 소정 갯수의 입력 변수를 선택하고 선택된 입력 변수 중에서 최적의 노드 분할 기준을 찾는 방법이다.
결과적으로 각기 다른 구조를 가지지만 성능이 뛰어난 의사결정나무의 집합이 구축된다.
이 기법은 무작위로 선택하는 변수의 수를 정하는 것이 중요하다. m이 1에 가까울수록, 각 의사결정나무의 편차와 분산이 커지므로 앙상블 방법의 특징인 평균 혹은 투표 방법에 효과적으로 된다.
선택되는 변수가 전체 입력 변수 수에 가까울수록, 각 나무의 편차와 분산이 작아지며 앙상블 방법의 효과가 적어지게 된다.
Out-Of-Bag 오차율 추정은 부트스트랩 샘플에 포함되지 않은 관측값을 모델의 일반화 성능을 평가하는 Out-of-bags(OOB) 데이터로써 사용하는 것으로, Out-Of-Bag 오차율은 랜덤 포레스트 모델의 성능을 검증하는 기본적인 지표로서 활용된다.
또한, 랜덤 포레스트는 출력변수의 예측에 대한 입력변수의 영향력을 변수 중요도로 평가 가능하며 이는 모델 해석능력 향상에 도움이 된다.
본 실시예에서, 데이터 처리는 SAS Enterprise Guide 7.1(SAS Institute Inc., Cary, NC, USA)에 의해 수행되었고, 모든 결측값은 제거되었다.
모든 머신 러닝 프로세스는 R 3.3.0 (R Core Team, 2016) 및 RStudio 1.0.136 (RStudio Team, 2012)을 사용하여 수행되었다.
전체 데이터 세트의 70%를 훈련 세트로, 나머지 30%를 테스트 세트로 나누었다.
테스트 세트는 Out-of-bags(OOB) 데이터로서 예측 모델의 성능을 평가 및 입력변수 중요도를 판단하는 단계에서 사용된다.
예측 모델에는 RF(RandomForest in R Package) 알고리즘이 사용되었고, 이후의 성능 측정은 모두 캐럿 패키지를 사용하여 도출하였다.
예측 모델의 성능은 후술하는 바와 같이, AUC(Area Under a ROC Curve)를 기본 성능 지표로 설정하고, 그 외, 민감도, 특이도, 음성 예측도 및 양성 예측값과 같은 다른 측정 값도 도출하였다.
도 1 내지 도 12를 참조하여, 국가건강검진 자료를 사용하여 랜덤 포레스트(Random forest) 모델을 구축하는 방법을 상세히 설명한다.
도 2는 도 1의 S200 단계에 포함되는 각 단계를 나타낸 플로우 차트이며, 도 3은 도 2의 S220 단계에 포한되는 각 단계를 나타낸 플로우 차트이다.
수집된 국가건강검진 자료 중에서 소정 갯수의 샘플을 무작위로 추출한다(S210).
도 11에 나타낸 바와 같이, 수집된 국가건강검진 자료로부터 복수 개(n) 세트의 부트스트랩 샘플 및 각 세트의 부트스트랩 샘플에 해당하는 소정 갯수의 입력변수를 중복을 허용하여 무작위 복원추출한다. 각 샘플은 각 의사결정나무의 훈련 데이터로 이용된다. 또한, 훈련 데이터에 포함되지 않은 30%의 데이터는 후술하는 Out-Of-Bag에 사용될 샘플로 추출될 수 있다.
다음, 추출된 소정 갯수의 입력변수를 기설정된 분할기준을 이용하여 각각 복수의 의사결정나무로 성장시킨다(S220).
무작위로 선택한 소정 갯수의 입력 변수 중에서 최적의 분할기준을 찾아 하위노드로 나눈다.
추출된 소정 갯수의 입력변수를 기설정된 분할기준을 이용하여 상위노드로부터 하위노드로 분류되도록 한다(S221).
구체적으로, 종단노드에 대한 매개변수와 내부노드와 관련된 노드 분할 함수(split function)의 매개변수를 설정하여 노드를 분류한다.
상기와 같이, 노드 분할 함수나 매개변수는 사용자에 의해 설정될 수 있지만, 보다 복잡한 문제의 경우, 최적의 의사결정트리를 생성하기 위하여 나무 구조와 매개변수를 자동으로 학습하도록 할 수 있으며, 이때, 불순도를 이용할 수 있다.
각 상위노드로부터 각 하위노드로 분류된 변수의 비율로부터 불순도를 연산한다(S222).
불순도 지수는 상위노드에서 복수의 하위노드로 분류된 변수들이 분류된 정도를 나타낸다. 변수가 복수의 하위노드로 분류될 때, 고르게 분류될 수록 불순도가 높고, 한쪽으로 치우쳐 분류될 수록 불순도가 높다.
데이터가 복수의 하위노드 중 한 쪽의 하위노드에 치우쳐 분류되는 경우 불순도가 낮아지고, 복수의 하위노드에 고르게 잘 섞여있는 경우 불순도가 높아진다.
의사결정나무는 어떤 변수가 어떤 범주로 분류되는지 알아야하기 때문에 당연히 분류되는 변수가 한 쪽에 치우쳐야 정확한 결과를 얻어낸다.
즉, 의사결정나무의 불순도가 낮을수록 좋은 결정을 내릴 수 있다.
도 12를 참조하면, 예를 들어, 하나의 상위노드로부터 8개의 변수가 2개의 하위노드로 분류되는 경우, 도 12(a)와 같이 좌측 하위노드에 3개 우측 하위노드에 5개로 분류되고, 도 12(b)와 같이, 좌측 하위노드에 1개 우측 하위노드에 7개로 분류되었다면, 도 12(a)의 경우가 도 12(b)의 경우보다 불순도가 높다.
불순도가 높을수록 상위노드에서 하위노드로 분류시에 손실되는 변수가 많아지게 된다. 불순도를 측정하는 방식에는 지니계수, 엔트로피 등이 있다.
다음, 연산된 불순도의 감소량이 최대가 되는 방향으로 의사결정나무를 성장시킨다(S223).
상기와 같이, 불순도를 이용하여 상위노드로부터 하위노드로의 분류 후 한 쪽의 하위노드에 남는 변수의 양이 큰 노드 분할 함수를 선택한다. 환언하면, 분류에 의해 손실되는 정보가 가장 적은 분류를 선택하여 의사결정나무를 성장시킨다.
다음, 성장한 복수의 의사결정나무를 결합한 랜덤 포레스트 모델로서 예측 모델을 구축한다(S230).
상기 과정을 통하여 성장한 복수의 의사결정나무를 결합한 랜덤 모델로서 1차적으로 자살 예측 모델을 구축할 수 있다.
또한, 예측 모델의 정확성 향상 재구축 시간을 단축하기 위하여, 하기와 같은 단계를 더 포함할 수 있다.
구축된 예측 모델에서 상기 입력변수의 중요도를 판단한다(S300).
이때, 중요도는 상기한 훈련 데이터에 포함되지 않은 30%의 Out-Of-Bag 샘플을 구축된 모델에 입력하고, 입력변수 중 어느 하나의 입력 변수 값을 바꾸었을 때 출력변수 값에 미치는 영향을 고려하여 중요도를 판단한다.
즉, 어느 하나의 입력변수 값을 바꾸었을 때 출력 변수 값의 변화가 크면 상기 입력변수는 중요도가 높다고 판단할 수 있고, 반대로 어느 하나의 입력변수 값을 바꾸었을 때 출력변수 값의 변화가 작으면 입력변수의 중요도가 낮다고 판단할 수가 있다.
본 실시에예서 본 단계의 수행을 통한 입력변수의 중요도를 도 13에 나타내었다.
도 13(a)는 건강검진 시점부터 전체 기간 동안의 입력변수의 중요도를 나타내고, 도 13(b)는 건강검진 시점부터 1년 동안의 입력변수의 중요도를 나타낸다.
도 13(a)에 나타낸 바와 같이, 건강검진 시점부터 전체 기간 동안의 자살 위험성에 대한 입력변수의 중요도는, 20분 이상의 격렬한 운동(Strenuous exercise), 음주량(Alcohol intake), 30분 이상의 적당한 운동(Moderate exercise), 연령(Age), 체질량지수(Boby mass index), 혈액 내 감마 글루타밀 트랜스 펩티다제(γ-glutamyl transpeptidase, γ-GTP), 30분 이상의 걷기(Walking exercise), 혈액 내 헤모글로빈(Hemoglobin) 농도, 총 콜레스테롤(Total cholesterol), 공복혈당치(fasting plasma glucose) 등의 순이었다.
또한, 도 13(b)에 나타낸 바와 같이, 건강검진 시점부터 1년 동안의 자살 위험성에 대한 입력변수의 중요도는, 30분 이상의 적당한 운동(Moderate exercise), 20분 이상의 격렬한 운동(Strenuous exercise), 음주량(Alcohol intake), 체질량지수(Boby mass index), 혈액 내 감마 글루타밀 트랜스 펩티다제(γ-glutamyl transpeptidase, γ-GTP), 30분 이상의 걷기(Walking exercise), 연령(Age), 공복혈당치(fasting plasma glucose), 총 콜레스테롤(Total cholesterol), 혈액 내 헤모글로빈(Hemoglobin) 등의 순이었다.
입력변수의 중요성과 관련하여, 자살 예측에서 신체 활동과 알코올 섭취량은 매우 높은 중요도를 나타내며, 이는, 신체 활동 감소와 알코올 섭취 증가는 우울증과 정신 분열증과 같은 주요 정신 장애가있는 사람들에게 공통적인 생활 방식 특성이고, 이러한 정신 질환을 가진 사람들은 다른 사람들보다 자살 위험이 높으며 신체 활동과 알코올 소비는 근본적인 주요 정신 장애를 반영함을 알 수 있다.
그리고, 신체 활동과 알코올이 직간접 적으로 자살을 유발할 가능성이 있으며, 신체 활동 증가는 자살 감소와 크게 관련이 있다고 할 수 있다.
다음, 입력변수 중 상기 판단된 중요도가 높은 입력변수의 일부를 입력변수로 선택한다(S400).
예를 들어, 상기와 같이 중요도가 판단된 입력변수 중 중요도가 높은 순으로 상위 10개를 입력변수로 변수 선택을 할 수가 있으며, 이는 물론 상기와 같이 관찰기간 등과 같은 조건이나, 의사결정나무의 성장에 따라 변경이 가능하다.
다음, 상기와 같이 선택된 입력변수를 새로운 입력변수로 다시 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트 모델 기법을 사용하여 예측 모델을 다시 생성한다(S500).
이와 같이, 중요도에 따라 입력변수를 선택함으로써, 예측 모델을 구축하는데 필요한 입력변수의 개수가 줄어들었기 때문에 예측 모델을 다시 구축하는데 소요되는 시간을 줄일 수가 있다. 또한, 중요도가 높은 입력변수들이 고려되었기 때문에 예측 모델의 정확성을 높일 수가 있다.
이후, 상기와 같이 구축된 예측 모델에 예측 대상 데이터를 입력하고, 그 결과로서 자살 예측 결과를 얻을 수 있다.
다음으로, 상기와 같은 과정을 거쳐 구축된 자살 예측 모델의 성능을 검증하였다.
성능의 검증에는 테스트 샘플로서, 상기한 훈련 데이터에 포함되지 않은 30%의 Out-Of-Bag 샘플을 구축된 모델에 입력하여 결과를 도출하였다.
도 14는, 자살 예측 모델 결과의 혼동 행렬(Confusion matrix)을 나타낸다.
도 14(a)는, 건강검진 시점부터 전체 기간 동안의 데이터에 따른 예측 자살자 수 및 실제 자살자 수를 나타내고, 도 14(b)는, 건강검진 시점부터 1년 동안의 데이터에 따른 예측 자살자 수 및 실제 자살자 수를 나타낸다.
도 14(a)를 참조하면, 전체 기간 동안의 데이터에 따른 결과는 111,843명 중 84,290명이 정확하게 분류되었다(정확도=0.754).
구체적으로, 비자살자 111,619 명 중 84,107 명이 비자살자로 분류되었다(특이도=0.754). 그리고, 비자살자 111,619 명 중 27,512 명은 자살자로 오분류 되었다(위양성=0.247).
또한, 자살자 224 명 중 183명이 자살자로 맞게 분류되었다(민감도=0.817), 그러나, 자살자 224 명 중 41 명이 비자살자로 잘못 분류되었다(위음성=0.183).
즉, 비자살자로 예측된 111,619 명 중 84,107 명이 비자살자로 정확하게 분류(음성 예측도=0.999)되고, 자살자로 예측된 27,695 명 중 183 명이 정확하게 분류되었다(양성 예측도=0.007).
그리고, 도 14(b)를 참조하면, 1년 동안의 데이터에 따른 결과는 111,843명 중 88,115명이 정확하게 분류되었다(정확도=0.788).
구체적으로, 비자살자 111,741 명 중 88,048 명이 비자살자로 분류되었다(특이도=0.788). 그리고, 비자살자 111,741 명 중 23,693 명은 자살자로 오분류 되었다(위양성=0.212).
또한, 자살자 102 명 중 67 명이 자살자로 맞게 분류되었다(민감도=0.657), 그러나, 자살자 102 명 중 35 명이 비자살자로 오분류되었다(위음성=0.341).
비자살자로 예측된 88,083 명 중 88,048 명이 비자살자로 정확하게 분류 (음성 예측도=0.999)되고, 자살자로 예측된 23,760 명 중 67 명이 정확하게 분류되었다(양성 예측도=0.003).
도 15는 상기한 예측 모델의 성능을 나타내는 지표인 정확도(Accuracy), 민감도(sensitivity), 특이도(specificity), 양성 예측도(Positive Predictive Value, PPV), 음성 예측도(Negative Predictive Value) 및 AUC(Area Under a ROC Curve) 수치를 건강검진 시점부터의 전체 기간 동안과 건강검진 시점부터 1년 동안의 결과로 나누어 나타낸 표이다.
도 16은 상기 지표중 민감도와 특이도의 상관관계를 나타낸 그래프로서 AUC를 도시한다.
도 16(a)는 건강검진 시점부터 전체 기간 동안의 AUC를 나타내고, 도 16(b)는 건강검진 시점부터 1년 동안의 AUC를 나타낸다.
정확도는 실제값에 예측값이 얼마나 가까운지를 나타내는 지표로서, 실제 자살자가 자살자로 예측되거나, 실제 비자살자가 비자살자로 예측되는 비율이다.
민감도는 실제 자살자가 자살자로 예측된 비율이며, 특이도는 실제 비자살자가 비자살자로 예측된 비율이다.
양성 예측도는 자살로 예측된 경우 실제로 자살에 이를 확률이며, 음성 예측도는 비살자로 예측된 경우, 실제로 자살에 이르지 않을 확률이다.
AUC는 민감도와 특이도의 상관관계를 나타내는 ROC(Receiver Operating Characteristic curve)의 밑면적으로서, 특이도와 민감도의 증감 관계를 나타내며, 본 발명과 같은 예측 모델의 성능을 평가하는 주된 지표이다.
AUC는 0.5~1의 범위를 가진다. 0.5인 경우 전혀 성능이 없는 예측 모델이며, 1인 경우 최고의 성능을 갖는 예측 모델임을 의미한다.
도 16에 나타낸 바와 같이 본 발명에 따른 자살 예측 모델의 경우 전체 기간의 데이터와 1년 동안의 데이터에 따른 AUC값이 각각 0.849, 0.818로서 이는 언급된 종래의 예측 모델에 비하여 매우 향상된 성능을 나타냄을 알 수 있다.
상기와 같이, 구축된 예측 모델에 예측 대상 데이터를 입력하고, 그 결과로서 자살 예측 결과를 얻을 수 있다.
또한, 본 발명에 따른 자살 예측 모델 구축 방법은, 이를 컴퓨터, 스마트폰, 단말기 등을 포함하는 수행장치에서 수행시키기 위하여, HDD, USB, 등의 기록매체에 기록될 수 있으며, 상기한 수행장치 및 기록매체는 본 발명에 따른 자살 예측 모델 구축 방법을 수행 가능한 장치 및 자살 예측 모델 구축 방법의 기록이 가능한 매체이면 되고 한정되지 않는다.
본 발명에 따른 자살 예측 모델 구축 방법에 의하면, 국가건강검진 자료에 포함된 다양한 변수를 고려하여 예측 모델을 구축함으로써, 향샹된 성능을 가진 자살 예측 모델을 구축할 수 있다.
보다 정확한 규모로 자살 위험자들을 추가로 선별할 수 있으며, 이를 통하여 자살 위험성이 있는 사람들의 효과적인 중재 전략을 개발하기 위한 토대를 마련함으로써, 궁극적으로 국가적 자살률을 낮추는 데에 기여할 수 있다.

Claims (6)

  1. 컴퓨터에서 수행되는 자살 예측 모델 구축 방법으로서,
    (a) 인구사회학적 정보, 진료 정보, 검진 정보 및 문진 정보를 포함하는 국가건강검진 자료를 수집하는 단계; 및
    (b) 상기 국가건강검진 자료를 수치화 하여 입력변수로 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트(Random forest) 기법을 사용하여 예측 모델을 구축하는 단계;를 포함하며,
    상기 국가건강검진 자료는, 일정 이상의 신체활동량, 음주량(Alcohol intake), 체질량지수(Boby mass index), 혈액 내 감마 글루타밀 트랜스 펩티다제(γ-glutamyl transpeptidase, γ-GTP) 농도, 연령(Age), 공복혈당치(fasting plasma glucose), 총 콜레스테롤(Total cholesterol), 혈액 내 헤모글로빈(Hemoglobin) 농도를 더 포함하는,
    자살 예측 모델 구축 방법.
  2. 제 1 항에 있어서,
    상기 (b) 단계 이후,
    (c) 상기 구축된 예측 모델에서 상기 입력변수 값을 바꾸었을 때의 출력변수 값의 변화량에 따라 상기 입력변수의 중요도를 판단하는 단계; 및
    (d) 상기 판단된 중요도에 따라 상기 입력변수의 일부를 입력변수로 선택하는 단계; 및
    (e) 상기 선택된 입력변수를 새로운 입력변수로 다시 설정하고, 자살 여부를 출력변수로 설정하여 랜덤 포레스트 모델 기법을 사용하여 예측 모델을 다시 생성하는 단계;를 더 포함하는,
    자살 예측 모델 구축 방법.
  3. 제 1 항에 있어서,
    상기 (b) 단계는,
    (b1) 상기 수집된 국가건강검진 자료의 샘플에 해당하는 소정 갯수의 입력변수를 무작위로 추출하는 단계;
    (b2) 상기 추출된 소정 갯수의 입력변수를 기설정된 분류기준을 이용하여 각각 복수의 의사결정나무로 성장시키는 단계;
    (b3) 상기 성장한 복수의 의사결정나무를 결합한 랜덤 포레스트 모델로서 예측 모델을 구축하는 단계;를 포함하는,
    자살 예측 모델 구축 방법.
  4. 제 3 항에 있어서,
    상기 (b2) 단계는,
    (b21) 상기 추출된 소정 갯수의 입력변수를 기설정된 분할기준을 이용하여 상위노드로부터 하위노드로 분류하는 단계;
    (b22) 각 상위노드로부터 각 하위노드로 분류된 변수의 비율로부터 불순도를 연산하는 단계; 및
    (b23) 상기 연산된 불순도의 감소량이 최대가 되는 방향으로 의사결정나무를 성장시키는 단계;를 포함하는,
    자살 예측 모델 구축 방법.
  5. 삭제
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 따른 자살 예측 모델 구축 방법이 기록되어 컴퓨터로 읽을 수 있는,
    기록매체.
KR1020200125144A 2020-09-25 2020-09-25 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법 KR102541510B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200125144A KR102541510B1 (ko) 2020-09-25 2020-09-25 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200125144A KR102541510B1 (ko) 2020-09-25 2020-09-25 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법

Publications (2)

Publication Number Publication Date
KR20220042026A KR20220042026A (ko) 2022-04-04
KR102541510B1 true KR102541510B1 (ko) 2023-06-13

Family

ID=81182618

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200125144A KR102541510B1 (ko) 2020-09-25 2020-09-25 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법

Country Status (1)

Country Link
KR (1) KR102541510B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116307405B (zh) * 2023-05-25 2023-08-04 日照鲁光电子科技有限公司 一种基于生产数据的二极管性能预测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102013692B1 (ko) * 2018-11-09 2019-08-23 한국과학기술정보연구원 자살 치명도 예측 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102013692B1 (ko) * 2018-11-09 2019-08-23 한국과학기술정보연구원 자살 치명도 예측 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
홍기혜, 랜덤포레스트 머신러닝 알고리즘 기반 남·여 청소년의 자살생각 예측 및 분석, 한국사회복지학 72(3), pp.157~180, (2020.08.31.) 1부.*

Also Published As

Publication number Publication date
KR20220042026A (ko) 2022-04-04

Similar Documents

Publication Publication Date Title
Altmejd et al. Predicting the replicability of social science lab experiments
Meiring et al. Optimal intensive care outcome prediction over time using machine learning
Musoro et al. Validation of prediction models based on lasso regression with multiply imputed data
De Menezes et al. Data classification with binary response through the Boosting algorithm and logistic regression
Kuhn et al. An introduction to feature selection
Austin et al. Automated variable selection methods for logistic regression produced unstable models for predicting acute myocardial infarction mortality
Etzioni et al. Combining biomarkers to detect disease with application to prostate cancer
Claggett et al. Treatment selections using risk–benefit profiles based on data from comparative randomized clinical trials with multiple endpoints
Arbet et al. Lessons and tips for designing a machine learning study using EHR data
Kandler et al. Analysing cultural frequency data: Neutral theory and beyond
CN114724716A (zh) 进展为2型糖尿病的风险预测的方法、模型训练及装置
Jaeger et al. Oblique random survival forests
Sen et al. Correlating eligibility criteria generalizability and adverse events using Big Data for patients and clinical trials
Zaunseder et al. Opportunities and challenges in machine learning‐based newborn screening—A systematic literature review
Shrestha et al. Supervised machine learning for early predicting the sepsis patient: modified mean imputation and modified chi-square feature selection
Rahnenführer et al. Statistical analysis of high-dimensional biomedical data: a gentle introduction to analytical goals, common approaches and challenges
Yao et al. Ensemble methods for survival function estimation with time-varying covariates
KR102541510B1 (ko) 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법
US11537888B2 (en) Systems and methods for predicting pain level
Langham et al. Predicting risk of dementia with machine learning and survival models using routine primary care records
Devaux et al. Random survival forests for competing risks with multivariate longitudinal endogenous covariates
Zhang et al. Identifying the predictors of severe psychological distress by auto-machine learning methods
US11107555B2 (en) Methods and systems for identifying a causal link
Debray et al. Dealing with missing data in an IPD meta‐analysis
Bianchi et al. Active preference-based optimization for human-in-the-loop feature selection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right