WO2024063195A1

WO2024063195A1 - 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크

Info

Publication number: WO2024063195A1
Application number: PCT/KR2022/016581
Authority: WO
Inventors: 이승원; 최문호
Original assignee: 전남대학교산학협력단
Priority date: 2022-09-23
Filing date: 2022-10-27
Publication date: 2024-03-28
Also published as: KR102481814B1

Abstract

본 발명은, 독립 변수의 영향력을 분석하기 위한 통계적 학습 시스템에 있어서, 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 모듈; 상기 통계적 학습 모듈의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 모듈; 및 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 모듈;을 포함하여, 학습 데이터의 훈련 세트의 크기와 반복 횟수를 확장하고 다중공선성을 고려한 회귀 모델의 통계분석이 수행되는 것을 일 특징으로 한다.

Description

샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크

본 발명은 통계적 학습 시스템에 관한 것으로서, 특히 임상데이터와 같이 샘플의 크기가 작고 불균형한 분포를 지니며, 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석시 부정적인 영향을 미치는 다중공선성이 발생될 수 있는 데이터 분석에 이용될 수 있는 통계적 학습 시스템에 관한 것이다.

임상의가 연구를 수행하는 과정은 대체로 임상 경험을 바탕으로 아이디어를 얻어 연구의 계획을 세우고 이를 수행한 뒤 결과를 통계 분석하여 논문화하는 일련의 과정이라고 볼 수 있다. 이 과정에서 통계 분석은 수집된 자료로부터 합리적인 결론에 도달하는 의사 결정 과정이라고 할 수 있는데, 적절한 통계 방법의 선택과 이의 사용 및 해석 능력은 연구 전 단계에서 크게 영향을 미친다. 의학 연구에서, 결과를 평가하기 위해서는 다양한 위험 인자들, 혹은 많은 변수들이 분석되는데, 최종 목표는 변수들 간의 관계를 평가하기보다는 결과를 예측하거나 설명하기 위한 경우가 대부분이다. 이 때, 통계 분석에서는 변수들 간의 교란 효과(confounding effect)에 의한 편향(bias)이 반드시 고려되어야 한다. 그 방법으로 다변량 분석이 고려될 수 있다. 여러 변수들의 교란 효과를 통계적으로 적절히 처리하며 두 개 이상 여러 개의 변수를 동시에 분석하는 방법을 다변량 분석(multivariate analysis)이라 한다.

다중 회귀 분석은 다변량이 미리 독립 변수 여러 개와 종속 변수(결과 변수) 1개로 나뉘어져 있어서 전자에 의해 얻어진 정보에서 후자를 추정하는 분석법으로, 여러 개의 변수에 의한 통합적인 영향력을 분석하기 위한 방법이다. 다중 회귀 분석은 임상 데이터의 유효성 평가를 위한 통계적 분석으로 주로 사용되고 있다.

일반적으로, 임상 데이터의 분석에는 전통적인 최소 제곱법 회귀분석(OLS, Ordinary Least Squares)이 사용되고 있다. 다만, OLS 회귀분석법은 다중공선성의 문제로부터 자유롭지 못한 한계가 있다. 다중공선성이란 회귀 분석에서 사용된 모형의 일부 변수가 다른 변수와 상관 정도가 높아 데이터 분석시 부정적인 영향을 미치는 현상을 말한다. 다중공선성은 모델 계수를 해석하기 어렵게 하고, 통계적으로 유의한 독립 변수를 식별하려는 통계 모델의 검정력을 감소시킨다.

다중공선성의 문제를 회귀분석시 고려한 종래기술로 한국등록특허 제2339305호가 있다. 상기 선행특허는 미세먼지를 포함하는 대기 오염 물질에 대한 인체 위험도를 추정하기 위한 빅데이터 분석 방법에 관한 것이다. 상기 선행특허는 수렴성 교차 매핑을 이용하여 다중공선성 문제를 해결하여 대기 오염 물질에 대한 인체 위험도를 추정하는 데이터 분석 방법을 제시한다. 그러나, 종래의 다중공선성을 고려한 통계 방법은, 임상데이터와 같이 샘플의 크기가 작고 불균형한 분포를 가진 통계의 영역까지 확장되지 못한 한계가 있다.

이에, 본 출원인은 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석시 부정적인 영향을 미치는 다중공선성이 발생될 수 있는 데이터 분석에 적용이 가능하고, 임상 데이터와 같이 데이터 샘플의 수가 제약적이고 결과 데이터가 대부분 불균형한 분포를 가진 통계 분석의 영역에도 적합한 통계적 학습 시스템을 고안하게 되었다.

본 발명은 표본이 적고 분석하고자 하는 사건의 분포가 불균형하며 다중공선성적인 특성을 포함하는 데이터 세트의 해석이 가능한 학습 시스템을 제공하고자 한다. 본 발명은, 데이터의 작은 샘플 사이즈와 불균형한 분포를 가진 데이터 세트의 핸들링이 가능하여, 특히 임상 데이터의 분석에 유용한 통계적 학습 시스템을 제공하고자 한다.

상기 목적을 달성하기 위하여 본 발명은, 독립 변수의 영향력을 분석하기 위한 통계적 학습 시스템에 있어서, 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 모듈; 상기 통계적 학습 모듈의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 모듈; 및 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 모듈;을 포함하여, 학습 데이터의 훈련 세트의 크기와 반복 횟수를 확장하고 다중공선성을 고려한 회귀 모델의 통계분석이 수행되는 것을 일 특징으로 한다.

바람직하게, 상기 통계적 학습 모듈은, 상기 회귀분석 모델이 복수개로 구성될 수 있고, 상기 회귀분석 모델은 서로 다른 유형의 회귀분석 모델이며, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 벌점 정규화를 사용하는 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Rregression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀 (SVR, Support Vector Regression) 중 선택된 복수개일 수 있다.

바람직하게, 상기 통계적 학습 모듈은, 종속 변수의 컷오프를 기준으로, 통계적 유의성의 확인 대상이 되는 독립 변수의 유(有)/무(無)에 따른 이진 분류를 각각 수행할 수 있다.

바람직하게 상기 통계적 학습 모듈은, 분류 알고리즘에서 상기 회귀분석 모델의 초매개변수(hyperparameter)로, 디폴트 값(default value) 또는 조절(tuning)된 값이 적용될 수 있다.

바람직하게 상기 통계적 학습 모듈은, 상기 회귀분석 모델이 복수개로 구성될 수 있고, 복수개의 회귀분석 모델이 앙상블(Ensemble Learning) 알고리즘으로 통합될 수 있다.

바람직하게, 상기 컷오프 설정 모듈은, 민감도와 특이도로 그려지는 ROC(Receiver Operating Characteristic) 곡선에서 민감도와 특이도의 합을 최대로 하는 포인트를 상기 컷오프로 설정할 수 있다.

바람직하게, 상기 컷오프 설정 모듈은, [관계식 1]에 따라 상기 컷오프의 포인트를 최적화할 수 있다.

[관계식 1]

MAX(SE+SP-1)

여기서, SE는 민감도(Sensitiveity)를 의미하고 SP는 특이도(Specificity)를 의미하며 MAX는 최대값을 의미한다.

바람직하게, 상기 데이터 세트 확장 모듈은, 상기 통계적 학습 모듈의 분류 알고리즘에서 학습 데이터 세트(n개) 중 하나의 표본을 테스트 데이터로 남기고, 나머지 학습 데이터 세트(n-1개)로 분류 알고리즘을 재학습할 수 있다.

또한, 본 발명은 데이터를 입력하는 입력 수단, 입력된 데이터를 처리하는 처리 수단 및 출력 수단을 갖는 스마트폰, 태블릿, 노트북, 또는 컴퓨터에, 실행시키기 위하여 매체에 저장된 통계적 학습 어플리케이션에 있어서, 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 기능; 상기 통계적 학습 기능의 실행시 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 기능; 및 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 기능;을 포함하는 것을 다른 특징으로 한다.

의생명 분야에서 작은 표본 크기, 데이터의 불균형 및 다중공선성은 일반적으로 데이터의 분석을 어렵게 만든다. 특히, 임상 연구에서는 대부분이 환자를 모집하기 어려운 특성상, 표본 크기가 상대적으로 적을 수 밖에 없으며, 이는 적합된 모델 계수의 높은 변동성을 유발하여 적합 모델의 불안정한 결과를 초래한다.

본 발명은 표본이 적고 분석하고자 하는 사건의 분포가 불균형하며 다중공선성이 발생될 수 있는 데이터 세트를 분석할 수 있고, 특히 통계적 유의성 분석에 어려운 독립변수의 해석이 가능한 이점이 있다.

도 1은 본 발명의 실시예에 따른 통계적 학습 시스템의 구성 개요도이다.

도 2는 본 실험례에서 수행된 LVEF 예측 프로세스를 나타낸다.

도 3은 허혈성 심장병 데이터 세트의 예측 점수 분포를 나타낸다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명을 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.

본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

도 1은 본 발명의 실시예에 따른 통계적 학습 시스템(1)의 구성 개요도이다. 도 1을 참조하면, 통계적 학습 시스템(1)은 통계적 학습 모듈(10), 컷오프 설정 모듈(30) 및 데이터 세트 확장 모듈(50)을 포함할 수 있다.

통계적 학습 모듈(10)은 독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행할 수 있다.

통계분석에서 일부 독립변수들이 높은 상관관계가 있거나 데이터 세트의 다른 변수로부터 독립 변수가 계산될 수 있을 때 다중공선성 문제가 발생될 수 있다. 본 실시예에 따른 통계적 학습 모듈(10)은 다중공선성 문제를 극복하기 위해 사용되는 회귀 분석 모델로 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법을 적용한다.

또한 보다 바람직한 실시예로, 통계적 학습 모듈(10)은 상기 회귀분석 모델이 복수개로 구성될 수 있고, 상기 회귀분석 모델은 서로 다른 유형의 회귀분석 모델이며, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 벌점 정규화를 사용하는 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Regression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀(SVR, Support Vector Regression) 중 선택된 복수개일 수 있다. 차원변환 기법에 의한 회귀분석은 종속 변수에 거의 영향을 미치지 않으면서 주어진 독립 변수들을 더 작은 차원을 갖는 새로운 독립변수들로 대체한다. 본 실시예로, 차원변환 기법에 의한 회귀분석으로는 PCR, PLS 회귀분석이 해당될 수 있다.

통계적 학습 모듈(10)은 종속 변수의 컷오프를 기준으로, 통계적 유의성의 확인 대상이 되는 독립 변수의 유(有)/무(無)에 따른 이진 분류를 각각 수행할 수 있다.

통계적 학습 모듈(10)은, 분류 알고리즘에서 상기 회귀분석 모델의 초매개변수(hyperparameter)로, 디폴트 값(default value) 또는 조절(tuning)된 값이 적용될 수 있다. 매개변수의 튜닝 실시예는 하기의 실험례를 통해 후술한다.

통계적 학습 모듈(10)은, 상기 회귀분석 모델이 복수개로 구성될 수 있고, 복수개의 회귀분석 모델이 앙상블(Ensemble Learning) 알고리즘으로 통합될 수 있다. 본 실시예로, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 벌점 정규화를 사용하는 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Regression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀(SVR, Support Vector Regression)의 분석 모델은 앙상블 알고리즘으로 통합되어 앙상블 학습을 통해 이진 분류를 수행할 수 있다.

컷오프 설정 모듈(30)은 통계적 학습 모듈(10)의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화할 수 있다. 컷오프 설정 모듈(30)은 민감도와 특이도로 그려지는 ROC(Receiver Operating Characteristic) 곡선에서 민감도와 특이도의 합을 최대로 하는 포인트를 상기 컷오프로 설정할 수 있다.

컷오프 설정 모듈(30)은 [관계식 1]에 따라 상기 컷오프의 포인트를 최적화할 수 있다.

[관계식 1]

MAX(SE+SP-1)

컷오프 포인트는 임상 데이터의 분석시 양성 및 음성의 테스트 결과를 정의하는 판별 값으로 이해될 수 있다. 컷오프 포인트를 결정하는 것은 로지스틱 회귀와 같은 분류기에서 발생하는 연속척도 결과(예측 확률)에 매우 중요하다. 임상 실무에서 잘못된 결론이 도출되지 않도록 하려면 적절한 컷오프를 선정해야 한다. 본 실시예로 ROC 곡선과 관련하여 사용되는 요약 척도로 [관계식 1] 기반의 Youden 지수가 컷오프 설정에 사용될 수 있다. 본 실시예에 따른 컷오프는 민감도와 특이도 간의 최상의 균형을 제공하며, 이는 ROC 곡선의 기울기가 1인 지점에서 민감도와 특이도의 이득 또는 손실이 동일한 지점을 의미할 수 있다.

데이터 세트 확장 모듈(50)은 교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시킬 수 있다.

데이터 세트 확장 모듈(50)은 기 통계적 학습 모듈의 분류 알고리즘에서 학습 데이터 세트(n개) 중 하나의 표본을 테스트 데이터로 남기고, 나머지 학습 데이터 세트(n-1개)로 분류 알고리즘을 재학습할 수 있다.

본 실시예로, 데이터 세트 확장 모듈(50)은 LOOCV(Leave-One-Out Cross-Validation)의 교차 검증 알고리즘을 이용하여 데이터 세트의 학습량과 횟수를 증폭시킬 수 있다. LOOCV의 장점으로는 모든 샘플에 대해서 다 한번씩은 테스트를 수행하는 것으로 어떠한 Randomness도 존재하지 않게 되는 것과, 안정된 결과를 얻을 수 있다는 것이다.

이하에서, 본 실시예에 따른 통계적 학습 시스템을 적용한 실험례를 설명한다.

1. 실험례 :허혈성 심장병에서 글루타티온 퍼옥시다제-3(GPx3) 수준에 기반한 좌심실 박출률(LVEF) 예측

허혈성 심장병(Ischemic Heart Disease, IHD)은 가장 흔한 심혈관 질환이다. 좌심실 박출률(Left Ventricular Ejection Fraction, LVEF)은 좌심실의 수축기 기능에 대한 잘 검증된 지표이며 허혈성 심장병에서 점차 감소한다. 이하의 실험례에서는 허혈성 심장병 환자의 혈청 글루타티온 퍼옥시다제-3(GPx3; IHD에 대한 가능한 항산화 보호제)와 좌심실 박출률 사이의 관계를 밝히는 것을 목적으로 한다.

허혈성 심장병은 고혈압, 당뇨병, 높은 체질량지수(Body Mass Index, BMI), 흡연 등 허혈성 심장병의 많은 위험 요인이 확인된 바 있다. 과산화수소 음이온, 과산화수소, 과산화지질, 과산화질산염과 같은 활성산소종(Reactive Oxygen Species, ROS)은 염증 반응, 세포 사멸, 세포 성장 및 혈관 긴장도의 변화에 관여한다. 활성산소종 생성과 항산화 방어 시스템의 활성 사이의 불균형은 산화 스트레스를 초래하고, 이는 죽상동맥경화증과 관련된 병리학적 변화에 기여한다. 포유동물 세포에서 글루타티온은 글루타티온 과산화효소(Glutathione Peroxidase, GPx)와의 상호작용을 통한 산화 방어 시스템의 필수 구성요소이다.

GPx는 현재까지 8가지 유형이 보고되었다. GPx의 선행 연구로 생쥐의 이형접합 GPx1 결핍은 내피 기능 장애를 일으켜 심각한 혈관 및 심장 이상을 초래했다. 낮은 혈액 GPx1 활성은 또한 관상동맥 질환 환자에서 심혈관 사건의 독립적인 위험 인자이다. 이렇게 허혈성 심장병에서 GPx1은 잘 연구되어 있지만, 혈액 GPx3의 보호 효과에 대한 분석은 아직 이루어지지 않은 실정이다.

한편, LVEF는 좌심실 박출률(Left Ventricular Ejection Fraction)을 의미하며, 심부전은 전통적으로 좌심실 박출률에 따라 보존된 LVEF를 가진 심부전(LVEF ≥ 50%), 중간 LVEF를 가진 심부전(LVEF 41% ~ 49%), 감소된 LVEF를 가진 심부전(LVEF ≤ 40%)의 세 그룹으로 구분된다. LVEF는 좌심실의 수축기 기능을 반영하기 때문에 가장 널리 사용되고 인정되는 심장초음파 파라미터이다.

따라서, 본 실험례에서는 아직 연구되지 않은 GPx3에 대한 독립변수의 통계적 유의성을 확인하고자 한다. 그 방법으로 본 실험례에서는 관상동맥 질환 환자에서 혈청 GPx3 수준과 LVEF를 종속변수로 하여, LVEF 보존(LVEF ≥ 50%) 대 LVEF 감소(LVEF < 50%) 사이의 관계를 조사했다.

1.1. 학습 데이터 세트

2018년 5월, 광주 전남대학교병원에서 229명의 허혈성 심장병 의심환자를 검사하였다. 모든 입원 환자들은 두 명의 심장병 전문의에 의해 검진을 받았다. 허혈성 심장병이 없거나, 2차원 흉부외심초음파검사를 받지 않았거나, 데이터가 누락된 환자는 연구에서 제외돼 최종 표본 크기가 151명이 되었다. 환자는 LVEF가 감소된 환자(n = 20)와 LVEF가 보존된 환자(n = 131)의 두 그룹으로 구분되었다.

모집된 시험 대상자는 ELISA 기반 혈청 GPx3의 농도를 측정하였다. 혈청 GPx3 수준은 상업용 효소결합 면역흡착 분석(ELISA) 키트(AdipoGen Life Sciences, Liestal, Switzerland)를 사용하여 결정되었다. 각 혈청 샘플은 1/500 희석으로 준비하고 100 μL를 표준물질과 함께 ELISA 플레이트의 웰에 로딩했다. 37°C에서 1시간 배양 후 3회 세척하고 1차 검출 항체 100μL를 첨가하였다. 37°C에서 1시간 2차 배양 후 3회 세척하고 2차 검출 항체를 100 μL 첨가하였다. 37°C에서 1시간 3차 배양 후 5회 세척하고 100μL의 기질 용액(발색용)을 첨가하였다. 이어서 플레이트를 어두운 곳에서 상온에서 20분간 배양하고 정지 용액 100μL를 첨가한 후, EVOLIS Twin Plus(Bio-Rad, Hercules, CA)를 사용하여 20분 이내에 450nm에서 샘플의 흡광도를 측정하였다. 모든 실험은 세 번 반복하여 수행되었으며 모든 측정치는 평균을 내었다.

1.2 LVEF 감소 예측 모델

기초적인 통계 분석은 SPSS 버전 25.0(SPSS Inc., Armonk, NY)을 사용하여 수행되었다. 연속형 변수는 Student’s t-검정을 사용하여 분석했으며 범주형 변수는 Pearson 카이제곱검정 또는 Fisher의 정확 검정을 사용하여 분석했다. p-값이 0.05보다 작으면 통계적 유의성을 나타내는 것으로 간주하였다. 좌심실 박출률 감소에 대한 위험 요인을 조사하기 위해 다변량 로지스틱 회귀 분석을 사용하였다. p-값이 0.25 미만인 변수는 다변량 분석에 포함되었다. 우도비 기반 역방향 단계적 로지스틱 회귀 분석을 사용하여 좌심실 박출률 감소에 대한 독립적 위험 요인의 영향을 확인하였다.

도 2는 본 실험례의 LVEF 예측 프로세스를 나타낸다. LVEF < 50% 를 예측하는 모델로 본 실시예에 따른 통계적 학습 시스템(1)을 적용하였다.

통계적 학습 모듈(10)로 다변량 로지스틱 회귀분석과 기계학습 방법을 사용하여 LVEF가 감소된(LVEF < 50%) 환자와 보존된(LVEF ≥ 50%) 환자를 이진 분류하였다.

본 실험례에서, 로지스틱 회귀분에서 일반적으로 발생하는 다중공선성 문제 해결을 위해 L₂ 벌점 정규화를 사용하는 능선회귀분석, PCR 회귀분석 및 PLS 회귀분석을 적용하였다.

본 실험례에 적용된 통계적 학습 모듈(10)의 좌심실 박출률(LVEF) 분류 알고리즘은 [표 1]과 같다.

[표 1]

본 실험은 감소된 LVEF와 보존된 LVEF를 가진 허혈성 심장병 환자를 구별하기 위해 임상 및 과거 정보를 사용했다. 전체 데이터를 가진 151명의 환자 중 20명만이 LVEF 감소를 보였다. LVEF가 감소된 그룹은 LVEF 보존 그룹보다 훨씬 적기 때문에 일반 이진 분류(즉, 컷오프 0.5)를 사용하면 신뢰할 수 없는 결과가 발생할 위험이 있다.

도 3은 허혈성 심장병 데이터 세트의 예측 점수 분포를 나타낸다. 도 3은OLS 회귀분석, 능선 회귀분석(RR), PCR 회귀분석, PLS 회귀분석, SVR 회귀분석에 의한 예측 점수 분포이다. 각 회귀분석별로 Gpx3의 수준이 독립변수로 포함된 경우와 미포함 된 경우를 각각 예측하였다.

도 3을 참조하면, 일반적인 임계값 0.5는 LVEF 감소된 그룹(lvef-)과 LVEF 보존된 그룹(lvef+) 사이에 적절한 분류 기준이 아님을 확인할 수 있다. 따라서 단순히 분류 임계값으로 0.5를 사용하는 것보다 최적의 컷오프 포인트(수직 점선)를 사용하는 것이 바람직함을 직관적으로 확인할 수 있다. 이는 주어진 데이터 세트에 여러 유형의 회귀분석을 적용하여 LVEF 감소 및 LVEF 보존 환자 간의 예측위험점수(predicted risk scores) 분포를 조사하여 확인되었다. 이 실험에서는 감소된 LVEF와 보존된 LVEF를 구별하기 위한 최적의 컷오프를 구하기 위해 컷오프 설정 모듈(30)이 Youden 지수를 적용하였다.

컷오프 설정 모듈(30)이 최적화한 컷오프인 빨간색 수직 점선은 감소 및 보존된 LVEF를 분류하기 위한 최적의 컷오프 지점을 나타낸다. 모든 회귀모델의 실험례에서, 단순히 0.5를 분류 기준으로 사용하는 것보다 최적의 컷오프(빨간색 수직 점선)을 사용하는 것이 더 좋은 결과를 보인 것을 확인할 수 있다. 또한, 모든 분류 방법에서 GPx3 수준을 포함하는 것이 제외하는 경우보다 더 좋은 결과를 나타낸 것을 확인할 수 있다.

본 실험례에서, 컷오프 설정 모듈(30)의 최적의 컷오프를 대상으로 LOOCV 알고리즘을 사용하여 데이터 세트(n=151개)를 확장 학습하였다. 평가된 분류 방법에는 표준 이진 클래스 로지스틱 회귀분석, 능선 회귀분석, PCR, PLS 회귀분석, 및 SVR 회귀분석이 사용되었다. 사용된 분류방법에 관계없이 제안된 알고리즘의 실행 시간은 일반적인 노트북 컴퓨터에서 몇 초 이내였다. 능선 회귀분석에는 벌점이 있는 회귀분석과 모델 매개변수 튜닝이 사용되었다. 정규화는 L₁ 및 L₂ 정규화의 조합을 기반으로 하며 복잡성을 제어하면서 모델의 높은 분산을 피했다. X가 표준화된 변수의 n×p 예측 행렬이고 y가 반응 벡터인 데이터(X, y)에 대해, L₁ 및 L₂ 정규화는 다음과 같이 [관계식 2]로 표현될 수 있다.

[관계식 2]

여기서 λ₁은 β의 감소량을 제어하는 파라미터이고, λ₂는 다중공선성과 관련된다. L₁ 제약을 사용하는 회귀 모델을 LASSO 회귀라고 하고 L₂ 제약을 사용하는 모델을 능선 회귀라고 한다. LASSO 회귀는 일부 계수를 0으로 축소하여 변수 선택 기능도 같이 이루어진다. 능선 회귀는 L₂ 제약항에 가중치를 더 많은 변수에 분배함에 따라 LASSO보다 더 많은 변수를 선택하는 경향이 있다. 이것은 LASSO 회귀가 완전히 상관된 변수 중 하나의 변수만 선택하는 반면 능선 회귀는 동일한 가중치를 할당하여 포함하기 때문이다. 정규화 제약 함수의 매개 변수화는 [관계식 3]으로 표현할 수 있다.

[관계식 3]

여기서 α∈(0,1)은 L₂제약 대비 L₁제약의 영향을 결정한다. 두 개의 튜닝 매개변수(α, λ)는 데이터에 의존하므로 선행 값으로 설정할 수 없다. 일반적으로 튜닝 매개변수의 최적 조합은 모델의 손실함수가 최소가 되도록 훈련 세트에 대해 k-겹 검증을 수행하여 얻는다.

PCR과 PLS 회귀분석 모두 차원변환기술을 사용한다. PCR은 두 단계로 구성된 회귀분석 방법이다. 먼저 주성분분석(PCA)을 훈련 데이터에 적용하여 차원 축소를 수행한 다음, 변환된 변수에 대해 회귀분석을 수행한다. PCA에서 변환은 비지도학습으로 종속변수에 대한 정보가 사용되지 않는다. 따라서 종속변수의 분산과 반대적 특성을 갖는 데이터 세트에 적용할 경우 PCR의 성능이 저하될 수 있다. PLS는 PCR과 달리 차원변환에 지도학습을 사용한다. PLS 회귀분석은 예측변수가 공선적이거나 일반 회귀분석에서 표준오차가 큰 계수를 생성하는 경우에 특히 유용하다. PCR과 PLS 회귀분석은 차원변환에 있어 PCR이 비지도 방식인 반면 PLS는 지도학습 방식이다. PCR은 독립변수 간의 공분산 구조를 반영하는 주성분을 생성하는 반면, PLS 회귀 분석에서는 독깁변수와 종속변수 사이의 공분산 구조를 반영한다.

서포트 벡터 머신(SVM, Support Vector Machine)은 신뢰성 분석 또는 분류 및 패턴 인식과 같은 여러 응용 프로그램에 사용되는 잘 알려진 기계학습 방법으로, 일련의 입력 및 목표 출력값이 모델에 공급되는 지도학습 훈련 단계를 포함한다. 그런 다음 훈련된 모델을 사용하여 별도의 테스트 데이터 세트를 평가한다. SVM은 회귀분석에도 사용할 수 있으며 이를 SVR(Support Vector Regression)이라고 한다. SVR은 SVM과 동일한 아이디어를 기반으로 하지만 분류 대신에 실제 값을 예측하는 데 사용된다. 일련의 표본이 주어지면 SVR은 이를 표상하는 곡선을 찾으려고 시도한다. 서포트 벡터는 표본과 표본을 표상하는 곡선 사이의 가장 근접한 경계를 결정하는 데 사용된다. 실제 곡선은 서포트 벡터와 회귀 곡선 사이의 거리가 최대화될 때 가장 잘 근사된다. 비선형 회귀를 위해 커널 기법이 SVR에 적용될 수도 있다. SVM과 SVR은 표본 크기가 제한된 경우에도 균형잡힌 예측성능을 보인다. 또한 노이즈가 많은 데이터에도 좋은 성능을 보일 수 있다.

분류 알고리즘에서, LOOCV 절차는 회귀 분석의 성능을 추정하는 데 사용되었다. LOOCV는 k가 데이터 세트의 표본 수로 설정되는 k-겹 교차 검증의 구성이다. 이 접근 방식은 데이터 세트 중 하나의 표본을 테스트 데이터로 남긴다. 즉, 원래 데이터 세트에 표본이 n개 있는 경우 n-1개의 표본을 사용하여 모델을 교육하고 나머지 하나의 표본은 검증용 사용된다. LOOCV는 계산 비용이 많이 드는 절차이지만 모델 성능에 대한 신뢰할 수 있고 편향되지 않은 추정치를 제공한다. LOOCV 절차는 훈련 데이터 세트가 작을 때 적합하다.

본 실험에서 제시된 LVEF 분류 알고리즘은 각 반복에서 모델을 구축하는 데 사용된 데이터 세트에 대한 예측값의 Youden 지수를 사용하여 보존된 LVEF와 감소된 LVEF를 구별하는 컷오프 값을 계산하였다.

1.3 분류 성능 측정

LVEF 분류 방법에서 혈청 GPx3 수준의 역할을 조사하기 위해 GPx3 수준과 아울러 6가지 설명 변수[연령 ≥ 65세, BMI ≥ 25kg/m², 혈관 재관류 경력, NLR ≥ 2.5, log_e(hs-cTnI) 및 MI]를 사용하여 모델을 구축하였다. LVEF가 감소하거나 보존된 환자의 분류 결과의 정확성은 교차 분석을 통해 평가하였다. 또한 구현된 각 방법에 대해, 세 개 이상의 변수의 모든 조합을 사용하여 모델을 구축하여, 최상의 분류결과를 보이는 모델이 GPx3 수준을 포함하는지 여부를 살펴보았다. 분류기의 성능은 F1 척도와 균형 정확도를 사용하여 측정하였다.

분류 모델의 성능은 전체정확도(overall accuracy), 균형정확도(balanced accuracy), F1 점수 등 다양한 방법으로 측정할 수 있다. 전체 정확도는 표본이 모델에 의해 올바르게 분류될 확률이다. 즉, 참된 양성과 참된 음성의 합을 테스트된 표본의 총 수로 나눈 값이다. 전체 정확도는 균형 데이터에 대해 잘 작동하지만 데이터가 불균형하여 각 클래스의 크기가 다르면 정확하지 않을 수 있다. 균형정확도는 민감도와 특이도의 평균이며 각 클래스에 대해 보정된 비율의 평균으로 계산되기 때문에 불균형 데이터에 사용하기 더 나은 척도가 될 수 있다. F1 점수는 재현율과 정밀도의 조화 평균이다. 조화평균은 각 클래스의 크기(클래스에 속하는 표본 수)를 반영하므로 F1 점수는 불균형 데이터에 대해서도 좋은 결과를 보인다. 본 실험례에서는 균형 정확도와 F1 점수를 성능 측정 척도로 사용하였다.

1.4 실험례 결과

허혈성 심장병 환자를 LVEF 감소(LVEF < 50%) 대 LVEF 보존(LVEF ≥ 50%) 환자로 분류하기 위해 LVEF와 관련된 환자의 임상 및 과거 특징을 사용하여 로지스틱 회귀분석 및 기계학습 분석을 수행하였다. LVEF 감소의 위험 요인은 [표 2]에 나열되어 있다.

[표 2]

[표 2]의 값은 평균 ± 표준 편차 또는 숫자가 포함된 백분율로 표시되었다. 굵은 글씨 값은 두 그룹 간에 유의하게 다름을 나타낸다. BMI = 체질량 지수; CABG = 관상동맥 우회 이식편; CRP = C 반응성 단백질; GPx3 = 글루타티온 퍼옥시다제-3; hs-cTnI = 고감도 심장 트로포닌-I; LVEF = 좌심실 박출률; NLR = 호중구 대 림프구 비율; PCI = 경피적 관상동맥 중재술;을 의미한다.

[표 3]은 LVEF < 50%의 예측 결과를 나타낸다.

[표 3]

GPx3 수준을 포함했을 때, OLS 회귀분석을 통해 LVEF < 50%를 예측했을 때의 F1 점수는 0.444였다. 능선 회귀분석의 균형정확도가 보다 양호했다. 후자의 결과는 오차항의 크기뿐만 아니라 각 변수의 계수의 크기를 줄임으로써 달성되는 회귀분석의 개선으로 인해 발생한 것으로 판단된다. 차원변환 기법을 사용한 로지스틱 회귀분석 중에서 균형정확도 점수(각각 0.407 및 0.384)에서 볼 수 있듯이 PLS 회귀가 PCR보다 우수한 성능을 나타냈다. PLS 회귀는 알고리즘의 지도학습 기반 특성 변환으로 인해 PCR보다 더 효율적이다. SVR 분류기는 F1 점수 기준으로 최상의 결과(0.473)를 보였다. 이는 SVR 방법이 데이터에 비선형성을 인식하고 유연한 예측 모델을 제공하기 때문일 가능성이 크다. GPx3 수준을 제외했을 때 OLS 회귀분석의 F1 점수는 0.329였다. 가장 높은 균형정확도는 SVR로 0.421이었다. 능선 회귀분석의 F1 점수는 0.388이었다. 모든 분류 방법에서 F1 점수는 GPx3 수준이 제외되었을 때보다 포함되었을 때 더 좋은 것을 확인할 수 있다. 균형정확도에 대해서도 유사한 결과가 얻어졌다.

능선 회귀 방법에서 회귀계수 값을 제한하면 상관관계가 높은 특성의 과대/과소평가를 방지하는 반면, 차원 변환 방법에서 다중공선 효과는 기존 특성의 조합으로 새로이 생성된 특성에 의해 완화된다. 본 실험례에서는 이러한 방법을 사용하여 모델의 예측오류를 줄였으며, 시도된 방법 중 PLS 회귀분석이 가장 작은 예측오류를 갖는 것으로 확인되었다. 사후분석을 고려하거나 모델구축 과정에서 주어진 특성을 보존해야 할 필요성 있을 경우에는 능선 회귀분석이 효과적이었다. 위와 같은 방법이 효과가 없을 경우 PLS 회귀와 같은 개선된 회귀분석 방법을 채택할 수 있다. 최선의 해결책은 다중공선성의 원천에 따라 달라질 수 있으며 통계적 학습 모듈(10)에서 적절히 선택되거나, 이를 통합한 앙상블 학습으로 다중 회귀함수의 통계 결과를 제시하여 보다 효과적인 회귀함수 기법을 분석가가 사용할 수 있도록 한다.

본 실험에서는 GPx3 수준이 5가지 회귀 기법의 적용 결과 LVEF 분류와 밀접한 관련이 있으며, 제안된 통계적 학습 전략이 임상 데이터 세트를 포함한 불균형적이고 작은 데이터 세트에 적합함을 보여주었다.

이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

[부호의 설명]

1: 통계적 학습 시스템

10: 통계적 학습 모듈

30: 컷오프 설정 모듈

50: 데이터 세트 확장 모듈

본 발명은 샘플의 크기가 작고 불균형한 분포를 지니며, 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석이 어려운 임상 데이터의 독립변수 유효성 분석에 효과적으로 이용될 수 있다.

Claims

독립 변수의 영향력을 분석하기 위한 통계적 학습 시스템에 있어서,

독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 모듈;

상기 통계적 학습 모듈의 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델에 적합한 포인트로 최적화시키는 컷오프 설정 모듈; 및

교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 모듈;을 포함하여,

학습 데이터의 훈련 세트의 크기와 반복 횟수를 확장하고 다중공선성을 고려한 회귀 모델의 통계분석이 수행되는 것을 특징으로 하는 통계적 학습 시스템.
제 1 항에 있어서,

상기 통계적 학습 모듈은,

상기 회귀분석 모델이 복수개로 구성될 수 있고,

상기 회귀분석 모델은 서로 다른 유형의 회귀분석 모델이며, 최소 제곱법 회귀분석(OLS, Ordinary Least Squares), 능선 회귀분석(RR, Ridge Regression), 주성분 회귀분석(PCR, Principal Components Regression), 부분최소제곱 회귀분석(PLS, Partial Least Squares), 또는 서포트 벡터 회귀(SVR, Support Vector Regression) 중 선택된 복수개인 것을 특징으로 하는 통계적 학습 시스템.
제 1 항에 있어서,

상기 통계적 학습 모듈은,

종속 변수의 컷오프를 기준으로, 통계적 유의성의 확인 대상이 되는 독립 변수의 유(有)/무(無)에 따른 이진 분류를 각각 수행하는 것을 특징으로 하는 통계적 학습 시스템.
제 1 항에 있어서,

상기 컷오프 설정 모듈은,

민감도와 특이도로 그려지는 ROC(Receiver Operating Characteristic) 곡선에서 민감도와 특이도의 합을 최대로 하는 포인트를 상기 컷오프로 설정하는 것을 특징으로 하는 통계적 학습 시스템.
제 4 항에 있어서,

상기 컷오프 설정 모듈은,

[관계식 1]에 따라 상기 컷오프의 포인트를 최적화하는 것을 특징으로 하는 통계적 학습 시스템.

[관계식 1]

MAX(SE+SP-1)

여기서, SE는 민감도(Sensitiveity)를 의미하고 SP는 특이도(Specificity)를 의미하며 MAX는 최대값을 의미한다.
제 1 항에 있어서,

상기 데이터 세트 확장 모듈은,

상기 통계적 학습 모듈의 분류 알고리즘에서 학습 데이터 세트(n개) 중 하나의 표본을 테스트 데이터로 남기고, 나머지 학습 데이터 세트(n-1개)로 분류 알고리즘을 재학습하는 것을 특징으로 하는 통계적 학습 시스템.
제 1 항에 있어서,

상기 통계적 학습 모듈은,

분류 알고리즘에서 상기 회귀분석 모델의 초매개변수(hyperparameter)로, 디폴트 값(default value) 또는 조절(tuning)된 값이 적용되는 것을 특징으로 하는 통계적 학습 시스템.
제 1 항에 있어서,

상기 통계적 학습 모듈은,

상기 회귀분석 모델이 복수개로 구성될 수 있고,

복수개의 회귀분석 모델이 앙상블(Ensemble Learning) 알고리즘으로 통합된 것을 특징으로 하는 통계적 학습 시스템.
데이터를 입력하는 입력 수단, 입력된 데이터를 처리하는 처리 수단 및 출력 수단을 갖는 스마트폰, 태블릿, 노트북, 또는 컴퓨터에,

독립 변수의 정보가 포함된 학습 데이터 세트를 학습할 때, 학습 모델 계수의 크기를 줄이면서 다수개의 변수 특징을 유지하는 정규화 기법 또는 종속 변수에 영향을 미치지 않으면서 독립 변수의 차원을 변환하는 차원 변환 기법이 적용된 회귀분석 모델이 탑재되어 종속 변수의 컷오프를 기준으로 이진 분류를 수행하는 통계적 학습 기능;

상기 통계적 학습 기능의 실행시 이진 분류의 기준이 되는 상기 컷오프의 값을 상기 회귀분석 모델 별로 최적화하는 컷오프 설정 기능; 및

교차 검증의 알고리즘을 이용하여 상기 학습 데이터 세트의 학습 횟수를 증폭시키는 데이터 세트 확장 기능;을 실행시키기 위하여 매체에 저장된 통계적 학습 어플리케이션.