KR20230141198A - 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치 - Google Patents

다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치 Download PDF

Info

Publication number
KR20230141198A
KR20230141198A KR1020220040474A KR20220040474A KR20230141198A KR 20230141198 A KR20230141198 A KR 20230141198A KR 1020220040474 A KR1020220040474 A KR 1020220040474A KR 20220040474 A KR20220040474 A KR 20220040474A KR 20230141198 A KR20230141198 A KR 20230141198A
Authority
KR
South Korea
Prior art keywords
error
weight
prediction
label
ensemble
Prior art date
Application number
KR1020220040474A
Other languages
English (en)
Inventor
김도현
임명은
최재훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020220040474A priority Critical patent/KR20230141198A/ko
Priority to US18/057,080 priority patent/US20230316156A1/en
Publication of KR20230141198A publication Critical patent/KR20230141198A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치가 개시된다. 상기 멀티 레이블 앙상블 학습 방법은, 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 단계; 상기 예측 모델들 각각의 예측치와 정답 예측치를 비교하여 상기 예측 모델들 각각의 예측 오차를 계산하는 단계; 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는 단계; 미리 결정된 파라미터 값을 이용하여 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계; 및 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 단계를 포함한다.

Description

다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치 {METHOD AND APPARATUS FOR TRAINING MULTI-LABEL ENSEMBLES BASED ON MULTICENTER PREDICTION ACCURACY}
본 개시는 멀티 레이블 앙상블 학습 방법 및 장치에 관한 것이며, 보다 구체적으로 다기관 예측 정확도에 기반한 멀티 레이블 앙상블 학습 방법 및 장치에 대한 것이다.
환자의 과거 건강상태 이력을 분석하여 미래 건강상태를 예측하는 행위의 목적은 의료행위자에게 정보를 제공하여 의사결정에 도움을 주는 것에 있다. 이러한 목적을 달성하기 위해 환자의 미래 건강상태에 대한 정확한 예측은 필수적이며, 이를 위한 여러 방법 및 기술들이 도입되었다.
정확도를 높이기 위한 한가지 방법은 다수의 환자 건강상태 이력을 확보하여 체계화하고 정제하는 것으로 인공지능 특성상 데이터가 많을 수록 더 정교하고 거대한 모델이 학습 가능하며, 데이터에 대한 일반화가 가능하여 보다 정교한 예측이 가능하다.
다른 한가지 방법은 인공지능 모델 구조를 고도화하여 한정된 데이터가 주어진 상황에도 정확도를 높이는 접근 방식이다. 정확도를 향상시키기 위한 목적으로 모델을 고도화 및 최적화를 위한 일반적인 방법은 앙상블 기법이다. 앙상블 기법은 여러 예측기의 예측 결과를 종합하여 새로운 예측 결과를 생성하는 기술이다. 딥 러닝을 활용한 인공지능 기술은 타 기계학습 기술에 비해 예측에 대한 변동성이 높은 편에 속한다. 따라서 앙상블 기술을 도입하여 성능이 증가하는 원리는 여러 예측치의 산술 평균, 가중치합 또는 그 외 종합하는 기술을 통해 변동성 높은 예측이 가지는 노이즈들을 제거함으로써, 성능이 높아지는 점을 이용한다.
본 개시의 기술적 과제는, 다기관 예측 정확도에 기반한 멀티 레이블 앙상블 학습 방법 및 장치를 제공하는데 그 목적이 있다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따르면, 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치가 개시된다. 본 개시의 일 실시예에 따른 상기 멀티 레이블 앙상블 학습 방법은, 복수의 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 단계; 상기 예측 모델들 각각의 예측치와 정답 예측치를 이용하여 상기 예측 모델들 각각의 예측 오차를 계산하는 단계; 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 가중치 레이블(Label)을 생성하는 단계; 및 상기 가중치 레이블을 이용하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 단계를 포함한다.
이때, 상기 앙상블 가중치 예측 모델을 학습하는 단계는, 상기 예측 모델들 각각의 가중치와 상기 가중치 레이블이 최소화되도록, 상기 앙상블 가중치 예측 모델을 학습할 수 있다.
이때, 상기 가중치 레이블을 생성하는 단계는, 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는 단계; 및 상기 오차 기반 가중치 점수에 기초하여 상기 가중치 레이블을 생성하는 단계를 포함할 수 있다.
이때, 상기 오차 기반 가중치 점수를 계산하는 단계는, 상기 오차 기반 가중치 점수 간의 편차를 조절하기 위한 제1 파라미터 값을 반영하여 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산할 수 있다.
이때, 상기 오차 기반 가중치 점수에 기초하여 상기 가중치 레이블을 생성하는 단계는, 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계; 및 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는 단계를 포함할 수 있다.
이때, 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는 단계는, 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 대한 정규화 과정을 통해 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수의 합이 1이 되도록 하고, 나머지 오차 기반 가중치 점수를 0으로 함으로써, 상기 예측 모델들 각각의 상기 가중치 레이블을 생성할 수 있다.
이때, 상기 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계는, 미리 결정된 제2 파라미터 값을 이용하여 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별할 수 있다.
이때, 상기 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계는, 상기 제2 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수를 결정하고, 상기 결정된 예측 모델 수에 해당하는 높은 값의 오차 기반 가중치 점수를 상기 적어도 일부의 오차 기반 가중치 점수로 선별할 수 있다.
이때, 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는 단계는, 상기 제2 파라미터 값과 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 정규화 임계치를 계산하고, 상기 정규화 임계치, 상기 제2 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 상기 예측 모델들 각각의 상기 가중치 레이블을 생성할 수 있다.
본 개시의 다른 실시예에 따른 상기 멀티 레이블 앙상블 학습 방법은, 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 단계; 상기 예측 모델들 각각의 예측치와 정답 예측치를 비교하여 상기 예측 모델들 각각의 예측 오차를 계산하는 단계; 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는 단계; 미리 결정된 파라미터 값을 이용하여 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계; 및 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 단계를 포함한다.
본 개시의 또 다른 실시예에 따른 상기 멀티 레이블 앙상블 학습 장치는, 복수의 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 수집부; 상기 예측 모델들 각각의 예측치와 정답 예측치를 이용하여 상기 예측 모델들 각각의 예측 오차를 계산하고, 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 가중치 레이블을 생성하는 생성부; 및 상기 가중치 레이블을 이용하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 학습부를 포함한다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 다기관 예측 정확도에 기반한 멀티 레이블 앙상블 학습 방법 및 장치를 제공할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 방법의 순서도를 도시한 도면이다.
도 2는 도 1의 단계 S140에 대한 상세 순서도를 도시한 도면이다.
도 3은 가중치 레이블을 생성하는 과정을 설명하기 위한 예시도를 도시한 도면이다.
도 4는 예측 및 미래 상태간 오차를 계산하는 방법을 설명하기 위한 예시도를 도시한 도면이다.
도 5는 오차 기반 가중치 점수를 계산하는 방법을 설명하기 위한 예시도를 도시한 도면이다.
도 6은 지수함수 상수 크기에 따른 기울기 변화를 설명하기 위한 예시도를 도시한 도면이다.
도 7은 가중치 점수 선별 및 정규화 과정을 설명하기 위한 예시도를 도시한 도면이다.
도 8은 Sparse-max 함수를 변형한 가중치 레이블을 생성하는 방법을 설명하기 위한 예시도를 도시한 도면이다.
도 9는 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치의 구성을 도시한 도면이다.
도 10은 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치가 적용되는 디바이스의 구성도를 도시한 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계 뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위한 것일 뿐, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 본 명세서에 사용되는 위치 관계의 표현, 예컨대 상부, 하부, 좌측, 우측 등은 설명의 편의를 위해 기재된 것이고, 본 명세서에 도시된 도면을 역으로 보는 경우에는, 명세서에 기재된 위치 관계는 반대로 해석될 수도 있다.
기존 앙상블 기법의 세가지 접근 방식은 대표적으로 선택적 앙상블, 가중치 합 앙상블, 스태킹 앙상블이 있다. 선택적 앙상블이란 데이터를 여러 도메인으로 나누었을 때, 해당 도메인에서 여러 예측기 모델 중 가장 정확도가 높은 모델을 Validation set을 통해 선택 후, Test set 예측 시에 Test set이 해당하는 도메인에서 선택된 모델을 사용하여 예측 시 활용하는 기술이다. 선택적 앙상블은, 도메인과 모델 정확도와 명확한 상관관계가 있을 시에 효과적인 모델을 도메인에 따라 선택하여 정확도 향상을 도모할 수 있지만, 상관관계가 높지 않을 경우 오히려 성능이 낮은 모델을 선택하는 경우가 생김에 따라 정확도가 오히려 떨어지는 상황이 생길 수 있다.
가중치 합 앙상블은 N개의 개별 예측기들이 내놓은 예측치 p1, p2, p3, …, pN에 대해 N개의 가중치 a1, a2, a3, …, aN를 계산하여 최종 앙상블 예측치 pE는 그들의 가중치 합 즉, 으로 계산하는 방식이다. 가중치를 구하는 방식은 딥 러닝으로 학습하는 방식과 알고리즘을 통해 구하는 방식 등이 있다. 장점으로는 여러 예측을 종합하여 변동성을 줄여 정확도를 높일 수 있지만 오차가 큰 예측이 같이 합산되어 오차 형성에 기여할 수 있다는 점이 단점이다.
스태킹 앙상블은 개별 예측기들이 내놓은 예측치 p1, p2, p3, …, pN을 딥 러닝 앙상블 장치에 입력한 후 새로운 앙상블 예측치 pE를 바로 생성하도록 한다. 이때, 앙상블 장치는 바로 앙상블 예측치를 생성하므로 어떠한 근거에 의해 예측치가 생성되었는지, 상황에 따라 어떤 예측치를 선택하도록 유도하기 어렵다.
지도학습을 통한 인공지능 학습에는 입력 데이터와 정답 레이블(Label)이 필요하다. 인공지능은 입력데이터를 받아 예측치를 정답 Label과 비교하여 오차를 최소화하는 방향으로 최적화를 진행한다. 따라서 정답 Label이 명확할 수록 인공지능 학습이 효율적으로 이루어질 수 있다. 하지만 다기관 예측을 통한 앙상블 가중치 학습 Label에는 두가지 모호성이 존재한다.
첫번째로는 상황에 따라 어떤 예측치를 앙상블에 참여할 정답으로 설정할 것인가와 몇개의 예측치를 정답으로 볼 것인지에 대해 모호하다. 선택적 앙상블의 경우 예측기의 개수가 N개 일 때, [L1, L2, L3, L4, L5](Ln=n번째 예측에 대한 선택 여부)= [1,0,0,0,1]과 같이 선택해야 하는 예측기에 해당하는 Label에는 1을 할당하고 선택하지 않아야 하는 예측기에는 0을 할당함으로써, 이 Label과 최대한 가깝게 예측하도록 인공지능이 학습된다. 하지만 상황에 따라서 다수의 예측치가 실제 환자의 미래상태와 근사할 경우 어떤 예측치까지 정답으로 정하고 몇개의 예측치까지 정답으로 설정할 것인가가 상당히 모호하다. 특히, 고정적으로 1개의 환자의 미래상태와 근접한 예측치를 정답으로 선택하도록 학습하게 된다면, 데이터의 노이즈(Noise)에 따라 정답이 수시로 바뀔 수 있기 때문에 가장 근사한 예측치를 내놓는 예측기의 특성을 학습하기 보다 노이즈를 학습할 가능성이 높다. 또한, 고정적으로 k개의 정답과 가까운 예측기를 선택하게 된다면 1개의 예측기만 정확한 예측을 내놓을 경우 k-1개의 예측기는 앙상블 예측치에 노이즈로 작용하게 된다. 따라서 상황에 따라서 유동적으로 정답 예측기의 개수와 선택 여부를 조정할 필요가 있다.
두번째로는 정답 Label의 가중치를 얼마나 줄 것인지에 대한 모호성이 존재한다. 예를 들어 정답으로 선택된 1번, 5번 예측기 [L1, L2, L3, L4, L5](Ln=n번째 예측에 대한 선택 여부)= [1,0,0,0,1] 같은 경우 1번 예측기가 5번 예측기보다 30% 더 정확하다고 하였을 때, 인공지능은 1번과 5번 모두 같은 정답을 가지고 있어 동등하다고 학습을 하기 때문에 실제로는 1번에 더 큰 가중치를 부여하지 못하여 오차가 발생할 수 있다. 또한, 30%의 오차가 발생하였을 때, [1,0,0,0,0.7]과 같이 정답 앙상블 가중치에 어느 정도의 수치를 반영할지 모호하다.
본 개시의 실시예들은, 각 예측기의 예측과 실제 미래 환자상태의 예측과의 오차를 구하고, 오차의 정도에 따라 예측이 앙상블 정답에 포함될지 포함이 되지 않을지를 구별하며, 앙상블 정답에 포함이 되더라도 0과 1의 이분법적인 구분이 아니라 오차에 따라 연속적인 값을 가지도록 하여 같은 정답이더라도 차별화를 두어 앙상블 가중치 정답 레이블(Label)이 가지는 모호성을 해결하는 것을 그 요지로 한다.
이때, 본 개시의 실시예들은, 여러 미래상태 예측기(또는 예측 모델)가 생성한 예측치 중 정확한 예측에 높은 가중치를 주고, 부정확한 예측에 낮은 가중치를 부여함으로써, 예측 모델 각각의 가중치를 출력하는 앙상블 가중치 예측 모델을 학습할 수 있다. 예측기 또는 예측 모델에 부여된 가중치들은 앙상블 예측치 생성 시에 활용될 수 있다.
도 1은 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 방법의 순서도를 도시한 도면이다.
도 1을 참조하면, 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 방법은, 예측 모델들(또는 예측기) 각각의 학습 데이터에 대한 예측치를 수집하는 단계(S110), 예측 모델들 각각의 예측치와 정답 예측치를 비교하여 예측 모델들 각각의 예측 오차를 계산하는 단계(S120), 예측 오차를 기반으로 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는 단계(S130), 미리 결정된 파라미터 값을 이용하여 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하고, 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 가중치 레이블을 생성하는 단계(S140)와 예측 모델들 각각의 가중치 레이블을 이용하여 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 단계(S150)를 포함한다.
단계 S110은, 가중치를 부여하기 위한 다기관의 예측기 각각에서 학습 데이터를 이용하여 예측된 예측치를 수집하는 과정으로, 미래상태 예측치는 미래 상태 예측기로부터 생성되며, 임의의 t 시점까지의 과거 상태 시계열 데이터 [x1,x2,x3,…,xt]를 입력 받아 미래 상태 예측치 p를 생성한다. N개의 미래상태 예측기에 대해 동일한 과거 상태 시계열 데이터 [x1,x2,x3,…,xt]을 입력하여 N개의 미래 상태 예측치 [p1,p2,p3,…,pN]t+1을 수집한다. [p1,p2,p3,…,pN]t+1은 N개의 예측기가 존재하기 때문에 N개의 예측치 [p1,p2,p3,…,pN]으로 이루어져 있고 해당 예측치는 t+1 시점에 대한 미래 상태 예측이므로 [p1,p2,p3,…,pN]t+1로 표기한다.
즉, 단계 S110은 학습 데이터에서 t 시점까지의 시계열 데이터를 이용하여 t+1 시점의 예측치를 각 예측기에서 예측하고, 이렇게 예측된 예측치를 수집하는 과정이다. 상황에 따라, 단계 S110은, 1, …, t 데이터 외에 1,2 데이터, 1, 2, 3 데이터 등의 부분 시계열 데이터를 이용하여 2, …, t+1 시점의 시계열 예측치를 수집할 수도 있다.
여기서, 예측기는 각자의 고유 데이터로 학습된 기계학습 예측 모델을 의미할 수 있으며, 예측 모델은 심층 신경망 구조 중 하나인 LSTM으로 구성될 수 있고, 혈압, 콜레스테롤, 혈당수치 등의 시계열 데이터를 입력 받아 미래상태 예측치를 계산 또는 반환할 수 있다.
단계 S120은, 실제 t+1 시점의 미래상태 정답 예측치 yt+1 값과 [p1,p2,p3,…,pN]t+1 간의 오차를 계산하는 과정으로, 오차를 계산하는 방식은 |y-pn|과 같이 절대 오차를 계산하는 방식, |y-pn|2과 같이 오차의 제곱을 사용하는 방식 등을 포함할 수 있다. 이때, 단계 S120은 미래생성 예측기의 수와 동일한 숫자의 오차 [e1,e2,e3,…,eN]t+1를 생성할 수 있다.
단계 S130과 S140은, 예측 오차의 크기에 기반하여 가중치 레이블을 생성하는 과정으로, 예측 오차가 클 수록 예측치에 대한 가중치를 낮게 부여하고, 예측 오차가 작을수록 예측치에 대한 가중치를 높게 부여할 수 있다. 이때, 단계 S140은 단계 S120에서의 예측 오차를 생성하는 과정과 마찬가지로 미래 생성 예측기의 수와 동일한 수의 가중치 Label [l1,l2,l3,…,lN]t+1을 생성할 수 있다.
실시예에 따라, 단계 S140은, 도 2에 도시된 바와 같이, 미리 설정된 파라미터 값과 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수를 결정하고, 결정된 예측 모델 수에 해당하는 높은 값의 오차 기반 가중치 점수를 적어도 일부의 오차 기반 가중치 점수로 선별한다(S210, S220).
여기서, 파라미터 값은 오차 기반 가중치 점수를 선택적으로 선별하기 위한 값으로, 해당 값의 조절을 통해 선택적으로 선별되는 오차 기반 가중치 점수의 개수가 달라지게 되고, 따라서 앙상블 가중치 예측 모델을 학습하는데 적용되는 가중치 레이블의 개수가 달라지게 된다. 즉, 본 개시의 실시예들은, 파라미터 값을 통해 앙상블 가중치 예측 모델을 학습할 때 사용되는 예측 정확도가 높은 예측 모델의 개수를 선택적으로 선별할 수 있으며, 이를 통해 앙상블 가중치 예측 모델의 예측 정확도를 높일 수 있다.
단계 S220에 의해 적어도 일부의 오차 기반 가중치 점수가 선택적으로 선별되면, 파라미터 값과 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 정규화 임계치를 계산하고, 정규화 임계치, 파라미터 값과 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델들 각각의 가중치 레이블을 생성한다(S230, S240).
단계 S150은, 단계 S140에서 생성된 가중치 레이블에 따라 예측 모델들 각각의 예측치에 대한 가중치를 예측하는 앙상블 가중치 예측 모델 M을 학습하는 과정으로, 앙상블 가중치 예측 모델 M은 t+1 시점의 미래 상태 예측치 [p1,p2,p3,…,pN]t+1 또는 t+1 시점까지의 k+1개의 미래상태 예측치 [p1,p2,p3,…,pN]t+1-k ~ [p1,p2,p3,…,pN]t+1들을 입력으로 받아 [p1,p2,p3,…,pN]t+1에 대한 가중치 [a1,a2,a3,…,aN]t+1을 예측한다. 앙상블 가중치 예측 모델 M에 대한 입력으로는 t 시점까지의 과거 상태 시계열 데이터 [x1,x2,x3,…,xt]가 포함될 수 있다. 앙상블 가중치 예측 모델 M은 예측 모델들 각각의 예측치 [p1,p2,p3,…,pN]t+1에 대한 가중치 [a1,a2,a3,…,aN]t+1와 가중치 Label [l1,l2,l3,…,lN]t+1의 차이가 최소화 되도록 학습될 수 있다.
여기서, 예측 모델들 각각의 예측치 [p1,p2,p3,…,pN]t+1에 대한 가중치 [a1,a2,a3,…,aN]t+1는 각 예측 결과(예측치)에 대한 예측 모델의 정확도 또는 중요도 등을 의미하는 점수로, 가중치가 높을수록 예측 모델의 예측치가 정답에 가까움을 의미한다.
앙상블 가중치 예측 모델은 각 예측 모델의 예측치와 시계열 기록(또는 학습 데이터)을 입력 받아 가중치를 출력하도록 구성될 수 있다. 예를 들어, 앙상블 가중치 예측 모델은 t+1 시점의 예측 모델의 예측치(p)와 t 시점의 학습 데이터에 대한 가중치를 출력하는 심층신경망(DNN) 모델로 구성하거나, 2, ..., t+1의 부분 시계열 예측치와 시계열 입력에 대한 가중치를 출력하는 RNN 또는 LSTM 모델로 구성할 수 있다. 가중치는 예측 모델 예측치와 실측치(또는 정답 예측치) 간의 오차의 합에 대한 각 예측 모델 예측치의 비율로 계산될 수 있다.
이러한 과정을 통해 학습되는 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 방법에 대하여, 도 3 내지 도 8을 이용하여 상세하게 설명한다.
본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 방법은, 앙상블 학습 데이터를 이용하여 예측기들 각각으로부터 미래 환자상태 예측치를 수집하는 과정, 오차기반 앙상블 가중치 Label을 생성하는 과정과 앙상블 가중치 레이블을 이용하여 앙상블 가중치 예측 모델을 학습하는 과정으로 이루어진다.
앙상블 학습 데이터는 예측 시점 전의 환자 상태 [x1,x2,x3,…,xt]와 예측 시점의 환자상태 yt+1를 포함한다. 미래 환자상태 예측치를 예측하는 예측기들(또는 예측 모델들)은 앙상블 학습데이터로부터 예측시점 전의 환자상태 [x1,x2,x3,…,xt]를 입력 받아 예측시점의 미래 환자 상태 예측치 [p1,p2,p3,…,pN]t+1를 예측한다. 오차 기반 앙상블 가중치 Label 생성 과정은 미래상태 예측치 [p1,p2,p3,…,pN]t+1과 예측 시점의 환자 상태 yt+1를 비교하여 앙상블 가중치 Label [l1,l2,l3,…,lN]t+1을 생성한다. 앙상블 가중치 예측 모델을 학습하는 과정은 앙상블 학습 데이터에서 예측 시점 전의 환자상태 [x1,x2,x3,…,xt]와 미래상태 예측치 [p1,p2,p3,…,pN]t+1 또는 t+1 시점까지의 k+1개의 미래상태 예측치 [p1,p2,p3,…,pN]t+1-k ~ [p1,p2,p3,…,pN]t+1를 입력 받아 미래상태 예측치에 대한 가중치 [a1,a2,a3,…,aN]t+1를 앙상블 가중치 예측 모델이 학습하도록 한다. 이때, 앙상블 가중치 예측 모델이 예측하는 앙상블 가중치는 오차 기반 앙상블 가중치 Label과의 오차가 최소화되는 방향으로 최적화되도록 학습한다.
도 3은 가중치 레이블을 생성하는 과정을 설명하기 위한 예시도를 도시한 도면으로, 오차기반 앙상블 가중치 Label을 생성하는 과정을 도시한 도면이다.
도 3에 도시된 바와 같이, 오차 기반 앙상블 가중치 레이블을 생성하는 과정은 예측 및 미래상태 간 오차를 계산하는 과정, 오차 기반 가중치 점수를 계산하는 과정과 가중치 점수를 선별하고 정규화함으로써, 오차 기반 앙상블 가중치 레이블을 생성하는 과정으로 이루어진다.
예측 및 미래상태 간 오차를 계산하는 과정은, 도 4에 도시된 바와 같이, 미래상태 예측치 [p1,p2,p3,…,pN]t+1과 예측 시점의 환자상태 yt+1간의 예측 오차 [e1,e2,e3,…,eN]t+1를 계산한다. 이때, 오차를 계산하는 방식은 |y-pn|과 같이 절대 오차를 계산하는 방식, |y-pn|2과 같이 오차의 제곱을 사용하는 방식 등을 포함할 수 있으며, 예측치와 환자상태 사이의 차이가 클 수록 예측 오차 e 값이 크도록 계산할 수 있다. 즉 주어진 함수 f(x)에 대하여 |y-pa|>|y-pb| 일 때, f(|y-pa|)>f(|y-pb|)의 성질을 만족한다면, 오차 계산 함수로 f(x)를 사용할 수 있다. 이때, 미래생성 예측기의 수와 동일한 숫자의 예측 오차 [e1,e2,e3,…,eN]t+1가 오차 계산 함수 f(x)의 결과물로서 생성될 수 있다.
오차 기반 가중치 점수를 계산하는 과정은, 도 5에 도시된 바와 같이, 생성된 예측 오차를 입력으로 오차 기반 가중치 점수를 계산한다. 해당 예측치에 대한 오차 기반 가중치 점수가 높으면 높을 수록 예측이 정확하고 오차가 작다는 의미이고, 해당 예측치에 대한 오차 기반 가중치 점수가 낮으면 낮을 수록 예측이 부정확하며 오차가 크다는 것을 의미한다. 따라서, 예측 오차가 작을수록 오차 기반 가중치 점수를 높게 부여하고 예측 오차가 클수록 오차 기반 가중치 점수를 낮게 부여한다. 즉, 예측 오차와 오차 기반 가중치 점수 사이에는 반비례 관계가 성립한다. 이때, 오차 기반 가중치 점수는, 오차 기반 가중치 파라미터 값 j1에 의해 오차 기반 가중치 점수 간 편차가 조정될 수 있다. 다시 말해, 본 개시의 실시예들은, 오차 기반 가중치 점수 간의 편차를 조절하기 위한 파라미터 값 j1을 반영하여 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산할 수 있다. 오차 기반 가중치 점수 [s1,s2,s3,…,sN]t+1는 아래 <수학식 1>에 의해 계산될 수 있다.
[수학식 1]
여기서, e는 자연 상수를 의미하고, eN은 N번째 예측기의 예측 오차를 의미할 수 있다.
도 6에 도시된 바와 같이, 지수함수의 특성상 파라미터 값 j1이 커질 수록 x에 따른 y 변화량이 커지므로, 예측오차 간의 차이가 클 수록 점수 차이도 커진다. 즉 다수의 예측치에 고르게 가중치를 부여할 수 있도록 학습이 되기를 원하는 경우 파라미터 값 j1을 줄이고, 예측 오차가 작은 소수의 예측치에 가중치를 집중하도록 학습이 되기를 원하는 경우 파라미터 값 j1을 키울 수 있다.
오차 기반 가중치 점수의 선별 및 정규화하는 과정은, 도 7에 도시된 바와 같이, 생성된 오차 기반 가중치 점수 [s1,s2,s3,…,sN]t+1에서 선택적으로 오차 기반 가중치 점수를 선별한 후 모든 오차 기반 가중치 점수의 합이 1이 되도록 하여 앙상블 가중치 Label [l1,l2,l3,…,lN]t+1을 생성한다. 선택적으로 가중치 점수를 선별하는 이유는 정확하지 않은 예측에도 부분 점수가 부여될 수 있기 때문에, 정확하다고 여겨지는 예측치에 대해서만 점수를 부여한 가중치 label을 생성하기 위함이다. 정확하지 않다고 여겨지는 예측치에 대해서는 0의 가중치 label을 부여하여 선별하고, 모든 예측치에 대한 가중치 label의 합이 1이 되도록 정규화한다.
즉, 오차 기반 가중치 점수의 선별 및 정규화하는 과정은, 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 대한 정규화 과정을 통해 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수의 합이 1이 되도록 하고, 나머지 오차 기반 가중치 점수를 0으로 함으로써, 예측 모델들 각각의 앙상블 가중치 레이블을 생성할 수 있다.
이때, 앙상블 가중치 레이블은 파라미터 값 j2이 적용된 Sparse-max에 기초하여 생성될 수 있다. Sparse-max 알고리즘은 가중치에 대해 가중치 간 차를 바탕으로 중요도를 재평가하여 상대적으로 작은 가중치를 0으로 치환하고 큰 가중치들에 대하여 합이 1이 되도록 재산정하는 알고리즘으로, 본 개시의 실시예들은, 이러한 Sparse-max 알고리즘에 파라미터 값 j2를 적용함으로써, 파라미터 값 j2에 의한 가중치 레이블을 계산할 수 있다. 구체적으로, 본 개시의 실시예들은, 파라미터 값 j2를 변수화 하여 Sparse-max 알고리즘을 변형함으로써, 파라미터 값 j2에 따라 가중치 레이블을 생성할 수 있는 것으로, Sparse-max 기본 알고리즘은 파라미터 상의 값을 1로 고정하였으나 입력되는 가중치 합이 1일 경우 최적 조합 수가 최대가 되는 문제가 발생한다. 이와 같이 실제 상황에서는 데이터 및 가중치의 스케일에 따라 본 값이 가변적으로 변경될 필요성이 있다. 본 개시의 실시예에서는, 파라미터 값 j2가 클수록 가중치 레이블 생성에 다수의 모델이 참여하고, 파라미터 값 j2가 작을수록 소수의 모델이 참여하는 특징을 보인다. 또한 정규화 과정에서도 파라미터 값 j2가 작을수록 가중치 레이블 간 편차가 크게 생성되고, 파라미터 값 j2가 클수록 가중치 레이블 간 편차가 작게 생성되는 특징이 있다. 그리고, 이러한 파라미터 값 j2는 앙상블 모델 설계 시 상술한 특징을 고려하여 직접 결정될 수 있다. 즉, 본 개시의 실시예들은, 파라미터 값 j2를 통해 0으로 치환될 오차 기반 가중치 점수 개수의 기준을 조절할 수 있다.
실시예에 따라, 오차 기반 가중치 점수의 선별 및 정규화하는 과정은, 도 8에 도시된 바와 같이, 오차 기반 가중치 점수(z1=[s1,s2,s3,…,sN]t+1)를 내림 차순으로 정렬(z_sorted)한다.
그리고, 몇 개의 오차 기반 가중치 점수를 0이 아닌 값으로 살려 둘지 결정하는 k_z 값을 계산한다. 예를 들어 k_z =3 인 경우 3개를 제외한 나머지 오차 기반 가중치 점수는 모두 0으로 치환된다. k_z 값을 구하는 방식은 내림차순으로 정렬된 오차 기반 가중치 점수들에 정렬된 오차 기반 가중치 점수의 크기 순위를 행렬 원소 별 곱셈 후, 파라미터 값 j2를 각 원소별로 모두 더했을 때, 정렬된 오차 기반 가중치 점수들의 누적 합 보다 큰 개수로 정한다. 즉, 도 8의 3번째 단계와 4번째 단계에 도시된 바와 같이, 파라미터 값 j2와 내림 차순으로 정렬된 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수(k_z)를 결정할 수 있으며, 결정된 예측 모델 수에 해당하는 상위 값을 가지는 오차 기반 가중치 점수를 선택적으로 선별할 수 있다.
그 후, 정규화 임계치(threshold)를 구하는데, 정규화 임계치는 도 8의 5번째 단계에 도시된 바와 같이, 크기 순서대로의 상위 오차 기반 가중치 점수 k_z 개에 대한 합에 파라미터 값 j2를 빼 준 후, k_z 값으로 나눈 값으로 계산될 수 있다.
최종 정규화된 앙상블 가중치 레이블 [l1,l2,l3,…,lN]t+1은 도 8의 6번째 단계에 도시된 바와 같이, 오차 기반 가중치 점수(z)에 정규화 임계치를 뺀 후 파라미터 값 j2로 나눔으로써, 생성될 수 있다. 이때, 앙상블 가중치 레이블 [l1,l2,l3,…,lN]t+1은 크기 순서대로 상위 k_z개의 오차 기반 가중치 점수만 0이 아니며, 나머지 오차 기반 가중치 레이블의 합은 1이 되도록 정규화될 수 있다. 즉, 최종 정규화된 앙상블 가중치 레이블 [l1,l2,l3,…,lN]t+1은 k_z 값에 해당하는 개수만이 가중치 레이블의 합이 1이 되도록 정규화되며, 나머지의 가중치 레이블은 0의 값을 가지게 되어, 0이 아닌 값을 가지는 가중치 레이블을 이용하여 앙상블 가중치 예측 모델을 학습할 수 있다. 따라서, 본 개시의 실시예들은, 낮은 정확도를 가지는 예측 모델의 예측치를 배제하고 높은 정확도를 가지는 예측 모델의 예측치만을 선택적으로 선별하여 가중치 레이블을 생성함으로써, 생성된 가중치 레이블을 이용하여 앙상블 가중치 예측 모델을 학습하고, 이를 통해 높은 정확도의 앙상블 가중치를 출력하여 보다 정확한 앙상블 예측 결과를 제공할 수 있다.
이와 같이, 본 개시의 실시예들에 따른 멀티 레이블 앙상블 학습 방법은, 여러 미래상태 예측기(또는 예측 모델)가 생성한 예측치 중 정확한 예측에 높은 가중치를 주고, 부정확한 예측에 낮은 가중치를 부여함으로써, 예측 모델 각각의 가중치를 출력하는 앙상블 가중치 예측 모델을 학습할 수 있다.
또한, 본 개시의 실시예들에 따른 멀티 레이블 앙상블 학습 방법은, 독립적으로 학습한 복수의 의료기관의 미래 건강상태 예측기의 예측 결과를 종합하여 보다 정교한 예측을 수행하여 의료인의 임상 의사결정을 지원할 수 있다.
또한, 본 개시의 실시예들에 따른 멀티 레이블 앙상블 학습 방법은, 임상 의사결정 지원을 위한 미래건강 앙상블 예측에 있어 오차 기반 Labeling을 통해 정확한 예측들에 대해서만 가중치를 부여하도록 선택적으로 학습하여 부정확한 예측들이 앙상블에 참여하는 것을 방지하여 정확도를 개선시킬 수 있다.
또한, 본 개시의 실시예들에 따른 멀티 레이블 앙상블 학습 방법은, 파라미터 값의 조절을 통해 다수의 예측을 앙상블에 참여하도록 하여 변동성을 낮출지, 정확한 소수의 예측만을 앙상블에 참여하도록 할지 학습이 가능하여 상황에 따른 유동적인 앙상블을 제공할 수 있다.
또한, 본 개시의 실시예들에 따른 멀티 레이블 앙상블 학습 방법은, 기존 가중치를 부여함에 있어서 어떤 예측에 대해 가중치를 많이 줄 것인지에 대한 기준이 불명확하여 학습 결과에 대한 해석이 어렵고 신뢰도가 떨어지는 반면, 오차 기반이라는 명확한 기준으로 가중치를 부여함으로써 가중치 부여 기준의 모호함을 해소할 수 있고, 부여된 가중치에 대한 해석을 제공할 수 있다.
도 9는 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치의 구성을 도시한 도면으로, 도 1 내지 도 8의 방법을 수행하는 장치에 대한 구성을 도시한 도면이다.
도 9를 참조하면, 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치(900)는 수집부(910), 생성부(920)와 학습부(930)를 포함한다.
수집부(910)는, 앙상블 학습 데이터에 저장된 시계열 학습 데이터를 이용하여 각 미래 환자상태 예측기(예측 모델)(10, 20, 30)에 의해 예측된 예측치 [p1,p2,p3,…,pN]t+1를 수집한다.
생성부(920)는, 예측 모델들 각각의 예측치와 정답 예측치(환자 상태 실측치)를 이용하여 예측 모델들 각각의 예측 오차를 계산하고, 예측 오차를 기반으로 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하며, 오차 기반 가중치 점수에 기초하여 예측 모델들 각각에 대한 가중치 레이블을 생성한다.
이때, 생성부(920)는 예측 모델들(10, 20, 30) 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하고, 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 예측 모델들 각각의 상기 가중치 레이블을 생성할 수 있다.
이때, 생성부(920)는 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 대한 정규화 과정을 통해 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수의 합이 1이 되도록 하고, 나머지 오차 기반 가중치 점수를 0으로 함으로써, 예측 모델들 각각의 가중치 레이블을 생성할 수 있다.
이때, 생성부(920)는 미리 결정된 파라미터 값 j2를 이용하여 예측 모델들(10, 20, 30) 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하고, 파라미터 값 j2와 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수를 결정하며, 결정된 예측 모델 수에 해당하는 높은 값의 오차 기반 가중치 점수를 적어도 일부의 오차 기반 가중치 점수로 선별할 수 있다.
실시예에 따라, 생성부(920)는 파라미터 값 j2와 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 정규화 임계치를 계산하고, 정규화 임계치, 파라미터 값 j2와 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델들(10, 20, 30) 각각의 가중치 레이블을 생성할 수 있다.
학습부(930)는 생성부(920)에 의해 생성된 예측 모델들(10, 20, 30) 각각의 오차 기반 가중치 레이블과 앙상블 학습 데이터를 입력으로 하여 앙상블 가중치 예측 모델로부터 출력되는 예측기별 앙상블 가중치의 오차가 최소화되도록 앙상블 가중치 예측 모델을 학습한다.
비록, 도 9에서 그 설명이 생략되더라도, 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치는, 도 1 내지 도 8에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
도 10은 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치가 적용되는 디바이스의 구성도를 도시한 도면이다.
예를 들어, 도 9의 본 개시의 실시예에 따른 멀티 레이블 앙상블 학습 장치는 도 10의 디바이스(1600)가 될 수 있다. 도 10을 참조하면, 디바이스(1600)는 메모리(1602), 프로세서(1603), 송수신부(1604) 및 주변 장치(1601)를 포함할 수 있다. 또한, 일 예로, 디바이스(1600)는 다른 구성을 더 포함할 수 있으며, 상술한 실시예로 한정되지 않는다. 이때, 상기 디바이스(1600)는 예를 들어 고정된 네트워크 관리 장치(예를 들어, 서버, PC 등) 일 수 있다.
보다 상세하게는, 도 10의 디바이스(1600)는 앙상블 학습 시스템, 앙상블 예측 장치, 의사결정 지원 장치 등과 같은 예시적인 하드웨어/소프트웨어 아키텍처일 수 있다. 이때, 일 예로, 메모리(1602)는 비이동식 메모리 또는 이동식 메모리일 수 있다. 또한, 일 예로, 주변 장치(1601)는 디스플레이, GPS 또는 다른 주변기기들을 포함할 수 있으며, 상술한 실시예로 한정되지 않는다.
또한, 일 예로, 상술한 디바이스(1600)는 상기 송수신부(1604)와 같이 통신 회로를 포함할 수 있으며, 이에 기초하여 외부 디바이스와 통신을 수행할 수 있다.
또한, 일 예로, 프로세서(1603)는 범용 프로세서, DSP(digital signal processor), DSP 코어, 제어기, 마이크로제어기, ASIC들(Application Specific Integrated Circuits), FPGA(Field Programmable Gate Array) 회로들, 임의의 다른 유형의 IC(integrated circuit) 및 상태 머신과 관련되는 하나 이상의 마이크로프로세서 중 적어도 하나 이상일 수 있다. 즉, 상술한 디바이스(1600)를 제어하기 위한 제어 역할을 수행하는 하드웨어적/소프트웨어적 구성일 수 있다. 또한 상기 프로세서(1603)는 전술한 도 9의 생성부(920)와 학습부(930)의 기능을 모듈화하여 수행할 수 있다.
이때, 프로세서(1603)는 멀티 레이블 앙상블 학습 장치의 다양한 필수 기능들을 수행하기 위해 메모리(1602)에 저장된 컴퓨터 실행가능한 명령어들을 실행할 수 있다. 일 예로, 프로세서(1603)는 신호 코딩, 데이터 처리, 전력 제어, 입출력 처리 및 통신 동작 중 적어도 어느 하나를 제어할 수 있다. 또한, 프로세서(1603)는 물리 계층, MAC 계층, 어플리케이션 계층들을 제어할 수 있다. 또한, 일 예로, 프로세서(1603)는 액세스 계층 및/또는 어플리케이션 계층 등에서 인증 및 보안 절차를 수행할 수 있으며, 상술한 실시예로 한정되지 않는다.
일 예로, 프로세서(1603)는 송수신부(1604)를 통해 다른 장치들과 통신을 수행할 수 있다. 일 예로, 프로세서(1603)는 컴퓨터 실행가능한 명령어들의 실행을 통해 멀티 레이블 앙상블 학습 장치가 네트워크를 통해 다른 장치들과 통신을 수행하게 제어할 수 있다. 즉, 본 개시에서 수행되는 통신이 제어될 수 있다. 일 예로, 송수신부(1604)는 안테나를 통해 RF 신호를 전송할 수 있으며, 다양한 통신망에 기초하여 신호를 전송할 수 있다.
또한, 일 예로, 안테나 기술로서 MIMO 기술, 빔포밍 등이 적용될 수 있으며, 상술한 실시예로 한정되지 않는다. 또한, 송수신부(1604)를 통해 송수신한 신호는 변조 및 복조되어 프로세서(1603)에 의해 제어될 수 있으며, 상술한 실시 예로 한정되지 않는다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
900 멀티 레이블 앙상블 학습 장치
910 수집부
920 생성부
930 학습부

Claims (20)

  1. 복수의 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 단계;
    상기 예측 모델들 각각의 예측치와 정답 예측치를 이용하여 상기 예측 모델들 각각의 예측 오차를 계산하는 단계;
    상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 가중치 레이블(Label)을 생성하는 단계; 및
    상기 가중치 레이블을 이용하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 단계
    를 포함하는, 멀티 레이블 앙상블 학습 방법.
  2. 제1항에 있어서,
    상기 앙상블 가중치 예측 모델을 학습하는 단계는,
    상기 예측 모델들 각각의 가중치와 상기 가중치 레이블이 최소화되도록, 상기 앙상블 가중치 예측 모델을 학습하는, 멀티 레이블 앙상블 학습 방법.
  3. 제1항에 있어서,
    상기 가중치 레이블을 생성하는 단계는,
    상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는 단계; 및
    상기 오차 기반 가중치 점수에 기초하여 상기 가중치 레이블을 생성하는 단계
    를 포함하는, 멀티 레이블 앙상블 학습 방법.
  4. 제3항에 있어서,
    상기 오차 기반 가중치 점수를 계산하는 단계는,
    상기 오차 기반 가중치 점수 간의 편차를 조절하기 위한 제1 파라미터 값을 반영하여 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는, 멀티 레이블 앙상블 학습 방법.
  5. 제3항에 있어서,
    상기 오차 기반 가중치 점수에 기초하여 상기 가중치 레이블을 생성하는 단계는,
    상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계; 및
    상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는 단계
    를 포함하는, 멀티 레이블 앙상블 학습 방법.
  6. 제5항에 있어서,
    상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는 단계는,
    상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 대한 정규화 과정을 통해 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수의 합이 1이 되도록 하고, 나머지 오차 기반 가중치 점수를 0으로 함으로써, 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는, 멀티 레이블 앙상블 학습 방법.
  7. 제5항에 있어서,
    상기 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계는,
    미리 결정된 제2 파라미터 값을 이용하여 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는, 멀티 레이블 앙상블 학습 방법.
  8. 제7항에 있어서,
    상기 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계는,
    상기 제2 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수를 결정하고, 상기 결정된 예측 모델 수에 해당하는 높은 값의 오차 기반 가중치 점수를 상기 적어도 일부의 오차 기반 가중치 점수로 선별하는, 멀티 레이블 앙상블 학습 방법.
  9. 제8항에 있어서,
    상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는 단계는,
    상기 제2 파라미터 값과 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 정규화 임계치를 계산하고, 상기 정규화 임계치, 상기 제2 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는, 멀티 레이블 앙상블 학습 방법.
  10. 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 단계;
    상기 예측 모델들 각각의 예측치와 정답 예측치를 비교하여 상기 예측 모델들 각각의 예측 오차를 계산하는 단계;
    상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하는 단계;
    미리 결정된 파라미터 값을 이용하여 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계; 및
    상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 단계
    를 포함하는, 멀티 레이블 앙상블 학습 방법.
  11. 제10항에 있어서,
    상기 멀티 레이블 앙상블 학습 방법은,
    상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 대한 정규화 과정을 통해 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수의 합이 1이 되도록 하고, 나머지 오차 기반 가중치 점수를 0으로 함으로써, 상기 예측 모델들 각각의 가중치 레이블을 생성하는 단계
    를 더 포함하고,
    상기 앙상블 가중치 예측 모델을 학습하는 단계는,
    상기 예측 모델들 각각의 가중치 레이블을 이용하여 상기 앙상블 가중치 예측 모델을 학습하는, 멀티 레이블 앙상블 학습 방법.
  12. 제10항에 있어서,
    상기 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는 단계는,
    상기 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수를 결정하고, 상기 결정된 예측 모델 수에 해당하는 높은 값의 오차 기반 가중치 점수를 상기 적어도 일부의 오차 기반 가중치 점수로 선별하는, 멀티 레이블 앙상블 학습 방법.
  13. 제12항에 있어서,
    상기 멀티 레이블 앙상블 학습 방법은,
    상기 파라미터 값과 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 정규화 임계치를 계산하고, 상기 정규화 임계치, 상기 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 상기 예측 모델들 각각의 가중치 레이블을 생성하는 단계
    를 더 포함하고,
    상기 앙상블 가중치 예측 모델을 학습하는 단계는,
    상기 예측 모델들 각각의 가중치 레이블을 이용하여 상기 앙상블 가중치 예측 모델을 학습하는, 멀티 레이블 앙상블 학습 방법.
  14. 복수의 예측 모델들 각각의 학습 데이터에 대한 예측치를 수집하는 수집부;
    상기 예측 모델들 각각의 예측치와 정답 예측치를 이용하여 상기 예측 모델들 각각의 예측 오차를 계산하고, 상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 가중치 레이블을 생성하는 생성부; 및
    상기 가중치 레이블을 이용하여 상기 예측 모델들 각각의 가중치를 예측하는 앙상블 가중치 예측 모델을 학습하는 학습부
    를 포함하는, 멀티 레이블 앙상블 학습 장치.
  15. 제14항에 있어서,
    상기 생성부는,
    상기 예측 오차를 기반으로 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 계산하고,
    상기 오차 기반 가중치 점수에 기초하여 상기 가중치 레이블을 생성하는, 멀티 레이블 앙상블 학습 장치.
  16. 제15항에 있어서,
    상기 생성부는,
    상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하고,
    상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 기초하여 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는, 멀티 레이블 앙상블 학습 장치.
  17. 제16항에 있어서,
    상기 생성부는,
    상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수에 대한 정규화 과정을 통해 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수의 합이 1이 되도록 하고, 나머지 오차 기반 가중치 점수를 0으로 함으로써, 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는, 멀티 레이블 앙상블 학습 장치.
  18. 제16항에 있어서,
    상기 생성부는,
    미리 결정된 파라미터 값을 이용하여 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수 중 적어도 일부의 오차 기반 가중치 점수를 선택적으로 선별하는, 멀티 레이블 앙상블 학습 장치.
  19. 제18항에 있어서,
    상기 생성부는,
    상기 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 예측 모델 수를 결정하고, 상기 결정된 예측 모델 수에 해당하는 높은 값의 오차 기반 가중치 점수를 상기 적어도 일부의 오차 기반 가중치 점수로 선별하는, 멀티 레이블 앙상블 학습 장치.
  20. 제19항에 있어서,
    상기 생성부는,
    상기 파라미터 값과 상기 선택적으로 선별된 적어도 일부의 오차 기반 가중치 점수를 이용하여 정규화 임계치를 계산하고, 상기 정규화 임계치, 상기 파라미터 값과 상기 예측 모델들 각각에 대한 오차 기반 가중치 점수를 이용하여 상기 예측 모델들 각각의 상기 가중치 레이블을 생성하는, 멀티 레이블 앙상블 학습 장치.
KR1020220040474A 2022-03-31 2022-03-31 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치 KR20230141198A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220040474A KR20230141198A (ko) 2022-03-31 2022-03-31 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치
US18/057,080 US20230316156A1 (en) 2022-03-31 2022-11-18 Method and apparatus for learning multi-label ensemble based on multi-center prediction accuracy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220040474A KR20230141198A (ko) 2022-03-31 2022-03-31 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230141198A true KR20230141198A (ko) 2023-10-10

Family

ID=88194630

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220040474A KR20230141198A (ko) 2022-03-31 2022-03-31 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치

Country Status (2)

Country Link
US (1) US20230316156A1 (ko)
KR (1) KR20230141198A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928182B1 (en) * 2020-11-30 2024-03-12 Amazon Technologies, Inc. Artificial intelligence system supporting semi-supervised learning with iterative stacking

Also Published As

Publication number Publication date
US20230316156A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
US11720822B2 (en) Gradient-based auto-tuning for machine learning and deep learning models
US20220414464A1 (en) Method and server for federated machine learning
US10990904B1 (en) Computer network architecture with machine learning and artificial intelligence and automated scalable regularization
Nápoles et al. Learning and convergence of fuzzy cognitive maps used in pattern recognition
US20240096499A1 (en) Medical treatment metric modelling based on machine learning
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
US11475161B2 (en) Differentially private dataset generation and modeling for knowledge graphs
WO2020208444A1 (en) Fairness improvement through reinforcement learning
US11620582B2 (en) Automated machine learning pipeline generation
WO2020081747A1 (en) Mini-machine learning
US11176488B2 (en) Online anomaly detection using pairwise agreement in heterogeneous model ensemble
EP3588390A1 (en) Techniques for determining artificial neural network topologies
KR102293791B1 (ko) 반도체 소자의 시뮬레이션을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
Rottmann et al. Deep bayesian active semi-supervised learning
KR20200063943A (ko) 기계학습을 적용한 가상 네트워크 기능 자원의 수요 예측 방법
Ledezma et al. GA-stacking: Evolutionary stacked generalization
JP7481902B2 (ja) 管理計算機、管理プログラム、及び管理方法
US11514334B2 (en) Maintaining a knowledge database based on user interactions with a user interface
CN113065045A (zh) 对用户进行人群划分、训练多任务模型的方法和装置
KR20230141198A (ko) 다기관 예측 정확도 기반 멀티 레이블 앙상블 학습 방법 및 장치
US11593680B2 (en) Predictive models having decomposable hierarchical layers configured to generate interpretable results
KR20230135838A (ko) 동적 모델 조합에 기반한 선택적 앙상블 예측 방법 및 장치
EP3937084A1 (en) Training a model to perform a task on medical data
KR20080097753A (ko) 다중 클래스 svm을 이용한 영역 기반 이미지 검색 방법
Li et al. Empowering multi-class medical data classification by Group-of-Single-Class-predictors and transfer optimization: Cases of structured dataset by machine learning and radiological images by deep learning