KR102440817B1 - 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램 - Google Patents

기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램 Download PDF

Info

Publication number
KR102440817B1
KR102440817B1 KR1020200020549A KR20200020549A KR102440817B1 KR 102440817 B1 KR102440817 B1 KR 102440817B1 KR 1020200020549 A KR1020200020549 A KR 1020200020549A KR 20200020549 A KR20200020549 A KR 20200020549A KR 102440817 B1 KR102440817 B1 KR 102440817B1
Authority
KR
South Korea
Prior art keywords
causal
result
reinforcement learning
difference
causality
Prior art date
Application number
KR1020200020549A
Other languages
English (en)
Other versions
KR20210105724A (ko
Inventor
서성욱
Original Assignee
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사회복지법인 삼성생명공익재단 filed Critical 사회복지법인 삼성생명공익재단
Priority to KR1020200020549A priority Critical patent/KR102440817B1/ko
Priority to PCT/KR2021/002024 priority patent/WO2021167344A1/ko
Publication of KR20210105724A publication Critical patent/KR20210105724A/ko
Application granted granted Critical
Publication of KR102440817B1 publication Critical patent/KR102440817B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은, 환자들에 관한 기록된 데이터를 획득하는 단계와, 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 개체를 샘플링하는 단계와, 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과를 비교하여, 인과보상을 생성하는 단계와, 상기 인과보상을 사용한 강화학습을 수행하는 단계를 포함하는, 인과성을 식별하는 강화학습 방법을 제공한다.

Description

기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램{Reinforcement learning method, device, and program for identifying causal effect in logged data}
본 발명의 실시 예들은, 기록된 데이터에서 인과성 또는 인과적 영향을 식별하는 강화학습 방법, 장치 및 프로그램에 관한 것이다.
의료 분야 및 헬스케어 분야에서 빅데이터를 사용할 수 있게 됨에 따라, 관찰 데이터(observational data)로부터 개별적 수준의 인과성 또는 인과 영향(causal effect)을 식별하는 기술의 개발에 대한 관심이 집중되고 있다. 예를 들면 인과 영향을 예측하여 어떤 행동(예: 치료)을 할 것인지에 관한 의사결정 모델을 수립하는 기술의 개발이 시도될 수 있다.
이러한 기술의 개발을 위해, 예를 들면 무작위적 임상 시험(randomized clinical trial, RCT)을 통해 치료와 결과의 인과관계를 발견할 수 있겠지만, 임상 시험은 윤리적 문제, 높은 비용, 및 유효성 문제를 수반한다. 따라서 인과관계 추론을 위해 새로운 분석방법이 요구된다.
한편, 종래의 데이터 기반의 의사결정(data driven decision) 모델은, 한 개체(individual)로부터 하나의 잠재적 결과(outcome)만을 학습하기 때문에, 학습된 모델이 편향(bias)될 수 있는 문제점이 존재한다. 예를 들면 이러한 모델은, 개체에 따라 편견을 가지고 결과를 도출하는 문제점이 존재할 수 있다.
또한 강화학습에서 에이전트(agent)는 보상을 최대화하는 행동(action)의 시퀀스를 생성하는데, 보상이 인위로 정해질 수 있기 때문에 학습 모델이 인위로 유도될 수 있다. 따라서 종래 기술에 따른 학습 모델은 객관성을 갖지 못할 수 있으며, 과학적으로 사용되기 어려울 수 있다.
본 발명은, 상기와 같은 문제점을 개선하기 위해 안출된 것으로, 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램을 제공하는 것을 목적으로 한다. 그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 방법은, 환자들에 관한 기록된 데이터를 획득하는 단계; 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 개체를 샘플링하는 단계; 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과를 비교하여, 인과보상을 생성하는 단계; 상기 인과보상을 사용한 강화학습을 수행하는 단계;를 포함할 수 있다.
일 실시예에 따르면, 상기 인과보상을 생성하는 단계는, 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과의 차이가, 상기 대상 개체의 사실(factual) 결과와 상기 대상 개체의 반사실(counterfactual) 결과의 차이에 상응하도록, 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과의 차이를 변형하는 과정을 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 인과보상을 생성하는 단계는, i번째 샘플링된 개체와 상기 대상 개체의 결과 차이
Figure 112020017831860-pat00001
에, 상기 i번째 샘플링된 개체와 상기 대상 개체의 공변량 거리(covariates distance)에 기초한 가중치를 곱하여 상기 인과보상으로 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 인과보상을 생성하는 단계는, 상기 i번째 샘플링된 개체의 결과와 상기 대상 개체의 결과에 각각 성향점수(propensity score)의 역수를 곱한 결과의 차이를, 상기 결과 차이
Figure 112020017831860-pat00002
로 사용하는 단계를 더 포함할 수 있다.
일 실시예에 따르면, 상기 강화학습을 수행하는 단계는, 상기 인과보상을 DQN (Deep Q Neural Network)에 적용하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 환자들에 관한 기록된 데이터를 획득하는 단계는, 각 환자의 연령, 성별, 종양의 1차 부위, 종양 크기, 조직학적 유형(histologic subtype), SEER 단계, 외과 치료, 및 방사선 치료를 나타내는 변수 중 하나 이상을 획득하는 단계를 포함할 수 다.
본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 장치는, 환자들에 관한 기록된 데이터를 획득하는 데이터 획득부; 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 개체를 샘플링하는 샘플링부; 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과를 비교하여, 인과보상을 생성하는 인과보상 생성부; 상기 인과보상을 사용한 강화학습을 수행하는 강화학습부;를 포함할 수 있다.
본 발명의 일 실시예에 따른 인과성을 식별하는 비-일시적(non-transitory) 컴퓨터-판독 가능(computer-readable) 저장(storage) 매체(medium)는, 환자들에 관한 기록된 데이터를 획득하는 동작과, 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 개체를 샘플링하는 동작과, 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과를 비교하여, 인과보상을 생성하는 동작과, 상기 인과보상을 사용한 강화학습을 수행하는 동작을 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
상술한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 기록된 데이터로부터 반사실(counterfactual) 결과를 추정할 수 있어, 기록된 데이터로부터 인과성을 식별 또는 예측할 수 있는 강화학습 모델을 생성할 수 있다.
따라서 무작위적 임상 시험(RCT)을 수행하지 않아도, 강화학습을 통해 개별적 환자에 대하여 치료의 결과에 대한 인과성을 식별, 예측할 수 있다.
또한 대상 개체(subject)와 모사-반사실(pseudo-counterfactual) 개체의 결과의 차이를 이용한 인과보상(causal reward)을 사용하여 강화학습을 수행함으로써 편향(bias)을 없앨 수 있고, 강화학습의 성능을 크게 향상시킬 수 있다.
물론 이러한 효과들에 의해 본 발명의 범위가 한정되는 것은 아니다.
도 1은 본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 방법을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 장치의 구성을 개략적으로 나타낸다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
이하의 실시예에서, 구성 요소, 부, 블록 등이 연결되었다고 할 때, 구성 요소, 부, 블록들이 직접적으로 연결된 경우뿐만 아니라 구성 요소, 부, 블록들 중간에 다른 구성 요소, 부, 블록들이 개재되어 간접적으로 연결된 경우도 포함한다.
이하의 실시예에서, 강화학습(reinforcement learning)은, 현재의 상태(state)에서 어떤 행동(action)을 취하는 것이 최적인지를 학습하는 것이다. 행동을 취할 때마다 외부 환경에서 보상(reward)이 주어지는데, 이러한 보상을 최대화하는 방향으로 학습이 진행될 수 있다.
다시 말하면 강화학습은, 어떤 환경 안에서 에이전트(agent)가 현재의 상태(state)를 인식하여, 선택 가능한 행동(action)들 중 보상(reward)을 최대화하는 행동 혹은 행동 순서(정책)를 찾아가는 알고리즘이다. 에이전트는 정책(policy)을 근거로 행동을 결정할 수 있다. 정책이란 특정 상황에서 특정 행동을 할 확률 규칙일 수 있으며, 학습을 통해 알아낼 수 있다. 강화학습의 목표는 누적 보상을 최대로 하는 것일 수 있다.
본 발명의 실시예에 따른 인과성을 식별하는 강화학습 방법, 장치 및 프로그램에 따르면, 관찰 데이터(observational data)로부터 개체(individual) X의 결과(outcome) Y에 대한 치료 T의 인과적 영향(causal effect, CE)을 추정할 수 있다.
변수 X는 개체(individual)의 특성을 나타내며, 예를 들면 개별 환자들을 나타낼 수 있다. X는 환자들의 관찰된 기저 특성 또는 기저 정보(baseline information)가 공변량(covariates)으로 주어진 것이다. 결과 Y는 치료 받거나 또는 치료 받지 않은 개체(즉, 환자)의 결과를 나타내며, 예를 들면 생존 기간이나 생존율을 나타낼 수 있다. 결과 Y는 예를 들면 시간 및 그 시간에서의 생존 여부로 나타낼 수 있다. 하지만 이에 한정되지 않는다.
본 발명의 실시예에 따른 방법, 장치 및 프로그램에 따르면, 치료 받은(T=t) 개체 X의 결과 Y에 대하여, 치료 T가 결과 Y에 미친 영향, 즉 치료 T와 결과 Y의 인과성(CE)을 식별(identify)하는 강화학습을 수행할 수 있다. 또한 상기 강화학습을 이용하면, 개체 X에 대하여 산출된 개별 인과 영향(individual causal effect, ICE)을 이용하여 개인의 치료 효과를 예측하고, 개인의 치료에 대한 의사결정을 지원할 수 있다.
기록된 정책(logged policy) t를 갖는 배치(batch) 데이터 또는 관찰 데이터로부터 개체 X의 결과 Y에 대한 치료 T의 인과적 영향(CE)을 추정하기 위해서는, 실제 데이터로부터 실제 결과를 나타내는 사실 결과(factual outcome) E[Y|X, T=t] 및, 동일한 개체에 대한 가상의 예상 결과를 나타내는 반사실 결과(counterfactual outcome) E[Y|X, T≠t]를 정의한다.
사실 결과 E[Y|X, T=t]는, 개체 X가 치료 받은 경우(T = t)의 결과 Y를 나타내며, 반사실 결과 E[Y|X, T≠t]는, 개체 X가 치료 받지 않은 경우(T≠t)의 결과 Y를 나타낸다. 결과 Y는 일 예를 들면, 생존 기간 또는 생존율로 나타낼 수 있다. 한편, 치료 T에 관한 행동(action)이 이분형(binary)인 경우, T=0 or T=1로 나타낼 수 있으며, 예를 들면, 치료 받은 경우를 T=1, 치료 받지 않은 경우를 T=0으로 나타낼 수 있다.
여기서, 개체 X에 대한 T와 Y 사이의 인과관계는, 상기 사실 결과와 반사실 결과의 차이, 즉 YT=1(X) - YT=0(X)를 통해 추론될 수 있다.
하지만, 동일한 개체 X에 대하여 치료 받은 결과와 치료받지 않은 결과를 동시에 관찰하는 것은 불가능하다. 즉, 치료 받은 개체 X에 대하여, 치료 받지 않은 반사실 결과는 실제로 존재하지 않으므로, 관찰할 수 없는 데이터이다.
따라서, 개체 X에 대하여 치료 T와 결과 Y의 인과관계를 추정하기 위해서는, 기록된 데이터(logged data)를 가지고 반사실 결과를 추정하는 새로운 알고리즘이 요구된다. 구체적으로, 치료 받은 개체 X에 대한 반사실 결과(즉, 치료 받지 않은 결과)는 기록된 데이터로부터 얻을 수 없기 때문에, 치료 받지 않은(T=0) 상대군(counterpart) 환자들에 관한 기록된 데이터로부터의 샘플링을 통해 모사-반사실(pseudo-counterfactual)을 나타내는 방안이 요구된다.
본 발명의 실시예에 따른 인과성을 식별하는 강화학습 방법, 장치 및 프로그램에 따르면, 치료 받지 않은(T=0) 상대군 환자들로부터 샘플링된 모사-반사실 결과와의 비교를 통해 개체 X에서 치료 T=1의 인과보상을 추정하고, 상기 인과보상을 사용하여 강화학습을 수행할 수 있다. 인과보상을 사용하여 강화학습을 수행하는 것은, 강화학습 체제에서 에이전트가 상기 인과보상을 이용하여 행동 공간(action space)을 탐색하고, 개인 X의 인과보상을 최대화하는 최적의 정책을 학습하는 것이다.
한편 본 발명의 실시예에 따르면, 상기 모사-반사실(pseudo-counterfactual)을 나타내기 위해 샘플링된 개체들의 군을 예를 들면 모사-반사실 군 X'으로 지칭할 수 있다. 또한 상기 모사-반사실을 나타내기 위해 샘플링된 개체를 Xi'로 표기할 수 있다(Xi' ∈ X'). 예를 들면 Xi' 는 i번째 샘플링된 개체일 수 있다. Xi'는 치료 받지 않은 상대군 환자들에 관한 기록된 데이터로부터 샘플링된 개체이므로, '상대군 개체'로 지칭될 수도 있다.
정리하면, 인과 영향(CE)을 식별하기 위해, 개체 X의 치료 받은 결과 및 치료 받지 않은 결과의 추정(estimate)이 요구되는데, 본 발명에 따르면, 치료 받지 않은 상대군 환자들로부터 샘플링된 개체 Xi'의 결과와 치료 받은 개체 X의 결과를 비교하여 모사-인과보상을 추정하고, 상기 모사-인과보상을 이용하여 실제 인과성을 근사(approximate)하는 강화학습을 수행할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 방법을 나타낸다. 인과성, 인과 영향, 또는 인과 효과(causal effect, CE)을 식별하는 것은, 개체(individual)의 결과에 대하여, 어떤 행동(예: 치료)이 결과에 미친 인과적 영향을 식별하는 것을 의미할 수 있다. 또한 '식별'은, 추정, 근사, 또는 예측하는 것을 포함할 수 있다.
본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 방법은, 환자들에 관한 기록된 데이터를 획득하는 단계(S10), 임의의 대상 개체(subject)에 대한 치료와 결과의 인과성을 추정하기 위하여, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군(counterpart)에 포함된 개체를 샘플링하는 단계(S20), 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과를 비교하여, 인과보상을 생성하는 단계(S30), 상기 인과보상을 사용한 강화학습을 수행하는 단계(S40)를 포함할 수 있다.
도 1을 참조하면, 먼저 환자들에 관한 기록된 데이터(logged data)를 획득하는 단계(S10)가 수행된다. 환자들에 관한 기록된 데이터는, 각각의 환자 i에 대한 Xi, T, Yi의 값을 포함할 수 있다.
본 발명의 일 실시예에 따르면, 기록된 데이터로부터 환자들의 기저 정보(baseline information)를 나타내는 Xi를 수집할 수 있다.
Xi는 개체(예: 환자) i의 연령, 성별, 종양의 원발부(primary site)(예: 축상 또는 말단), 종양 크기(예: 기준 크기 이상 또는 이하), 조직학적 유형(histologic subtype)(예: spindle cell type, biphasic type, or not otherwise specified [NOS]), SEER 단계(예: localized, regional, or distant), 외과 치료, 방사선 치료 중 하나 이상을 포함할 수 있다. 본 발명은 이에 한정되지 않으며, Xi는 이 외에도 다양한 변수를 포함할 수 있다. Xi는 관찰하는 환자 집단의 특성에 따라 가능한 모든 임상 정보를 사용할 수 있다. 예를 들면 Xi는 어떤 치료 T의 인과성을 추정하려 하는지에 따라 다양하게 선택될 수 있다. 예를 들면, Xi는 개체 i의 혈압, 당뇨, 흡연, 체질량지수, HDL 지수, LDL 지수, 가족력을 나타내는 변수를 포함할 수 있다. 예를 들면, Xi는 개체 i의 영상 데이터를 포함할 수 있다. Xi는 상기 영상 데이터로써, X-ray 영상, CT(Computed Tomography) 영상, PET(Positron Emission Tomography) 영상, 초음파 영상, MRI(Magnetic Resonance Imaging)과 같은 의료 영상의 데이터 또는 상기 데이터에 소정의 처리를 한 값을 포함할 수 있다. Xi는 상술한 바와 같은 복수의 변수를 포함하는, 예를 들면 벡터의 형태일 수 있다.
본 발명의 일 실시예에 따르면, 기록된 데이터로부터 각 개체 i의 치료 T 여부를 수집할 수 있다. 예를 들면 치료 T는 화학 요법(chemotherapy)일 수 있으나 이는 일 예시일 뿐이며 본 발명은 다양한 치료에 대하여 적용될 수 있다.
본 발명의 일 실시예에 따르면, 기록된 데이터로부터 각 개체 i의 결과 Yi를 수집할 수 있다. Yi는 개체 i의 생존에 관한 결과를 나타낼 수 있으며, 시간 및 이벤트(즉, 사망 또는 생존)를 포함할 수 있다. 예를 들면 Yi는 시간 및 그 시간에서의 생존 여부를 나타내는 변수로 나타낼 수 있다.
다음으로, 임의의 대상 개체(subject)에 대한 치료 T와 결과의 인과성을 추정하기 위하여, 상기 대상 개체(T=t, X)에 대한 모사-반사실을 나타내기 위한 상대군 개체(T≠t, Xi')를 샘플링하는 단계(S20)가 수행된다. 상대군 개체(T≠t, Xi')는, 상기 기록된 데이터 중에서, 치료 받지 않은 상대군 환자로부터 샘플링된다. 반대로, 사실 데이터에서 개체가 치료를 받지 않은 경우(T≠t, X) 모사-반사실 상대군은 치료를 받은 개체(T=t, Xi')일 수 있다.
다음으로, 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과의 비교를 이용하여, 인과보상을 생성하는 단계(S30)가 수행된다. 본 발명에 따른 인과보상은, 할인된 인과보상(discounted causal reweard)을 지칭할 수 있다.
일 실시예에 따르면, 대상 개체(T=t, X)와 샘플링된 개체(T≠t, Xi'∈X')의 결과의 비교에 있어서, 유사한 공변량을 가지는 유사한 개체들(X
Figure 112020017831860-pat00003
X') 간에 성향점수 재가중(propensity score reweighting) 또는 공변량 조정(covariate adjustment)을 통하여 상기 개체들 간의 결과를 비교하는 공변성 매칭(covariance matching)이 수행될 수 있다. 이하에서, 인과보상을 생성하는 동작에 관한 상세한 설명이 서술된다.
대상 개체(T=t, X)의 개별 인과 영향
Figure 112020017831860-pat00004
은, 대상 개체 X와 매치된 상대군 개체(T≠t, Xi'∈X')의 결과의 차이
Figure 112020017831860-pat00005
로 나타내어질 수 있다.
구체적으로, 개별 인과 영향(ICE)은 이상적으로 하기 수학식 1로부터 추론될 수 있다. E는 기대값을 나타낼 수 있다.
Figure 112020017831860-pat00006
하지만, 대상 개체 X의 치료 받지 않은 경우(T≠t)의 결과인 Y(T≠t)|X는 실제로 관찰할 수 없는 반사실 결과이므로, 하기 수학식 2와 같이 모사-반사실 군 X'으로부터 샘플링된 개체 Xi'를 이용하여 추정될 수 있다. Xi'는 치료를 받지 않은(T≠t) 상대군 환자들에 관한 기록된 데이터로부터 샘플링된, 상대군 개체이다.
Figure 112020017831860-pat00007
Figure 112020017831860-pat00008
는 X와 Xi'의 결과의 차이를 나타낼 수 있으며, E는 기대값을 나타낼 수 있다. 한편, 수학식 2에서
Figure 112020017831860-pat00009
를 산출함에 있어서, Xi'와 일대일 매칭을 하는 경우, 숨겨진 교란변수(hidden confounder)에 의해 바이어스(bias)가 증가할 수 있다. 또한 일대일 매칭을 하는 경우, 매칭되지 않은 샘플들 사이의 중요한 정보가 무시될 수 있는 문제가 발생할 수 있다
따라서 본 발명의 일 실시예에 따른 방법, 장치 및 프로그램은, 상기 샘플링 단계(S20)에서, 공변량(covariates)을 고려하지 않고, 기록된 데이터 집합에서 무작위로 N 개의 상대군 개체(T≠t, Xi')를 선택할 수 있다.
한편, 무작위로 샘플링된 상대군 개체 Xi'는 사실 개체(factual individual)(즉, 치료 받은 환자를 나타내는 개체)와 동일한 개체가 아니기 때문에, 모사-반사실에 해당하며 실제 반사실을 반영하기 위해 변형이 필요하다. 상기 변형은 샘플링된 개체 Xi'가 사실 개체 X와 유사하면 결과 차이
Figure 112020017831860-pat00010
에 가중치(weight)를 크게 하고 샘플링된 개체 Xi'가 사실 개체 X와 유사하지 않을수록 결과 차이
Figure 112020017831860-pat00011
에 가중치(weight)를 작게 하는 계산을 포함할 수 있다. 본 발명에서 가중치는 개체의 유사도가 작을 수록 (즉, 비교 대상 환자간의 거리가 멀 수록) 작은 가중치를 가지게 되는 일종의 할인된 가중치(discounted weight)를 지칭할 수 있다(discounted factor:
Figure 112020017831860-pat00012
).
즉, 대상 개체 X와 샘플링된 개체 Xi'의 결과 차이
Figure 112020017831860-pat00013
가 대상 개체의 사실 결과와 반사실 결과의 차이에 상응하도록, 상기 결과 차이
Figure 112020017831860-pat00014
를 변형할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 방법, 장치 및 프로그램은, X와 Xi'간의 공분산 차이(covariance difference)
Figure 112020017831860-pat00015
에 따라 가중치
Figure 112020017831860-pat00016
를 줄 수 있다.
Figure 112020017831860-pat00017
수학식 3을 참조하면, X와 Xi'의 결과 차이
Figure 112020017831860-pat00018
에 가중치
Figure 112020017831860-pat00019
를 적용한 기대값
Figure 112020017831860-pat00020
을 이용하여 인과관계 또는 인과성을 근사하여 나타낼 수 있다.
또한, 본 발명의 다른 일 실시예에 따르면, 대상 개체 X와 샘플링된 개체 Xi'∈X'와의 결과 차이
Figure 112020017831860-pat00021
를 나타냄에 있어서, 각각의 결과(Y, Yi)를 성향점수(
Figure 112020017831860-pat00022
)의 역수(inverse propensity score, IPS)로 재가중(reweight)하여 상기 결과 차이를 나타낼 수도 있다.
Figure 112020017831860-pat00023
성향점수
Figure 112020017831860-pat00024
는, 치료를 배정 받을 확률 P(T = t|X)로, 환자에 대해서 측정된 공변량들(X)이 주어졌을 때, 환자가 치료를 받을 조건부확률로 정의될 수 있다.
Figure 112020017831860-pat00025
Figure 112020017831860-pat00026
수학식 5는 성향점수의 정의를 나타내며, 수학식 6은 대상 개체 X와 샘플링된 개체 Xi'에 대한, 성향점수의 역수로 재가중된(reweighted) 결과의 차이를 나타낸다.
본 발명의 일 실시예에 따르면, 상기 수학식 6의 결과 차이
Figure 112020017831860-pat00027
는, 대상 개체 X와 샘플링된 개체 Xi'의 공변량 거리(covariates difference)
Figure 112020017831860-pat00028
에 의해 할인될(discounted) 수 있다.
Figure 112020017831860-pat00029
수학식 7은 공변량 거리를 나타내는 식이다.
한편, 본 발명의 일 실시예에 따른 가중치(discounted weight)는, 할인율 γ를
Figure 112020017831860-pat00030
만큼 거듭제곱 하여 나타낸다. 여기서 T는 annealing temperature로, 샘플링을 반복할 때마다 상기 가중치를 점진적으로 감소시키도록 한다. 즉, 시간이 지남에 따라 점진적으로 "온도"를 낮춰서 탐험 비율(또는 탐험된 값의 반영 비율)을 낮추도록 한다. 할인율(discount factor) γ는
Figure 112020017831860-pat00031
를 만족하며, 작은 값일수록 즉각적인 보상에 강조를 두게 한다.
i번째 샘플링에 대하여 할인된 가중치(discounted weight)를 적용한 결과 차이는,
Figure 112020017831860-pat00032
와 같이 나타낼 수 있다.
또한, 상기 할인된 결과 차이의 합
Figure 112020017831860-pat00033
은 수학식 8과 같이 정규화될 수 있다.
Figure 112020017831860-pat00034
수학식 8은, 할인된 결과 차이를 나타내며, 이는 본 발명의 일 실시예에 따른 강화학습 체제에서 보상(reward)으로 사용될 수 있다.
본 발명의 다양한 실시예들에서, 인과성을 식별하는 강화학습을 위해 사용되는 보상을 (할인된) 인과보상(discounted individual causal reward) RICE으로 지칭할 수 있다. RICE는 일 실시예에 따르면 수학식 8과 같을 수 있다. 다만 본 발명은 이에 한정되지 않으며, 본 발명의 다양한 실시예들에 따른 인과보상은 수학식 2, 3, 4, 6과 같이 나타낼 수도 있다. 공통적으로 인과보상은, 대상 개체의 결과와 샘플링된 개체의 결과의 비교를 통해 생성될 수 있다.
이상에서 전술한 바와 같은 방식으로, 인과보상(discounted individual causal reward)을 생성하는 단계(S30)가 수행될 수 있다.
인과보상은 전술한 바와 같이, 다양한 실시예에서 다양한 방식으로 생성될 수 있다. 공통적으로 인과보상은, 대상 개체의 결과와 샘플링된 개체의 결과의 비교를 통해 생성될 수 있다.
일 실시예에 따르면, 인과성을 식별하는 강화학습 방법은, 상대군 환자들로부터 랜덤하게 샘플링된 개체들의 결과와 대상 개체의 결과와의 차이를 인과보상으로 생성 및 사용할 수 있다. 예를 들면, 치료 받지 않은 환자(즉, 상대군 환자)와 치료 받은 환자의 생존 결과를 비교하여 인과보상으로 사용할 수 있다.
다른 일 실시예에 따르면, 인과성을 식별하는 강화학습 방법은, 샘플링된 상대군 개체와 대상 개체 간의 공변량의 분산에 따라 할인된(discounted) 보상을 인과보상으로 생성 및 사용할 수 있다.
또 다른 일 실시예에 따르면, 인과성을 식별하는 강화학습 방법은, 샘플링된 상대군 개체와 대상 개체 간의 결과 차이에 성향점수의 역수(inverse propensity score, IPS)로 가중치를 적용한 보상을 인과보상으로 생성 및 사용할 수 있다. 예를 들면, 샘플링된 개체와 대상 개체의 결과에 성향점수의 역수가 곱해진 값의 결과 차이를 인과보상으로 사용할 수 있다.
또 다른 일 실시예에 따르면, 인과성을 식별하는 강화학습 방법은, 샘플링된 상대군 개체와 대상 개체 간의 교차 엔트로피(cross entropy)에 따라 할인된(discounted) 보상을 인과보상으로 생성 및 사용할 수 있다.
마지막으로, 생성된 인과보상을 사용한 강화학습을 수행하는 단계(S40)가 수행될 수 있다. 강화학습을 수행하는 단계(S40)는, 생성된 인과보상을 Q-learning에 적용하는 것을 포함한다.
구체적으로, 에이전트는 상기 인과보상의 무한합 또는 유한합의 기대값을 최대화하는 최적의 정책(policy)을 학습할 수 있다. 또한 에이전트는 개별 인과보상(individual causal reward)의 기대값을 학습할 수도 있다.
벨만 방정식(Bellman equation)은, 마르코프 결정 과정(MDP)에서 기대 보상의 회귀를 나타낸다. 본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 방법은, 강화학습을 수행하는 단계(S40)에서, 상태 Xt에서의 행동 t에 대한 보상으로 RICE(X)를 적용할 수 있다. 벨만 방정식과 최적 벨만 방정식(optimal Bellman equation)은 하기의 수학식 9와 같이 나타낼 수 있다.
Figure 112020017831860-pat00035
Q-learning 설정에서, 최적 벨만 방정식은 하기의 수학식 10와 같이 나타낼 수 있다.
Figure 112020017831860-pat00036
수학식 10에서, T'는, 다음 상태의 행동을 나타낸다. Q-learning에서, 에이전트는 Q(Xt, T=1) 및 Q(Xt, T=0)를 모두 서치(search)하여
Figure 112020017831860-pat00037
및 Q(Xt, T)의 최대값을 근사할 수 있다(off-policy 방식).
치료 T의 개별 인과 영향(individual causal effect)을 추정하기 위해서, 본 발명에 따른 강화학습 방법은, 하기의 수학식 11과 같이
Figure 112020017831860-pat00038
를 측정함으로써
Figure 112020017831860-pat00039
를 추정할 수 있다.
Figure 112020017831860-pat00040
상술한 바와 같이 생성된 인과보상 RICE를 DQN (Deep Q Neural Network) 알고리즘에 적용한 후 강화학습의 성능이 크게 향상된 것을 확인할 수 있었다.
한편, 강화학습을 수행하는 단계(S40)는 이에 국한되지 않으며, DQN 이외의 다양한 알고리즘에 적용될 수 있다. 본 발명의 실시예에 따른 인과보상 RICE(X)은, 다양한 종류의 강화학습 알고리즘에서 의학데이터의 보상을 결정할 때 사용 가능하다.
도 2는 본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 장치의 구성을 개략적으로 나타낸다.
도 2에 도시된 인과성을 식별하는 강화학습 장치(10)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예와 관련된 구성요소들만을 도시한 것이다. 따라서, 도 2에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 장치(10)는 적어도 하나 이상의 프로세서(processor)에 해당하거나, 적어도 하나 이상의 프로세서를 포함할 수 있다. 이에 따라, 인과성을 식별하는 강화학습 장치(10)는 마이크로프로세서나 범용 컴퓨터 시스템과 같은 다른 하드웨어 장치에 포함된 형태로 구동될 수 있다.
본 발명은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명은 하나 이상의 마이크로프로세서의 제어 또는 다른 제어 장치에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "메커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 본 발명의 구성요소들이 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
도 2를 참조하면, 인과성을 식별하는 강화학습 장치(10)는 데이터 획득부(11), 샘플링부(12), 인과보상 생성부(13) 및 강화학습부(14)를 포함한다.
데이터 획득부(11)는 환자들에 관한 기록된 데이터(logged data)를 획득할 수 있다. 기록된 데이터는, 각각의 환자 i에 대한 기저 정보를 나타내는 Xi, 치료 옵션을 나타내는 T, 결과를 나타내는 Yi를 포함한다.
Xi는 환자 i의 연령, 성별, 종양의 1차 부위, 종양 크기, 조직학적 유형(histologic subtype), SEER 단계, 외과 치료, 및 방사선 치료를 나타내는 변수 중 하나 이상을 포함할 수 있다. Xi는 상술한 바와 같은 하나 이상의 변수를 포함하는, 예를 들면 벡터의 형태일 수 있다.
Xi로 나타내어지는 각 개체의 결과 Yi는, 개체 Xi의 생존에 관한 결과를 나타낼 수 있으며, 시간 및 이벤트(예: 사망 또는 생존)를 포함할 수 있다. 예를 들면 Yi는 시간 및 그 시간에서의 생존 여부를 나타내는 변수로 나타낼 수 있다.
기록된 데이터는, 예를 들면,
Figure 112020017831860-pat00041
와 같이 나타낼 수 있다.
샘플링부(12)는 임의의 대상 개체(subject) X에 대한 치료와 결과의 인과성을 추정하기 위하여, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군(counterpart)에 포함된 개체(또는 상대군 개체)를 샘플링할 수 있다.
상대군 개체는, 상기 치료 옵션을 경험하지 않은(T≠t) 상대군 환자를 나타내는 개체로, Xi'로 표기될 수 있다. 상대군 개체는, 상기 대상 개체(T=t, X)에 대한 모사-반사실(pseudo-counterfactual)을 나타내기 위해 샘플링된다.
본 발명의 일 실시예에 따르면, 샘플링부(12)는, 상대군 개체 Xi'의 공변량(covariates)을 고려하지 않고(또는 대상 개체 X의 공변량과 비교하지 않고), 기록된 데이터의 집합에서 랜덤하게 N개의 상대군 개체 Xi'를 선택할 수 있다
인과보상 생성부(13)는 상기 대상 개체의 결과
Figure 112020017831860-pat00042
와 상기 샘플링된 개체의 결과
Figure 112020017831860-pat00043
를 비교하여, 강화학습에 사용될 인과보상을 생성할 수 있다.
일 실시예에 따르면 인과보상 생성부(13)는, 상대군 환자들(T≠t, X')로부터 랜덤하게 샘플링된 개체 Xi'의 결과
Figure 112020017831860-pat00044
와 대상 개체의 결과
Figure 112020017831860-pat00045
와의 차이를 인과보상으로 생성 및 사용할 수 있다. 예를 들면, 치료 받지 않은 환자(즉, 상대군 환자)와 치료 받은 환자의 생존 결과를 비교하여 인과보상으로 사용할 수 있다.
다른 일 실시예에 따르면 인과보상 생성부(13)는, 샘플링된 상대군 개체 Xi'와 대상 개체 X 간의 공변량의 분산
Figure 112020017831860-pat00046
에 따라 할인된(discounted) 보상을 인과보상으로 생성 및 사용할 수 있다.
예를 들면 인과보상 생성부(13)는, i번째 샘플링된 상대군 개체와 대상 개체의 결과 차이(
Figure 112020017831860-pat00047
)에, 상기 i번째 상대군 개체와 대상 개체의 공변량 거리(
Figure 112020017831860-pat00048
)가 멀수록 작아지는 가중치(
Figure 112020017831860-pat00049
)를 곱하여 인과보상으로 생성할 수 있다. 이 경우 인과보상은 수학식 8과 같을 수 있다.
또 다른 일 실시예에 따르면 인과보상 생성부(13)는, 샘플링된 상대군 개체의 결과와 대상 개체의 결과에 각각 성향점수의 역수(IPS)를 곱한 결과의 차이를, 상기 상대군 개체와 대상 개체의 결과 차이(
Figure 112020017831860-pat00050
)로 사용할 수 있다. 예를 들면 인과보상 생성부(13)는, 상대군 개체의 결과와 대상 개체의 결과에 각각 성향점수의 역수(IPS)를 곱한 결과의 차이를 이용하여 인과보상을 생성할 수 있다.
또 다른 일 실시예에 따르면 인과보상 생성부(13)는, 샘플링된 상대군 개체와 대상 개체 간의 교차 엔트로피(cross entropy)에 따라 할인된(discounted) 보상을 인과보상으로 생성 및 사용할 수 있다.
강화학습부(14)는, 인과보상 생성부(13)에서 생성된 인과보상을 사용하여 강화학습을 수행할 수 있다. 강화학습부(14)는, 생성된 인과보상을 DQN (Deep Q Neural Network)에 적용할 수 있다. 강화학습부(14)는, 생성된 인과보상을 Q-learning에 적용할 수 있다. 강화학습부(14)는, 상기 인과보상의 무한합 또는 유한합의 기대값을 최대화하는 최적의 정책(policy)을 학습할 수 있다.
한편, 도 1에 도시된 본 발명의 일 실시예에 따른 인과성을 식별하는 강화학습 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성할 수 있고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나, 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

Claims (10)

  1. 컴퓨터 장치에 의해 수행되는 강화학습 방법에 있어서,
    환자들에 관한 기록된 데이터를 획득하는 단계;
    치료를 받은 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 상대군 개체를 샘플링하는 단계;
    상기 대상 개체의 결과와 상기 샘플링된 상대군 개체의 결과를 비교하여, 인과보상을 생성하는 단계; 및
    상기 인과보상을 사용한 강화학습을 수행하는 단계;를 포함하고,
    상기 샘플링하는 단계는, 상기 대상 개체의 공변량과 상기 상대군 개체의 공변량을 고려하지 않고 상기 기록된 데이터로부터 무작위로 상기 상대군 개체를 선택하여 수행되고,
    상기 인과보상을 생성하는 단계는, 상기 대상 개체와 상기 상대군 개체의 결과 차이에 대하여 상기 대상 개체의 공변량과 상기 상대군 개체의 공변량 간의 차이에 관한 공변량 거리(covariates distance)를 반영하여 상기 인과보상을 생성하는,
    인과성을 식별하는 강화학습 방법.
  2. 제1항에 있어서,
    상기 인과보상을 생성하는 단계는,
    상기 대상 개체의 결과와 상기 샘플링된 개체의 결과의 차이가, 상기 대상 개체의 사실(factual) 결과와 상기 대상 개체의 반사실(counterfactual) 결과의 차이에 상응하도록, 상기 대상 개체의 결과와 상기 샘플링된 개체의 결과의 차이를 변형하는 과정을 단계를 포함하는,
    인과성을 식별하는 강화학습 방법.
  3. 제1항에 있어서,
    상기 인과보상을 생성하는 단계는,
    i번째 샘플링된 개체와 상기 대상 개체의 결과 차이
    Figure 112020017831860-pat00051
    에, 상기 i번째 샘플링된 개체와 상기 대상 개체의 공변량 거리(covariates distance)에 기초한 가중치를 곱하여 상기 인과보상으로 생성하는 단계를 포함하는,
    인과성을 식별하는 강화학습 방법.
  4. 제3항에 있어서,
    상기 인과보상을 생성하는 단계는,
    상기 i번째 샘플링된 개체의 결과와 상기 대상 개체의 결과에 각각 성향점수(propensity score)의 역수를 곱한 결과의 차이를, 상기 결과 차이
    Figure 112020017831860-pat00052
    로 사용하는 단계를 더 포함하는,
    인과성을 식별하는 강화학습 방법.
  5. 제4항에 있어서,
    상기 인과보상을 생성하는 단계는 하기 수학식 1에 의해 나타낼 수 있는 인과성을 식별하는 강화학습 방법.
    [수학식 1]
    Figure 112022042590558-pat00055

    X는 상기 대상 개체, Xi'는 상기 샘플링된 개체,
    Figure 112022042590558-pat00056
    는 상기 결과 차이,
    Figure 112022042590558-pat00057
    은 할인율,
    Figure 112022042590558-pat00058
    은 annealing temperature 이다.
  6. 제1항에 있어서,
    상기 강화학습을 수행하는 단계는,
    상기 인과보상을 DQN (Deep Q Neural Network)에 적용하는 단계를 포함하는,
    인과성을 식별하는 강화학습 방법.
  7. 제1항에 있어서,
    상기 환자들에 관한 기록된 데이터를 획득하는 단계는,
    각 환자의 연령, 성별, 종양의 1차 부위, 종양 크기, 조직학적 유형(histologic subtype), SEER 단계, 외과 치료, 및 방사선 치료, 의료 영상 데이터, 혈압, 당뇨, 흡연, 체질량지수 중 하나 이상을 포함하는 임상 정보를 나타내는 변수를 획득하는 단계를 포함하는,
    인과성을 식별하는 강화학습 방법.
  8. 제1항에 있어서,
    상기 샘플링된 개체의 결과는,
    상기 샘플링된 개체의 생존 기간을 포함하는,
    인과성을 식별하는 강화학습 방법.
  9. 환자들에 관한 기록된 데이터를 획득하는 데이터 획득부;
    치료를 받은 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 상대군 개체를 샘플링하는 샘플링부;
    상기 대상 개체의 결과와 상기 샘플링된 상대군 개체의 결과를 비교하여, 인과보상을 생성하는 인과보상 생성부; 및
    상기 인과보상을 사용한 강화학습을 수행하는 강화학습부;를 포함하고,
    상기 샘플링부는 상기 대상 개체의 공변량과 상기 상대군 개체의 공변량을 고려하지 않고 상기 기록된 데이터로부터 무작위로 상기 상대군 개체를 선택하여 샘플링을 수행하고,
    상기 인과보상 생성부는 상기 대상 개체와 상기 상대군 개체의 결과 차이에 대하여 상기 대상 개체의 공변량과 상기 상대군 개체의 공변량 간의 차이에 관한 공변량 거리(covariates distance)를 반영하여 상기 인과보상을 생성하는,
    인과성을 식별하는 강화학습 장치.
  10. 비-일시적(non-transitory) 컴퓨터-판독 가능(computer-readable) 저장(storage) 매체(medium)에 있어서,
    환자들에 관한 기록된 데이터를 획득하는 동작과,
    치료를 받은 임의의 대상 개체에 대한 치료와 결과의 인과성을 추정하기 위해, 상기 기록된 데이터로부터, 상기 치료를 받지 않은 상대군에 포함된 상대군 개체를 샘플링하는 동작과,
    상기 대상 개체의 결과와 상기 샘플링된 상대군 개체의 결과를 비교하여, 인과보상을 생성하는 동작과,
    상기 인과보상을 사용한 강화학습을 수행하는 동작을 실행하고,
    상기 샘플링하는 동작에서, 상기 대상 개체의 공변량과 상기 상대군 개체의 공변량을 고려하지 않고 상기 기록된 데이터로부터 무작위로 상기 상대군 개체를 선택하여 수행하고,
    상기 인과보상을 생성하는 동작에서, 상기 대상 개체와 상기 상대군 개체의 결과 차이에 대하여 상기 대상 개체의 공변량과 상기 상대군 개체의 공변량 간의 차이에 관한 공변량 거리(covariates distance)를 반영하여 상기 인과보상을 생성하기 위한 하나 이상의 프로그램들을 저장하기 위한 비-일시적 컴퓨터-판독 가능 저장 매체.
KR1020200020549A 2020-02-19 2020-02-19 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램 KR102440817B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200020549A KR102440817B1 (ko) 2020-02-19 2020-02-19 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램
PCT/KR2021/002024 WO2021167344A1 (ko) 2020-02-19 2021-02-17 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200020549A KR102440817B1 (ko) 2020-02-19 2020-02-19 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램

Publications (2)

Publication Number Publication Date
KR20210105724A KR20210105724A (ko) 2021-08-27
KR102440817B1 true KR102440817B1 (ko) 2022-09-06

Family

ID=77391099

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200020549A KR102440817B1 (ko) 2020-02-19 2020-02-19 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램

Country Status (2)

Country Link
KR (1) KR102440817B1 (ko)
WO (1) WO2021167344A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024111866A1 (ko) * 2022-11-25 2024-05-30 주식회사 트위니어스 자기 개발을 위한 강화 학습 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593036B1 (ko) * 2021-11-24 2023-10-23 고려대학교 산학협력단 알츠하이머병 진단 모델의 결정을 추론하고 강화하는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180046773A1 (en) * 2016-08-11 2018-02-15 Htc Corporation Medical system and method for providing medical prediction

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6926203B2 (ja) * 2016-11-04 2021-08-25 ディープマインド テクノロジーズ リミテッド 補助タスクを伴う強化学習
KR102172374B1 (ko) * 2017-03-16 2020-10-30 사회복지법인 삼성생명공익재단 인공신경망을 이용한 활액막 육종의 예후 예측 방법, 장치 및 프로그램
KR102061800B1 (ko) * 2017-07-18 2020-02-11 사회복지법인 삼성생명공익재단 기계 학습을 이용한 난소암의 예후 예측 방법, 장치 및 프로그램
KR102348536B1 (ko) * 2017-10-30 2022-01-06 삼성에스디에스 주식회사 기계 학습 기반의 이상 행위 탐지 방법 및 그 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180046773A1 (en) * 2016-08-11 2018-02-15 Htc Corporation Medical system and method for providing medical prediction

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FREDRIK D.JOHANSSON 등. Learning Representations for Counterfactual Inference, 2018. 6. 6(https://arxiv.org/abs/1605.03661).*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024111866A1 (ko) * 2022-11-25 2024-05-30 주식회사 트위니어스 자기 개발을 위한 강화 학습 시스템

Also Published As

Publication number Publication date
KR20210105724A (ko) 2021-08-27
WO2021167344A1 (ko) 2021-08-26

Similar Documents

Publication Publication Date Title
US7877272B2 (en) Computer instructions for guiding differential diagnosis through information maximization
RU2011116406A (ru) Система и способ для объединения клинических признаков и признаков изображений для диагностики с применением компьютера
US20070179769A1 (en) Medical risk stratifying method and system
KR102440817B1 (ko) 기록된 데이터에서 인과성을 식별하는 강화학습 방법, 장치 및 프로그램
JP7021215B2 (ja) Cadシステム推薦に関する確信レベル指標を提供するためのcadシステムパーソナライゼーションの方法及び手段
US20220157459A1 (en) Data analytics for predictive modeling of surgical outcomes
JP2014512624A (ja) 予測モデリング
JP2011508331A (ja) 類似事例検索を精密化するための方法及び装置
CN112868068B (zh) 使用利用其它模式训练的机器学习模型处理眼底相机图像
Binz et al. Modeling human exploration through resource-rational reinforcement learning
Lin et al. Deep learning for the dynamic prediction of multivariate longitudinal and survival data
CA2997354A1 (en) Experience engine-method and apparatus of learning from similar patients
US20070067181A1 (en) System and method for intelligence building in an expert system
Alban et al. Expected value of information methods for contextual ranking and selection: clinical trials and simulation optimization
JP4499503B2 (ja) 発症リスク算出システム及びプログラム
JP2007528763A (ja) インタラクティブコンピュータ支援診断方法及び装置
JP2017532997A (ja) 脳刺激をシミュレーションする方法、対応するデバイス及びコンピュータプログラム
US20220212034A1 (en) Systems and methods to support personalization of cancer treatment for patients undergoing radiation therapy
Nakamae et al. AI prediction of extracorporeal shock wave lithotripsy outcomes for ureteral stones by machine learning-based analysis with a variety of stone and patient characteristics
Steward et al. Risk‐adjusted monitoring of healthcare quality: model selection and change‐point estimation
CN118380098B (zh) 一种术后护理方案生成方法及系统
US11836926B2 (en) System and method for contouring a set of medical images based on deep learning algorithm and anatomical properties
US20230096286A1 (en) Medical information processing apparatus, medical information processing method, and recording medium
JP2024026331A (ja) 情報処理装置、情報処理方法およびプログラム
Mazurkiewicz et al. Softcomputing Approach to Virus Diseases Classification Based on CXR Lung Imaging

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant