KR20220095949A

KR20220095949A - 전자의무기록에서의 다변량 결측값 대체 방법

Info

Publication number: KR20220095949A
Application number: KR1020200187989A
Authority: KR
Inventors: 김영학; 권한슬; 전태준; 안임진; 강희준; 김윤하; 조승주; 정연욱
Original assignee: 재단법인 아산사회복지재단; 울산대학교 산학협력단
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-07
Also published as: KR102546108B1; WO2022145689A1

Abstract

일 실시예에 따른 전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법은, 기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계, 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계, 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 기준 데이터 세트에 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계, 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계, 및 성능 평가값 비교에 기초하여 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계를 포함할 수 있다.

Description

전자의무기록에서의 다변량 결측값 대체 방법{METHOD OF MULTIVARIATE MISSING VALUE IMPUTATION IN ELECTRONIC MEDICAL RECORDS}

이하, 전자의무기록에서 다변량 결측값을 대체하는 기술에 관하여 설명한다.

기계 학습(machine learning)이나 통계 분석(statistical analysis)에서 데이터를 사용하려고 하는 경우에, 결측값(missing value) 문제는 일반적인 문제 중 하나이다. 결측값은 검사 기계의 오작동, 잘못된 검사, 인적 오류(human error)로 인하여 발생될 수 있다. 또한, 기계 학습 데이터 세트로 변환하는 과정에서도 결측값 문제가 발생할 수 있다. 결측값은 사용 가능한 데이터 수를 줄이고, 분석 결과에 부정적인 영향을 줄 수 있다. 의료 분야에서, 부정확한 분석은 오진(misdiagnosis)로 이어질 수 있으므로 치명적이다. 결측값 문제를 처리하는 가장 좋은 방법은 결측값을 실제값(actual value)로 채우는 것이다. 그러나, 의료 데이터를 실제 값으로 채우려면 비용이 많이 드는 재검사(retesting) 또는 전문 의료인의 도움이 필요할 수 있으며, 이는 매우 번거롭고 비용이 많이 든다. 또는, 환자의 프라이버시 문제로 인해 결측값을 채우는 것이 불가능할 수도 있다. 이러한 중요성 때문에, 결측값을 대치(imputation)에 대한 연구가 오랫동안 수행되어 왔다.

결측값은 "0" 또는 평균(mean)과 같은 적절한 값으로 채울 수 있다. 평균 대치(mean-imputation) 방법은 간단하고 성능을 보장하기 때문에 가장 자주 사용되는 방법 중 하나이다. 그러나, 결측값이 많으면 오차가 증가하고 편향이 발생할 수 있다. 종래에는 평균 대치 방법 외에도 Expectation Maximization(EM) 및 Multiple Impuations by Chained Equations(MICE)와 같은 통계적 방법이 대치에 사용되었다. 기계 학습 방법도 대치를 위하여 사용된 바가 있다. 기계 학습 모델로 Multi-Layer-Perceptron(MLP), K-Nearest-Neighbor(KNN), 및 Decision-Tree(DT)가 널리 사용되고 있으며, 최근에는 Generative Adversarial Networks(GAN)와 같은 Generation 모델들도 연구되고 있다.

일 실시예에 따른 전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법은, 기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계, 상기 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계, 및 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계를 포함할 수 있다.

일 실시예에 따른 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는, 상기 기준 데이터 세트로부터 테스트 데이터(test data) 세트를 추출하는 단계, 상기 추출된 테스트 데이터 세트에 결측값을 생성하고, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하는 단계, 및 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함할 수 있다.

일 실시예에 따른 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는, 상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차(mean squared error)를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함할 수 있다.

일 실시예에 따른 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는, 전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계, 상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는 단계를 포함할 수 있다.

일 실시예에 따른 상기 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계는, 해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는 단계를 포함할 수 있다.

일 실시예에 따른 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는, 제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하는 단계, 및 상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는 단계를 포함할 수 있다.

일 실시예에 따른 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계는, 상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는 단계를 포함할 수 있다.

일 실시예에 따른 전자의무기록에서의 다변량 결측값을 대체하는 대체하는 데이터 관리 장치는, 기준 데이터 세트 및 후보 데이터 세트를 저장하는 메모리, 및 상기 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시키고, 상기 대치 모델을 사용하여 상기 후보 데이터 세트의 결측값에 의사 라벨링을 적용하며, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키며, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하고, 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 프로세서를 포함할 수 있다.

도 1은 일 실시예에 따른 데이터 관리 장치가 전자의무기록(Electronic Medical Record, EMR)의 다변량 결측값을 대체하는 방법에 대하여 설명한다.
도 2는 일 실시예에 따른 데이터 관리 장치의 동작 방법을 보다 구체적으로 설명한다.
도 3은 항목 별 데이터 분포를 나타내는 박스 플롯(box plot)을 도시한다.
도 4는 반복 횟수에 따른 항목별 실제값과 대체값의 평균 제곱 오차를 나타낸다.
도 5는 반복 횟수에 따른 모든 항목에 대한 실제값과 대체값의 평균 제곱 오차를 나타낸다.
도 6은 종래의 대치 방법(imputation method)과 일 실시예에 따른 데이터 관리 방법의 자가 학습(self-training) 방법의 성능을 결측률(missing rate)에 따라 비교한 그래프를 도시한다.
도 7은 대치 방법(imputation method) 별로 오차율이 가장 작게 나타나는 항목의 수를 도시한다.
도 8은 일 실시예에 따른 데이터 관리 장치의 구성을 나타낸 블록도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

누락된 데이터를 대치하는 통계적 방법 중 하나는 최대 가능도(maximum likelihood)를 반복적으로 추정하는 EM(Expectation-Maximization) 알고리즘이다. EM 알고리즘은 관측되지 않은 잠재 변수(latent variable)에 의존하는 확률 모델에서 최대 가능도 또는 최대 사후 확률을 가지는 파라미터의 추정치를 찾는 반복 알고리즘이다. EM 알고리즘에서는, 기대값을 계산하기 위한 단계와 파라미터의 추정치를 획득하기 위한 최대화 단계가 교대로 반복된다. EM 알고리즘은 로컬 최대값(local maximum)을 검색하는 알고리즘으로, 검색된 값은 글로벌 최대값(global maximum)이 아닐 수 있다. 또한, EM 알고리즘은 하나의 값을 대체하는 단일 대치(single-imputation) 방법이기 때문에, 결측값이 많을수록 정확도가 떨어질 수 있다. Multiple Imputation(MI) 알고리즘은 EM 알고리즘의 단일-대치(single-imputation)의 단점을 보완한다. MI에서는, 복수개의 대체값이 통계적으로 분석되고 사용된다. MI 알고리즘은 무작위 결측(MAR) 조건들 하에서 동작한다. MICE는 MI 알고리즘들 중 하나이다. MICE는 MI 알고리즘과 마찬가지로 무작위 결측(MAR)의 가정 하에 동작되며, 무작위 결측(MAR)이 아니라는 가정하에 해당 알고리즘이 동작되면 편향된 결과가 발생할 수 있다.

통계적 방법들 외에도, 기계 학습 방법이 결측값 대치(imputation)에 사용될 수 있다. MLP, KNN, 및 DT와 같은 기계 학습 방법은 유전자 정보처리(bio-informatics) 또는 기타 분야들에서 사용될 수 있다. 기계 학습 방법은 트레이닝 데이터의 양과 품질에 크게 영향을 받는다. 따라서, 적은 양의 데이터로 모델을 트레이닝시키면, 해당 모델로 많은 양의 결측값을 대치하는 경우에 불안정(unstable)해질 수 있다. 그러나, 일 실시예에 따른 데이터 대치 방법은 사용 가능한 트레이닝 데이터를 점진적으로 늘릴 수 있고, 많은 양의 결측값을 대치하는 경우에도 안정된다.

기계 학습 방법은 지도 학습(supervised-learning) 환경에서 학습하고 작동하므로, 합리적인 성능을 위하여 충분한 양의 라벨링된 데이터가 필요하다. 대부분의 케이스들을 설명하기에 충분한 데이터가 확보되는 경우, 해당 데이터로 트레이닝된 대치 모델의 대치 결과는 훌륭할 것이다. 그러나, 의료 분야에서 이러한 양질의 데이터를 기대하기는 어렵다. 예를 들어, 모든 환자가 동일한 검사를 받는 것이 아니다. 일반적인 검사는 대부분의 환자에 대하여 수행되지만, 일부 특정 검사는 특정 환자들에게만 수행된다. 이는 분석을 위하여 데이터를 재구성하는 경우에 문제가 된다. 기계 학습에서는 모든 환자에 대하여 분석될 항목들에 대한 완전한 정보를 필요로 한다. 그러나, 일부 검사를 받지 않은 환자는 해당 검사에 해당하는 항목 데이터에 결측값이 존재하게 된다.

일반적인 항목만을 분석하면 결측값의 비율이 적을 것이다. 그러나, 희귀한 항목(예를 들어, 대부분의 환자에 의하여 수행되지 않는 검사 항목)을 사용하려고 한다면 결측값의 비율이 증가한다. 결측값의 비율이 높은 트레이닝 데이터를 갖는 지도 학습 환경에서 모델을 트레이닝시키면, 트레이닝 데이터가 모든 케이스들을 설명할 수 없으므로 트레이닝된 모델은 편향되고 성능이 저하되는 문제점이 나타난다.

일 실시예에 따른 데이터 관리 장치는 이러한 한계를 극복하기 위하여 자가 학습(self-training)의 방법을 사용하여 데이터의 결측값을 대치한다. 자가 학습은 셀프 러닝(self-learning) 및 의사 라벨링(pseudo-labeling)의 반복적인 프로세서를 통하여 수행된다. 셀프 러닝에는 교사(teacher) 데이터 세트 및 학생(student) 데이터 세트의 두가지 데이터 세트가 필요하다. 항목 별 데이터 값이 모두 채워진 완전한 데이터(complete data)를 교사 데이터라고 하며, 항목 별 데이터 값이 일부라도 누락되어 결측값이 있는 결함 데이터를 학생 데이터라고 한다. 이하에서는, 교사 데이터를 기준 데이터로 설명하고, 학생 데이터를 후보 데이터로 설명한다.

일 실시예에 따른 데이터 관리 장치에 대하여 간략히 설명한다. 먼저 일 실시예에 따른 데이터 관리 장치는 기준 데이터 세트로 대치 모델을 트레이닝 시킨 후, 트레이닝된 대치 모델로 후보 데이터의 결측값을 예측할 수 있다. 이러한 프로세스를 의사 라벨링(pseudo-labeling)이라 한다. 이후, 유효한 의사 라벨링이 적용된 것으로 판단된 후보 데이터는 기준 데이터로 변환된다. 다음 반복(iteration)에서는, 기존 기준 데이터에서 후보 데이터 중 기준 데이터로 변환된 데이터가 추가된 데이터에 새로운 기준 데이터로 설정하여 동일한 과정을 반복한다. 반복 과정은 모든 후보 데이터가 기준 데이터로 변환되거나, 더 이상 후보 데이터가 기준 데이터가 될 수 없거나, 반복 횟수가 목표 횟수에 도달할 때까지 지속된다. 일반적으로, 반복 횟수가 많을수록 성능이 향상된다.

한편, 종래 기술에서는 두개의 KNN(k-Nearest-Neighbor) 모델 모델(h1) 및 모델(h2)을 사용하여 회귀 문제(regression problem)에 자가 학습 방법을 적용한 바 있다. 서로 다른 거리 행렬(distance matrices)을 갖는 두개의 KNN 모델을 사용하여 의사 라벨링이 적용된 샘플 데이터을 비교한다. 모델의 성능에 대한 샘플 데이터의 효과를 비교함으로써, 의사 레이블(pseudo label)이 유효한지 여부 및 라벨링 되지 않은 데이터를 라벨링된 데이터 세트에 통합할지 여부를 결정할 수 있다. 모델(h1)을 트레이닝 시키는데 사용되는 라벨링된 데이터를 L1이라고 하고, 모델 (h2)를 트레이닝 시키는데 사용되는 라벨링된 데이터를 L2라 한다. 모델(h1)에 의하여 검증된 데이터는 L2에 통합되고, 모델 h2에 의하여 검증된 데이터는 L1에 통합된다. 최종 결과(h^*(x))는 두 개의 KNN모델(h1) 및 모델(h2)를 평균화하여 수학식 1과 같이 얻을 수 있다.

이와 같이, 회귀 문제(regression problem)에 자가 학습을 적용하여 Friedman, Mexican hat, Gabor, 및 polynomial과 같은 여러 데이터 세트에서 성능이 향상되었음을 확인하였다. 그러나, 종래 기술에서는 데이터를 하나씩 테스트하여 라벨링된 데이터에 추가하는 바, 시간이 너무 많이 걸리는 문제점이 있다. 종래의 방법은 사용된 데이터 세트가 1000에서 5000개의 기록에 불과하여, 비교적 적기 때문에 적용 가능하였다. 그러나, 수만에서 수십만 개의 기록이 있는 경우, 데이터 하나씩 계산하는 것은 비효율적이다. 또한, 종래 기술에서는 라벨링이 없는 데이터가 검증(verification)을 통과하면 라벨링이 지정된 데이터가 되어 다음 반복(iteration)에서 라벨링이 적용된 데이터로 사용될 수 있다. 이러한 단일값 라벨링(single-value labeling)은 유효성 검사 세트의 영향을 너무 쉽게 받으며, 다양한 테스트 세트에 대하여 제대로 수행되지 않을 수 있다.

일 실시예에 따른 데이터 관리 장치에서는, 다량의 데이터에 사용될 수 있는 다변량 자가 학습 회귀 방법(multivariate self-traning regression method)이 사용될 수 있다. 일 실시예에 따르면 데이터를 하나씩 테스트하는 대신, 한 번에 여러 샘플 데이터를 검증하여 검증 시간을 단축할 수 있다. 한번의 반복(iteration) 마다, 결측값(missing value)에 대한 새로운 대체값(impute value)이 새로운 검증 데이터와 함께 검증된다. 일 실시예에 따르면, 라벨링이 지정되지 않은 데이터가 라벨링이 지정된 데이터로 변환되기 위하여서는 미리 정한 조건을 만족하여야 한다. 일 실시예에 따르면, 다중 검증 데이터에 다중 검증 값들을 통합하기 때문에, 결측값을 보다 안정적으로 대치할 수 있다. 여러 번 샘플링되는 동안 라벨링이 지정되지 않은 개별 데이터는 유효성(validity)을 위하여 마스크(mask)된다.

도 1은 일 실시예에 따른 데이터 관리 장치가 전자의무기록(Electronic Medical Record, EMR)의 다변량 결측값을 대체하는 방법에 대하여 설명한다.

단계(101)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시킬 수 있다.

단계(102)에서는, 일 실시예에 따른 데이터 관리 장치가 대치 모델을 사용하여 후보 데이터 세트의 결측값(missing value)에 의사 라벨링(pseudo-labeling)을 적용할 수 있다.

단계(103)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 기준 데이터 세트에 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터를 추가하여 제2 예측 모델을 트레이닝 시킬 수 있다.

단계(104)에서는, 일 실시예에 따른 데이터 관리 장치가 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능(performance) 평가값을 산출하고, 산출된 성능 평가값을 서로 비교할 수 있다.

단계(105)에서는, 일 실시예에 따른 데이터 관리 장치가 제1 예측 모델 및 제2 예측 모델 사이의 성능 평가값 비교에 기초하여 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시킬 수 있다.

도 2는 일 실시예에 따른 데이터 관리 장치의 동작 방법을 보다 구체적으로 설명한다.

단계(201)에서는, 일 실시예에 따른 데이터 관리 장치는 기준 데이터 세트(210)에 기초하여 대치 모델(230)을 트레이닝 시킬 수 있다.

단계(202)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에 기초하여 트레이닝된 대치 모델(230)를 사용하여 후보 데이터 세트(220)의 결측값에 의사 라벨링을 적용할 수 있다. 예시적으로, 일 실시예에 따른 데이터 관리 장치는 임의의 환자에 대하여 검사 항목 중 누락된 값(결측값)이 존재하는 경우, 해당 항목에 대응하는 데이터를 트레이닝된 대치 모델(230)을 사용하여 예측할 수 있다. 예를 들어, 환자의 검사 항목은 알부민(Aibumin), 칼슘(Calcium), 빌리루빈(Bilirubin), 알칼리 포스파타아제(Alkaline phosphatase), 프로틴(Protein), 염화 이온(Chloride), 중탄산염(Total CO2), 콜레스테롤(Cholesterol), 글루코스(Glucose), 요소질소(BUN), 요산(Uric acid), 인(Phosphorus), PT(INR), PT(%), CRP(quant)의 항목을 의미할 수 있다.

단계(203)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에 기초하여 제1 예측 모델(231)을 트레이닝 시킬 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에서 테스트 데이터(test data) 세트를 제외한 데이터로 제1 예측 모델(231)을 트레이닝 시킬 수 있다. 여기서, 테스트 데이터 세트(240)는 기준 데이터 세트(210)로부터 추출될 수 있다.

단계(204)에서는, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210) 및 의사 라벨링이 적용된 후보 데이터 세트(220)로부터 추출된 샘플 데이터(sample data) 세트(221)에 기초하여 제2 예측 모델(232)을 트레이닝 시킬 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치가 기준 데이터 세트(210)에서 테스트 데이터 세트(240)를 제외한 데이터에 샘플 데이터 세트(221)를 추가한 데이터를 추가하여 제2 예측 모델(232)을 트레이닝 시킬 수 있다.

단계(205)에서는, 일 실시예에 따른 데이터 관리 장치는 기준 데이터 세트(210)로부터 추출된 테스트 데이터 세트(240)에 결측값을 무작위로 생성하고, 제1 예측 모델(231) 및 제2 예측 모델(232) 각각은 테스트 데이터 세트(240)의 결측값에 대한 대체값을 예측할 수 있다. 다시 말해, 제1 예측 모델(231)은 테스트 데이터 세트(240)의 결측값을 예측할 수 있고, 제2 예측 모델(232)도 테스트 데이터 세트(240)의 결측값을 예측할 수 있다.

단계(206)에서는, 일 실시예에 따른 데이터 관리 장치는 제1 예측 모델(231) 및 제2 예측 모델(232) 각각에 대한 성능 평가값을 산출할 수 있다. 데이터 관리 장치는, 테스트 데이터 세트(240)의 실제값과 대체값의 오차를 예측 모델의 성능 평가값으로 산출할 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치는 테스트 데이터 세트(240)의 실제값과 대체값의 평균 제곱 오차(mean squared error, MSE)를 예측 모델의 성능 평가값으로 산출할 수 있다. 이하에서는, 제1 예측 모델(231)의 성능 평가값을 제1 성능 평가값(251)이라 하고, 제2 예측 모델(232)의 성능 평가값을 제2 성능 평가값(252)이라 한다.

다른 일 실시예에 따르면, 데이터 관리 장치는 테스트 데이터 세트(240)의 실제값과 대체값의 오차에 가중치를 적용하여 성능 평가값을 산출할 수도 있다. 이에 관하여서는 후술하기로 한다.

단계(207)에서는, 일 실시예에 따른 데이터 관리 장치는 제1 성능 평가값(251)과 제2 성능 평가값(252)을 서로 비교할 수 있다. 데이터 관리 장치는 동일한 테스트 데이터 세트(240)에 대하여, 제2 예측 모델(232)의 테스트 결과가 제1 예측 모델(231)의 테스트 결과 보다 좋으면 샘플 데이터 세트(221)의 의사 레이블이 유효한 것으로 결정할 수 있다. 예측 모델의 테스트란, 샘플 데이터 세트(221)로 트레이닝된 제2 예측 모델(232)의 성능이 제1 예측 모델(231)의 성능보다 높은지 판단한다는 의미이며, 테스트를 통과한다는 의미는 제2 예측 모델(232)의 성능이 제1 예측 모델(231)의 성능보다 높다는 것을 나타낸다. 예측 모델의 테스트 결과는 예측 모델의 성능 평가값으로 설명될 수 있다. 예측 모델의 성능 평가값이 낮을수록 실제값과 대체값의 차이가 적은 것으로 성능이 높은 것으로 판단할 수 있다. 제1 예측 모델(231)의 성능 평가값과 제2 예측 모델(232)의 성능 평가값을 비교함으로써, 제2 예측 모델(232)을 트레이닝 시키는데 사용된 샘플 데이터 세트(221)의 유효성을 확인할 수 있다.

단계(208)에서는, 일 실시예에 따른 데이터 관리 장치는 제1 성능 평가값(251)이 제2 성능 평가값(252)을 초과하는 경우에 응답하여, 샘플 데이터 세트(221)에 포함된 각 데이터 각각에 대하여 제1 점수를 부여할 수 있다. 일 실시예에 따른 데이터 관리 장치는 제1 성능 평가값(251)이 제2 성능 평가값(252) 이하인 경우에 응답하여, 샘플 데이터 세트(221)에 포함된 데이터 각각에 대하여 제2 점수를 부여할 수 있다. 예시적으로, 제1 점수는 1을 나타낼 수 있고, 제2 점수는 -0.5를 나타낼 수 있다.

일 실시예에 따른 데이터 관리 장치는 후보 데이터 세트(220)로부터 샘플 데이터 세트(221)를 추출하는 샘플링(sampling)을 미리 정한 횟수로 수행한다. 데이터 관리 장치는 후보 데이터 세트(220)에서 이전의 샘플 데이터 세트(221)와 상이한 다른 샘플 데이터 세트를 추출할 수 있다. 데이터 관리 장치는 다른 샘플 데이터 세트(221) 및 기준 데이터 세트(210)와 함께 예측 모델을 트레이닝 시키고, 트레이닝된 예측 모델과 제1 예측 모델(231)과의 성능을 비교하여, 다른 샘플 데이터 세트에 포함되는 데이터에 제1 점수 또는 제2 점수를 부여할 수 있다. 다시 말해, 일 실시예에 따른 데이터 관리 장치는 추출된 샘플 데이터 세트 마다 예측 모델을 트레이닝 시키고, 예측 모델의 성능 평가값을 산출하여, 제1 예측 모델(231)과의 성능을 비교할 수 있다. 데이터 관리 장치는 샘플 데이터 세트에 포함된 데이터 각각에 대하여 점수를 부여할 수 있다. 데이터 관리 장치는 미리 설정된 횟수로 후보 데이터 세트(220)에서 샘플 데이터 세트를 샘플링할 수 있다.

예시적으로, 후보 데이터 세트에 포함된 데이터가 S개이고, 샘플 데이터 세트에 포함되는 데이터 수가 N인 경우, 샘플링(sampling)은 한번의 반복(iteration) 동안 S/N 번 수행될 수 있다. 이러한 방식을 사용하면, 확률적으로 모든 후보 데이터를 한 번의 반복(iteration) 동안 한 번 검사하는 것으로 고려될 수 있다. 여기서 반복(iteration)이란, 모든 후보 데이터를 모두 한 번씩 검사하기 위하여 샘플 데이터 세트를 여러 번 추출하고, 각 샘플 데이터 세트 마다 예측 모델을 트레이닝하고, 트레이닝된 예측 모델과 제1 예측 모델의 성능을 비교하여, 각 샘플 데이터 세트에 포함된 데이터에 점수를 부가하는 일련의 과정을 하나의 반복(iteration)이라고 한다. 하나의 반복(iteration)은 단계에서 후보 데이터 세트에 포함된 후보 데이터의 일부를 기준 데이터로 변환시키는 과정까지 포함할 수 있다.

단계(209)에서는, 일 실시예에 따른 데이터 관리 장치는 후보 데이터 세트(220) 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시킬 수 있다. 일 실시예에 따른 데이터 관리 장치는, 기존의 기준 데이터에 기준 데이터로 변환된 후보 데이터를 추가하여 새로운 기준 데이터를 생성할 수 있다. 예시적으로, 후보 데이터 세트(220) 중으로부터 누적 점수가 4 이상인 후보 데이터를 기준 데이터로 변환시킬 수 있다.

예시적으로, 후보 데이터(x1)이 유효한 대체값으로 의사 라벨링되었다고 가정한다. 그러나, 후보 데이터(x1)이 유효하지 않은 후보 데이터들과 함께 샘플 데이터 세트로 추출된 경우, 해당 샘플 데이터에 기초하여 트레이닝된 제2 예측 모델의 성능이 저하된다. 이러한 경우, 후보 데이터(x1)은 기준 데이터로 변환되어야 하지만, 제2 예측 모델의 성능이 좋지 않아 후보 데이터로 남아있게 된다. 반대로, 후보 데이터(x2)가 유효하지 않은 대체값으로 의사 라벨링 되었다고 가정한다. 후보 데이터(x2)가 유효한 후보 데이터들과 함께 샘플 데이터 세트로 추출되는 경우, 제2 예측 모델의 성능이 향상된다. 이러한 경우, 후보 데이터(x2)는 후보 데이터로 남아있어야 하지만, 제2 예측 모델의 성능이 높아 기준 데이터로 변환될 수 있다. 후보 데이터(x2)가 유효하지 않은 후보 데이터 이므로, 기준 데이터가 되면 전체 자가 트레이닝의 성능이 저하된다. 따라서, 일 실시예에 따른 데이터 관리 방법에서는 이러한 비합리성을 방지하기 위하여, 미리 정한 조건을 만족하는 후보 데이터만을 기준 데이터로 변환시키는 방법을 사용한다. 아래에서 보다 구체적으로 설명한다.

일 실시예에 따른 데이터 관리 장치는, 매 반복(iteration) 마다 후보 데이터 세트 내의 결측값을 새로운 대체값으로 예측하고, 후보 데이터 세트로부터 추출된 샘플 데이터 세트에 대한 테스트가 통과되면 통과된 샘플 데이터 세트 내의 결측값에 대한 대체값이 저장된다. 일 실시예에 따른 데이터 관리 장치는, 다음 반복에서 후보 데이터 세트 내의 결측값에 대하여 새로운 대체값으로 예측하고, 샘플 데이터 세트를 추출하여 테스트를 수행할 수 있다. 하나의 후보 데이터가 다음 반복에서도 테스트를 통과하는 경우, 현재값(current value) 및 저장값(stored value)의 평균값이 업데이트되어 저장된다. 이를 관리하기 위하여, 후보 데이터 마다 누적 점수를 부여한다. 샘플 데이터 세트가 테스트에 통과하는 경우, 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여할 수 있다. 샘플 데이터 세트가 테스트에 통과하지 못하는 경우에는 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여할 수 있다. 예를 들어, 제1 점수는 +1을 나타낼 수 있고, 제2 점수는 -0.5를 나타낼 수 있다.

데이터 관리 장치는 임계 점수 이상의 누적 점수가 부여된 후보 데이터의 결측값을 저장값(stored value)으로 대체하여 기준 데이터로 변환시킬 수 있다. 예시적으로, 후보 데이터의 누적 점수가 테스트에서 지속적으로 통과하지 못하여 0이 되는 경우, 해당 후보 데이터의 결측값에 대한 저장값은 0으로 되돌아간다.

후보 데이터(x1)이 유효한 데이터인 경우, 후보 데이터(x1)이 속한 샘플 데이터 세트는 이미 유효한 후보 데이터 하나를 확보한 것이므로 예측 모델의 성능이 향상될 가능성이 높다. 따라서, 후보 데이터(x1)은 여러 샘플 데이터 세트에 속할 수 있으나, 후보 데이터(x1)을 포함하는 샘플 데이터 세트는 테스트에 통과할 확률이 상대적으로 높으며, 상대적으로 높은 확률로 누적 점수가 임계 점수에 도달하여 기준 데이터로 변환된다. 반대로 유효하지 않은 후보 데이터(x2)를 포함하는 샘플 데이터 세트는 테스트에서 통과하지 못할 확률이 높아,누적 점수가 임계 점수에 도달하지 못할 확률이 높다. 일 실시예에 따르면, 데이터 마다 누적 점수를 부여하는 방식으로 운에 의한 기준 데이터로의 변환을 피할 수 있다. 임계 점수를 더 높게 설정하는 경우, 더 많은 테스트를 수행하고 더 많은 검증된 데이터를 필터링해야 한다. 그러나, 라벨링된 데이터로 만들기 위해서는 너무 많은 반복이 필요할 수 있다.

일 실시예에 따른 데이터 관리 장치는 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시킨 후, 기존의 기준 데이터에 기준 데이터로 변환된 데이터가 추가된 새로운 기준 데이터 세트로 대치 모델을 새롭게 트레이닝 시킬 수 있다. 기준 데이터로 변환된 후보 데이터가 제거된 후보 데이터 세트 내의 결측값에는 새로운 기존 데이터 세트로 트레이닝된 대치 모델을 사용하여 새롭게 의사 라벨링이 적용된다. 다시 말해, 일 실시예에 따른 데이터 관리 장치는 다음 반복(iteration)에서, 새로운 기존 데이터 세트로 트레이닝된 새로운 대치 모델을 사용하여 후보 데이터 세트 내의 결측값에 대하여 대체값을 새롭게 예측할 수 있다. 이후로는 도 2에서 설명된 과정을 거쳐 후보 데이터 세트 중의 일부를 기준 데이터로 변환시킬 수 있으며, 이러한 과정은 모든 후보 데이터가 기준 데이터로 변환되거나, 더 이상 후보 데이터가 기준 데이터가 될 수 없거나, 반복 횟수가 목표 횟수에 도달할 때까지 지속될 수 있다. 일 실시예에 따른 데이터 관리 장치는 끝까지 기준 데이터가 되지 않은 후보 데이터에 대해서는 최종 대치 모델(final imputation model)로 결측값을 대체한다.

일 실시예에 따른 데이터 관리 장치는, 반복(iteration) 및 샘플링(sampling)에서 전체 데이터를 테스트하기 때문에 시간이 많이 소요된다. 따라서, 일 실시예에 따른 데이터 관리 장치는 KNN(k-Nearest Neighbor)을 기본 모델로 사용한다. KNN은 모든 데이터를 일일이 검증하지 않고, 대신 데이터의 샘플(sample)을 사용한다. 따라서, 전체 데이터 세트를 분석해야 하는 다른 알고리즘보다 다중 반복(multiple iterations)에 보다 효율적이다. 일 실시예에 따른 데이터 관리 방법은 동일한 예측 모델에서 데이터의 유효성을 비교하기 위한 것이므로, KNN의 절대 성능(absolute performance)은 중요하지 않다.

실제로, 의사 라벨링이 적용된 데이터를 검증하기 위한 가장 신뢰할 수 있는 방법은 데이터를 하나씩 검증하는 것이다. 그럼에도 불구하고, 일 실시예에 따른 데이터 대체 방법에서 데이터를 하나씩 테스트하는 대신 복수의 데이터로 구성된 샘플 데이터로 테스트하는 이유는 KNN의 특성과 관련이 있다. KNN은 k개의 인접 데이터(k-nearest data)를 기반으로 계산된다. 예시적으로, 하나의 샘플 데이터 x를 테스트하는 경우를 가정한다. 샘플 데이터 x가 모든 테스트 데이터에서 멀리 떨어져 있는 경우가 있을 수 있다. 제2 예측 모델에 샘플 데이터 x를 추가하더라도 제2 예측 모델의 성능 평가값에 영향을 주지 않는다. 이러한 경우가 증가하면, 쓸모없는 계산이 증가하고 자가 훈련(self-training)이 원활하게 작동하지 않는다. 반면, 복수의 데이터를 포함하는 샘플 데이터 세트로 샘플링하는 경우, 샘플 데이터 세트는 예측 모델의 성능 평가값 및 의사 레이블의 유효성에 영향을 미친다. 추출된 샘플 데이터 세트의 의사 레이블(pseudo-label)이 유효한 경우, 제2 예측 모델의 성능이 제1 예측 모델의 성능보다 높게 나타난다. 다시 말해, 제2 예측 모델의 성능 평가값이 제1 예측 모델의 성능 평가값 보다 낮게 나타난다. 반대로, 추출된 샘플 데이터 세트의 의사 레이블이 유효하지 않은 경우, 제2 예측 모델의 성능이 제1 예측 모델의 성능보다 낮게 나타난다. 다시 말해, 제2 예측 모델의 성능 평가값이 제1 예측 모델의 성능 평가값 보다 높게 나타난다.

예시적으로, 샘플 데이터 세트는 50개의 후보 데이터로 구성될 수 있다. 일반적으로, 샘플 데이터 세트가 포함하는 후보 데이터의 수가 증가하면 일 실시예에 따른 데이터 관리 장치의 속도가 증가하고, 성능이 저하될 수 있다. 반대로, 샘플 데이터 세트가 포함하는 후보 데이터의 수가 감소하면 일 실시예에 따른 데이터 관리 장치의 성능이 향상되나, 속도가 감소할 수 있다. 그러나, 샘플 데이터 세트가 포함하는 후보 데이터의 수를 너무 작게 설정하는 경우에는 일 실시예에 따른 데이터 관리 장치의 성능이 오히려 저하될 수도 있다. 예를 들어, 샘플 데이터 세트가 5개의 후보 데이터로 구성되었다고 가정한다. 이때, 샘플 데이터 세트가 포함하는 후보 데이터 중 하나의 후보 데이터는 적절히 대체된 샘플 데이터이며, 테스트 데이터의 근처에 있는 것으로 가정한다. 또한, 나머지 4개의 후보 데이터는 불량하게 대체된 샘플 데이터이며, 테스트 데이터에서 멀리 떨어져 있는 것으로 가정한다. 이 경우, 데이터 관리 장치는 5개의 후보 데이터로 구성된 샘플 데이터 세트를 적절히 대체된 샘플 데이터 세트로 평가하며, 유효한 샘플인 것으로 판단할 것이다. 이는 데이터 관리 장치의 성능 저하로 이어진다. 다시 말해, 일 실시예에 따른 데이터 관리 장치의 충분한 성능을 위해서는 샘플 데이터 세트가 포함하는 후보 데이터의 수가 충분히 작으면서도 충분히 커야된다. 더 나아가, 데이터 관리 장치는 후보 데이터 세트 중으로부터 운에 의하여 후보 데이터가 기준 데이터로 변환되는 것을 피하기 위하여, 미리 정한 조건을 만족하는 후보 데이터만을 기준 데이터로 변환시킨다.

더 나아가 다른 일 실시예에 따르면, 데이터 관리 장치는 샘플 데이터 세트에 대한 유효성을 판단하기 위하여 보다 엄격한 표준을 적용할 수도 있다. 데이터 관리 장치는 성능 비교 모델(comparative model)로 기준 데이터 세트에 기초하여 트레이닝 된 제1 예측 모델 이외에도, 제3 예측 모델 및 제4 예측 모델을 추가로 비교 모델로 사용할 수 있다. 제3 예측 모델은 기준 데이터 및 평균값(mean)으로 대체된 샘플 데이터에 기초하여 트레이닝된 예측 모델을 나타낼 수 있고, 제4 예측 모델은 최초의 기준 데이터에 기초하여 트레이닝된 예측 모델을 나타낼 수 있다. 데이터 관리 장치는 제2 예측 모델의 성능이, 제1 예측 모델, 제3 예측 모델, 및 제4 예측 모델의 성능보다 높은 경우에 샘플 데이터 세트가 유효한 것으로 판단할 수 있다. 다시 말해, 일 실시예에 따른 데이터 관리 장치는 제2 예측 모델의 성능 평가값이, 제1 예측 모델의 성능 평가값, 제3 예측 모델의 성능 평가값, 및 제4 예측 모델의 성능 평가값 보다 낮은 경우에 제2 예측 모델을 트레이닝 시킨 샘플 데이터 세트가 테스트에 통과한 것으로, 샘플 데이터 세트에 포함되는 데이터 각각에 제1 점수를 부여할 수 있다. 데이터 관리 장치는 제1 예측 모델의 성능 평가값, 제3 예측 모델의 성능 평가값, 및 제4 예측 모델의 성능 평가값 중 하나라도 제2 예측 모델의 성능 평가값 보다 낮은 값이 존재하는 경우에는, 제2 예측 모델을 트레이닝 시킨 샘플 데이터 세트가 테스트에 통과하지 못한 것으로, 샘플 데이터 세트에 포함되는 데이터 각각에 제2 점수를 부여할 수 있다. 후보 데이터가 효과적으로 대체되어 기준 데이터로 변환되는 경우, 해당 데이터는 평균 또는 초기 기준 데이터에 의하여 대체된 데이터 보다 나은 데이터이므로, 제3 예측 모델 및 제4 예측 모델의 2가지 추가적인 비교 모델을 기준으로 설정할 수 있다.

표 1은 일 실시예에 따른 데이터 대체 방법의 전체 의사 코드(pseudo-code)를 나타낸다.

표 1에서, Model(data)는 해당 모델(Model)이 데이터(data)로 트레이닝 되었음을 나타낸다. 예를 들어, KNN(data, k)는 k개의 주변(neighbor)을 갖는 KNN 모델이 데이터(data)를 사용하여 트레이닝 되었음을 나타낸다. 또한, I.predict(data)는 대치 모델(I)로 데이터의 결측값을 예측하여 대치하는 것을 나타낸다. Data[index]는 데이터의 인덱스에 상응하는 값을 나타낸다.

이하에서는, 일 실시예에 따른 데이터 관리 장치가 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능 평가값을 산출하는 구체적인 방식에 대하여 설명한다.

도 2에서 설명한 바와 같이, 데이터 관리 장치는 제1 예측 모델 및 제2 예측 모델이 테스트 데이터 세트의 결측값에 대한 대체값을 예측하도록 하여, 테스트 데이터 세트의 실제값과 대체값의 오차를 예측 모델의 성능 평가값으로 산출할 수 있다. 일 실시예에 따르면, 데이터 관리 장치는 예측 모델 마다 테스트 데이터 세트에 대한 실제값과 대체값의 평균 제곱 오차(mean squared error, MSE)를 예측 모델의 성능 평가값으로 산출할 수 있다. 구체적으로, 일 실시예에 따른 데이터 관리 장치는 테스트 데이터 세트를 항목 별로 분류하고, 항목 내에 포함된 데이터에 대한 실제값과 대체값의 평균 제곱 오차(MSE_i)를 계산할 수 있다. 일 실시예에 따른 데이터 관리 장치는 항목 별 평균 제곱 오차(MSE_i)를 합산하고, 항목 총 개수로 나눈 값을 평가 지표(MSE)로 설정할 수 있다. 수학식 2는 항목 별로 실제값과 대체값의 평균 제곱 오차를 계산하는 과정을 설명하며, 수학식 3은 항목 별 평균 제곱 오차를 합산하고, 항목의 총 개수로 나눈 값을 의미하는 평가 지표(MSE)를 계산하는 과정을 설명한다.

수학식 2에서, i는 항목의 인덱스를 나타내며, MSE_i는 각 항목 별 평균 제곱 오차를 나타내며,

는 데이터에 대한 대체값을 나타내고,

는 데이터에 대한 실제값을 나타낼 수 있다.

수학식 3에서, N은 전체 항목의 개수를 나타낼 수 있다. 일 실시예에 따른 데이터 관리 장치는 각 항목의 평균 제곱 오차를 고려한 MSE의 평가지표를 예측 모델의 성능 평가 값으로 사용할 수 있다.

다른 일 실시예에 따르면, 데이터 관리 장치는 데이터 세트의 실제값과 대체값의 오차에 가중치를 적용하여 성능 평가값을 산출할 수도 있다. 구체적으로, 데이터 관리 장치는 전체 데이터를 항목 별로 분류하고, 항목 별 데이터 분포에 따라 항목 마다 가중치를 계산할 수 있다. 데이터 관리 장치는 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용함으로써 예측 모델의 성능 평가값을 산출할 수 있다. 이때, 해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 해당 항목에 대한 가중치를 계산할 수 있다. 아래에서는, 데이터 관리 장치의 데이터 세트의 실제값과 대체값의 오차에 가중치를 적용하여 성능 평가값을 산출하는 방법을 보다 구체적으로 설명한다.

도 3은 항목 별 데이터 분포를 나타내는 박스 플롯(box plot)을 도시한다.

일 실시예에 따른 데이터 관리 장치는 다수의 항목에 대한 데이터를 대치하고 있으며, 의사 레이블(pseudo-label)의 효과는 실제값과 대체값의 평균 제곱 오차로 평가될 수 있다. 그러나, 실제값과 대체값의 평균 제곱 오차는 항목 별 데이터 분포에 영향을 받는다. 예를 들어, 고밀도(high density)의 데이터 분포를 가지는 항목에서는 데이터가 작은 영역(small area)에 걸쳐 분포하기 때문에 실제값을 예측하기 쉽고, 실제값과 대체값의 오류가 작게 나타난다. 반대로, 데이터가 광범위하게 분산된 항목에서는 데이터의 실제값을 예측하기 어렵다. 일 실시예에 따르면, 제1 예측 모델 및 제2 예측 모델은 모든 항목들의 오류의 평균을 사용하여 샘플 데이터 세트를 평가한다. 그러나, 항목의 데이터 분포가 오류를 결정하기 때문에, 자가 학습은 전체적인 오류(overall error)를 줄이기 위해 광범위하게 데이터가 분포된 항목에 대해서만 적용될 수 있다. 데이터가 광범위하게 분포된 저밀도의 데이터 분포를 가지는 항목의 데이터 오류를 줄이는 것이 데이터가 좁은 영역에 분포된 고밀도의 데이터 분포를 가지는 항목의 데이터 오류를 줄이는 것 보다 전체적인 오류를 줄이는 데 더 유리하기 때문이다. 따라서, 높은 데이터 밀도를 가지는 항목이 자가 학습에서 무시(neglect)될 수 있고, 이는 자가 학습의 성능을 악화시킬 수 있다.

그래프(310)은 알칼리 포스파타아제(Alkaline phosphatase)의 데이터 분포를 나타내는 박스 플롯(box plot)이고, 그래프(320)는 중탄산염(Total CO2)의 데이터 분포를 나타내는 박스 플롯이다.

그래프(310)을 참조하면, 알칼리 포스파타아제의 데이터는 작은 영역 내에 분포되어 있다. 알칼리 포스파타아제의 상자(311)에서 값을 예측하는 경우를 가정한다. 상자(311) 자체가 작기 때문에 결측값의 예측이 비교적 정확하다. 반대로, 그래프(311)을 참조하면, 중탄산염의 데이터는 넓은 영역에 분포되어 있으며, 상자(321)의 크기가 비교적 크기 때문에 결측값의 대체값은 실제값과 오차가 비교적 크게 나타난다. 이 경우, 중탄산염 항목에서 데이터의 실제값과 대체값의 오차가 알칼리 포스타아제 항목에서 보다 전체적인 오차에 훨씬 더 큰 영향을 미친다. 결과적으로, 자가 학습(self-training)은 알칼리성 포스파타아제의 항목에 대한 데이터 예측을 악화시키더라도, 중탄산염 항목에 대한 데이터 예측을 더욱 향상시키는 방향으로 작동한다.

의료 데이터는 항목들 사이에 데이터 분포에 큰 차이가 있으므로, 이러한 특성은 자가 학습에 취약하다. 따라서, 일 실시예에 따른 데이터 관리 장치는 항목 별 데이터 분포를 고려한 평가 지표를 적용하여 샘플 데이터를 테스트할 수 있다. 데이터 관리 장치는 전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산할 수 있다. 구체적으로, 데이터 관리 장치는 해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터의 차이를 이용하여 해당 항목의 데이터 분포를 추정할 수 있다. 항목 내의 데이터 밀도가 높으면 제1 분위수 데이터와 제3 분위수 데이터의 차이가 작으며, 항목 내의 데이터 밀도가 낮으면 제1 분위수 데이터와 제3 분위수 데이터와의 차이가 커진다. 항목 별 가중치는 아래 수학식 4와 같이 정의된다.

수학식 4에서, i는 항목의 인덱스를 나타내며,

및

은 아래 수학식 2 및 3과 같이 정의될 수 있다.

수학식 5에서,

는 제3 분위수 데이터를 나타내며,

는 제1 분위수 데이터를 나타낸다.

수학식 6에서, N은 전체 항목의 개수를 나타낸다.

일 실시예에 따른 데이터 관리 장치는, 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차(

)에 항목별 가중치(

)를 적용하고, 항목 마다 가중치가 적용된 평균 제곱 오차를 합산하고 항목의 총 개수로 나눈 값(Q-MSE)을 예측 모델의 성능 평가값으로 설정할 수 있다. 평가 지표(Q-MSE)는 수학식 7와 같이 표현될 수 있다.

일 실시예에 따른 데이터 관리 장치는 각 항목의 평균 제곱 오차 및 각 항목 마다 데이터 분포에 따른 가중치를 고려한 Q-MSE의 평가지표를 예측 모델의 성능 평가값으로 사용할 수 있다.

이하에서는, 전자의료기록(EMR) 데이터를 사용하여 일 실시예에 따른 데이터 관리 장치의 결측값 대체 성능 평가 결과를 설명한다.

예를 들어, 물리적 정보(physical information), 실험실 테스트, 심 초음파 결과 등의 257개의 항목이 사용될 수 있고, 이 중 241개의 항목 값은 나머지 16개의 표적(target) 항목의 결측값을 대치하는 입력으로 사용될 수 있다. 16개의 항목은 알부민(Aibumin), 칼슘(Calcium), 빌리루빈(Bilirubin), 알칼리 포스파타아제(Alkaline phosphatase), 프로틴(Protein), 염화 이온(Chloride), 중탄산염(Total CO2), 콜레스테롤(Cholesterol), 글루코스(Glucose), 요소질소(BUN), 요산(Uric acid), 인(Phosphorus), PT(INR), PT(%), CRP(quant)의 항목을 나타낼 수 있다. 항목 내의 결측률(missing rate)은 1.5%에서 84.9%로 다양하게 나타난다. 아래 표 2는 각 항목에 대한 결측률을 예시적으로 나타낸다.

16개의 대상 항목 마다 데이터가 모두 기록된 기준 데이터는 약 9000개로 나타날 수 있고, 16개의 대상 항목 중 적어도 하나의 결측값이 있는 후보 데이터는 약 53,000개로 나타날 수 있다. 16개의 대상 항목은 실험실 테스트의 결과일 수 있고, 연속값(continuous value)을 가질 수 있다.

결측값의 패턴에는 무작위 누락(Missing at Random, MAR), 무작위 완전 누락(Missing Completely at Random, MCAR), 및 무작위가 아닌 누락(Missing Not at Random,, MNAR)이 있다. 실험실 데이터는 일반적으로 관찰된 정보(observed information)를 기반으로 테스트 할지 여부가 결정된다. 따라서, 누락된 실험실 데이터는 관찰된 값과 관련이 있으며, 결측값의 패턴은 무작위 누락(MAR) 패턴이다.

도 4는 반복 횟수에 따른 항목별 실제값과 대체값의 평균 제곱 오차를 나타낸다.

그래프(410)은 일 실시예에 따른 데이터 관리 장치가 평가 지표 MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 항목별 실제값과 대체값의 평균 제곱 오차를 나타낸다. 이하, 항목별 실제값과 대체값의 평균 제곱 오차를 오차율이라고 설명한다.

그래프(420)는 일 실시예에 따른 데이터 관리 장치가 평가 지표 Q-MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 오차율을 나타낸다.

그래프(410)을 참조하면, 평가 지표 MSE로 예측 모델의 성능 평가값을 산출하는 경우, 16개의 항목 중 14개의 항목에서 반복(iteration)에 따라 오차율이 감소하였으며, 오차율의 최대 감소는 10.5%로 나타난다. E-ANC 항목 및 PT(INR) 항목에서 각각 오차율이 1.5%, 2.45% 증가하는 것으로 나타난다. PT(%) 항목은 오류(error)의 가중치가 가장 높은 항목으로, PT(%) 항목의 그래프를 참조하면 자가 학습(self-training)의 초기 단계에서는 주로 PT(%) 항목의 실제값과 대체값의 오차를 최소화하기 위하여 동작하는 것으로 나타난다. 3~4의 반복이 진행된 후에는, 다른 항목들의 평균 제곱 오차가 감소되어 개선되기 시작하고, PT(%) 항목이 더 이상 개선되지 않고 진동한다. E-ANC 항목과 PT(INR) 항목은 데이터 밀도가 가장 높은 두가지 항목으로, 자가 학습에서 무시(neglect)되어 오차율이 반복에 따라 증가하는 것으로 나타난다.

그래프(420)을 참조하면, 평가 지표 Q-MSE로 예측 모델의 성능 평가값을 산출하는 경우, 최대 오차율 감소는 약 12.5%로 나타난다. 데이터 분포 밀도가 가장 높은 PT(INR) 항목은 약 2.5배의 보정(correction)을 받으며, 데이터 분포 밀도가 가장 낮은 PT(%) 항목은 약 0.5배의 보정을 받는다. 그 결과, 그래프(410)에서는 주로 PT(%) 항목을 중심으로 오차율이 감소하였으나, 그래프(420)에서는 PT(%) 항목과 PT(INR) 항목이 균형 잡힌 방식으로 이동한다. Q-MSE 평가지표를 예측 모델의 성능 평가값으로 산출하는 경우, 대부분의 항목에서 오차율이 반복에 따라 더 많이 감소하는 것으로 나타난다. 또한, E-ANC 항목에서는 오차율이 덜 증가하였으며, E-ANC 항목에서 평가 지표가 MSE일 때 오차율이 발산하였으나, E-ANC 항목에서 평가 지표가 Q-MSE인 경우 오차율이 진동하는 것으로 나타난다. 이는 특정 항목이 무시될 가능성이 적다는 것을 의미한다.

도 5는 반복 횟수에 따른 모든 항목에 대한 실제값과 대체값의 평균 제곱 오차를 나타낸다.

그래프(510)는 일 실시예에 따른 데이터 관리 장치가 평가 지표 MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 모든 항목 데이터에 대한 오차율을 나타낸다.

그래프(520)은 일 실시예에 따른 데이터 관리 장치가 평가 지표 Q-MSE를 예측 모델의 성능 평가값으로 사용한 경우, 반복 횟수에 따른 모든 항목 데이터에 대한 오차율을 나타낸다.

그래프(510) 및 그래프(520)을 참조하면, 반복이 누적되면서 평가 지표 Q-MSE를 사용한 데이터 관리 장치의 오차율이 평가 지표 MSE 를 사용한 데이터 관리 장치의 오차율 보다 낮아지는 것을 확인할 수 있다. 데이터 관리 장치가 평가 지표 Q-MSE를 예측 모델의 성능 평가값으로 사용하는 경우, 데이터 분포에 따라 무시되거나 과대 평가되는 지점을 억제할 수 있고, 모든 항목을 균등하게 고려할 수 있다.

도 6은 종래의 대치 방법(imputation method)과 일 실시예에 따른 데이터 관리 방법의 자가 학습(self-training) 방법의 성능을 결측률(missing rate)에 따라 비교한 그래프를 도시한다.

그래프(610)는 일 실시예에 따른 자가 학습 방법을 사용한 경우, 결측률에 따른 오차율을 도시한다. 구체적으로, 그래프(610)은 평가 지표 MSE를 예측 모델의 성능 평가값으로 사용한 경우, 결측률에 따른 오차율을 나타낸다. 그래프(630)는 DNN 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(640)는 평균(MEAN) 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(650)는 RF(Random Forest) 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(660)는 MICE 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(670)는 EM 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다. 그래프(680)는 KNN 알고리즘을 사용한 경우, 결측률에 따른 오차율을 도시한다.

도 7은 대치 방법(imputation method) 별로 오차율이 가장 작게 나타나는 항목의 수를 도시한다.

그래프(710)은 결측률이 5%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(720)은 결측률이 10%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(730)은 결측률이 20%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(740)은 결측률이 30%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(750)은 결측률이 40%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(760)은 결측률이 50%인 경우에서의 알고리즘 별로 오차율이 가장 작게 나타나는 항목의 수를 나타낸다. 그래프(710)을 참조하면, 결측률이 5 % 인 경우 자가 학습(self-learning) 알고리즘에서 9 개의 항목, MICE 알고리즘에서 5개의 항목, RF 알고리즘에서 1개의 항목 및 KNN 알고리즘에서 1개의 항목에 대하여 각각 최고의 성능을 보인다. 결측률이 증가함에 따라 자가 학습(self-training)에 대하여 높은 성능을 보이는 항목이 증가하는 것으로 나타난다. 그래프(760)을 참조하면, 결측률이 50 %에 도달한 경우 자가 학습이 13 가지 항목에서 최고의 성능을 보이는 것으로 나타난다.

알고리즘의 영향을 확인하기 위해 가장 강력한 세가지 알고리즘(자가 학습, MICE, RF)에 대하여 Friedman 테스트를 수행할 수 있다. 결측률이 5 % 인 경우 Friedman 검정의 p-값은 0.0087로 나타나며, p-값이 0.05보다 작으면 귀무 가설이 기각되어 알고리즘에 따른 영향이 있음을 의미한다. 그 후 결측률이 증가함에 따라 p-값은 점차적으로 0.0003로 감소하여 알고리즘 간의 차이가 증가함을 나타낸다. 아래, 표 3은 Friedman 테스트의 결과를 나타낸다.

모든 단계에서, 평균 대치(mean-imputation)가 Wilcoxon signed-rank test의 표준 방법으로 사용된다. 6 가지 알고리즘에 Wilcoxon signed-rank test를 적용하였으며, 결과는 아래 표 4와 같이 나타난다.

MLP 알고리즘, RF 알고리즘의 경우 p-값은 모든 결측률에서 0.05보다 크다. 이는 해당 알고리즘이 평균 대치(mean-imputation)과 크게 다르지 않음을 의미한다. KNN 알고리즘은 결측률이 5%인 경우의 p 값이 0.013으로 통계적으로 유의한 차이가 있음을 알 수 있다. 그러나 도 6을 참조하면, KNN 알고리즘이 평균(MEAN) 알고리즘보다 성능이 좋지 않다. 결측률이 10 % 이상인 경우에는 모든 p-값이 0.05보다 크므로 평균값과 유의한 차이가 없다. MICE 알고리즘은 모든 결측률에서 0.05보다 낮은 p-값을 보였으며, MICE 알고리즘은 평균 대치(mean-imputation)보다 모든 단계에서 유의하게 더 잘 수행되었음을 나타낸다. 그러나, 결측률이 증가함에 따라 p-값도 증가하므로, 결측률이 증가함에 따라 MICE 알고리즘은 불안정 해짐을 알 수 있다. 자가 학습 알고리즘과 EM 알고리즘은 모든 결측률에서 가장 낮은 p-값을 보이며, 이는 모든 항목에 대한 p-값이 지속적으로 좋거나 지속적으로 나쁘다는 것을 나타낸다. EM 알고리즘은 단일 대치(single-imputation) 방법이므로 결측률이 높을수록 오류가 더 갑작스럽게 나타난다. 결국, 일 실시예에 따른 데이터 관리 방법이 사용하는 자가 학습(self-training) 알고리즘은 모든 결측률에서 모든 항목의 평균에 비해 지속적으로 더 나은 성능을 보여주는 유일한 알고리즘이다.

도 8은 일 실시예에 따른 데이터 관리 장치의 구성을 나타낸 블록도이다.

일 실시예에 따른 데이터 관리 장치(800)는 통신부(810), 메모리(820), 및 프로세서(830)을 포함할 수 있다. 통신부(810)는 외부 장치로부터 전자의무기록(EMR) 데이터를 수신할 수 있다. 메모리(820)는 기준 데이터 세트 및 후보 데이터 세트를 저장할 수 있다. 프로세서(830)는 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시킬 수 있다. 프로세서(830)는 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링을 적용할 수 있다. 프로세서(830)는 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 기준 데이터 세트에 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시킬 수 있다. 프로세서(830)는 제1 예측 모델 및 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교할 수 있다. 프로세서(830)는 성능 평가값 비교에 기초하여 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시킬 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법에 있어서,
기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계;
상기 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계;
상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계;
상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계; 및
상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계
를 포함하는 데이터 관리 방법.
제1항에 있어서,
상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는,
상기 기준 데이터 세트로부터 테스트 데이터(test data) 세트를 추출하는 단계;
상기 추출된 테스트 데이터 세트에 결측값을 생성하고, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하는 단계; 및
상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는 단계
를 포함하는 데이터 관리 방법.
제2항에 있어서,
상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는,
상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차(mean squared error)를 상기 예측 모델의 성능 평가값으로 산출하는 단계
를 포함하는 데이터 관리 방법.
제2항에 있어서,
상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는,
전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계; 및
상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는 단계;
를 포함하는 데이터 관리 방법.
제4항에 있어서,
상기 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계;
해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는 단계
를 포함하는 데이터 관리 방법.
제2항에 있어서,
상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는,
제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하는 단계; 및
상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는 단계
를 포함하는 데이터 관리 방법.
제6항에 있어서,
상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계는,
상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는 단계
를 포함하는 데이터 관리 방법.
하드웨어와 결합되어 제1항 내지 제7항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
전자의무기록에서의 다변량 결측값을 대체하는 대체하는 데이터 관리 장치에 있어서,
기준 데이터 세트 및 후보 데이터 세트를 저장하는 메모리;
상기 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시키고, 상기 대치 모델을 사용하여 상기 후보 데이터 세트의 결측값에 의사 라벨링을 적용하며, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키며, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하고, 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 프로세서
를 포함하는 데이터 관리 장치.
제9항에 있어서,
상기 프로세서는,
상기 기준 데이터 세트로부터 테스트 데이터 세트를 추출하고, 상기 추출된 테스트 데이터 세트에 결측값을 생성하며, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하고, 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는
데이터 관리 장치.
제10항에 있어서,
상기 프로세서는,
상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차를 상기 예측 모델의 성능 평가값으로 산출하는
데이터 관리 장치.
제10항에 있어서,
상기 프로세서는,
전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하며, 상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는
데이터 관리 장치.
제12항에 있어서,
상기 프로세서는,
해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는
데이터 관리 장치.
제10항에 있어서,
상기 프로세서는,
제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하고, 상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는
데이터 관리 장치.
제9항에 있어서,
상기 프로세서는,
상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는
데이터 관리 장치.