KR102409101B1

KR102409101B1 - 결측값 대체 시스템 및 결측값 대체 방법

Info

Publication number: KR102409101B1
Application number: KR1020190154850A
Authority: KR
Inventors: 정태윤; 박판종; 김동길
Original assignee: 강릉원주대학교산학협력단
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-06-14
Also published as: KR20210065751A

Abstract

본 발명은 결측값 대체 시스템 및 방법에 관한 것이다. 상기 결측값 대체 방법은, (a) 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하는 단계; (b) 변환된 데이터 셋에서 결측값을 검출하는 단계; (c) 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 단계; (d) 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하는 단계; (d) 상기 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하는 단계; (e) 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 단계;를 구비한다.

Description

결측값 대체 시스템 및 결측값 대체 방법{System and method for estimating a missing value}

본 발명은 결측값 대체 시스템 및 방법에 관한 것으로서, 구체적으로는 데이터 셋의 결측값들에 대하여 각 변수들의 상관 관계를 분석하고 상관 관계 영향도가 높은 변수들을 이용하여 대체값을 구하는 모델을 이용하여, 가장 빠르면서도 정확하게 결측값을 추정할 수 있도록 하는 결측값 대체 시스템 및 방법에 관한 것이다.

데이터에 대한 전처리 과정은 머신 러닝 및 딥러닝을 활용한 예측 모델의 성능을 높이는데 지대한 영향을 미치며, 만약 데이터 셋의 정보가 정확하지 않거나 값이 누락되고 중의적인 경우 데이터 양이 아무리 많아도 활용가치가 전무하기 때문에 다음과 같은 일련의 정제 및 변환 작업을 필요로 한다. 도 1은 일반적인 데이터 전처리 과정을 도시한 모식도이다. 도 1에 도시된 바와 같이, 데이터 전처리 과정은 Data Integration, Data Transformation, Data reduction, Data Cleaning 과정을 거치게 된다.

데이터 정제에서는 결측값이나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높일 수 있으며, 데이터 통합은 다수의 정제된 데이터를 통합하여 표현하는 작업을 의미한다. 그리고 데이터 마이닝의 효율을 높이기 위한 변환 및 변형을 진행하고, 데이터를 축소하여 원본 데이터와 동일한 분석결과를 만들 수 있다.

결측값을 대체하는 종래의 방법 중 하나는 결측값이 있는 데이터를 삭제하는 것으로서, 데이터 셋에서 결측값(NaN)이 관측되는 데이터 행을 그대로 삭제하게 된다.

이하, Python 언어를 이용하여 결측값이 있는 데이터를 삭제하는 과정을 예시적으로 설명한다.

먼저, 데이터를 불러오기 위해 python 언어를 이용하여 pandas 라이브러리를 사용하고, 사용 편의를 위해 불러온 라이브러리에 대한 약어의 정의와 데이터를 확인한다. import pandas as pd pandas는 python에서 사용하는 데이터분석 라이브러리로 행과 열로 이루어진 데이터 객체를 만들어 다를 수 있게 되며, 보다 안정적으로 대용량의 데이터를 처리하는데 매우 편리하며, 코딩의 편의성을 위해 as 함수를 통해 pandas를 pd로 사용한다.

아래의 표 1은 결측값(NaN)을 갖는 데이터 셋을 예시적으로 도시한 도표이며, 표 2는 표 1의 데이터 셋에서 결측값이 존재하는 데이터 행을 삭제하여 구성한 데이터 셋을 도시한 도표이다.

하지만, 전술한 바와 같이 결측값 대체 방법 중 결측값을 삭제하는 방법은 누락된 데이터와 불충분한 샘플로 인해 우수한 성능을 제공하는데 어려움이 있다.

종래의 기술에 따른 결측값을 대체하는 두 번째 방법은 임의로 선택된 변수에 대한 평균, 분산, 표준 편차, 최대값, 최소값, 4분위수 등의 대푯값을 이용하는 것이다. 일 예로, Python 언어의 pandas 라이브러리 중 describe() 명령어를 통해 결측값을 대체할 수 있는 기술통계 자료를 확인할 수 있으며, 이를 수식화하면 다음과 같다. describe() 명령어는 계산 가능한 값들에 대한 다양한 기술 통계치를 보여주며, 기본적으로 count(데이터 개수), mean(평균), std(표준편차), max(최대값), min(최소값), 4분위수(25%, 50%, 75%)가 있다. 사분위수는 데이터를 크기대로 정렬할 때 1/4, 2/4, 3/4에 위치한 수를 의미한다. 한편, 이러한 대푯값을 이용하여 결측값을 대체하는 방법은 데이터가 숫자형인 경우에만 결과 확인이 가능하게 되는 단점이 있다.

또한, 데이터 셋에서 결측값이 있는 age를 pclass의 대푯값으로 결측값을 대체하는 방법은, 결측값 대체 과정에서 기준이 되는 변수는 랜덤으로 선택을 하기 때문에 신뢰성이 떨어지게 되는 문제가 있다. 평균(mean), 표준편차(std), 분산(var), 중앙값(median) 등을 이용하여 결측값을 대체하게 되는데, 이 방법은 결측값이 관측된 행에 영향을 미치는 변수를 임의로 선택한 뒤, 해당 변수의 대푯값으로 결측값을 대체하기 때문에, 다양하고 복잡한 변수들 간의 상관관계를 분석하는데 한계가 있다.

한국등록특허공보 제 10-1213677호 한국등록특허공보 제 10-1271694호

전술한 문제점을 해결하기 위한 본 발명의 목적은 데이터 셋의 결측값들에 대하여 짧은 시간내에 가장 정확한 대체값을 추정해낼 수 있는 우수한 성능의 결측값 대체 시스템을 제공하는 것이다.

본 발명의 다른 목적은 전술한 결측값 대체 시스템에서 정확한 대체값을 추정할 수 있도록 하는 결측값 대체 방법을 제공하는 것이다.

전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 결측값 대체 방법은, (a) 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하는 단계; (b) 변환된 데이터 셋에서 결측값을 검출하는 단계; (c) 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 단계; (d) 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하는 단계; (d) 상기 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하는 단계; (e) 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 단계;를 구비한다.

전술한 제1 특징에 따른 결측값 대체 방법에 있어서, 상기 (d) 단계의 통계값은, 해당 데이터 변수에 대한 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 적어도 둘 이상을 포함하는 것이 바람직하다.

본 발명의 제2 특징에 따른 결측값 대체 시스템은, 데이터 셋이 저장된 데이터 베이스 및 상기 데이터 셋에 대한 결측값을 대체하는 결측값 대체 장치를 구비하는 결측값 대체 시스템에 관한 것으로서, 상기 결측값 대체 장치는, 상기 데이터 셋의 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환시키고, 변환된 데이터를 포함하는 전체 데이터 셋으로부터 결측값을 검출하는 결측값 검출 모듈; 결측값을 갖는 데이터 변수에 대한 상관 관계를 분석하고 상관 관계 영향도가 가장 높은 변수를 선택하는 상관 관계 분석 모듈; 상관 관계 영향도가 가장 높은 변수에 대한 통계값을 이용하여 결측값을 대체하는 결측값 대체 모듈; 을 구비하여 결측값에 대하여 정확도가 높은 대체값을 추정한다.

전술한 제2 특징에 따른 결측값 대체 시스템에 있어서, 상기 결측값 대체 모듈은, 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 이용하여 대체값을 설정하는 복수 개의 결측값 대체 모델들을 구비하고, 상기 복수 개의 통계값은 상기 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 둘 이상을 포함하는 것이 바람직하다.

전술한 제2 특징에 따른 결측값 대체 시스템은, 사전 설정된 학습 알고리즘을 이용하여 상기 결측값 대체 모델들의 결과에 대한 성능 평가하는 모델 성능 평가 모듈; 및 상기 모델 성능 평가 모듈에 의해 가장 우수한 정확도를 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 결측값 대체 모델 선택 모듈;을 더 구비하는 것이 바람직하다.

본 발명에 따른 결측값 대체 시스템은 상관 관계 영향도가 가장 높은 변수에 대한 통계값들을 이용하는 복수 개의 결측값 대체 모델들의 결과를 분석하여 가장 우수한 정확도를 갖는 모델을 선택하여 결측값을 추정함으로써, 최적의 결측값 대체 모델을 제안할 수 있게 된다.

도 1은 일반적인 데이터 전처리 과정을 도시한 모식도이다.
도 2는 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치의 전체적인 구성을 개략적으로 도시한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치에 의해 실행되는 결측값 대체 방법을 순차적으로 도시한 흐름도이다.
도 4는 회귀선을 도시한 그래프이다.
도 5는 에러가 최소화되는 상관 관계 지점을 파악하기 위한 회귀선을 도시한 그래프들이다.

본 발명은 데이터 전처리 과정 중 데이터 정제 시 변수들 간의 상관관계를 고려하여 결측값을 처리하는 방법에 관한 것으로, 보다 상세하게는 결측값이 관측된 데이터를 모두 삭제하는 방법과 평균, 분산 등의 대푯값으로 결측값을 대체하는 종래의 방법, 및 각 변수들 간의 상관관계 분석을 통해 결측값을 대체하여 그 결과를 기반으로 모델을 학습하고, 정확도를 비교하여 결측값을 최적의 값으로 대체할 수 있도록 하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템 및 상기 시스템에서의 결측값 대체 방법에 대하여 구체적으로 설명한다.

상기 본 발명에 따른 결측값 대체 시스템은, 데이터 셋을 저장한 데이터베이스 및 상기 데이터 베이스의 데이터 셋을 판독하여 결측값을 대체하는 결측값 대체 장치를 구비하며, 상기 결측값 대체 장치는 사전 설정된 학습 알고리즘과 결측값 대체 알고리즘을 실행할 수 있는 컴퓨터 처리 장치 등으로 구성될 수 있다. 이하, 상기 결측값 대체 장치의 구조 및 상기 결측값 대체 장치에 의해 수행되는 결측값 대체 방법에 대하여 구체적으로 설명한다.

도 2는 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치의 전체적인 구성을 개략적으로 도시한 블록도이다. 도 2를 참조하면, 상기 결측값 대체 장치(20)는 결측값 검출 모듈(200), 상관 관계 분석 모듈(205), 복수 개의 결측값 대체 모델들(212, 214, 216)을 구비하는 결측값 대체 모듈(210), 상기 결측값 대체 모델들의 결과에 대한 성능 평가하는 모델 성능 평가 모듈(220) 및 결측값 대체 모델 선택 모듈(230)을 구비한다.

상기 결측값 검출 모듈(200)은 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하고, 변환된 수치 데이터를 포함하는 전체 데이터 셋에서 결측값을 파악한다.

표 3은 문자 데이터로 표현되는 범주형 변수인 “sex”를 예시적으로 도시한 도표이며, 표 4는 문자 데이터로 표현된 “sex”를 숫자로 변환시킨 데이터 셋을 표현한 도표이다.

상기 상관 관계 분석 모듈(205)은 결측값이 있는 변수에 대하여 상관 관계 분석을 통하여 상관 관계 영향도가 가장 높은 변수를 구한다. 상관 관계 분석을 위하여 도 4와 같은 회귀선을 도출하게 된다. 도 4는 회귀선을 도시한 그래프이다. 도 4를 참조하면, 회귀선은 y=ax+b 의 수식으로 표현될 수 있다. 이때, 잔차의 제곱의 합이 최소가 되도록 하는 최적의 선을 구해야 하며, 이는 수학식 1과 수학식 2로 표현될 수 있다.

도 5는 에러가 최소화되는 상관 관계 지점을 파악하기 위한 회귀선을 도시한 그래프들이다. 도 5에 도시된 바와 같이, 변수들 간의 상관 관계를 분석하기 위해서는, 도 5의 과정을 반복적으로 확인해야 하며, 머신 러닝과 딥 러닝 분석시 사용되는 데이터 변수가 많을수록 최적의 회귀선을 파악하기 위하여 많은 시간을 필요로 한다. 이러한 문제점을 해결하기 위하여 본 발명에서는 종속 변수에 영향을 미치는 독립 변수의 개수에 상관없이 상관 관계 분석 시간을 최소화하여 모든 회귀분석에서 사용이 가능하도록 하는 코드를 개발하여 사용한다. 이를 위하여 본 발명에서는 먼저 변수 간의 상관 관계 영향도를 확인할 수 있는 함수 선언을 우선적으로 진행하며 람다(lambda) 함수를 통해 변수 간의 상관 관계를 분석하게 된다. 일반 함수를 이용하여 상관 관계 분석을 하는 경우, 분석에 사용되는 변수들을 임의로 설정해야 하고, 데이터 변수가 x1, x2, … , xN 과 같이 증가할수록 비교 수식을 작성하는데 많은 시간이 소요되며, 코드가 복잡해짐에 따라 메모리가 증가하여 분석 속도가 저하되는 단점이 발생한다. 이러한 단점을 해결하기 위하여, 람다 함수를 사용함으로써, 불필요한 반복문의 삭제 및 동일한 함수를 재활용할 수 있고 메모리상의 효율성 및 불필요한 연산의 배제가 가능하기 때문에, 성능을 향상시킬 수 있게 된다.

상기 결측값 대체 모듈(210)은 상관 관계 영향도가 가장 높은 변수에 대한 통계값을 이용하여 대체값을 설정하게 된다. 통계값은 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 하나로 설정될 수 있다. 상기 결측값 대체 모듈은 사용되는 통계값에 따라 제1, 제2, .., 제 N 결측값 대체 모델(212, 214,…,216)으로 이루어질 수 있다. 상기 제1 결측값 대체 모델(212)은 상관 관계 영향도가 가장 높은 변수에 대한 통계값 중 평균값을 이용하여 결측값을 대체하는 모델이며, 상기 제2 결측값 대체 모델(214)은 통계값 중 표준 편차값을 이용하여 결측값을 대체하는 모델이며, 제3 결측값 대체 모델(216)은 통계값 중 분산값을 이용하여 결측값을 대체하는 모델이며, 제4 결측값 대체 모델(218)은 통계값 중 중앙값을 이용하여 결측값을 대체하는 모델이며, 제5 결측값 대체 모델은 통계값 중 사분위수를 이용하여 결측값을 대체하는 모델이다. 상기 결측값 대체 모듈은 전술한 복수 개의 결측값 대체 모델들 중 둘 이상으로 이루어지는 것이 바람직하다.

상기 모델 성능 평가 모듈(220)은 사전 설정된 머신 러닝 및 딥러닝의 학습 알고리즘을 이용하여, 상기 복수 개의 결측값 대체 모델들에 의해 구한 대체값들을 이용하여 결측값을 제거한 데이터 셋에 대하여 정확도를 측정하여 각 모델에 대한 성능을 평가한다.

상기 결측값 대체 모델 선택 모듈(230)은 상기 모델 성능 평가 모듈에 의해 평가된 결과에 따라 가장 우수한 성능을 갖는 결측값 대체 모델을 선택하고, 선택된 모델을 이용하여 데이터 셋의 결측값에 대한 대체값을 구한다.

전술한 구성을 갖는 결측값 대체 시스템에 의하여, 데이터 셋은 정확도가 가장 우수한 최적의 대체값으로 결측값들을 추정할 수 있게 된다.

이하, 도 3을 참조하여 전술한 결측값 대체 장치에 의해 수행되는 결측값 대체 방법을 구체적으로 설명한다.

도 3은 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치에 의해 실행되는 결측값 대체 방법을 순차적으로 도시한 흐름도이다. 도 3을 참조하면, 본 발명에 따른 결측값 대체 방법은, 먼저 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환한다(단계 300). 다음, 변환된 수치 데이터를 포함하는 전체 데이터 셋에서 결측값을 검출한다(단계 310).

다음, 결측값 변수에 대한 상관 관계를 분석하여 상관 관계 영향도가 가장 높은 변수를 선택한다(단계 312).

다음, 상기 상관 관계 영향도가 가장 높은 변수의 통계값들을 이용하는 복수 개의 결측값 대체 모델들을 이용하여 상기 결측값을 대체한다(단계 320). 사전 설정된 복수 개의 결측값 대체 모델들은, 통계값 중 평균값을 사용하여 결측값을 대체하는 제1 결측값 대체 모델, 통계값 중 표준 편차값을 이용하여 결측값을 대체하는 제2 결측값 대체 모델, 통계값 중 분산값을 이용하여 결측값을 대체하는 제3 결측값 대체 모델, 통계값 중 중앙값을 이용하여 결측값을 대체하는 제4 결측값 대체 모델, 통계값 중 사분위수를 이용하여 결측값을 대체하는 제5 결측값 대체 모델 중 적어도 둘 이상으로 이루어진다.

다음, 상기 복수 개의 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 방법을 통해 대체값의 정확도를 측정하고, 상기 측정된 정확도에 따라 각 모델들에 대한 성능을 평가한다(단계 330). 다음, 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여, 결측값들에 대하여 가장 정확도가 높고 우수한 대체값을 추정한다(단계 340).

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

20 : 결측값 대체 장치
200 : 결측값 검출 모듈
205 : 상관 관계 분석 모듈
210 : 결측값 대체 모듈
212 : 제1 결측값 대체 모델
214 : 제2 결측값 대체 모델
216 : 제N 결측값 대체 모델
220 : 모델 성능 평가 모듈
230 : 결측값 대체 모델 선택 모듈

Claims

(a) 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하는 단계;
(b) 변환된 데이터 셋에서 결측값을 검출하는 단계;
(c) 사전 설정된 함수를 이용하여 상기 데이터 셋을 구성하는 변수들 간의 상관 관계를 분석하고, 상기 데이터 셋을 구성하는 변수들중에서, 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 단계;
(d) 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하는 단계;
(d) 상기 복수 개의 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하는 단계; 및
(e) 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 단계;를 구비하고,
상기 (d) 단계의 통계값은,
해당 데이터 변수에 대한 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 적어도 둘 이상을 포함하는 것을 특징으로 하는 데이터 셋의 결측값 대체 방법.
삭제
데이터 셋이 저장된 데이터 베이스 및 상기 데이터 셋에 대한 결측값을 대체하는 결측값 대체 장치를 구비하는 결측값 대체 시스템에 있어서,
상기 결측값 대체 장치는,
상기 데이터 셋의 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환시키고, 변환된 데이터를 포함하는 전체 데이터 셋으로부터 결측값을 검출하는 결측값 검출 모듈;
사전 설정된 함수를 이용하여 상기 데이터 셋을 구성하는 변수들 간의 상관 관계를 분석하고, 상기 데이터 셋을 구성하는 변수들중에서, 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 상관 관계 분석 모듈;
상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 이용하여 대체값을 설정하는 복수 개의 결측값 대체 모델들;
사전 설정된 학습 알고리즘을 이용하여 상기 결측값 대체 모델들의 결과에 대한 성능 평가하는 모델 성능 평가 모듈; 및
상기 모델 성능 평가 모듈에 의해 가장 우수한 정확도를 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 결측값 대체 모델 선택 모듈;
을 구비하여, 결측값에 대하여 정확도가 높은 대체값을 추정하며,
상기 복수 개의 통계값은 상기 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 둘 이상을 포함하는 것을 특징으로 하는 결측값 대체 시스템.
삭제
삭제