KR102409101B1 - 결측값 대체 시스템 및 결측값 대체 방법 - Google Patents

결측값 대체 시스템 및 결측값 대체 방법 Download PDF

Info

Publication number
KR102409101B1
KR102409101B1 KR1020190154850A KR20190154850A KR102409101B1 KR 102409101 B1 KR102409101 B1 KR 102409101B1 KR 1020190154850 A KR1020190154850 A KR 1020190154850A KR 20190154850 A KR20190154850 A KR 20190154850A KR 102409101 B1 KR102409101 B1 KR 102409101B1
Authority
KR
South Korea
Prior art keywords
missing
value
values
replacement
data
Prior art date
Application number
KR1020190154850A
Other languages
English (en)
Other versions
KR20210065751A (ko
Inventor
정태윤
박판종
김동길
Original Assignee
강릉원주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강릉원주대학교산학협력단 filed Critical 강릉원주대학교산학협력단
Priority to KR1020190154850A priority Critical patent/KR102409101B1/ko
Publication of KR20210065751A publication Critical patent/KR20210065751A/ko
Application granted granted Critical
Publication of KR102409101B1 publication Critical patent/KR102409101B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 결측값 대체 시스템 및 방법에 관한 것이다. 상기 결측값 대체 방법은, (a) 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하는 단계; (b) 변환된 데이터 셋에서 결측값을 검출하는 단계; (c) 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 단계; (d) 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하는 단계; (d) 상기 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하는 단계; (e) 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 단계;를 구비한다.

Description

결측값 대체 시스템 및 결측값 대체 방법{System and method for estimating a missing value}
본 발명은 결측값 대체 시스템 및 방법에 관한 것으로서, 구체적으로는 데이터 셋의 결측값들에 대하여 각 변수들의 상관 관계를 분석하고 상관 관계 영향도가 높은 변수들을 이용하여 대체값을 구하는 모델을 이용하여, 가장 빠르면서도 정확하게 결측값을 추정할 수 있도록 하는 결측값 대체 시스템 및 방법에 관한 것이다.
데이터에 대한 전처리 과정은 머신 러닝 및 딥러닝을 활용한 예측 모델의 성능을 높이는데 지대한 영향을 미치며, 만약 데이터 셋의 정보가 정확하지 않거나 값이 누락되고 중의적인 경우 데이터 양이 아무리 많아도 활용가치가 전무하기 때문에 다음과 같은 일련의 정제 및 변환 작업을 필요로 한다. 도 1은 일반적인 데이터 전처리 과정을 도시한 모식도이다. 도 1에 도시된 바와 같이, 데이터 전처리 과정은 Data Integration, Data Transformation, Data reduction, Data Cleaning 과정을 거치게 된다.
데이터 정제에서는 결측값이나 이상치를 제거하는 과정을 통해 데이터의 신뢰도를 높일 수 있으며, 데이터 통합은 다수의 정제된 데이터를 통합하여 표현하는 작업을 의미한다. 그리고 데이터 마이닝의 효율을 높이기 위한 변환 및 변형을 진행하고, 데이터를 축소하여 원본 데이터와 동일한 분석결과를 만들 수 있다.
결측값을 대체하는 종래의 방법 중 하나는 결측값이 있는 데이터를 삭제하는 것으로서, 데이터 셋에서 결측값(NaN)이 관측되는 데이터 행을 그대로 삭제하게 된다.
이하, Python 언어를 이용하여 결측값이 있는 데이터를 삭제하는 과정을 예시적으로 설명한다.
먼저, 데이터를 불러오기 위해 python 언어를 이용하여 pandas 라이브러리를 사용하고, 사용 편의를 위해 불러온 라이브러리에 대한 약어의 정의와 데이터를 확인한다. import pandas as pd pandas는 python에서 사용하는 데이터분석 라이브러리로 행과 열로 이루어진 데이터 객체를 만들어 다를 수 있게 되며, 보다 안정적으로 대용량의 데이터를 처리하는데 매우 편리하며, 코딩의 편의성을 위해 as 함수를 통해 pandas를 pd로 사용한다.
아래의 표 1은 결측값(NaN)을 갖는 데이터 셋을 예시적으로 도시한 도표이며, 표 2는 표 1의 데이터 셋에서 결측값이 존재하는 데이터 행을 삭제하여 구성한 데이터 셋을 도시한 도표이다.
Figure 112021041658821-pat00001
Figure 112021041658821-pat00002
하지만, 전술한 바와 같이 결측값 대체 방법 중 결측값을 삭제하는 방법은 누락된 데이터와 불충분한 샘플로 인해 우수한 성능을 제공하는데 어려움이 있다.
종래의 기술에 따른 결측값을 대체하는 두 번째 방법은 임의로 선택된 변수에 대한 평균, 분산, 표준 편차, 최대값, 최소값, 4분위수 등의 대푯값을 이용하는 것이다. 일 예로, Python 언어의 pandas 라이브러리 중 describe() 명령어를 통해 결측값을 대체할 수 있는 기술통계 자료를 확인할 수 있으며, 이를 수식화하면 다음과 같다. describe() 명령어는 계산 가능한 값들에 대한 다양한 기술 통계치를 보여주며, 기본적으로 count(데이터 개수), mean(평균), std(표준편차), max(최대값), min(최소값), 4분위수(25%, 50%, 75%)가 있다. 사분위수는 데이터를 크기대로 정렬할 때 1/4, 2/4, 3/4에 위치한 수를 의미한다. 한편, 이러한 대푯값을 이용하여 결측값을 대체하는 방법은 데이터가 숫자형인 경우에만 결과 확인이 가능하게 되는 단점이 있다.
또한, 데이터 셋에서 결측값이 있는 age를 pclass의 대푯값으로 결측값을 대체하는 방법은, 결측값 대체 과정에서 기준이 되는 변수는 랜덤으로 선택을 하기 때문에 신뢰성이 떨어지게 되는 문제가 있다. 평균(mean), 표준편차(std), 분산(var), 중앙값(median) 등을 이용하여 결측값을 대체하게 되는데, 이 방법은 결측값이 관측된 행에 영향을 미치는 변수를 임의로 선택한 뒤, 해당 변수의 대푯값으로 결측값을 대체하기 때문에, 다양하고 복잡한 변수들 간의 상관관계를 분석하는데 한계가 있다.
한국등록특허공보 제 10-1213677호 한국등록특허공보 제 10-1271694호
전술한 문제점을 해결하기 위한 본 발명의 목적은 데이터 셋의 결측값들에 대하여 짧은 시간내에 가장 정확한 대체값을 추정해낼 수 있는 우수한 성능의 결측값 대체 시스템을 제공하는 것이다.
본 발명의 다른 목적은 전술한 결측값 대체 시스템에서 정확한 대체값을 추정할 수 있도록 하는 결측값 대체 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 결측값 대체 방법은, (a) 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하는 단계; (b) 변환된 데이터 셋에서 결측값을 검출하는 단계; (c) 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 단계; (d) 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하는 단계; (d) 상기 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하는 단계; (e) 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 단계;를 구비한다.
전술한 제1 특징에 따른 결측값 대체 방법에 있어서, 상기 (d) 단계의 통계값은, 해당 데이터 변수에 대한 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 적어도 둘 이상을 포함하는 것이 바람직하다.
본 발명의 제2 특징에 따른 결측값 대체 시스템은, 데이터 셋이 저장된 데이터 베이스 및 상기 데이터 셋에 대한 결측값을 대체하는 결측값 대체 장치를 구비하는 결측값 대체 시스템에 관한 것으로서, 상기 결측값 대체 장치는, 상기 데이터 셋의 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환시키고, 변환된 데이터를 포함하는 전체 데이터 셋으로부터 결측값을 검출하는 결측값 검출 모듈; 결측값을 갖는 데이터 변수에 대한 상관 관계를 분석하고 상관 관계 영향도가 가장 높은 변수를 선택하는 상관 관계 분석 모듈; 상관 관계 영향도가 가장 높은 변수에 대한 통계값을 이용하여 결측값을 대체하는 결측값 대체 모듈; 을 구비하여 결측값에 대하여 정확도가 높은 대체값을 추정한다.
전술한 제2 특징에 따른 결측값 대체 시스템에 있어서, 상기 결측값 대체 모듈은, 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 이용하여 대체값을 설정하는 복수 개의 결측값 대체 모델들을 구비하고, 상기 복수 개의 통계값은 상기 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 둘 이상을 포함하는 것이 바람직하다.
전술한 제2 특징에 따른 결측값 대체 시스템은, 사전 설정된 학습 알고리즘을 이용하여 상기 결측값 대체 모델들의 결과에 대한 성능 평가하는 모델 성능 평가 모듈; 및 상기 모델 성능 평가 모듈에 의해 가장 우수한 정확도를 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 결측값 대체 모델 선택 모듈;을 더 구비하는 것이 바람직하다.
본 발명에 따른 결측값 대체 시스템은 상관 관계 영향도가 가장 높은 변수에 대한 통계값들을 이용하는 복수 개의 결측값 대체 모델들의 결과를 분석하여 가장 우수한 정확도를 갖는 모델을 선택하여 결측값을 추정함으로써, 최적의 결측값 대체 모델을 제안할 수 있게 된다.
도 1은 일반적인 데이터 전처리 과정을 도시한 모식도이다.
도 2는 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치의 전체적인 구성을 개략적으로 도시한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치에 의해 실행되는 결측값 대체 방법을 순차적으로 도시한 흐름도이다.
도 4는 회귀선을 도시한 그래프이다.
도 5는 에러가 최소화되는 상관 관계 지점을 파악하기 위한 회귀선을 도시한 그래프들이다.
본 발명은 데이터 전처리 과정 중 데이터 정제 시 변수들 간의 상관관계를 고려하여 결측값을 처리하는 방법에 관한 것으로, 보다 상세하게는 결측값이 관측된 데이터를 모두 삭제하는 방법과 평균, 분산 등의 대푯값으로 결측값을 대체하는 종래의 방법, 및 각 변수들 간의 상관관계 분석을 통해 결측값을 대체하여 그 결과를 기반으로 모델을 학습하고, 정확도를 비교하여 결측값을 최적의 값으로 대체할 수 있도록 하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템 및 상기 시스템에서의 결측값 대체 방법에 대하여 구체적으로 설명한다.
상기 본 발명에 따른 결측값 대체 시스템은, 데이터 셋을 저장한 데이터베이스 및 상기 데이터 베이스의 데이터 셋을 판독하여 결측값을 대체하는 결측값 대체 장치를 구비하며, 상기 결측값 대체 장치는 사전 설정된 학습 알고리즘과 결측값 대체 알고리즘을 실행할 수 있는 컴퓨터 처리 장치 등으로 구성될 수 있다. 이하, 상기 결측값 대체 장치의 구조 및 상기 결측값 대체 장치에 의해 수행되는 결측값 대체 방법에 대하여 구체적으로 설명한다.
도 2는 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치의 전체적인 구성을 개략적으로 도시한 블록도이다. 도 2를 참조하면, 상기 결측값 대체 장치(20)는 결측값 검출 모듈(200), 상관 관계 분석 모듈(205), 복수 개의 결측값 대체 모델들(212, 214, 216)을 구비하는 결측값 대체 모듈(210), 상기 결측값 대체 모델들의 결과에 대한 성능 평가하는 모델 성능 평가 모듈(220) 및 결측값 대체 모델 선택 모듈(230)을 구비한다.
상기 결측값 검출 모듈(200)은 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하고, 변환된 수치 데이터를 포함하는 전체 데이터 셋에서 결측값을 파악한다.
표 3은 문자 데이터로 표현되는 범주형 변수인 “sex”를 예시적으로 도시한 도표이며, 표 4는 문자 데이터로 표현된 “sex”를 숫자로 변환시킨 데이터 셋을 표현한 도표이다.
Figure 112021041658821-pat00003
Figure 112021041658821-pat00004
상기 상관 관계 분석 모듈(205)은 결측값이 있는 변수에 대하여 상관 관계 분석을 통하여 상관 관계 영향도가 가장 높은 변수를 구한다. 상관 관계 분석을 위하여 도 4와 같은 회귀선을 도출하게 된다. 도 4는 회귀선을 도시한 그래프이다. 도 4를 참조하면, 회귀선은 y=ax+b 의 수식으로 표현될 수 있다. 이때, 잔차의 제곱의 합이 최소가 되도록 하는 최적의 선을 구해야 하며, 이는 수학식 1과 수학식 2로 표현될 수 있다.
Figure 112021041658821-pat00005
Figure 112021041658821-pat00006
도 5는 에러가 최소화되는 상관 관계 지점을 파악하기 위한 회귀선을 도시한 그래프들이다. 도 5에 도시된 바와 같이, 변수들 간의 상관 관계를 분석하기 위해서는, 도 5의 과정을 반복적으로 확인해야 하며, 머신 러닝과 딥 러닝 분석시 사용되는 데이터 변수가 많을수록 최적의 회귀선을 파악하기 위하여 많은 시간을 필요로 한다. 이러한 문제점을 해결하기 위하여 본 발명에서는 종속 변수에 영향을 미치는 독립 변수의 개수에 상관없이 상관 관계 분석 시간을 최소화하여 모든 회귀분석에서 사용이 가능하도록 하는 코드를 개발하여 사용한다. 이를 위하여 본 발명에서는 먼저 변수 간의 상관 관계 영향도를 확인할 수 있는 함수 선언을 우선적으로 진행하며 람다(lambda) 함수를 통해 변수 간의 상관 관계를 분석하게 된다. 일반 함수를 이용하여 상관 관계 분석을 하는 경우, 분석에 사용되는 변수들을 임의로 설정해야 하고, 데이터 변수가 x1, x2, … , xN 과 같이 증가할수록 비교 수식을 작성하는데 많은 시간이 소요되며, 코드가 복잡해짐에 따라 메모리가 증가하여 분석 속도가 저하되는 단점이 발생한다. 이러한 단점을 해결하기 위하여, 람다 함수를 사용함으로써, 불필요한 반복문의 삭제 및 동일한 함수를 재활용할 수 있고 메모리상의 효율성 및 불필요한 연산의 배제가 가능하기 때문에, 성능을 향상시킬 수 있게 된다.
상기 결측값 대체 모듈(210)은 상관 관계 영향도가 가장 높은 변수에 대한 통계값을 이용하여 대체값을 설정하게 된다. 통계값은 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 하나로 설정될 수 있다. 상기 결측값 대체 모듈은 사용되는 통계값에 따라 제1, 제2, .., 제 N 결측값 대체 모델(212, 214,…,216)으로 이루어질 수 있다. 상기 제1 결측값 대체 모델(212)은 상관 관계 영향도가 가장 높은 변수에 대한 통계값 중 평균값을 이용하여 결측값을 대체하는 모델이며, 상기 제2 결측값 대체 모델(214)은 통계값 중 표준 편차값을 이용하여 결측값을 대체하는 모델이며, 제3 결측값 대체 모델(216)은 통계값 중 분산값을 이용하여 결측값을 대체하는 모델이며, 제4 결측값 대체 모델(218)은 통계값 중 중앙값을 이용하여 결측값을 대체하는 모델이며, 제5 결측값 대체 모델은 통계값 중 사분위수를 이용하여 결측값을 대체하는 모델이다. 상기 결측값 대체 모듈은 전술한 복수 개의 결측값 대체 모델들 중 둘 이상으로 이루어지는 것이 바람직하다.
상기 모델 성능 평가 모듈(220)은 사전 설정된 머신 러닝 및 딥러닝의 학습 알고리즘을 이용하여, 상기 복수 개의 결측값 대체 모델들에 의해 구한 대체값들을 이용하여 결측값을 제거한 데이터 셋에 대하여 정확도를 측정하여 각 모델에 대한 성능을 평가한다.
상기 결측값 대체 모델 선택 모듈(230)은 상기 모델 성능 평가 모듈에 의해 평가된 결과에 따라 가장 우수한 성능을 갖는 결측값 대체 모델을 선택하고, 선택된 모델을 이용하여 데이터 셋의 결측값에 대한 대체값을 구한다.
전술한 구성을 갖는 결측값 대체 시스템에 의하여, 데이터 셋은 정확도가 가장 우수한 최적의 대체값으로 결측값들을 추정할 수 있게 된다.
이하, 도 3을 참조하여 전술한 결측값 대체 장치에 의해 수행되는 결측값 대체 방법을 구체적으로 설명한다.
도 3은 본 발명의 바람직한 실시예에 따른 결측값 대체 시스템에 있어서, 결측값 대체 장치에 의해 실행되는 결측값 대체 방법을 순차적으로 도시한 흐름도이다. 도 3을 참조하면, 본 발명에 따른 결측값 대체 방법은, 먼저 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환한다(단계 300). 다음, 변환된 수치 데이터를 포함하는 전체 데이터 셋에서 결측값을 검출한다(단계 310).
다음, 결측값 변수에 대한 상관 관계를 분석하여 상관 관계 영향도가 가장 높은 변수를 선택한다(단계 312).
다음, 상기 상관 관계 영향도가 가장 높은 변수의 통계값들을 이용하는 복수 개의 결측값 대체 모델들을 이용하여 상기 결측값을 대체한다(단계 320). 사전 설정된 복수 개의 결측값 대체 모델들은, 통계값 중 평균값을 사용하여 결측값을 대체하는 제1 결측값 대체 모델, 통계값 중 표준 편차값을 이용하여 결측값을 대체하는 제2 결측값 대체 모델, 통계값 중 분산값을 이용하여 결측값을 대체하는 제3 결측값 대체 모델, 통계값 중 중앙값을 이용하여 결측값을 대체하는 제4 결측값 대체 모델, 통계값 중 사분위수를 이용하여 결측값을 대체하는 제5 결측값 대체 모델 중 적어도 둘 이상으로 이루어진다.
다음, 상기 복수 개의 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 방법을 통해 대체값의 정확도를 측정하고, 상기 측정된 정확도에 따라 각 모델들에 대한 성능을 평가한다(단계 330). 다음, 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여, 결측값들에 대하여 가장 정확도가 높고 우수한 대체값을 추정한다(단계 340).
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
20 : 결측값 대체 장치
200 : 결측값 검출 모듈
205 : 상관 관계 분석 모듈
210 : 결측값 대체 모듈
212 : 제1 결측값 대체 모델
214 : 제2 결측값 대체 모델
216 : 제N 결측값 대체 모델
220 : 모델 성능 평가 모듈
230 : 결측값 대체 모델 선택 모듈

Claims (5)

  1. (a) 데이터 셋에서 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환하는 단계;
    (b) 변환된 데이터 셋에서 결측값을 검출하는 단계;
    (c) 사전 설정된 함수를 이용하여 상기 데이터 셋을 구성하는 변수들 간의 상관 관계를 분석하고, 상기 데이터 셋을 구성하는 변수들중에서, 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 단계;
    (d) 상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 각각 이용하여 결측값을 대체하는 복수 개의 결측값 대체 모델을 구하는 단계;
    (d) 상기 복수 개의 결측값 대체 모델들을 이용하여 얻은 결과들을 사전 설정된 학습 알고리즘을 통해 성능을 평가하는 단계; 및
    (e) 상기 성능 평가에서 가장 우수한 성능을 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 단계;를 구비하고,
    상기 (d) 단계의 통계값은,
    해당 데이터 변수에 대한 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 적어도 둘 이상을 포함하는 것을 특징으로 하는 데이터 셋의 결측값 대체 방법.
  2. 삭제
  3. 데이터 셋이 저장된 데이터 베이스 및 상기 데이터 셋에 대한 결측값을 대체하는 결측값 대체 장치를 구비하는 결측값 대체 시스템에 있어서,
    상기 결측값 대체 장치는,
    상기 데이터 셋의 문자 데이터로 표현되는 범주형 변수를 확인하고, 상기 문자 데이터를 수치 데이터로 변환시키고, 변환된 데이터를 포함하는 전체 데이터 셋으로부터 결측값을 검출하는 결측값 검출 모듈;
    사전 설정된 함수를 이용하여 상기 데이터 셋을 구성하는 변수들 간의 상관 관계를 분석하고, 상기 데이터 셋을 구성하는 변수들중에서, 결측값을 갖는 데이터 변수에 대한 상관 관계 영향도가 가장 높은 변수를 선택하는 상관 관계 분석 모듈;
    상기 상관 관계 영향도가 가장 높은 변수에 대한 복수 개의 통계값들을 이용하여 대체값을 설정하는 복수 개의 결측값 대체 모델들;
    사전 설정된 학습 알고리즘을 이용하여 상기 결측값 대체 모델들의 결과에 대한 성능 평가하는 모델 성능 평가 모듈; 및
    상기 모델 성능 평가 모듈에 의해 가장 우수한 정확도를 갖는 결측값 대체 모델을 이용하여 결측값에 대한 대체값을 구하는 결측값 대체 모델 선택 모듈;
    을 구비하여, 결측값에 대하여 정확도가 높은 대체값을 추정하며,
    상기 복수 개의 통계값은 상기 평균값, 표준 편차값, 분산값, 중앙값, 사분위수 중 둘 이상을 포함하는 것을 특징으로 하는 결측값 대체 시스템.
  4. 삭제
  5. 삭제
KR1020190154850A 2019-11-27 2019-11-27 결측값 대체 시스템 및 결측값 대체 방법 KR102409101B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190154850A KR102409101B1 (ko) 2019-11-27 2019-11-27 결측값 대체 시스템 및 결측값 대체 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190154850A KR102409101B1 (ko) 2019-11-27 2019-11-27 결측값 대체 시스템 및 결측값 대체 방법

Publications (2)

Publication Number Publication Date
KR20210065751A KR20210065751A (ko) 2021-06-04
KR102409101B1 true KR102409101B1 (ko) 2022-06-14

Family

ID=76392094

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190154850A KR102409101B1 (ko) 2019-11-27 2019-11-27 결측값 대체 시스템 및 결측값 대체 방법

Country Status (1)

Country Link
KR (1) KR102409101B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102408655B1 (ko) 2021-11-04 2022-06-14 서울시립대학교 산학협력단 수치형 변수 및 범주형 변수를 포함하는 혼합형 결측 데이터에 대한 데이터 보간을 수행하는 장치 및 방법
KR20230075260A (ko) 2021-11-22 2023-05-31 에스케이플래닛 주식회사 센서의 문맥 인식 기반 결측값을 보간하기 위한 장치 및 이를 위한 방법
KR102589602B1 (ko) * 2022-11-14 2023-10-17 주식회사 티라유텍 결측치 처리를 위한 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101213677B1 (ko) * 2010-12-23 2012-12-18 전남대학교산학협력단 점진적 em pca를 이용한 결측값 대치 시스템
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치
KR102005952B1 (ko) * 2019-02-13 2019-10-01 이승봉 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101271694B1 (ko) 2012-01-09 2013-06-05 전남대학교산학협력단 시계열데이터의 연속적 결측값 대체 시스템 및 그 방법
US20160358099A1 (en) * 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101213677B1 (ko) * 2010-12-23 2012-12-18 전남대학교산학협력단 점진적 em pca를 이용한 결측값 대치 시스템
KR101864286B1 (ko) * 2017-11-10 2018-07-04 주식회사 한컴엠디에스 머신 러닝 알고리즘을 이용하는 방법 및 장치
KR102005952B1 (ko) * 2019-02-13 2019-10-01 이승봉 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법

Also Published As

Publication number Publication date
KR20210065751A (ko) 2021-06-04

Similar Documents

Publication Publication Date Title
KR102409101B1 (ko) 결측값 대체 시스템 및 결측값 대체 방법
US20080092123A1 (en) Computer software test coverage analysis
KR20190072652A (ko) 정보 처리 장치 및 정보 처리 방법
CN111338692B (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN111177655B (zh) 一种数据处理方法、装置及电子设备
US9454457B1 (en) Software test apparatus, software test method and computer readable medium thereof
CN115576840B (zh) 基于机器学习的静态程序插桩检测方法及装置
CN110347570B (zh) 一种ide环境下代码自动生成工具分析方法
CN116230586B (zh) 晶圆制造机台单元的共性分析方法及终端
EP3001312B1 (en) Method, device and computer program product for detecting data dependencies within a program
US11526162B2 (en) Method for detecting abnormal event and apparatus implementing the same method
CN115221045A (zh) 一种基于多任务多视角学习的多目标软件缺陷预测方法
CN114185785A (zh) 面向深度神经网络的自然语言处理模型测试用例约简方法
Han et al. Empirical investigation of code and process metrics for defect prediction
CN114580982B (zh) 一种工业设备的数据质量的评估方法、装置及设备
CN111352966A (zh) 一种自主航行中的数据标签标定方法
JP6831221B2 (ja) 学習装置及び学習方法
CN114356743B (zh) 一种基于序列重建的异常事件自动检测方法和系统
Datta et al. Anovos: A Scalable Feature Engineering Library
CN117971921B (zh) 基于apriori算法检测客户异常操作的方法及系统
US11169814B2 (en) Information processing method and computer-readable recording medium having stored therein optimization program
JP7298229B2 (ja) ログ分析装置、ログ分析方法及びコンピュータプログラム
CN102110044B (zh) 在不同会话中执行的软件的性能分析
JP4653526B2 (ja) 品質解析方法、品質解析装置、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
CN118194015A (zh) 基于knn的铝模板特征识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant