KR102362582B1

KR102362582B1 - 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체

Info

Publication number: KR102362582B1
Application number: KR1020200189031A
Authority: KR
Inventors: 원성호; 정수린
Original assignee: 렉스소프트 주식회사
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-02-15
Also published as: KR20220097197A

Abstract

본 발명의 일실시예에 따른 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능 매체는, (a) 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 단계와, (b) 상기 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 변수유형별로 분류하는 단계와, (c) 변수유형별로 미리 구축된 알고리즘에 의하여 상기 복수의 변수항목별로 이상치를 검출하는 단계; 및 (d) 상기 검출된 변수항목별 이상치 정보를 테이블 형태로 출력하는 단계를 통하여 통계 데이터의 이상치를 검출하고 필요시 정제할 수 있다.

Description

통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체{METHOD, SERVER AND COMPUTER PROGRAM PRODUCT FOR PREPROCESSING STATISTICAL DATA}

본 발명은 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체에 관한 것으로, 보다 상세하게는 통계 분석 이전에 데이터 이상치를 자동으로 검출 및 정제할 수 있는 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체에 관한 것이다.

일반적으로 통계 데이터는 복수의 변수항목 및 그에 대응되는 값들을 포함하고 있다. 하지만 통계 분석을 위하여 수집된 로(raw) 데이터에는 특정 변수에 대한 입력값이 누락되거나 잘못 입력되거나 하는 등 많은 오류값들을 포함하고 있어 신속하고 정확한 통계 분석을 진행하기에 어려움이 있었다.

따라서, 분석자가 이러한 오류값들을 수동으로 찾아내고 데이터를 정제하는 작업을 진행하여야 하는 문제가 있었다. 더욱이 이러한 데이터 전처리는 데이터의 분석 목적, 데이터의 특성 등에 따라 달라지기 때문에 분석자가 수동으로 진행하기에도 많은 시간이 소요되었다.

한국등록특허 제10-2090239호는 전역적이고 지역적인 통계정보를 활용하여 계층융합통계정보를 생성하고, 생성된 계층융합통계정보를 기초로 고속으로 시스템이 출력한 정보의 이상성을 탐지하는 방법을 개시하고 있으나 데이터의 각 변수를 유형별로 구분하여 이상치를 검출하여 데이터를 정제하는 기술은 개시하고 있지 않다.

한국등록특허 제10-2090239호(2020.03.11)

본 발명은 위와 같은 문제를 해결하기 위한 것으로, 상세하게는 통계 데이터를 변수유형별로 분류하여 변수유형별 이상치를 검출할 수 있는 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체를 제공하는 것을 목적으로 한다.

또한, 본 발명은 미리 설정된 알고리즘에 의하여 변수항목별 이상치 정보를 제거 또는 정제할 수 있는 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체를 제공하는 것을 목적으로 한다.

본 발명의 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 일실시예에 따른 통계 데이터 전처리 방법은, (a) 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 단계; (b) 상기 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 변수유형별로 분류하는 단계; (c) 변수유형별로 미리 구축된 알고리즘에 의하여 상기 복수의 변수항목별로 이상치를 검출하는 단계; 및 (d) 상기 검출된 변수항목별 이상치 정보를 테이블 형태로 출력하는 단계를 포함할 수 있다.

상기 (b) 단계에서 상기 변수유형별로 분류하는 단계는 의사결정나무 예측 알고리즘을 이용하여 수행되고, 상기 변수유형은 범주형, 연속형, 문자형 및 날짜형을 포함할 수 있다.

상기 의사결정나무 예측 알고리즘은, 상기 변수항목별 고유 수준 개수, 관측치 개수, 자료형 값, 엔트로피 값, 숫자형 관측치의 비율, 실수형 관측치의 비율, 여덟자리 관측치의 비율, 숫자 '0~9'의 비율을 기초로 상기 변수유형을 결정할 수 있다.

상기 (b) 단계에서, 상기 변수항목의 변수유형이 범주형으로 분류된 경우,

상기 (c) 단계는, 상기 범주형으로 분류된 상기 변수항목의 각 고유 수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상기 상대 빈도값이 미리 설정된 임계값 이하인 경우의 고유 수준을 이상치로 판별할 수 있다.

상기 (b) 단계에서, 상기 변수항목의 변수유형이 연속형으로 분류된 경우,

상기 (c) 단계는, 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 상기 연속형으로 분류된 상기 변수항목의 이상치를 검출할 수 있다.

본 발명의 일실시예에 따른 통계 데이터 전처리 방법은, (e) 상기 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 단계를 더 포함할 수 있다.

상기 (e) 단계에서, 상기 검출된 변수항목별 이상치 정보를 정제하는 단계는, 상기 검출된 이상치를 대응되는 상기 변수항목의 평균값으로 대체하는 단계를 포함할 수 있다.

또한 본 발명의 일실시예에 따른 통계 데이터 전처리 서버는, 사용자 단말기로부터 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 데이터 수신부; 상기 수신된 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 변수유형별로 분류하는 변수유형 분류부; 변수유형별로 미리 구축된 알고리즘에 의하여 상기 복수의 변수항목별로 이상치를 검출하는 이상치 검출부; 및 상기 검출된 변수항목별 이상치 정보를 테이블 형태로 출력하여 상기 사용자 단말기로 제공하는 이상치 출력부를 포함할 수 있다.

상기 변수유형 분류부에서 상기 변수항목의 변수유형이 범주형으로 분류된 경우, 상기 이상치 검출부는 상기 범주형으로 분류된 상기 변수항목의 각 고유 수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상기 상대 빈도값이 미리 설정된 임계값 이하인 경우의 고유 수준을 이상치로 판별할 수 있다.

상기 변수유형 분류부에서 상기 변수항목의 변수유형이 연속형으로 분류된 경우, 상기 이상치 검출부는 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 상기 연속형으로 결정된 상기 변수항목의 이상치를 검출할 수 있다.

본 발명의 일실시예에 따른 통계 데이터 전처리 서버는, 상기 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 데이터 정제부를 더 포함할 수 있다.

또한 본 발명의 일실시예에 따른 컴퓨터 판독가능 매체는 (a) 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 단계; (b) 상기 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 변수유형별로 분류하는 단계; (c) 변수유형별로 미리 구축된 알고리즘에 의하여 상기 복수의 변수항목별로 이상치를 검출하는 단계; 및 (d) 상기 검출된 변수항목별 이상치 정보를 테이블 형태로 출력하는 단계를 수행하는 컴퓨터 프로그램을 저장할 수 있다.

상기 컴퓨터 프로그램의 상기 (b) 단계에서 상기 변수유형은 의사결정나무 예측 알고리즘을 이용하여 결정되고, 상기 변수유형은 범주형, 연속형, 문자형 및 날짜형을 포함할 수 있다.

상기 컴퓨터 프로그램의 상기 의사결정나무 예측 알고리즘은, 상기 변수항목별 고유 수준 개수, 관측치 개수, 자료형 값, 엔트로피 값, 숫자형 관측치의 비율, 실수형 관측치의 비율, 여덟자리 관측치의 비율, 숫자 '0~9'의 비율을 기초로 상기 변수유형을 결정할 수 있다.

상기 컴퓨터 프로그램은 R 언어를 기반으로 하는 R 프로그램이고, 상기 자료형 값은 R 자료형 값일 수 있다.

상기 컴퓨터 프로그램의 상기 (b) 단계에서, 상기 변수항목의 변수유형이 범주형으로 분류된 경우, 상기 (c) 단계는, 상기 범주형으로 분류된 상기 변수항목의 각 고유 수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상기 상대 빈도값이 미리 설정된 임계값 이하인 경우의 고유 수준을 이상치로 판별할 수 있다.

상기 컴퓨터 프로그램의 상기 (b) 단계에서, 상기 변수항목의 변수유형이 연속형으로 분류된 경우, 상기 (c) 단계는, 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 상기 연속형으로 분류된 상기 변수항목의 이상치를 검출할 수 있다.

상기 컴퓨터 프로그램은, (e) 상기 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 단계를 더 수행하도록 구성될 수 있다.

본 발명의 일실시예에 다른 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체는 상기와 같은 방법으로 다양한 변수 항목 및 그에 대응되는 데이터값을 포함하는 통계 데이터를 전처리함으로써 통계 데이터의 오류를 간편하게 발견하고 필요한 경우 수동으로 데이터를 정제하거나 미리 설정된 알고리즘에 의하여 자동으로 데이터를 정제함으로써 통계 분석의 속도 및 정확도를 향상시킬 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

삭제

도 1은 본 발명의 일실시예에 따른 통계 데이터 전처리 서버가 네트워크를 통하여 사용자 단말기에 연결된 상태를 나타내는 개념도이다.
도 2는 도 1의 통계 데이터 전처리 서버의 개략 구성도이다.
도 3은 본 발명의 일실시예에 따른 통계 데이터 전처리 방법을 설명하는 개략 순서도이다.
도 4는 본 발명의 일실시예에 따른 통계 데이터 전처리 방법의 의사결정나무 예측 알고리즘을 나타내는 예시 도면이다.
도 5는 본 발명의 일실시예에 따른 통계 데이터 전처리에 따라 생성된 이상치 목록 테이블의 일 예를 나타내는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 본 발명의 실시예들에 따른 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체에 대하여 도면들을 참고하여 설명하도록 한다.

도 1은 본 발명의 일실시예에 따른 통계 데이터 전처리 서버가 네트워크를 통하여 사용자 단말기에 연결된 상태를 나타내는 개념도이다.

도 1을 참조하면 본 발명의 일실시예에 따른 통계 데이터 전처리 서버(100)는 유선 또는 무선의 네트워크를 통하여 사용자 단말기(200)에 연결될 수 있다.

통계 데이터 전처리 서버(100)는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 소프트웨어 또는 하드웨어적으로 실행될 수 있는 컴퓨터 서버를 의미한다.

사용자 단말기(200)는 통계 데이터 전처리 서버(100)에 네트워크로 접속하는 클라이언트 단말기를 의미하며, 데스크탑 컴퓨터(210, 220) 또는 스마트폰(230) 등의 단말기일 수 있다.

통계 데이터 전처리 서버(100)는 사용자 단말기(200)로부터 통계 데이터를 수집하여 데이터 전처리를 수행하는 역할을 한다.

도 2는 도 1의 통계 데이터 전처리 서버의 개략 구성도이다.

도 2를 참조하면 본 발명의 통계 데이터 전처리 서버(100)는 데이터 수신부(110), 데이터 저장부(120), 변수유형 분류부(130), 이상치 검출부(140), 데이터 정제부(150) 및 이상치 출력부(160)를 포함하여 구성된다.

데이터 수신부(100)는 사용자 단말기(200)로부터 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 역할을 한다.

통계 데이터는 아래 표 1과 같이 각 행이 관측치에, 각 열이 변수에 대응되는 와이드 포맷(wide format) 형태의 데이터일 수 있다.

mod_d	ID	region	sex	age
2019.03.06	A448440901	1	1	70
2019.03.06	A448440902	1	2	68
2019.03.06	A448680102	1	2	48
2019.03.06	A448680502	1	2	35
2019.03.06	A448680503	1	1	12
2019.03.06	A448740903	1	1	10
2019.03.06	A448760901	1	2	70
2019.03.06	A448760902	1	1	75
2019.03.06	A448760903	1	2	74
2019.03.06	A448798401	1	1	42

변수항목으로 'mod_d', 'ID', 'region', 'sex', 'age'가 열에 나타나 있으며, 각 행의 값들은 복수의 설문 응답자에 의하여 입력된 관측치가 입력되어 있음을 확인할 수 있다.

표 1에서 'mod_d'는 응답자가 설문에 응한 날짜를 의미하며, 'ID'는 설문 응답자의 개별 ID를 의미하며, 'region'은 설문 응답자의 지역을 의미하며, 'sex'는 응답자의 성별을 의미하며, 'age'는 설문 응답자의 나이를 의미한다.

이때, 'region'은 총 15개의 지역에 대하여 1부터 15의 숫자로 할당이 되었으며, 'sex'는 남자는 1, 여자는 2로 할당되었다.

데이터 저장부(120)는 데이터 수신부(100)에서 수신된 데이터를 저장하는 역할을 한다. 또한, 데이터 저장부(120)는 필요한 경우 후술할 변수유형 분류부(130), 이상치 검출부(140), 데이터 정제부(150) 및 이상치 출력부(160)에서 산출된 데이터를 저장시킬 수 있다.

변수유형 분류부(130)는 데이터 수신부(110)에 수신된 통계 데이터를 전달받아 통계 데이터의 변수값들을 분석하여 복수의 변수항목을 변수유형별로 분류하는 역할을 한다.

변수유형 분류부(130)는 의사결정나무 예측 알고리즘을 이용하여 상기 복수의 변수항목을 변수유형별로 분류할 수 있다. 이때, 변수유형은 범주형, 연속형, 문자형 및 날짜형을 포함할 수 있다.

범주형 변수는 배타적인 범주 또는 그룹을 값으로 갖는 변수를 의미하며, 다지선다형 문항 등이 그 예이다.

연속형 변수는 키, 몸무게, 연령 등과 같이 연속형의 실수를 관측값으로 갖는 변수를 의미한다.

문자형은 말 그대로 답변이 숫자가 아닌 문자인 것을 의미하며, 날짜형은 숫자로 표현되기는 하지만 날짜 형식으로 된 데이터를 의미한다.

아래 표 2는 변수유형 예측에 사용되는 설명변수의 예시이다.

변수명	U_N	O_N	R_T	O_R_N	Ent	O_R_R	O_R_8D	O_R_09
mod_d	1	4846	character	0	0	0	0	0
ID	4846	4846	character	0	12.24	0	0	0
region	15	4846	integer	1	3.62	0	0	0.68
sex	2	4846	integer	1	0.99	0	0	1
age	78	4846	integer	1	6.22	0	0	0.11
wt_hs	107	4846	numeric	1	6.68	1	0	0

표 2를 참고하여 설명변수에 대하여 설명하면 다음과 같다.

'U_N'은 변수의 고유 수준 개수, 즉 해당 변수가 가질 수 있는 고유값들의 개수를 의미한다. 예를 들어, 변수 'ID'에 대한 고유 수준 개수는 4846개로 나타나 있는데, 이는 통계 설문에 참여 대상이 되는 사람의 ID의 총개수를 나타낸다.

또한, 변수 'region'에 대해서는 설문 참여자가 거주할 수 있는 총 지역의 개수가 15개 이므로 고유 수준 개수는 15로 나타나 있다.

'O_N'는 변수의 관측치 개수를 의미한다. 예를 들어, 4846명을 대상으로 자료가 수집되었을 때, 이 중에서 1000명이 설문에 응답을 하지 않았다면 총 관측치 개수는 3846개로 측정이 된다.

표 2에서 변수 'ID'의 고유 수준 개수가 4846이고, 관측치 개수가 4846이므로 설문에 모든 사람이 응답을 한 것임을 알 수 있다.

'R_T'는 R 자료형을 의미한다. 본 발명의 일실시예에 따른 통계 데이터 전처리 서버(100)는 통계 분석을 위한 프로그래밍 언어인 R 언어를 기반으로 한 컴퓨터 프로그램을 탑재할 수 있다.

따라서, 알고리즘 실행 시 R 프로그램을 이용해 데이터를 읽어 들일 수 있으며, R 프로그램은 내부에서 데이터를 읽어 들임과 동시에 자동적으로 변수에 적합한 자료형을 할당하게 된다.

예를 들어, 특정 변수에 기록된 값이 0.1, 0.6, 1.7, 3.9와 같은 실수인 경우 'numeric' 자료형을, 0, 1, 2, 3과 같은 정수인 경우 'integer' 자료형을, “A448440901”과 같이 문자인 경우에는 'character' 자료형이 변수에 할당된다.

상기 설명에서 프로그램이 R 언어를 기반으로 한 프로그램인 경우를 예로 들어 설명하였으나, R 프로그램에 한정되는 것은 아니며 다른 프로그램에서 자동으로 자료형이 할당되는 경우라면 해당 프로그램의 자료형 값이 이용될 수 있을 것이다.

'O_R_N'은 숫자형 관측치의 비율을 의미한다. 구체적으로 전제 관측치 중에서 0, 1, 2와 같은 정수형 관측치와, 0.1, 0.2, 0.3과 같은 실수형 관측치가 차지하는 비율을 의미한다.

변수값으로 0, 1, 2, 3, 4, 5 등을 갖는 다지선다형 변수나 설문 참여자의 나이를 측정한 'age' 변수의 경우 등이 숫자형 관측치의 비율이 높은 편이다.

'Ent'는 엔트로피 값을 의미한다. 엔트로피란 주어진 데이터 집합의 혼잡도를 의미한다. 변수 데이터의 고유 수준 개수가 많다면 엔트로피가 높고, 고유 수준 개수가 적다면 엔트로피가 낮다.

엔트로피는 다음의 수학식 1과 같이 계산할 수 있다.

상기 수학식 1에서

는 주어진 데이터의 총 관측치 개수를 의미하며,

는 S에서 i번째 고유 수준에 속하는 관측치의 개수를 의미한다.

예를 들어, 설문 참여자의 성별을 측정한 'sex' 변수의 경우, 총 관측치 4846개 중, 1이 2160개, 2이 2686개가 관측된 경우라면 해당 변수의 엔트로피는 아래와 같이 계산되어 0.9915 값을 가질 수 있다.

'O_R_R'은 실수형 관측치의 비율을 의미한다. 즉, 전체 관측치 중 0, 1, 2, 3과 같은 정수형 관측치 외에 0.1, 0.2, 0.3과 같은 실수형 관측치가 차지하는 비율을 의미한다.

'wt_hs' 변수는 예를 들어 자료 분석 과정에서 표본 설계 시점과 조사 시점 간 가구수 및 인구 수 차이에 따른 여러 오차를 보정하기 위한 가중치를 계산한 변수를 의미한다.

'wt_hs'는 실제 1470 ~ 9949 사이의 값을 가지므로, 숫자형 관측치의 비율 및 실수형 관측치의 비율이 모두 1이 된다.

'O_R_8D'는 전체 관측치 중 '20190101', '20180101'과 같이 여덟자리 관측치가 차지하는 비율을 의미한다. 주로 날짜를 측정한 변수에서 여덟자리 관측치의 비율이 높다.

'0_R_09'는 전체 관측치 중 0에서 9까지의 숫자가 차지하는 비율을 의미한다. 주로 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 값을 가지는 다지선다형 문항 변수의 경우 0 ~ 9의 비율이 높다.

변수유형 분류부(130)는 상기 예시된 설명변수를 기초로 의사결정나무 예측 알고리즘으로 변수유형을 결정할 수 있다.

아래 표 3은 의사결정나무 예측 알고리즘으로 예측된 변수유형의 결과를 표시한 예시이다.

변수명	변수유형 예측결과	범주형 확률	연속형 확률	문자형 확률	날짜형 확률
mod_d	character	0.074	0	0.926	0
ID	character	0	0	0.16	0.84
region	continuous	0.005	0.958	0	0.037
sex	categorical	0.957	0.042	0.001	0
age	continuous	0.005	0.958	0	0.037
wt_hs	continuous	0.005	0.958	0	0.037

상기 표 3을 참조하면, 설문 참여자의 성별 정보를 담고 있는 'sex' 변수의 경우 범주형에 해당될 확률이 95.7%, 연속형에 해당될 확률이 4.2%로 최종적으로 범주형(categorical)으로 예측이 된 것을 확인할 수 있다.

또한, 설문 참여자의 나이 정보를 담고 있는 'age' 변수의 경우 연속형에 해당될 확률이 95.8%, 범주형에 해당될 확률이 0.5%로 최종적으로 연속형 변수로 예측이 된 것을 확인할 수 있다.

도 4는 변수유형 분류부(130)의 의사결정나무 예측 알고리즘의 예시 모형이 도시되어 있다.

도 4를 참조하면, 의사결정나무 예측 모형은 여러 노드로 구성되어 있으며, 변수를 범주형, 연속형, 문자형 및 날짜형으로 구분 짓는 과정에서 사용된 설명변수 및 해당 설명변수의 영향력에 대한 정보를 담고 있다.

맨 위의 노드를 참조하면, 노드 안에 'integer_0to9_ratio >= 1'가 적혀 있음을 확인할 수 있다. 이는 변수를 연속형 변수와 그 외의 변수로 판별함에 있어 0~9의 비율이 1 이상인지의 여부로 판단한다는 것을 의미한다.

만약, 0~9의 비율이 1 이상이라면 연속형 변수로 판별이 되고, 아닌 경우 다음 노드로 데이터가 넘어가게 된다.

두 번째 노드 안에는 'Rclass = Integer,logical,numeric'이 적혀 있다. 두 번째 노드에서는 데이터의 R자료형이 정수형, 논리형 또는 숫자형인 경우에는 좌측 노드로 이동하고, 그 외의 경우에는 우측 노드로 이동한다.

두 번째 노드에서 좌측 노드로 이동하면 'N_unique_level <= 6.5'가 적혀 있다. 이는 데이터의 고유 수준 개수가 6.5 이하인 경우에는 좌측 노드로 이동하고, 그 외의 경우에는 우측 노드로 이동함을 의미한다.

데이터의 고유 수준 개수가 6.5 이하인 경우 좌측 노드로 이동하면 'N_obs >= 382'가 적혀 있다. 이 노드에서는 데이터의 관측치의 개수가 382 이상인 경우에는 좌측 노드로 이동하고, 그 외의 경우에는 범주형 변수로 판별한다.

데이터의 관측치가 382 이상인 경우에 좌측 노드로 이동하면 'Entrophy >= 0.15'가 적혀 있다. 이 노드에서는 데이터의 엔트로피 값이 0.15 이상인 경우에는 연속형 변수로 판별하고, 그 외의 경우에는 범주형으로 판별한다.

위에서 고유 수준 개수가 6.5를 초과하는 경우에는 우측 노드로 이동하고, 해당 노드에는 'digit8_ratio < 0.75'가 적혀 있다. 이 노드에서는 데이터의 여덟자리 관측치의 비율이 0.75 미만인 경우에는 범주형 변수로 판별하고, 그 외의 경우에는 날짜형 변수로 판별한다.

두 번째 노드에서 R자료형이 정수형, 논리형 또는 숫자형이 아닌 경우에는 우측 노드로 이동하고 해당 노드에는 'integer_0to9_ratio >= 0.021'이 적혀 있다. 이 노드에서는 데이터의 0~9의 비율이 0.021 이상이 경우에는 연속형 변수로 판별하고, 그 외의 경우에는 우측 노드로 이동한다.

우측 노드로 이동하면 'Entrophy < 4.9'가 적혀 있다. 해당 노드에서 데이터의 엔트로피 값이 4.9 이상인 경우에는 날짜형 변수로 판별하고, 4.9 미만인 경우에는 좌측 노드로 이동한다.

좌측 노드로 이동하면 'N_unique_level < 3.5'가 적혀 있다. 해당 노드에서는 데이터의 고유 수준 개수가 3.5 이상인 경우에는 문자형 변수로 판별하고, 3.5 미만인 경우에는 다시 좌측 노드로 이동한다.

좌측 노드로 이동하면 'Entropy >= 0.048'이 적혀 있다. 해당 노드에서는 데이터의 엔트로피 값이 0.048 이상인 경우에는 연속형 변수로 판별하고, 0.048 미만인 경우에는 문자형 변수로 판별한다.

상기와 같은 의사결정나무 예측 모형을 통하여 모든 변수들을 연속형, 범주형, 문자형 및 날짜형으로 구분할 수 있다.

도 4에 도시된 의사결정나무 예측 모형은 본 발명에 적용될 수 있는 의사결정나무 예측 모형의 일 예일 뿐이다. 따라서, 도 4의 예측 모형에서 각 노드의 설명변수에 대한 판단 기준이 되는 값은 변경될 수 있다.

또한, 도 4의 예측 모형과 다른 구조의 예측 모형 즉, 각 노드의 설명 변수 및 판단 기준 값이 모두 변화된 실시예도 가능할 것이다.

이상치 검출부(140)는 변수유형별로 미리 구축된 알고리즘에 의하여 복수의 변수항목별로 이상치를 검출하는 역할을 한다.

이상치 검출부(140)는 상기 변수항목이 연속형 및 범주형인 경우에 이상치를 검출하는 작업을 진행할 수 있다.

이상치 검출부(140)는 변수항목의 변수유형이 연속형으로 분류된 경우에 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 이상치를 검출할 수 있다.

구체적으로 이상치 검출부(140)는 연속형으로 분류된 변수항목에 대한 데이터에서 최소값, 1사분위수, 중위수, 평균, 3사분위수, 최대값, 표준편차, 범위 등의 통계량을 계산하여 일정 표준 정규분포의 분위수를 벗어나는 관측치들을 이상치로 결정할 수 있다.

예를 들어 아래의 수식으로 표준 정규분포 분위수로 결정하여 이를 벗어나는 값들을 이상치로 판단할 수 있다.

상기 수학식 2에 의하여 표준 정규분포 분위수 K가 결정되면 아래의 수학식 3에 의하여 이상치의 범위를 결정할 수 있다.

상기 수학식 3에서 Q1은 1사분위수를, Q3는 3사분위수를 의미한다.

이때, 분위수라 함은 자료 크기 순서에 따른 위치값을 나타낸다. 주로 사용되는 분위수는 100분위수(백분위수), 10분위수(십분위수), 4분위수(사분위수) 등이 있다.

x 사분위수라 함은 크기 순으로 나열된 자료를 4 등분 하였을 때, x %에 해당하는 관측값을 의미한다. 예를 들어, 숫자가 1부터 40까지 나열되어 있는 상황에서 1사분위수는 10이고, 2사분위수는 20, 3사분위수는 30이다.

상기 수학식 2에서 'ratio'는 설정한 타겟 비율로서 예를 들어 0.5%의 비율을 목표로 하는 경우 ratio의 값은 0.005로 설정될 수 있다.

이상치 검출부(140)는 변수항목의 변수유형이 범주형으로 분류된 경우에 변수항목의 각 고유수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상대 빈도값이 미리 설정된 임계값 이하인 경우를 고유 수준을 이상치로 판별할 수 있다.

예를 들어, 0.5%의 비율을 목표로 하는 경우 상대빈도가 0.005 이하인 경우를 이상치로 판단할 수 있다.

데이터 정제부(150)는 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 역할을 한다.

데이터 정제부(150)가 이상치 정보를 제거하는 것은 통계 분석이 오류를 줄이기 위하여 해당 데이터를 제거하는 것을 의미한다. 이때, 필요한 경우에는 상기 범주형으로 분류된 변수 항목을 답변한 설문자의 설문 응답 전체를 제거할 수도 있다.

데이터 정제부(150)가 이상치 정보를 정제하는 것은 검출된 이상치를 대응되는 변수항목의 평균값으로 대체하는 것일 수 있다. 이렇게 이상치 정보를 평균값으로 대체하는 경우 해당 항목에 응답한 설문자의 다른 변수 항목에 대한 데이터를 제거하지 않아도 되는 장점이 있다.

이상치 출력부(160)는 검출된 변수항목별 이상치 정보를 테이블 형태로 출력하여 사용자 단말기로 제공하는 역할을 한다.

도 5에는 사용자 단말기로 제공되는 이상치 출력 테이블의 예시 화면이 도시되어 있다.

도 5를 참조하면, 연속형 변수인 'wt_itv'의 경우 관측치들의 평균이 5166.09이며 최소값은 754.642, 최대값은 2573.01인 것을 확인할 수 있다.

해당 변수에서 정상 데이터의 범위는 (1사분위수 - IQR*표준정규분포의 quantile(ratio/sample size), 3사분위수 + IQR*표준정규분포의 quantile(ratio/sample size)로 정의된다.

따라서 ratio 값이 0.005이고, sample size가 4846인 경우의 이상치 범위는 (2987.352 - 3495*3.711, 6481.956 + 3495*3.711) = (-9981.493, 19450.8)의 값을 갖게 된다.

따라서, 관측치 중 '25730.007' 등과 같은 값은 계산된 범위 밖의 관측값이 이상치로 분류되었고, 해당 값을 가지는 관측치의 아이디인 'F44935803', 'C448540903', 'C449660902' 등이 이상치 테이블에 표시되었고, 이상치 비율이 0.001로 계산되어 표시되었다.

또한, 범주형 변수의 경우에는 관측치의 고유수준과 고유 수준별 빈도가 출력되는데, 변수 'E_Q_FAM1'의 경우 1, 2, 6, 88888(조사단위 비해당), 99999(모름, 무응답)과 같은 관측치가 각각 64, 619, 72, 4016, 28번 관측되어 다른 관측치에 비해 관측 빈도가 높은 것을 확인할 수 있다. 또한 3, 4, 5와 같은 값은 각각 10, 10, 3번 관측되었으므로 매우 적은 수의 응답자만이 해당 선택지를 골랐다는 것을 확인할 수 있다.

한편 답변 중에는 '2,6', '2,5', '1,2,6', '3,6'과 같은 복수 응답 또한 존재하는데 이는 각각 7, 5, 1, 1번 관측되어 전체 관측치 중 차지하는 비율이 0.005 이하이므로 이러한 값들이 이상치로 표시된 것을 확인할 수 있다. 이때에도 해당 이상치에 대응되는 ID 정보 및 이상치 비율이 동시에 출력된다.

한편, 문자형이나 날짜형과 같은 변수들의 경우에는 이상치 탐색에서 제외될 수 있다.

일반적으로 문자형 변수의 경우 범주형 변수와는 달리 서술형 답안으로 이루어지는 경우가 많으며, 이와 같은 문항들은 설문지 내에서 '기타 의견' 등에 해당하는 질문 항목에 대응되는 데이터인데 이러한 변수의 경우 매우 다양한 값을 가지기 때문에 이상치 탐색에서 제외할 수 있다.

마찬가지로 날짜형 변수의 경우에도 검사시작날짜, 방문날짜, 설문응답날짜 등과 같은 값에 해당하여 매우 다양한 값을 가지므로 연속형 변수나 범주형 변수에서처럼 낮은 빈도를 갖는 관측치를 이상치로 결정하는 방식을 적용하기 어려우므로 이상치 탐색에서 제외할 수 있다.

도 3은 본 발명의 일실시예에 따른 통계 데이터 전처리 방법을 설명하는 개략 순서도이다.

본 발명의 일실시예에 따른 통계 데이터 전처리 방법은 먼저 통계 분석을 위한 로(raw) 데이터를 수신한다(S510).

이때, 통계분석을 위한 로 데이터는 사용자가 직접 컴퓨터상에 실행되는 프로그램에 데이터 파일을 입력하는 것에 의하여 수신되거나 컴퓨터 프로그램이 실행되는 서버 컴퓨터가 네트워크로 연결된 사용자 단말기로부터 자동 또는 수동으로 수신하는 형태로 수신될 수 있다.

로 데이터가 수신되면 통계 데이터에 포함된 복수의 변수항목을 변수유형별로 분류한다(S520).

변수유형별 분류는 상기 설명한 바와 같이 미리 구축된 프로그램상의 알고리즘에 의하여 설명변수를 분석하는 방법에 의하여 수행될 수 있다.

변수의 유형이 분류되면 미리 설정된 알고리즘에 의하여 변수항목별로 이상치를 검출한다(S530).

이때, 이상치 검출은 상기 설명한 바와 같이 변수 항목 중 범주형 및 연속형 변수에 한정하여 수행될 수 있다.

이상치가 검출되면 이상치 정보를 테이블 형태로 출력할 수 있으며(S540), 사용자의 설정에 의하거나 또는 미리 설정된 알고리즘에 의해 자동으로 이상치 정보가 제거 또는 정제될 수 있다(S550)

상기 도 1 및 도 2에서 본 발명의 일실시예에 따른 통계 데이터 전처리 방법을 서버(100)에서 수행되는 것을 설명하였지만 이는 일실시예일 뿐이며 컴퓨터 프로그램상으로 치환이 가능할 것이다.

예를 들어, 도 1 및 도 2의 서버(100) 및 그 하위 구성은 컴퓨터상의 하드웨어적으로도 구성될 수 있지만 소프트웨어적으로도 구현이 가능할 것이다.

따라서, 본 발명의 일실시예에 따른 통계 데이터 전처리 방법은 R 프로그램으로 구현된 컴퓨터 상에서 동작 가능한 프로그램에 의하여 수행되거나, R 프로그램이 탑재된 컴퓨터 상에서 수행될 수 있을 것이다.

이때, R 프로그램과 같은 컴퓨터 프로그램으로 구현될 경우 도 2의 데이터 수신부(110), 데이터 저장부(120), 변수유형 분류부(130), 이상치 검출부(140), 데이터 정제부(150), 이상치 출력부(160)의 기능에 대응하는 부분은 R 프로그램 상에서 구현 가능하도록 알고리즘이 구축될 수 있다.

일실시예로서, 본 발명의 일실시예에 따른 통계 데이터 전처리 방법을 구현하기 위한 R 프로그램은 마이크로소프트사의 엑셀 프로그램에 플러그인 방식으로 설치되어 동작할 수 있는 프로그램일 수 있다.

이때, 사용자는 R 프로그램이 플러그인 방식으로 설치된 엑셀 프로그램을 실행하여 통계 데이터를 입력할 수 있으며, 본 발명의 데이터 전처리 방법에 의하여 이상치 목록을 확인할 수 있으며, 필요한 경우 사용자의 설정에 의해 또는 미리 설정된 알고리즘에 의하여 이상치를 제거하거나 정제할 수 있다.

또한, R 프로그램이 설치된 서버 컴퓨터에 네트워크로 사용자 단말기가 연결되어 사용자가 수동으로 데이터를 입력하거나 자동으로 데이터를 크롤링하여 상기 설명한 것과 같은 방식으로 이상치를 출력하거나 이상치를 제거 또는 정제할 수 있다.

상기와 같은 방법으로 다양한 변수 항목 및 그에 대응되는 데이터값을 포함하는 통계 데이터를 전처리함으로써 통계 데이터의 오류를 간편하게 발견하고 필요한 경우 수동으로 데이터를 정제하거나 미리 설정된 알고리즘에 의하여 자동으로 데이터를 정제함으로써 통계 분석의 속도 및 정확도를 향상시킬 수 있다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 통계 데이터 전처리 서버 110: 데이터 수신부
120: 데이터 저장부 130: 변수유형 분류부
140: 이상치 검출부 150: 데이터 정제부
160: 이상치 출력부 200: 사용자 단말기

Claims

통계 데이터 전처리 서버에 의하여 하기의 각 단계들이 수행되는 통계 데이터 전처리 방법에 있어서,
(a) 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 단계;
(b) 의사결정나무 예측 알고리즘을 이용하여 상기 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 범주형, 연속형, 문자형 및 날짜형을 포함하는 변수유형별로 분류하는 단계;
(c) 상기 변수항목이 범주형 또는 연속형으로 분류된 경우 미리 구축된 알고리즘에 의하여 상기 범주형 또는 연속형으로 분류된 변수항목의 이상치를 검출하는 단계; 및
(d) 상기 검출된 이상치 정보를 테이블 형태로 출력하는 단계를 포함하고,
상기 (b) 단계에서 상기 의사결정나무 예측 알고리즘은, 상기 변수항목별 고유 수준 개수, 관측치 개수, 자료형 값, 엔트로피 값, 숫자형 관측치의 비율, 실수형 관측치의 비율, 여덟자리 관측치의 비율, 숫자 '0~9'의 비율을 기초로 상기 변수유형을 결정하고,
상기 변수 유형의 결정은,
숫자 '0~9'의 비율을 기초로 연속형 변수를 판별하고,
데이터의 고유 수준 개수와 데이터의 관측치의 개수를 기초로 범주형 변수를 판별하며,
데이터의 엔트로피 값을 기초로 연속형 변수, 범주형 변수, 날짜형 변수, 또는 문자형 변수를 판별하고,
데이터의 여덟자리 관측치의 비율을 기초로 범주형 변수와 날짜형 변수를 판별하며,
상기 (c) 단계는,
문자형이나 날짜형은, 이상치에서 제외하고,
범주형은, 상기 변수항목의 각 고유 수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상기 상대 빈도값이 미리 설정된 임계값 이하인 경우의 고유 수준을 이상치로 판별하고,
연속형은, 하기 수학식 2 및 수학식 3으로 표준 정규분포 분위수로 결정하여 이를 벗어나는 값들을 이상치로 판단하는 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 상기 연속형으로 분류된 상기 변수항목의 이상치를 판별하는 통계 데이터 전처리 방법.
[수학식 2]

[수학식 3]

(상기 수학식 2 및 수학식 3에서 ratio는 설정한 타겟 비율이고, Q1은 1사분위수를, Q3는 3사분위수를 의미하며, 분위수는 자료 크기 순서에 따른 위치값을 나타낸다.)
삭제
삭제
삭제
삭제
제1항에 있어서,
(e) 상기 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 단계를 더 포함하는 통계 데이터 전처리 방법.
제6항에 있어서,
상기 (e) 단계에서, 상기 검출된 변수항목별 이상치 정보를 정제하는 단계는, 상기 검출된 이상치를 대응되는 상기 변수항목의 평균값으로 대체하는 단계를 포함하는 통계 데이터 전처리 방법.
사용자 단말기로부터 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 데이터 수신부;
의사결정나무 예측 알고리즘을 이용하여 상기 수신된 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 범주형, 연속형, 문자형 및 날짜형을 포함하는 변수유형별로 분류하는 변수유형 분류부;
상기 변수항목이 범주형 또는 연속형으로 분류된 경우 미리 구축된 알고리즘에 의하여 상기 범주형 또는 연속형으로 분류된 변수항목의 이상치를 검출하는 이상치 검출부; 및
상기 검출된 이상치 정보를 테이블 형태로 출력하여 상기 사용자 단말기로 제공하는 이상치 출력부를 포함하고,
상기 변수유형 분류부는 상기 변수항목별 고유 수준 개수, 관측치 개수, 자료형 값, 엔트로피 값, 숫자형 관측치의 비율, 실수형 관측치의 비율, 여덟자리 관측치의 비율, 숫자 '0~9'의 비율을 기초로 상기 의사결정나무 예측 알고리즘을 이용하여 상기 변수유형을 결정하고,
상기 변수 유형의 결정은,
숫자 '0~9'의 비율을 기초로 연속형 변수를 판별하고,
데이터의 고유 수준 개수와 데이터의 관측치의 개수를 기초로 범주형 변수를 판별하며,
데이터의 엔트로피 값을 기초로 연속형 변수, 범주형 변수, 날짜형 변수, 또는 문자형 변수를 판별하고,
데이터의 여덟자리 관측치의 비율을 기초로 범주형 변수와 날짜형 변수를 판별하며,
상기 이상치 검출부는,
문자형이나 날짜형은, 이상치에서 제외하고,
범주형은, 상기 변수항목의 각 고유 수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상기 상대 빈도값이 미리 설정된 임계값 이하인 경우의 고유 수준을 이상치로 판별하고,
연속형은, 하기 수학식 2 및 수학식 3으로 표준 정규분포 분위수로 결정하여 이를 벗어나는 값들을 이상치로 판단하는 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 상기 연속형으로 분류된 상기 변수항목의 이상치를 판별하는 통계 데이터 전처리 서버.
[수학식 2]

[수학식 3]

(상기 수학식 2 및 수학식 3에서 ratio는 설정한 타겟 비율이고, Q1은 1사분위수를, Q3는 3사분위수를 의미하며, 분위수는 자료 크기 순서에 따른 위치값을 나타낸다.)
삭제
삭제
삭제
삭제
제8항에 있어서,
상기 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 데이터 정제부를 더 포함하는 통계 데이터 전처리 서버.
컴퓨터 프로세서에 의하여 하기의 각 단계들이 실행되도록 하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체에 있어서,
(a) 복수의 변수항목 및 이에 대응하는 변수값을 포함하는 통계 데이터를 수신하는 단계;
(b) 의사결정나무 예측 알고리즘을 이용하여 상기 통계 데이터의 상기 변수값들을 분석하여 상기 복수의 변수항목을 범주형, 연속형, 문자형 및 날짜형을 포함하는 변수유형별로 분류하는 단계;
(c) 상기 변수항목이 범주형 또는 연속형으로 분류된 경우 미리 구축된 알고리즘에 의하여 상기 범주형 또는 연속형으로 분류된 변수항목의 이상치를 검출하는 단계; 및
(d) 상기 검출된 이상치 정보를 테이블 형태로 출력하는 단계를 수행하고,
상기 (b) 단계에서 상기 의사결정나무 예측 알고리즘은, 상기 변수항목별 고유 수준 개수, 관측치 개수, 자료형 값, 엔트로피 값, 숫자형 관측치의 비율, 실수형 관측치의 비율, 여덟자리 관측치의 비율, 숫자 '0~9'의 비율을 기초로 상기 변수유형을 결정하고,
상기 변수 유형의 결정은,
숫자 '0~9'의 비율을 기초로 연속형 변수를 판별하고,
데이터의 고유 수준 개수와 데이터의 관측치의 개수를 기초로 범주형 변수를 판별하며,
데이터의 엔트로피 값을 기초로 연속형 변수, 범주형 변수, 날짜형 변수, 또는 문자형 변수를 판별하고,
데이터의 여덟자리 관측치의 비율을 기초로 범주형 변수와 날짜형 변수를 판별하며,
상기 (c) 단계는,
문자형이나 날짜형은, 이상치에서 제외하고,
범주형은, 상기 변수항목의 각 고유 수준별 총 관측치 개수에 대한 상대 빈도값을 계산하여, 상기 상대 빈도값이 미리 설정된 임계값 이하인 경우의 고유 수준을 이상치로 판별하고,
연속형은, 하기 수학식 2 및 수학식 3으로 표준 정규분포 분위수로 결정하여 이를 벗어나는 값들을 이상치로 판단하는 일변량 이상치 검출(Univariate outlier detection) 기법을 이용하여 상기 연속형으로 분류된 상기 변수항목의 이상치를 판별하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.
[수학식 2]

[수학식 3]

(상기 수학식 2 및 수학식 3에서 ratio는 설정한 타겟 비율이고, Q1은 1사분위수를, Q3는 3사분위수를 의미하며, 분위수는 자료 크기 순서에 따른 위치값을 나타낸다.)
삭제
삭제
제14항에 있어서,
상기 프로그램은 R 언어를 기반으로 하는 R 프로그램이고, 상기 자료형 값은 R 자료형 값인 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.
삭제
삭제
제14항에 있어서,
(e) 상기 검출된 변수항목별 이상치 정보를 제거 또는 정제하는 단계를 더 수행하는 것을 특징으로 하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.