KR20210094810A

KR20210094810A - 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법

Info

Publication number: KR20210094810A
Application number: KR1020200008502A
Authority: KR
Inventors: 민성태; 이건수
Original assignee: 주식회사 솔루게이트
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-07-30
Also published as: KR102347778B1

Abstract

본 발명은 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법에 관한 것으로, 더욱 상세하게는 다양한 형태의 속성을 가지는 원시 데이터를 속성별로 분류하고 데이터 종류에 따른 속성 간 관계정보를 생성하며, 데이터 종류 및 속성 간 관계정보에 따른 결측치를 보정하여, 상기 원시 데이터를 예측 모델에 최적화된 정제 데이터로 정제하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법에 관한 것이다.

Description

이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법{Data refine apparatus heterogeneous data based prediction system and method thereof}

일반적으로 지능형 시스템은 처한 상황에서 스스로 판단하여, 주어진 목표를 달성하는 시스템을 의미한다.

이러한 동작을 수행하기 위해서, 지능형 시스템은 우선 자신의 상황을 인지할 수 있어야 하고, 주어진 목표를 수행하기 위해, 현재 상황에서 어떤 행동을 해야 할 것인지를 판단할 수 있어야 한다.

초기 지능형 시스템의 경우, 주어진 상황은 사전에 정의되어 있었으며, 어떤 행동을 선택할 것인지에 대한 규칙들 역시 사전에 정의되어 있었다. 하지만 규칙을 이용하여 상황을 정의한다는 자체가 프레임 문제(Frame Problem)를 갖고 있기 때문에, 실제 문제에 직접 적용하기는 어려운 문제점이 있었다.

이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔으며, 현재는 "불완전한 상황 정보를 토대로 가능성 높은 선택을 하는 것"이 지능형 시스템을 구현하는 기본 목표가 되었다.

상황을 인식함에 있어 불완전함을 인정하는 것으로, 그 상황을 기반으로 내리는 선택 역시 오류의 가능성을 포함하고 있는 것이며, 이 오류의 가능성을 낮추기 위해서는 상황을 인식하기 위한 원시 데이터(Raw Data)를 가능한 한 정확하게 획득하고 해석할 수 있어야 할 것이다.

오류가 없는 정확한 데이터를 획득하기 위해 원시 데이터에서 오류를 유발할 수 있는 부분을 제거하거나 정규화하는 데이터 정제 과정을 수행하고 있다. 데이터 정제 과정의 방법 및 절차에 따라 획득된 데이터(이하 "정제 데이터"라 함)는 그 특징이 달라질 수 있으며, 이는 예측 모델의 예측력에 영향을 미친다.

통상적으로 이러한 데이터 정제 과정은 데이터 분석가 등에 의해 이루어지므로 데이터 분석가의 데이터 분석 능력이나 사용하는 방법에 따라 정제 데이터의 특성이 달라질 수 있는 문제점이 있었다.

따라서 객관적이고 정확하게 원시 데이터로부터 오류를 제거하고 예측력이 높아질 수 있는 방향으로 원시 데이터의 특성을 향상시킬 수 있는 데이터 정제 방안의 개발이 요구되고 있다.

대한민국 등록특허 제10-2005952호(2019.10.01.공고)

따라서 본 발명의 목적은 다양한 형태의 속성을 가지는 원시 데이터를 속성별로 분류하고 데이터 종류에 따른 속성 간 관계정보를 생성하며, 데이터 종류 및 속성 간 관계정보에 따른 결측치를 보정하여, 상기 원시 데이터를 예측 모델에 최적화된 정제 데이터로 정제하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치 및 방법을 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 이형 데이터 기반 예측 시스템의 데이터 정제 장치는: 이형 데이터 기반 예측 시스템의 데이터 정제 장치에 있어서, 입력되는 원시 데이터에 포함된 적어도 하나 이상의 필드 데이터에 대한 속성을 획득하여 출력하는 속성 획득부; 상기 원시 데이터 및 상기 속성을 입력받아 상기 원시 데이터를 속성별 필드 데이터로 분류한 제1정제 데이터를 출력하는 분류부; 상기 분류부에서 분류된 상기 제1정제 데이터의 속성별 필드 데이터를 정규화한 제2정제 데이터를 출력하는 정규화부; 상기 정규화된 상기 제2정제 데이터의 필드 데이터별 속성 간 관계를 분석한 관계 데이터를 생성한 후 상기 관계 데이터를 상기 제2정제 데이터에 부가한 제3정제 데이터를 출력하는 관계 분석부; 및 상기 제3정제 데이터의 속성별 필드 데이터 중 결측치를 검출하고, 검출된 결측치를 가지는 필드 위치에 해당 속성에 대응하는 보정 데이터를 삽입한 제4정제 데이터를 출력하는 보정부를 포함하는 것을 특징으로 한다.

상기 장치는: 상기 제4정제 데이터의 각 속성에 대한 신뢰도를 획득하여 상기 제4정제 데이터의 속성에 맵핑 및 삽입한 제5정제 데이터를 예측 모델을 포함하는 예측 장치로 출력하는 신뢰도 결정부를 더 포함하는 것을 특징으로 한다.

상기 속성 획득부는, 입력되는 원시 데이터의 필드별로 문자를 인식하여 속성을 획득하는 것을 특징으로 한다.

상기 장치는: 상기 분류부로부터 출력되는 상기 제1정제 데이터의 속성별 필드 데이터의 데이터 종류를 검출하고, 데이터 종류 데이터를 상기 정규화부, 관계 분석부 및 보정부로 출력하는 데이터 종류 검출부를 더 포함하되, 상기 정규화부는, 상기 속성별 데이터 종류를 반영하여 해당 필드 데이터를 정규화하고, 상기 관계 분석부는, 상기 속성별 데이터 종류를 반영하여 속성 간 관계를 분석하여 상기 관계 데이터를 생성하며, 상기 보정부는, 상기 속성별 데이터 종류를 반영하여 상기 결측치에 삽입할 상기 보정 데이터를 생성하는 것을 특징으로 한다.

상기 관계 분석부는, 상기 데이터 종류가 수치형이면 상관 계수 분석을 수행하여 상기 관계 데이터를 생성하는 수치형 정규화부; 및 상기 데이터 종류가 범주형이면 연관규칙 분석을 수행하여 상기 관계 데이터를 생성하는 범주형 정규화부를 포함하는 것을 특징으로 한다.

상기 보정부는, 상기 제3정제 데이터의 속성과 이미 설정된 무보정 속성 중 하나인지를 검사하여 보정의 필요 여부를 판단하고, 무보정 속성이 아니면 상기 결측치를 보정하는 것을 특징으로 한다.

상기 보정부는, 보정이 필요한 것으로 판단되고 상기 데이터 종류가 수치형이면 해당 속성의 평균값, 중간값, 최빈값 및 미리 정의된 초기값 중 어느 하나를 보정 데이터로 삽입하는 것을 특징으로 한다.

상기 보정부는, 보정이 필요한 것으로 판단되면 상기 결측치에 대응하는 해당 속성과 상기 관계 분석부를 통해 획득된 관계 데이터 중 상기 속성에 대한 유관 속성으로 정의된 속성이 있는지를 판단하고, 있으면 상기 유관 속성의 필드 데이터를 참조하여 결측치를 보정하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 이형 데이터 기반 예측 시스템의 데이터 정제 방법은: 데이터 정제 장치의 속성 획득부가 입력되는 원시 데이터에 포함된 적어도 하나 이상의 필드 데이터에 대한 속성을 획득하여 출력하는 속성 획득 과정; 데이터 정제 장치의 분류부가 상기 원시 데이터 및 상기 속성을 입력받아 상기 원시 데이터를 속성별 필드 데이터로 분류한 제1정제 데이터를 출력하는 분류 과정; 상기 데이터 정제 장치의 정규화부가 상기 분류부에서 분류된 상기 제1정제 데이터의 속성별 필드 데이터를 정규화한 제2정제 데이터를 출력하는 정규화 과정; 상기 데이터 정제 장치의 관계 분석부가 상기 정규화된 상기 제2정제 데이터의 필드 데이터별 속성 간 관계를 분석한 관계 데이터를 생성한 후 상기 관계 데이터를 상기 제2정제 데이터에 부가한 제3정제 데이터를 출력하는 관계 분석 과정; 및 상기 데이터 정제 장치의 보정부가 상기 제3정제 데이터의 속성별 필드 중 결측치를 검출하고, 검출된 결측치의 필드 위치에 해당 속성에 대응하는 보정 데이터를 삽입한 제4정제 데이터를 출력하는 보정 과정을 포함하는 것을 특징으로 한다.

상기 방법은: 신뢰도 결정부가 상기 제4정제 데이터의 각 속성에 대한 신뢰도를 획득하여 상기 제4정제 데이터의 속성에 맵핑 및 삽입한 제5정제 데이터를 예측 모델을 포함하는 예측 장치로 출력하는 신뢰도 결정 과정을 더 포함하는 것을 특징으로 한다.

상기 방법은: 데이터 정제 장치의 데이터 종류 검출부가 상기 분류부로부터 출력되는 상기 제1정제 데이터의 속성별 필드 데이터의 데이터 종류를 검출하고, 데이터 종류 데이터를 상기 정규화부, 관계 분석부 및 보정부로 출력하는 데이터 종류 검출 과정을 더 포함하되, 상기 정규화 과정에서 상기 정규화부는, 상기 속성별 데이터 종류를 반영하여 해당 필드 데이터를 정규화하고, 상기 관계 분석 과정에서 관계 분석부는, 상기 속성별 데이터 종류를 반영하여 속성 간 관계를 분석하여 상기 관계 데이터를 생성하며, 상기 보정 과정에서 보정부는, 상기 속성별 데이터 종류를 반영하여 상기 결측치에 삽입할 상기 보정 데이터를 생성하는 것을 특징으로 한다.

상기 관계 분석 과정은, 상기 관계 분석부가 상기 데이터 종류가 수치형이면 상관 계수 분석을 수행하여 상기 관계 데이터를 생성하는 수치형 관계 분석 단계; 및 상기 관계 분석부가 상기 데이터 종류가 범주형이면 연관규칙 분석을 수행하여 상기 관계 데이터를 생성하는 범주형 관계 분석 단계를 포함하는 것을 특징으로 한다.

상기 보정 과정은, 보정부가 상기 제3정제 데이터의 속성과 미리 설정된 무보정 속성 중 하나인지를 검사하여 보정의 필요 여부를 판단하는 보정 필요 판단 단계; 및 판단 결과 무보정 속성이 아니면 상기 결측치를 보정하는 보정 단계를 포함하는 것을 특징으로 한다.

상기 보정 단계는, 상기 보정부가 보정이 필요한 것으로 판단되고 상기 데이터 종류가 수치형이면 해당 속성의 평균값, 중간값, 최빈값 및 미리 정의된 초기값 중 어느 하나를 보정 데이터로 삽입하는 수치형 보정 단계를 포함하는 것을 특징으로 한다.

상기 보정 단계는, 상기 보정부가 보정이 필요한 것으로 판단되면 상기 결측치에 대응하는 해당 속성과 상기 관계 분석부를 통해 획득된 관계 데이터 중 상기 속성에 대한 유관 속성으로 정의된 속성이 있는지를 판단하는 유관 속성 존재 판단 단계; 및 상기 속성에 대응하는 유관 속성이 있으면 상기 보정부가 상기 유관 속성의 필드 데이터를 참조하여 결측치를 보정하는 유관 속성 보정 단계를 포함하는 것을 특징으로 한다.

본 발명은 정제한 원시 데이터에 포함된 적어도 하나 이상의 속성을 획득하고 획득된 속성별로 원시 데이터의 해당 필드 데이터를 분류하므로, 원시 데이터에 포함된 필드 데이터를 정확하게 정의할 수 있어 예측 모델의 예측력을 향상할 수 있는 효과가 있다.

또한, 본 발명은 원시 데이터의 필드 데이터별로 데이터 종류를 검출하고, 검출된 데이터 종류에 따른 정규화를 수행하므로 수치형 데이터뿐만 아니라 범주형 데이터 또한 정규화할 수 있으며, 이로 인해 예측 모듈의 예측력을 향상할 수 있는 효과가 있다.

또한, 본 발명은 원시 데이터의 속성을 검출하고 속성별 필드 데이터를 정의하므로 복수의 필드 데이터 간의 관계를 쉽게 분석할 수 있고, 관계 분석에 의해 예측 모델의 예측력을 향상할 수 있는 효과가 있다.

또한, 본 발명은 원시 데이터의 결측치를 자동 검출하고, 검출된 결측치에 속성 간 관계정보 및 데이터 종류 중 어느 하나 이상을 고려하여 필드 데이터를 입력함으로써, 결측치를 최적의 필드 데이터로 정제할 수 있는 효과를 가지며, 이는 예측 모델의 예측력을 향상할 수 있는 효과를 제공한다.

도 1은 본 발명에 따른 이형 데이터 기반 예측 시스템의 개략적인 구성을 나타낸 도면이다.
도 2는 본 발명에 따른 이형 데이터 기반 예측 시스템의 데이터 정제 장치의 상세 구성을 나타낸 도면이다.
도 3은 본 발명에 따른 이형 데이터 기반 예측 시스템의 데이터 정제 방법을 나타낸 흐름도이다.

이하 첨부된 도면을 참조하여 본 발명에 따른 이형 데이터 기반 예측 시스템, 예측 시스템의 데이터 정제 장치의 구성 및 동작을 상세히 설명하고, 상기 데이터 정제 장치에서의 데이터 정제 방법을 설명한다.

도 1은 본 발명에 따른 이형 데이터 기반 예측 시스템의 개략적인 구성을 나타낸 도면이다.

본 발명에 따른 이형 데이터 기반 예측 시스템은 본 발명의 데이터 정제 장치(100) 및 예측 장치(200)를 포함한다.

데이터 정제 장치(100)는 원시 데이터를 입력받아 본 발명에 따른 속성별 분류, 데이터 정규화, 관계 분석에 의한 관계 데이터 추가 및 결측치 보정을 수행하고, 실시예에 따라 상기 속성별로 신뢰도를 정의하여 저장한 정제된 데이터인 정제 데이터를 예측 장치(200)로 출력한다.

상기 원시 데이터는 적어도 하나 이상의 변수 및 각 변수에 대한 필드 데이터들만 포함될 수도 있고, 적어도 하나 이상의 속성이 지정된 변수 또는 속성에 대한 필드 데이터들을 포함할 수도 있을 것이다.

데이터 정제 장치(100)의 상세 구성 및 동작은 다음의 도 2를 참조하여 설명한다.

예측 장치(200)는 해당 목적에 대응하는 예측 결과를 출력하는 예측 모델이 적용된 장치로, 상기 데이터 정제 장치(100)로부터 입력되는 정제 데이터를 예측 모델에 적용하여 예측 결과를 출력한다. 상기 예측 모델의 평가는 예측 정확도를 기반으로 수행되며, 정확도를 계산하기 위한 기본 방법으로 혼돈 행렬(Confusion Matrix)을 사용할 수 있을 것이다.

도 2는 본 발명에 따른 이형 데이터 기반 예측 시스템의 데이터 정제 장치의 상세 구성을 나타낸 도면이다.

도 2를 참조하면, 본 발명에 따른 데이터 정제 장치(100)는 속성 획득부(10), 분류부(20), 정규화부(40), 관계 분석부(50) 및 보정부(60)를 포함하고, 실시예에 따라 데이터 종류 검출부(30) 및 신뢰도 결정부(70)를 더 포함할 수 있을 것이다.

속성 획득부(10)는 원시 데이터를 입력받으며, 상기 원시 데이터에 속성이 포함되어 있지 않은 경우 관리자로부터 원시 데이터의 필드 데이터별로 속성을 입력 또는 예측 모델의 목적에 따라 미리 정의된 속성들로부터 선택받아 획득하고, 상기 원시 데이터에 속성별로 필드 데이터가 정의된 경우 원시 데이터로부터 각 필드 데이터에 대한 속성을 검출하여 획득하며, 획득된 필드 데이터별 속성을 분류부(20)로 출력한다.

분류부(20)는 상기 속성 획득부(10)로부터 필드별 속성을 입력받아 입력되는 원시 데이터를 속성별 필드 데이터로 분류한 제1정제 데이터를 데이터 종류 검출부(30) 및 정규화부(40)로 출력한다.

또한, 상기 분류부(20)는 원시 데이터의 특정 속성을 변경하고, 변경된 속성에 대한 필드 데이터로 변환할 수도 있을 것이다. 예를 들어 원시 데이터가 성적 속성을 포함하고, 상기 성적 속성의 필드 데이터의 값 형태가 점수로 정의된 경우, 상기 분류부(20)는 상기 원시 데이터의 속성 및 필드 데이터의 값 형태를 그대로 적용할 수도 있고, 성적 속성의 필드 데이터의 값 형태를 점수(예:90, 80,...등등)에서 등급(예: A, B,... 등등) 형태로 변환할 수도 있고, 성적 속성을 점수 속성 또는 등급 속성 등으로 변환하여 정의할 수도 있을 것이다. 이때, 원시 데이터는 그대로 두고 상기 변환된 속성 및 해석 데이터를 더 추가할 수도 있을 것이다. 즉 상기 제1정제 데이터는 원시 데이터, 변환 속성 및 해석 데이터를 포함하도록 구성될 수도 있을 것이다.

데이터 종류 검출부(30)는 상기 제1정제 데이터를 입력받고 속성별 필드 데이터의 데이터 종류(형태)를 검출하여 정규화부(40), 관계 분석부(50) 및 보정부(60)로 출력한다. 상기 데이터 종류는 수치형(numerical)과 범주형(Categorical)일 수 있을 것이다.

정규화부(40)는 상기 분류부(20)로부터 입력되는 제1정제 데이터의 속성별 필드 데이터를 정규화하고, 정규화된 속성별 필드 데이터를 포함하는 제2정제 데이터를 출력한다.

상기 정규화부(40)는 속성별 데이터 종류를 입력받아 정규화할 수 있으며, 상기 속성별 데이터 종류는 관리자의 입력에 의해 획득될 수도 있고, 데이터 종류 검출부(30)에 의해 획득될 수도 있을 것이다.

상기 정규화부(40)는 데이터의 종류에 따라 정규화를 수행하기 위해 수치형 정규화부(41) 및 범주형 정규화부(42)를 포함할 수 있을 것이다.

상기 수치형 정규화부(41)는 제1정제 데이터의 속성별 필드의 필드 데이터의 데이터 종류가 수치형인 경우 해당 필드 데이터를 수치형에 대응하는 정규화 방법으로 정규화하여 출력한다. 상기 정규화 방법으로는 평균과 표준편차를 이용하는 표준점수(Z-score) 등이 적용될 수 있을 것이다. 예를 들면, 국어는 100점 만점이고, 수학은 200점 만점일 때, A는 국어 50점 수학 190점을 맞았다고 가정하면, 기준이 다르므로 A가 국어를 잘하는지 수학을 잘하는지 판단하기 어렵다. 이를 해결하기 위해 A의 수학점수 및 국어 점수를 정규화하면, A의 수학 정규화 점수는 0.95이고, 국어 정규화 점수는 0.5임을 알 수 있으며, 수학 정규화 점수와 국어 정규화 점수를 직접 비교할 때 수학 정규화 점수가 크므로, A는 수학을 국어보다 더 잘함을 알 수 있다.

상기 범주형 정규화부(42)는 제1정제 데이터의 속성별 필드의 필드 데이터의 데이터 종류가 범주형인 경우 해당 필드 데이터를 범주형에 대응하는 정규화 방법으로 정규화하여 출력한다. 상기 정규화 방법으로는 인공지능 학습 방식이 적용될 수도 있고, 관리자 직접 입력방식이 적용될 수도 있을 것이다. 예를 들어, 범주형 정규화부(42)는 예측 장치(200)의 예측 모델에서 예측할 분야에 대응하는 필드 데이터의 범주에 대한 속성을 학습한 인공지능 모델이 정의되어 있어야 할 것이다. 예를 들면, 속성이 "주택피해"이고, 그 필드 데이터의 범주를 "유실, 매몰, 침수, 소파, 반파, 전파,...등"라고 한다면, 범주형 정규화부(42)는 상기 "유실, 매몰, 침수, 소파, 반파, 전파,..등"을 입력값으로 인공지능 모델에 입력하고, 그 결과값으로 "피해의 원인(유실, 매몰, 침수,..등)"과 "피해의 정도(소파, 반파, 전파,...등)"를 출력할 수 있을 것이다.

즉 범주형 정규화부(42)는 상기 "주택피해" 속성을 "피해의 원인" 속성 및 "피해의 정도" 속성으로 분리하여 정규화를 수행한다.

관계 분석부(50)는 수치형 관계 분석부(51) 및 범주형 관계 분석부(52)를 포함하여 상기 정규화부(40)로부터 입력되는 제2정제 데이터의 필드 데이터의 속성 간 관계를 분석하고, 속성 간의 관계 데이터를 생성한 후 상기 제2정제 데이터에 포함시킨 제3정제 데이터를 생성하여 출력한다.

즉, 관계 분석부(50)는 속성들 사이의 의미 관계를 분석한다. 속성들 사이의 의미 관계를 분석하는 이유는 예측 과정에서 사용 속성이 많다고 결과가 무조건 좋아지지 않으며, 사용 속성이 적다고 결과가 나빠지는 것이 아니기 때문이다. 오히려 속성이 많으면 계산 복잡도가 높아지고, 불필요한 속성이 사용되는 경우, 예측 잡음으로 동작해, 예측 결과의 정확도를 떨어트리게 된다. 속성이 적으면 계산 복잡도는 낮아지지만, 예측을 위한 데이터가 충분하지 않아서 예측 성능이 나빠지게 된다.

결국 적절한 수의 속성을 사용하는 것이 중요하며, 각각의 속성은 결과를 예측하는데 유의미한 정보를 제공할 수 있어야 하고, 결과와 연관된 속성이라면, 그 속성들 사이의 연관성도 존재할 가능성이 있다. 속성들 사이의 연관성이 존재한다면, 연관된 속성의 값이 결측되었을 때, 후술한 보정부(60)는 그 결측된 값을 추론하기 위한 연관규칙으로 상기 속성과 연관된 유관 속성의 필드 데이터를 적용할 수 있다.

수치형 관계 분석부(51)는 속성별 수치형 필드 데이터 간의 상관 계수 분석을 통하여 상관성을 확인하고, 확인된 상관 데이터를 생성하여 출력한다.

범주형 관계 분석부(52)는 선험적 분석론 등과 같은 연관규칙 분석을 통해 속성별 범주형 필드 데이터 간의 상관성을 확인하고, 확인된 상관 데이터를 생성하여 출력한다.

상기 상관 데이터는 제2정제 데이터와 함께 제3정제 데이터로 구성되어 출력될 것이다.

상기 관계 분석부(50)는 n개의 속성에 대해 2n의 경우에 대한 분석을 수행하여야 하므로 분석 횟수를 줄이기 위한 적절한 휴리스틱 규칙을 적용하는 것이 바람직할 것이다.

보정부(60)는 관계 분석부(50)에서 출력되는 제3정제 데이터를 입력받고 제3정제 데이터의 필드 중 데이터가 없는 필드, 즉 결측치를 검출하고, 검출된 결측치를 갖는 속성이 보정할 필요가 있는 속성인지의 여부를 판단하고, 보정할 필요가 있는 속성일 경우 결측치를 보정한 후, 결측치가 보정된 제4정제 데이터를 출력한다. 상기 보정부(60)는 결측치를 가지는 속성이 보정이 필요한 속성인지를 판단하기 위해 보정할 필요가 없는 무보정 속성 및 보정할 필요가 있는 보정 속성 중 어느 하나 이상을 정의하고 있어야 할 것이다.

상기 보정 방법으로는 결측치를 가지는 필드를 삭제하거나 결측치 삭제 방법, 결측치에 값을 추가하는 값 추가 방법 등이 있을 수 있다.

후자의 경우, 상술한 관계 분석부(50)에서 추가된 관계 데이터를 참조하여 상기 결측치를 가지는 속성과 유관 관계를 갖는 다른 속성의 필드 데이터 값을 고려하여 회귀분석을 통해 결측치를 보정할 수 있을 것이다.

상기 속성의 필드 데이터 종류가 수치형인 경우 보정부(60)는 해당 속성의 다른 필드 데이터들의 값의 평균값, 중간값, 최빈값 및 초기값 중 어느 하나로 결측치를 보정할 수도 있을 것이다.

또한, 보정부(60)는 내삽 혹은 외삽 방법을 사용해서 값을 보정할 수도 있을 것이다.

신뢰도 결정부(70)는상기 제4정제 데이터의 각 속성에 신뢰도를 설정하고, 신뢰도가 포함된 제5정제 데이터를 예측 장치(200)로 출력한다.

상기 속성은 참의 진리값을 갖고 있다고 가정되지만, 속성 자체의 신뢰도를 의심해야 하는 경우가 존재한다. 예를 들면, 1개월에 한 번씩 갱신되는 자료의 경우, 생성된 지 3주가 지난 정보는 당시 생성된 정보에 비해 낮은 신뢰도를 갖게 된다. 만약 그 속성이 "성별"처럼 시간의 흐름에 영향을 받지 않는 고정된 값이라면 신뢰도의 변화가 없을 것이나, 시간에 따른 가변성을 가진 속성이라면 상황 변화에 따른 신뢰도를 변경하는 것이 바람직할 것이다.

따라서 신뢰도 결정부(70)는 시간에 따른 가변성을 가지는 속성을 정의하고, 시간에 따른 가변성을 가지는 속성의 각 필드 데이터에 대한 생성 시간정보를 관리하며, 해당 속성의 필드 데이터에 대해 시간을 고려하여 신뢰도를 설정한다.

또한, 신뢰도 결정부(70)는 상기 보정부(60)에서 삽입된 보정 데이터는 실제 측정된 측정치보다 신뢰도가 낮도록 설정하는 것이 바람직할 것이다.

또한, 신뢰도 결정부(70)는 속성별 신뢰도 가중치를 정의하고 있으며, 이 가중치를 적용하여 신뢰도를 설정할 수도 있을 것이다.

도 3은 본 발명에 따른 이형 데이터 기반 예측 시스템의 데이터 정제 방법을 나타낸 흐름도이다.

도 3을 참조하면, 우선 데이터 정제 장치(100)는 데이터 정제 이벤트가 발생되는지를 검사한다(S111). 상기 데이터 정제 이벤트는 관리자의 데이터 정제 요청 시 또는 예측 요청 시 발생될 수 있을 것이다. 데이터 정제 이벤트가 발생되면 데이터 정제 장치(100)는 원시 데이터가 획득되는지를 검사한다(S113).

상기 데이터 정제 이벤트의 발생 여부 및 원시 데이터의 획득 여부는 속성 획득부(10) 및 분류부(20)가 판단할 수 있을 것이다.

원시 데이터가 획득되면 데이터 정제 장치(100)의 속성 획득부(10)는 입력되는 원시 데이터의 속성을 획득하여 분류부(20)로 출력하고, 분류부(20)는 속성 획득부(10)로부터 출력되는 속성에 근거하여 필드 데이터를 분류한다(S115).

속성별 필드 데이터가 분류되면 분류부(20)는 특정 속성에 대한 변경 이벤트가 발생되는지를 검사하고(S117), 변경 이벤트의 발생 시 변경할 속성이 입력되는지를 검사한다(S121).

속성 변경이 없는 것으로 판단되면 분류부(20)는 속성별로 분류된 필드 데이터만을 포함하는 제1정제 데이터를 데이터 종류 검출부(30) 및 정규화부(40)로 출력한다(S119).

반면, 변경할 속성이 입력되면 분류부(20)는 원시 데이터 해당 속성을 변경 속성으로 변경하고, 변경된 속성에 따른 해당 필드 데이터를 해석 데이터로 변경하여, 상기 변경된 속성 및 해석 데이터를 포함하는 제1정제 데이터를 데이터 종류 검출부(30) 및 정규화부(40)로 출력한다(S123). 상기 제1정제 데이터는 원시 데이터도 포함되는 것이 바람직할 것이다.

데이터 종류 검출부(30)는 분류부(20)로부터 제1정제 데이터가 입력되면 속성별 필드 데이터의 데이터 종류를 검출하여 정규화부(40), 관계 분석부(50) 및 보정부(60)로 출력한다(S125).

정규화부(40)는 분류부(20)로부터 제1정제 데이터가 입력되고, 데이터 종류 검출부(30)로부터 상기 제1정제 데이터에 대한 속성별 데이터 종류 정보가 입력되면 데이터 종류에 따라 해당 속성의 필드의 필드 데이터 값을 정규화하고, 정규화된 제2정제 데이터를 관계 분석부(50)로 출력한다(S127).

관계 분석부(50)는 정규화부(40)로부터 제2정제 데이터가 입력되면 데이터 종류 검출부(30)로부터 입력되는 필드 데이터의 데이터 종류에 따른 속성간 관계 데이터를 생성하고, 상기 속성간 관계 데이터를 포함하는 제3정제 데이터를 보정부(60)로 출력한다(S129). 상기 속성 간 관계 데이터 연관된 적어도 둘 이상의 속성들에 대한 정보를 포함할 것이다.

보정부(60)는 관계 분석부(50)로부터 제3정제 데이터가 입력되면 제3정제 데이터의 속성별 필드 중 필드 데이터가 없는, 즉 결측치를 가지는 필드가 존재하는지를 검사한다(S131).

결측치가 없으면 보정부(60)는 제3정제 데이터의 모든 속성에 대해 결측치 보정이 완료되었는지를 판단한다(S137).

반면, 결측치가 검출되면 보정부(60)는 이미 설정된 적어도 하나 이상의 무보정 속성 및 보정 속성 중 어느 하나 이상을 참조하여 상기 결측치에 대한 속성이 보정을 필요로 하는 속성인지를 판단한다(S133).

보정이 필요치 않은 속성인 것으로 판단되면 보정부(60)는 S139로 진행하고, 보정이 필요한 것으로 판단되면 결측치에 보정 데이터를 삽입하여 결측치를 보정한다(S135).

결측치의 보정 후 보정부(60)는 관계 분석부(50)로부터 입력된 제3정제 데이터의 보든 속성에 대한 결측치를 보정했는지를 판단하고(S137), 모든 속성에 대해 결측치를 보정했으면 보정된 제4정제 데이터를 신뢰도 결정부(70)로 출력한다.

신뢰도 결정부(70)는 보정부(60)로부터 제4정제 데이터가 입력되면 상기 제4정제 데이터의 속성들에 신뢰도를 결정하여 할당하고(S139), 정제가 완료된 제5정제 데이터를 예측 장치(200)로 출력하거나 저장수단(미도시)에 저장한다(S141).

한편, 본 발명은 전술한 전형적인 바람직한 실시예에만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 개량, 변경, 대체 또는 부가하여 실시할 수 있는 것임은 당해 기술분야에서 통상의 지식을 가진 자라면 용이하게 이해할 수 있을 것이다. 이러한 개량, 변경, 대체 또는 부가에 의한 실시가 이하의 첨부된 특허청구범위의 범주에 속하는 것이라면 그 기술사상 역시 본 발명에 속하는 것으로 보아야 한다.

10: 속성 획득부 20: 분류부
30: 데이터 종류 검출부 40: 정규화부
50: 관계 분석부 60: 보정부
70: 신뢰도 결정부 100: 데이터 정제 장치
200: 예측 장치

Claims

이형 데이터 기반 예측 시스템의 데이터 정제 장치에 있어서,
입력되는 원시 데이터에 포함된 적어도 하나 이상의 필드 데이터에 대한 속성을 획득하여 출력하는 속성 획득부;
상기 원시 데이터 및 상기 속성을 입력받아 상기 원시 데이터를 속성별 필드 데이터로 분류한 제1정제 데이터를 출력하는 분류부;
상기 분류부에서 분류된 상기 제1정제 데이터의 속성별 필드 데이터를 정규화한 제2정제 데이터를 출력하는 정규화부;
상기 정규화된 상기 제2정제 데이터의 필드 데이터별 속성 간 관계를 분석한 관계 데이터를 생성한 후 상기 관계 데이터를 상기 제2정제 데이터에 부가한 제3정제 데이터를 출력하는 관계 분석부; 및
상기 제3정제 데이터의 속성별 필드 데이터 중 결측치를 검출하고, 검출된 결측치를 가지는 필드 위치에 해당 속성에 대응하는 보정 데이터를 삽입한 제4정제 데이터를 출력하는 보정부를 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제1항에 있어서,
상기 제4정제 데이터의 각 속성에 대한 신뢰도를 획득하여 상기 제4정제 데이터의 속성에 맵핑 및 삽입한 제5정제 데이터를 예측 모델을 포함하는 예측 장치로 출력하는 신뢰도 결정부를 더 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제1항에 있어서,
상기 속성 획득부는,
입력되는 원시 데이터의 필드별로 문자를 인식하여 속성을 획득하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제2항에 있어서,
상기 분류부로부터 출력되는 상기 제1정제 데이터의 속성별 필드 데이터의 데이터 종류를 검출하고, 데이터 종류 데이터를 상기 정규화부, 관계 분석부 및 보정부로 출력하는 데이터 종류 검출부를 더 포함하되,
상기 정규화부는,
상기 속성별 데이터 종류를 반영하여 해당 필드 데이터를 정규화하고,
상기 관계 분석부는,
상기 속성별 데이터 종류를 반영하여 속성 간 관계를 분석하여 상기 관계 데이터를 생성하며,
상기 보정부는,
상기 속성별 데이터 종류를 반영하여 상기 결측치에 삽입할 상기 보정 데이터를 생성하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제4항에 있어서,
상기 관계 분석부는,
상기 데이터 종류가 수치형이면 상관 계수 분석을 수행하여 상기 관계 데이터를 생성하는 수치형 정규화부; 및
상기 데이터 종류가 범주형이면 연관규칙 분석을 수행하여 상기 관계 데이터를 생성하는 범주형 정규화부를 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제4항에 있어서,
상기 보정부는,
상기 제3정제 데이터의 속성과 이미 설정된 무보정 속성 중 하나인지를 검사하여 보정의 필요 여부를 판단하고, 무보정 속성이 아니면 상기 결측치를 보정하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제6항에 있어서,
상기 보정부는,
보정이 필요한 것으로 판단되고 상기 데이터 종류가 수치형이면 해당 속성의 평균값, 중간값, 최빈값 및 미리 정의된 초기값 중 어느 하나를 보정 데이터로 삽입하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
제6항에 있어서,
상기 보정부는,
보정이 필요한 것으로 판단되면 상기 결측치에 대응하는 해당 속성과 상기 관계 분석부를 통해 획득된 관계 데이터 중 상기 속성에 대한 유관 속성으로 정의된 속성이 있는지를 판단하고, 있으면 상기 유관 속성의 필드 데이터를 참조하여 결측치를 보정하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 장치.
데이터 정제 장치의 속성 획득부가 입력되는 원시 데이터에 포함된 적어도 하나 이상의 필드 데이터에 대한 속성을 획득하여 출력하는 속성 획득 과정;
데이터 정제 장치의 분류부가 상기 원시 데이터 및 상기 속성을 입력받아 상기 원시 데이터를 속성별 필드 데이터로 분류한 제1정제 데이터를 출력하는 분류 과정;
상기 데이터 정제 장치의 정규화부가 상기 분류부에서 분류된 상기 제1정제 데이터의 속성별 필드 데이터를 정규화한 제2정제 데이터를 출력하는 정규화 과정;
상기 데이터 정제 장치의 관계 분석부가 상기 정규화된 상기 제2정제 데이터의 필드 데이터별 속성 간 관계를 분석한 관계 데이터를 생성한 후 상기 관계 데이터를 상기 제2정제 데이터에 부가한 제3정제 데이터를 출력하는 관계 분석 과정; 및
상기 데이터 정제 장치의 보정부가 상기 제3정제 데이터의 속성별 필드 중 결측치를 검출하고, 검출된 결측치의 필드 위치에 해당 속성에 대응하는 보정 데이터를 삽입한 제4정제 데이터를 출력하는 보정 과정을 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제9항에 있어서,
신뢰도 결정부가 상기 제4정제 데이터의 각 속성에 대한 신뢰도를 획득하여 상기 제4정제 데이터의 속성에 맵핑 및 삽입한 제5정제 데이터를 예측 모델을 포함하는 예측 장치로 출력하는 신뢰도 결정 과정을 더 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제9항에 있어서,
상기 속성 획득부는,
입력되는 원시 데이터의 필드별로 문자를 인식하여 속성을 획득하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제10항에 있어서,
데이터 정제 장치의 데이터 종류 검출부가 상기 분류부로부터 출력되는 상기 제1정제 데이터의 속성별 필드 데이터의 데이터 종류를 검출하고, 데이터 종류 데이터를 상기 정규화부, 관계 분석부 및 보정부로 출력하는 데이터 종류 검출 과정을 더 포함하되,
상기 정규화 과정에서 상기 정규화부는, 상기 속성별 데이터 종류를 반영하여 해당 필드 데이터를 정규화하고,
상기 관계 분석 과정에서 관계 분석부는, 상기 속성별 데이터 종류를 반영하여 속성 간 관계를 분석하여 상기 관계 데이터를 생성하며,
상기 보정 과정에서 보정부는, 상기 속성별 데이터 종류를 반영하여 상기 결측치에 삽입할 상기 보정 데이터를 생성하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제12항에 있어서,
상기 관계 분석 과정은,
상기 관계 분석부가 상기 데이터 종류가 수치형이면 상관 계수 분석을 수행하여 상기 관계 데이터를 생성하는 수치형 관계 분석 단계; 및
상기 관계 분석부가 상기 데이터 종류가 범주형이면 연관규칙 분석을 수행하여 상기 관계 데이터를 생성하는 범주형 관계 분석 단계를 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제12항에 있어서,
상기 보정 과정은,
보정부가 상기 제3정제 데이터의 속성과 미리 설정된 무보정 속성 중 하나인지를 검사하여 보정의 필요 여부를 판단하는 보정 필요 판단 단계; 및
판단 결과 무보정 속성이 아니면 상기 결측치를 보정하는 보정 단계를 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제14항에 있어서,
상기 보정 단계는,
상기 보정부가 보정이 필요한 것으로 판단되고 상기 데이터 종류가 수치형이면 해당 속성의 평균값, 중간값, 최빈값 및 미리 정의된 초기값 중 어느 하나를 보정 데이터로 삽입하는 수치형 보정 단계를 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.
제14항에 있어서,
상기 보정 단계는,
상기 보정부가 보정이 필요한 것으로 판단되면 상기 결측치에 대응하는 해당 속성과 상기 관계 분석부를 통해 획득된 관계 데이터 중 상기 속성에 대한 유관 속성으로 정의된 속성이 있는지를 판단하는 유관 속성 존재 판단 단계; 및
상기 속성에 대응하는 유관 속성이 있으면 상기 보정부가 상기 유관 속성의 필드 데이터를 참조하여 결측치를 보정하는 유관 속성 보정 단계를 포함하는 것을 특징으로 하는 이형 데이터 기반 예측 시스템의 데이터 정제 방법.