KR20180066714A

KR20180066714A - 데이터에 내재된 문제점 제거를 통한 데이터 정제 장치 및 방법

Info

Publication number: KR20180066714A
Application number: KR1020160167862A
Authority: KR
Inventors: 정병준; 임준원; 임지현
Original assignee: 주식회사 뉴스젤리
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2018-06-19
Also published as: KR101964454B1

Abstract

본 발명의 일 실시예는 데이터를 읽어오는 데이터 획득부; 상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부; 검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및 상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고, 상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 것인 데이터 정제 장치를 제공한다.

Description

데이터에 내재된 문제점 제거를 통한 데이터 정제 장치 및 방법 {APPARATUS AND METHOD FOR REFINING DATA BY ELIMINATING PROBLEMS THAT IS INHERENT IN DATA}

본 발명은 데이터 정제 장치 및 방법에 관한 것으로, 더욱 상세하게는 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 테스트로써 데이터를 정제할 수 있는 장치 및 방법에 관한 것이다.

전 세계 국가에 인터넷이 보편화 되고 이를 통해 전달되는 데이터의 중요성이 날로 높아지고 있는 상황에서, 데이터 활용을 보다 효과적으로 수행하기 위한 다양한 기술들은 빠르게 발전하고 있다.

그러나, 데이터의 소스에 따라, 데이터 집단 내부에 다양한 종류의 오류값이 포함되어 있거나, 포멧이 상이한 데이터가 포함되어 있거나, 구조적인 문제가 내재되어 있는 경우가 많다.

이와 같은 문제점을 갖고 있는 데이터 집단은 활용에 앞서 정제가 필요하다.

하지만, 종래의 데이터 정제 기술들은 내부에 미리 설정되어 있는 데이터 기준 또는 표준과 입력된 데이터 집단과의 대비를 통해 오류값을 검출하는 방식을 사용했기 때문에, 정제할 수 있는 데이터 집단의 종류가 제한적이었다. 즉, 미리 설정되어 있는 데이터 기준 또는 표준과 대응이 가능한 형태의 데이터 집단들에 대해서만 정제 작업이 가능했다.

따라서, 데이터 집단의 종류나 형식에 구애받지 않고, 새로운 방식으로 데이터 집단에 내재된 문제점들을 발견하고 이를 해결할 수 있는 데이터 정제 기술이 요구된다.

한국 공개특허공보 제 2001-0041449 호 (2001년 05월 25일)

본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 테스트로써 데이터를 정제할 수 있는 장치 및 방법을 제공하는 것이다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면은 데이터를 읽어오는 데이터 획득부; 상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부; 검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및 상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고, 상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 것인 데이터 정제 장치를 제공한다.

일 실시예에 있어서, 상기 테스트부는 데이터 값의 오류 판단 모듈을 포함하고, 상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 테스트부는 데이터 포멧의 일관성 판단 모듈을 포함하고, 상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 테스트부는 데이터 구조문제 판단 모듈을 포함하고, 상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 테스트부는 데이터 복사 모듈, 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈을 포함하고, 상기 데이터 복사 모듈에 의해 복수의 데이터 복사본이 생성되고, 상기 데이터 복사본이 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈 각각에 할당되고, 상기 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈에서 동시에 테스트가 수행되는 것을 특징으로 하는 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것이고, 상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것이며, 상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 후처리는, 상기 문제점을 제거하는 방법을 도출하여, 사용자에게 제공하고, 사용자로부터 피드백을 받아 적어도 부분적으로 상기 피드백을 반영하여 상기 문제점을 제거하는 것을 특징으로 하는 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 후처리는, 상기 문제점을 제거하는 방법을 도출하고, 상기 방법과 미리 저장된 규칙에 의해 상기 문제점을 제거하여, 최종 데이터를 사용자에게 제공하는 것을 특징으로 하는 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 후처리는, 상기 필드 타입 중에서, 최대 비율의 필드 타입을 선정하고, 상기 오류 값을 상기 최대 비율의 필드 타입을 갖는 특정 값으로 대치하는 것인 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 후처리는, 상기 문제점으로 검출된 데이터 포멧을 상기 최대 비율의 포멧으로 변경하는 것인 데이터 정제 장치일 수 있다.

일 실시예에 있어서, 상기 후처리는, 상기 문제점으로 검출된 불연속적인 공백 영역을 제거하는 것인 데이터 정제 장치일 수 있다.

또한, 상기와 같은 목적을 달성하기 위해, 본 발명의 또 다른 일 측면은 a) 데이터를 읽어오는 데이터 획득 단계; b) 복수의 데이터 복사본을 생성하는 데이터 복사 단계; c) 상기 데이터 복사본을 할당받아서, 일 영역에 대해 데이터 셀의 필드 타입을 분석하고, 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터를 오류 값으로 분류하여 문제점으로 검출하는 데이터 값의 오류 판단 단계; d) 일 영역에 대해 데이터 셀의 포멧을 분석하고, 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터를 문제점으로 검출하는 데이터 포멧의 일관성 판단 단계; e) 일 영역에 대해 불연속적인 공백 영역을 문제점으로 검출하는 데이터 구조 문제 판단 단계; f) 상기 문제점을 사용자에게 시각적인 방법으로 표시하는 데이터 문제점 표시 단계; g) 상기 문제점을 제거하는 방법을 도출하는 데이터 문제점 제거 방법 도출 단계; 및 h) 사용자에게 도출된 상기 데이터 문제점 제거 방법을 제공하는 단계를 포함하는 데이터 정제 방법을 제공한다.

일 실시예에 있어서, 상기 h) 단계 이후에, i) 사용자의 피드백을 획득하여 적어도 부분적으로 이를 반영함으로써, 상기 데이터 문제점을 제거하는 단계를 더 포함하는 것을 특징으로 하는 데이터 정제 방법일 수 있다.

일 실시예에 있어서, 상기 h) 단계 대신에, h') 미리 저장된 규칙에 의해 상기 데이터 문제점을 제거하고, 최종 데이터를 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 데이터 정제 방법일 수 있다.

본 발명의 일 측면에 따르면, 데이터에 내재된 문제점 검출을 위해, 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의한 테스트를 수행하기 때문에, 데이터의 종류나 형식에 구애받지 않고 데이터 정제가 이루어질 수 있다.

본 발명의 다른 측면에 따르면, 데이터에 내재된 필드 타입 오류, 포멧의 일관성 결여, 구조문제를 데이터 자체에서 발견된 규칙으로 검출하고 제거할 수 있다.

본 발명의 다른 측면에 따르면, 데이터에 내재된 필드 타입 오류, 포멧의 일관성 결여, 구조문제를 동시에 검출하여 사용자가 시각적으로 인식할 수 있는 방법으로 표시하거나 제거할 수 있다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1 은 본 발명의 일 실시예에 의한 데이터 정제 장치를 나타내는 도면이다.
도 2 는 본 발명의 일 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.
도 3 은 본 발명의 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.
도 4 는 본 발명의 또 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.

설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 용어의 설명은 본 명세서의 이해를 돕기 위한 것으로서 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.

- 셀 (Cell)

스프레드시트 프로그램 등에서 데이터가 입력되는 기본 영역으로서, 스프레드시트의 기본적인 형태를 구성하는 가로와 세로 격자 모양인 행과 열의 상호 교차에 의해 만들어지는 사각형 영역이다.

- 필드 (Field)

컴퓨터의 명령어와 같은 일단의 데이터 중에서 고정된 위치의 범위를 의미한다. 예를 들어, 하나의 레코드 중에서 특정 종류의 데이터를 위해서 사용되는 지정된 영역을 의미할 수 있다.

- 포멧 (Format)

데이터 형식이라고도 하며, 데이터를 기억 또는 입출력하는 형태에 관한 규칙이다. 예를 들어, 자료가 파일 또는 레코드 안에서 실수 또는 정수 몇 바이트의 크기로 처리되는지를 나타내는 것 등이 있다.

- 컴퓨터 (Computer)

본 발명의 상세한 설명에서 기재하고 있는 데이터 정제를 수행하는 엔진을 실행할 수 있다. 일 실시예에서, 컴퓨터는 메모리나 서버, 인터넷 등과 같은 로컬 또는 원격 저장 장치로부터 데이터를 얻는다. 다른 실시예에서, 컴퓨터에서 실행되는 애플리케이션 프로그램을 사용하여 데이터가 컴퓨터에서 생성된다.

컴퓨터는 사용자 또는 기타 엔티티로부터 입력 또는 피드백을 얻어 이를 적용하도록 구성될 수 있다. 피드백은 출력에 관한 사용자 또는 기타 엔티티의 선호도를 이해하기 위해 컴퓨터에서 해석될 수 있다. 입력 또는 피드백은 사용자나 기타 엔티티로부터 직접 얻거나 및/또는 컴퓨터에 의해 생성될 수 있는 하나 이상의 프롬프트(prompt)에 대한 응답에서 얻을 수 있다. 이런 입력 또는 피드백에 기반하여, 컴퓨터는 정제가 완료된 최종 데이터를 추출할 수 있다. 또한, 컴퓨터는 나중의 사용을 위해 도출된 문제점을 제거하는 방법이 복수일 경우, 각 방법에 가중치를 부여하여 이를 메모리에 저장할 수 있다.

본 발명에서 설명되는 대상이 컴퓨터 시스템상의 운영 체제 및 응용 프로그램의 실행과 연계하여 실행되는 프로그램 모듈의 일반적인 범주에서 제시되지만, 본 기술분야에 관한 통상의 기술자는 다른 타입의 프로그램 모듈과 조합하여 다른 구현예들이 수행될 수 있음을 인지할 것이다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 컴포넌트, 데이터 구조, 그리고, 특정 작업을 수행하는 또는 특정 추상 데이터 타입을 구현하는 다른 타입의 구조를 포함한다. 나아가, 본 기술분야에 관한 통상의 기술자는 본원에서 설명되는 대상이 핸드-헬드 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 가전, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는, 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 이해할 것이다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1 은 본 발명의 일 실시예에 의한 데이터 정제 장치를 나타내는 도면이다.

도 1 을 참조하면, 본 발명의 일 실시예에 따른 데이터 정제 장치 (1000) 는 데이터 획득부 (100), 테스트부 (200), 데이터 문제점 표시부 (300) 및 데이터 처리부 (400) 를 포함한다.

데이터 획득부 (100) 는 데이터 정제 장치 (1000) 의 외부에서 데이터를 읽어올 수 있다.

테스트부 (200) 는 데이터를 테스트 함으로써, 데이터에 내재된 문제점이 검출될 수 있다.

테스트는 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행될 수 있다. 이로써, 데이터의 종류나 형식에 구애받지 않고 데이터 정제가 수행될 수 있다.

데이터 문제점 표시부 (300) 는 테스트를 통해 검출된 문제점을 사용자에게 표시할 수 있다. 문제점의 표시 방법은, 문제점이 존재하는 데이터 영역의 컬러를 변화시키거나, 셀 단위로 저장되어 있는 데이터의 경우 셀에 사각형 표시를 하는 방법일 수 있다. 하지만, 이에 한정되지 않고, 시각적인 방법이라면 모두 가능하다.

데이터 처리부 (400) 에서는 데이터의 후처리가 수행될 수 있다. 후처리는 테스트를 통해 검출된 문제점을 제거하는 방법을 도출하여, 사용자에게 제공할 수있다.

나아가, 이에 한하지 않고, 사용자로부터 피드백을 받아 적어도 부분적으로 상기 피드백을 반영하여 상기 문제점을 제거하는 방식으로도 수행될 수 있다.

한편, 문제점을 제거하는 방법이 복수개가 도출되는 경우, 각 방법에 가중치를 부여하여 순위를 매길 수 있고, 각 방법과 순위를 매칭시킨 상태로 사용자에게 제공할 수 있다.

본 발명의 일 실시예에 따른 테스트부 (200) 는 데이터 값의 오류 판단 모듈 (202) 을 포함한다.

데이터 값의 오류 판단 모듈 (202) 은 데이터의 분석을 통해 데이터 자체에서 규칙을 발견하고, 이를 바탕으로 테스트를 수행할 수 있다.

데이터 값의 오류 판단 모듈 (202) 에 의해 수행되는 규칙은 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 인식된 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 문제점으로 검출되는 것일 수 있다.

이로써, 미리 설정된 기준 또는 표준과 데이터를 대비하지 않고도, 데이터 셀 분석을 통해 데이터 자체에서 발견된 규칙으로 테스트가 수행될 수 있다.

따라서, 데이터의 종류나 형식과 무관하게, 필드 타입에 오류가 있는 데이터 셀이 분류됨으로써 데이터가 정제될 수 있다.

본 발명의 일 실시예에 따른 테스트부 (200) 는 데이터 포멧의 일관성 판단 모듈 (203) 을 포함한다.

데이터 포멧의 일관성 판단 모듈 (203) 역시 데이터의 분석을 통해 데이터 자체에서 규칙을 발견하고, 이를 바탕으로 테스트를 수행할 수 있다.

데이터 포멧의 일관성 판단 모듈 (203) 에 의해 수행되는 규칙은 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것일 수 있다.

이로써, 미리 설정된 기준 또는 표준 포멧과 입력된 데이터의 포멧을 대비하지 않고도, 데이터 셀 분석을 통해 데이터 자체에서 발견된 규칙으로 테스트가 수행될 수 있다.

따라서, 입력된 데이터에 대비가 불가능한 포멧이 포함되는 경우가 고려될 필요 없이, 테스트가 수행될 수 있고, 문제점이 검출될 수 있다.

본 발명의 일 실시예에 따른 테스트부 (200) 는 데이터 구조문제 판단 모듈 (204) 을 포함한다.

데이터 구조문제 판단 모듈 (204) 역시 데이터의 분석을 통해 데이터 자체에서 규칙을 발견하고, 이를 바탕으로 테스트를 수행할 수 있다.

데이터 구조문제 판단 모듈 (204) 에 의해 수행되는 규칙은 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것일 수 있다.

이로써, 데이터 자체에 대한 테스트를 통해 데이터 구조문제가 발견되고 문제점으로 검출될 수 있다.

따라서, 예상치 못한 구조문제가 존재하는 데이터에 대해서도 테스트가 수행될 수 있고, 문제점이 검출될 수 있다.

본 발명의 다른 실시예에 있어서, 테스트부 (200) 는 데이터 복사 모듈 (201), 데이터 값의 오류 판단 모듈 (202), 데이터 포멧의 일관성 판단 모듈 (203) 및 데이터 구조문제 판단 모듈 (204) 을 포함한다.

데이터 복사 모듈 (201) 에 의해 복수의 데이터 복사본이 생성될 수 있고, 상기 데이터 복사본은 데이터 값의 오류 판단 모듈 (202), 데이터 포멧의 일관성 판단 모듈 (203) 및 데이터 구조문제 판단 모듈 (204) 각각에 할당될 수 있다.

이 경우, 데이터 값의 오류 판단 모듈 (202), 데이터 포멧의 일관성 판단 모듈 (203) 및 데이터 구조문제 판단 모듈 (204) 에서 동시에 각각의 모듈에 따른 테스트가 수행될 수 있다.

따라서, 데이터에 예상되는 문제점들이 동시에 그리고 신속하게 검출될 수 있다.

그리고, 데이터로부터 검출된 문제점들 모두가 데이터 문제점 표시부 (300) 에 표시되어, 사용자는 데이터 상에 존재하는 문제점들을 일견에 인식할 수 있다.

상기 데이터 값의 오류 판단 모듈 (202) 에 의해 수행되는 상기 규칙은, 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것일 수 있다.

상기 데이터 포멧의 일관성 판단 모듈 (203) 에 의해 수행되는 상기 규칙은, 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것일 수 있다.

상기 데이터 구조문제 판단 모듈 (204) 에 의해 수행되는 상기 규칙은, 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것일 수 있다.

본 발명의 다른 실시예 따른 데이터 처리부 (400) 에서 수행되는 후처리는, 테스트를 통해 검출된 문제점을 제거하는 방법을 도출하고, 상기 방법과 미리 저장된 규칙에 의해 상기 문제점을 제거하여, 최종 데이터를 사용자에게 제공하는 것일 수 있다.

이로써, 사용자는 추가적인 가공 없이도 활용이 가능한 정제된 데이터를 획득할 수 있다.

본 발명의 일 실시예에 따른 데이터 처리부 (400) 에서 수행되는 후처리는,데이터 셀들의 필드 타입 중에서, 최대 비율의 필드 타입을 선정하고, 데이터 값의 오류 판단 모듈 (202) 에 의해 검출된 오류 값을 상기 최대 비율의 필드 타입을 갖는 특정 값으로 대치하는 것일 수 있다.

이로써, 필드 타입 오류 값을 갖는 데이터 셀이 정제될 수 있다.

본 발명의 일 실시예에 따른 데이터 처리부 (400) 에서 수행되는 후처리는, 테스트를 통해 문제점으로 검출된 데이터 포멧을 테스트에 따라 결정된 최대 비율의 포멧으로 변경하는 것일 수 있다.

이로써, 포멧의 일관성이 결여된 데이터가 정제될 수 있다.

본 발명의 일 실시예에 따른 데이터 처리부 (400) 에서 수행되는 후처리는,테스트를 통해 문제점으로 검출된 불연속적인 공백 영역을 제거하는 것일 수 있다.

이로써, 구조문제가 존재하는 데이터가 정제될 수 있다.

도 2 는 본 발명의 일 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.

도 2 를 참조하면, 본 발명의 일 실시예에 따른 데이터 정제 방법은, a) 데이터를 읽어오는 데이터 획득 단계 (S101a); b) 복수의 데이터 복사본을 생성하는 데이터 복사 단계 (S102a); c) 상기 데이터 복사본을 할당받아서, 일 영역에 대해 데이터 셀의 필드 타입을 분석하고, 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터를 오류 값으로 분류하여 문제점으로 검출하는 데이터 값의 오류 판단 단계 (S201a); d) 일 영역에 대해 데이터 셀의 포멧을 분석하고, 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터를 문제점으로 검출하는 데이터 포멧의 일관성 판단 단계 (S202a); e) 일 영역에 대해 불연속적인 공백 영역을 문제점으로 검출하는 데이터 구조 문제 판단단계 (S203a); f) 상기 문제점을 사용자에게 시각적인 방법으로 표시하는 데이터 문제점 표시 단계 (S300a); g) 상기 문제점을 제거하는 방법을 도출하는 데이터 문제점 제거 방법 도출 단계 (S401a); 및 h) 사용자에게 도출된 상기 데이터 문제점 제거 방법을 제공하는 단계 (S402a)를 포함한다.

상기 c) 내지 e) 단계는 순서가 바뀌어 실시될 수 있으며, 바람직하게는 동시에 실시될 수 있다.

c) 내지 e) 단계가 동시에 실시되는 경우, 데이터 정제가 신속하게 이루어질 수 있다.

도 3 은 본 발명의 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.

도 3 을 참조하면, 본 발명의 다른 실시예에 따른 데이터 정제 방법은, 상기 h) 단계 이후에, i) 사용자의 피드백을 획득하여 적어도 부분적으로 이를 반영함으로써, 상기 데이터 문제점을 제거하는 단계 (S403b) 를 더 포함한다.

이로써, 사용자가 활용하고자 하는 영역에 보다 부합되는 정제된 데이터가 생산될 수 있다.

도 4 는 본 발명의 또 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.

도 4 를 참조하면, 본 발명의 또 다른 실시예에 따른 데이터 정제 방법은, 상기 h) 단계 대신에, h') 미리 저장된 규칙에 의해 상기 데이터 문제점을 제거하고, 최종 데이터를 사용자에게 제공하는 단계 (S402c) 를 포함한다.

이로써, 사용자의 개입 없이, 사용자가 추가적인 가공 없이 바로 활용할 수 있는 정제된 데이터가 생산될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 데이터 획득부 200 : 테스트부
201 : 데이터 복사 모듈 202 : 데이터 값의 오류 판단 모듈
203 : 데이터 포멧의 일관성 판단 모듈
204 : 데이터 구조문제 판단 모듈
300 : 데이터 문제점 표시부
400 : 데이터 처리부

Claims

데이터를 읽어오는 데이터 획득부;
상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부;
검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및
상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고,
상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 것인 데이터 정제 장치.
제 1 항에 있어서,
상기 테스트부는 데이터 값의 오류 판단 모듈을 포함하고,
상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은,
상기 데이터에서 테스트가 수행되는 일 영역이 설정되고,
상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고,
상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고,
상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것인 데이터 정제 장치.
제 1 항에 있어서,
상기 테스트부는 데이터 포멧의 일관성 판단 모듈을 포함하고,
상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은,
상기 데이터에서 테스트가 수행되는 일 영역이 설정되고,
상기 일 영역 내부 셀들 전체의 포멧이 인식되고,
상기 포멧 중에서, 최대 비율의 포멧이 선정되고,
상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것인 데이터 정제 장치.
제 1 항에 있어서,
상기 테스트부는 데이터 구조문제 판단 모듈을 포함하고,
상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은,
상기 데이터에서 테스트가 수행되는 일 영역이 설정되고,
상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치.
제 1 항에 있어서,
상기 테스트부는 데이터 복사 모듈, 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈을 포함하고,
상기 데이터 복사 모듈에 의해 복수의 데이터 복사본이 생성되고,
상기 데이터 복사본이 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈 각각에 할당되고,
상기 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈에서 동시에 테스트가 수행되는 것을 특징으로 하는 데이터 정제 장치.
제 5 항에 있어서,
상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것이고,
상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것이며,
상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치.
제 1 항에 있어서,
상기 후처리는,
상기 문제점을 제거하는 방법을 도출하여, 사용자에게 제공하고,
사용자로부터 피드백을 받아 적어도 부분적으로 상기 피드백을 반영하여 상기 문제점을 제거하는 것을 특징으로 하는 데이터 정제 장치.
제 1 항에 있어서,
상기 후처리는,
상기 문제점을 제거하는 방법을 도출하고,
상기 방법과 미리 저장된 규칙에 의해 상기 문제점을 제거하여, 최종 데이터를 사용자에게 제공하는 것을 특징으로 하는 데이터 정제 장치.
제 2 항에 있어서,
상기 후처리는,
상기 필드 타입 중에서, 최대 비율의 필드 타입을 선정하고,
상기 오류 값을 상기 최대 비율의 필드 타입을 갖는 특정 값으로 대치하는 것인 데이터 정제 장치.
제 3 항에 있어서,
상기 후처리는,
상기 문제점으로 검출된 데이터 포멧을 상기 최대 비율의 포멧으로 변경하는 것인 데이터 정제 장치.
제 4 항에 있어서,
상기 후처리는,
상기 문제점으로 검출된 불연속적인 공백 영역을 제거하는 것인 데이터 정제 장치.
a) 데이터를 읽어오는 데이터 획득 단계;
b) 복수의 데이터 복사본을 생성하는 데이터 복사 단계;
c) 상기 데이터 복사본을 할당받아서, 일 영역에 대해 데이터 셀의 필드 타입을 분석하고, 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터를 오류 값으로 분류하여 문제점으로 검출하는 데이터 값의 오류 판단 단계;
d) 일 영역에 대해 데이터 셀의 포멧을 분석하고, 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터를 문제점으로 검출하는 데이터 포멧의 일관성 판단 단계;
e) 일 영역에 대해 불연속적인 공백 영역을 문제점으로 검출하는 데이터 구조 문제 판단 단계;
f) 상기 문제점을 사용자에게 시각적인 방법으로 표시하는 데이터 문제점 표시 단계;
g) 상기 문제점을 제거하는 방법을 도출하는 데이터 문제점 제거 방법 도출 단계; 및
h) 사용자에게 도출된 상기 데이터 문제점 제거 방법을 제공하는 단계를 포함하는 데이터 정제 방법.
제 12 항에 있어서,
상기 h) 단계 이후에,
i) 사용자의 피드백을 획득하여 적어도 부분적으로 이를 반영함으로써, 상기 데이터 문제점을 제거하는 단계를 더 포함하는 것을 특징으로 하는 데이터 정제 방법.
제 12 항에 있어서,
상기 h) 단계 대신에,
h') 미리 저장된 규칙에 의해 상기 데이터 문제점을 제거하고, 최종 데이터를 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 데이터 정제 방법.