KR101964454B1 - Apparatus and method for refining data by eliminating problems that is inherent in data - Google Patents

Apparatus and method for refining data by eliminating problems that is inherent in data Download PDF

Info

Publication number
KR101964454B1
KR101964454B1 KR1020160167862A KR20160167862A KR101964454B1 KR 101964454 B1 KR101964454 B1 KR 101964454B1 KR 1020160167862 A KR1020160167862 A KR 1020160167862A KR 20160167862 A KR20160167862 A KR 20160167862A KR 101964454 B1 KR101964454 B1 KR 101964454B1
Authority
KR
South Korea
Prior art keywords
data
format
determination module
test
area
Prior art date
Application number
KR1020160167862A
Other languages
Korean (ko)
Other versions
KR20180066714A (en
Inventor
정병준
임준원
임지현
Original Assignee
주식회사 뉴스젤리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뉴스젤리 filed Critical 주식회사 뉴스젤리
Priority to KR1020160167862A priority Critical patent/KR101964454B1/en
Publication of KR20180066714A publication Critical patent/KR20180066714A/en
Application granted granted Critical
Publication of KR101964454B1 publication Critical patent/KR101964454B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers

Abstract

본 발명의 일 실시예는 데이터를 읽어오는 데이터 획득부; 상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부; 검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및 상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고, 상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 것인 데이터 정제 장치를 제공한다.According to an embodiment of the present invention, there is provided an information processing apparatus including: a data acquisition unit for reading data; A test unit for detecting a problem inherent in the data by testing the data; A data problem display unit for displaying the detected problem to a user; And a data processing unit for performing post-processing of the data, wherein the test is performed by rules found in the data itself through analysis of the data.

Description

데이터에 내재된 문제점 제거를 통한 데이터 정제 장치 및 방법 {APPARATUS AND METHOD FOR REFINING DATA BY ELIMINATING PROBLEMS THAT IS INHERENT IN DATA}TECHNICAL FIELD [0001] The present invention relates to an apparatus and method for data refinement by eliminating problems inherent in data,

본 발명은 데이터 정제 장치 및 방법에 관한 것으로, 더욱 상세하게는 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 테스트로써 데이터를 정제할 수 있는 장치 및 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an apparatus and method for purifying data, and more particularly, to an apparatus and method for purifying data with a test performed by a rule found in the data itself through analysis of data.

전 세계 국가에 인터넷이 보편화 되고 이를 통해 전달되는 데이터의 중요성이 날로 높아지고 있는 상황에서, 데이터 활용을 보다 효과적으로 수행하기 위한 다양한 기술들은 빠르게 발전하고 있다.As the Internet is becoming more popular in countries around the world and the importance of the data delivered to them is becoming increasingly important, a variety of technologies are being developed rapidly to better utilize data.

그러나, 데이터의 소스에 따라, 데이터 집단 내부에 다양한 종류의 오류값이 포함되어 있거나, 포멧이 상이한 데이터가 포함되어 있거나, 구조적인 문제가 내재되어 있는 경우가 많다.However, depending on the source of the data, it is often the case that various kinds of error values are included in the data group, the data in different formats are included, or structural problems are inherent in many cases.

이와 같은 문제점을 갖고 있는 데이터 집단은 활용에 앞서 정제가 필요하다.Data groups with these problems need to be refined prior to use.

하지만, 종래의 데이터 정제 기술들은 내부에 미리 설정되어 있는 데이터 기준 또는 표준과 입력된 데이터 집단과의 대비를 통해 오류값을 검출하는 방식을 사용했기 때문에, 정제할 수 있는 데이터 집단의 종류가 제한적이었다. 즉, 미리 설정되어 있는 데이터 기준 또는 표준과 대응이 가능한 형태의 데이터 집단들에 대해서만 정제 작업이 가능했다.However, since the conventional data refinement techniques use a method of detecting an error value through comparison of a data reference or a standard set in advance with an input data group, the kinds of data groups that can be refined are limited . In other words, it was possible to perform refinement only for data groups of a type that can correspond to a preset data criterion or a standard.

따라서, 데이터 집단의 종류나 형식에 구애받지 않고, 새로운 방식으로 데이터 집단에 내재된 문제점들을 발견하고 이를 해결할 수 있는 데이터 정제 기술이 요구된다.Therefore, there is a need for a data refinement technique that can detect problems inherent in a data group in a new way and resolve them, regardless of the type and format of the data group.

한국 공개특허공보 제 2001-0041449 호 (2001년 05월 25일)Korean Patent Publication No. 2001-0041449 (May 25, 2001)

본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 테스트로써 데이터를 정제할 수 있는 장치 및 방법을 제공하는 것이다.It is an object of the present invention to provide an apparatus and method capable of refining data with a test performed by a rule found in the data itself through analysis of the data .

상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면은 데이터를 읽어오는 데이터 획득부; 상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부; 검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및 상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고, 상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되는 것인 데이터 정제 장치를 제공한다.In order to accomplish the above object, one aspect of the present invention provides a data acquisition unit for reading data; A test unit for detecting a problem inherent in the data by testing the data; A data problem display unit for displaying the detected problem to a user; And a data processing unit for performing post-processing of the data, wherein the test is performed by rules found in the data itself through analysis of the data.

일 실시예에 있어서, 상기 테스트부는 데이터 값의 오류 판단 모듈을 포함하고, 상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.In one embodiment, the test unit includes a data value error determination module, wherein the rule performed by the error value determination module of the data value is configured to set a region in which the test is performed in the data, A field type of the entire internal cells is recognized, a field type of the minimum ratio is selected from among the field types, and data inputted to a cell having the field type of the minimum ratio is classified as an error value, Lt; / RTI >

일 실시예에 있어서, 상기 테스트부는 데이터 포멧의 일관성 판단 모듈을 포함하고, 상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.In one embodiment, the test unit includes a data format consistency determination module, wherein the rules performed by the consistency determination module of the data format are configured such that one area in which the test is performed in the data is set, Wherein the format of the entire internal cells is recognized and data entered into the cell having a format different from the format of the maximum rate is selected as the problem in the format of the maximum rate format selected .

일 실시예에 있어서, 상기 테스트부는 데이터 구조문제 판단 모듈을 포함하고, 상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.In one embodiment, the test unit includes a data structure problem determination module, wherein the rule performed by the data structure problem determination module is configured such that one region in which the test is performed in the data is set, A discontinuous blank area recognized in the data is detected as the problem.

일 실시예에 있어서, 상기 테스트부는 데이터 복사 모듈, 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈을 포함하고, 상기 데이터 복사 모듈에 의해 복수의 데이터 복사본이 생성되고, 상기 데이터 복사본이 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈 각각에 할당되고, 상기 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈에서 동시에 테스트가 수행되는 것을 특징으로 하는 데이터 정제 장치일 수 있다.In one embodiment, the test unit includes a data copy module, a data value error determination module, a data format consistency determination module, and a data structure problem determination module. The data copy module generates a plurality of data copies, Wherein the data copy is allocated to each of a data value error determination module, a data format consistency determination module, and a data structure problem determination module, and the data determination module, the data format consistency determination module, And a test is performed.

일 실시예에 있어서, 상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것이고, 상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것이며, 상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치일 수 있다.In one embodiment, the rule performed by the error determination module of the data value may include an area where a test is performed in the data, a field type of the entire one of the inner cells is recognized, The data type of the minimum rate field type is selected and the data input to the cell having the field type of the minimum rate is classified as an error value to thereby detect the problem. A rule is set such that one area in which the test is performed in the data is set, a format of all the cells in one area is recognized, a maximum ratio format is selected from the format, and a format different from the maximum ratio format The data input to the cell is detected as the problem, and the data structure problem determination module The rules that line, the one area, the test is performed on the data are set, a discontinuous free area is recognized from the work area inside the cells may be in the data cleaning device it will be detected by the above problems.

일 실시예에 있어서, 상기 후처리는, 상기 문제점을 제거하는 방법을 도출하여, 사용자에게 제공하고, 사용자로부터 피드백을 받아 적어도 부분적으로 상기 피드백을 반영하여 상기 문제점을 제거하는 것을 특징으로 하는 데이터 정제 장치일 수 있다.In one embodiment, the post-processing further comprises deriving a method for eliminating the problem, providing the user with the feedback, and receiving the feedback from the user to at least partially reflect the feedback to eliminate the problem. Device.

일 실시예에 있어서, 상기 후처리는, 상기 문제점을 제거하는 방법을 도출하고, 상기 방법과 미리 저장된 규칙에 의해 상기 문제점을 제거하여, 최종 데이터를 사용자에게 제공하는 것을 특징으로 하는 데이터 정제 장치일 수 있다.In one embodiment, the post-processing derives a method for eliminating the problem and removes the problem by the method and pre-stored rules to provide the final data to the user. .

일 실시예에 있어서, 상기 후처리는, 상기 필드 타입 중에서, 최대 비율의 필드 타입을 선정하고, 상기 오류 값을 상기 최대 비율의 필드 타입을 갖는 특정 값으로 대치하는 것인 데이터 정제 장치일 수 있다.In one embodiment, the post-processing may be a data refining device that selects a field type with a maximum ratio among the field types and replaces the error value with a specific value having the field type of the maximum rate .

일 실시예에 있어서, 상기 후처리는, 상기 문제점으로 검출된 데이터 포멧을 상기 최대 비율의 포멧으로 변경하는 것인 데이터 정제 장치일 수 있다.In one embodiment, the post-processing may be a data refining device that changes the detected data format to the maximum rate format.

일 실시예에 있어서, 상기 후처리는, 상기 문제점으로 검출된 불연속적인 공백 영역을 제거하는 것인 데이터 정제 장치일 수 있다.In one embodiment, the post-processing may be a data cleansing device that removes the discontinuous blank areas detected as the problem.

또한, 상기와 같은 목적을 달성하기 위해, 본 발명의 또 다른 일 측면은 a) 데이터를 읽어오는 데이터 획득 단계; b) 복수의 데이터 복사본을 생성하는 데이터 복사 단계; c) 상기 데이터 복사본을 할당받아서, 일 영역에 대해 데이터 셀의 필드 타입을 분석하고, 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터를 오류 값으로 분류하여 문제점으로 검출하는 데이터 값의 오류 판단 단계; d) 일 영역에 대해 데이터 셀의 포멧을 분석하고, 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터를 문제점으로 검출하는 데이터 포멧의 일관성 판단 단계; e) 일 영역에 대해 불연속적인 공백 영역을 문제점으로 검출하는 데이터 구조 문제 판단 단계; f) 상기 문제점을 사용자에게 시각적인 방법으로 표시하는 데이터 문제점 표시 단계; g) 상기 문제점을 제거하는 방법을 도출하는 데이터 문제점 제거 방법 도출 단계; 및 h) 사용자에게 도출된 상기 데이터 문제점 제거 방법을 제공하는 단계를 포함하는 데이터 정제 방법을 제공한다.In order to accomplish the above object, another aspect of the present invention provides a method of manufacturing a semiconductor device, comprising: a) obtaining data for reading data; b) a data copying step of generating a plurality of copies of data; c) analyzing a field type of the data cell with respect to one area by receiving the data copy, classifying the data input into the cell having the minimum ratio field type as an error value, ; d) analyzing a format of a data cell with respect to one area, and detecting data inputted to a cell having a format different from a maximum ratio format as a problem; e) a data structure problem determination step of detecting a discontinuous blank area as a problem for one area; f) displaying a data problem for displaying the problem to a user in a visual manner; g) deriving a data problem removal method for deriving a method for eliminating the problem; And h) providing the user with a method for removing the data problem derived from the data.

일 실시예에 있어서, 상기 h) 단계 이후에, i) 사용자의 피드백을 획득하여 적어도 부분적으로 이를 반영함으로써, 상기 데이터 문제점을 제거하는 단계를 더 포함하는 것을 특징으로 하는 데이터 정제 방법일 수 있다.In one embodiment, after step h), the method may further comprise: i) removing the data problem by obtaining and at least partially reflecting the feedback of the user.

일 실시예에 있어서, 상기 h) 단계 대신에, h') 미리 저장된 규칙에 의해 상기 데이터 문제점을 제거하고, 최종 데이터를 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 데이터 정제 방법일 수 있다.In one embodiment, instead of the step h), h ') removing the data problem by a pre-stored rule and providing the final data to the user.

본 발명의 일 측면에 따르면, 데이터에 내재된 문제점 검출을 위해, 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의한 테스트를 수행하기 때문에, 데이터의 종류나 형식에 구애받지 않고 데이터 정제가 이루어질 수 있다.According to an aspect of the present invention, since the test based on rules found in the data itself is performed through analysis of data to detect a problem inherent in the data, the data can be refined regardless of the type and format of the data have.

본 발명의 다른 측면에 따르면, 데이터에 내재된 필드 타입 오류, 포멧의 일관성 결여, 구조문제를 데이터 자체에서 발견된 규칙으로 검출하고 제거할 수 있다.According to another aspect of the present invention, field type errors inherent in data, inconsistency in format consistency, and structure problems can be detected and removed by rules found in the data itself.

본 발명의 다른 측면에 따르면, 데이터에 내재된 필드 타입 오류, 포멧의 일관성 결여, 구조문제를 동시에 검출하여 사용자가 시각적으로 인식할 수 있는 방법으로 표시하거나 제거할 수 있다.According to another aspect of the present invention, a field type error inherent in data, an inconsistency in format consistency, and a structure problem can be simultaneously detected and displayed or removed in a visually recognizable manner by a user.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.It should be understood that the effects of the present invention are not limited to the above effects and include all effects that can be deduced from the detailed description of the present invention or the configuration of the invention described in the claims.

도 1 은 본 발명의 일 실시예에 의한 데이터 정제 장치를 나타내는 도면이다.
도 2 는 본 발명의 일 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.
도 3 은 본 발명의 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.
도 4 는 본 발명의 또 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.
1 is a view showing a data purifying apparatus according to an embodiment of the present invention.
2 is a flowchart for explaining a data refinement method according to an embodiment of the present invention.
3 is a flowchart for explaining a data refining method according to another embodiment of the present invention.
4 is a flowchart for explaining a data refinement method according to another embodiment of the present invention.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "indirectly connected" . Also, when an element is referred to as "comprising ", it means that it can include other elements, not excluding other elements unless specifically stated otherwise.

설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 용어의 설명은 본 명세서의 이해를 돕기 위한 것으로서 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.Prior to explanation, the meaning of terms used in this specification will be briefly described. It should be noted that the description of the term is provided for the purpose of helping understanding of the specification and is not used to limit the technical idea of the present invention unless explicitly stated as a limitation of the present invention.

- 셀 (Cell)- Cell

스프레드시트 프로그램 등에서 데이터가 입력되는 기본 영역으로서, 스프레드시트의 기본적인 형태를 구성하는 가로와 세로 격자 모양인 행과 열의 상호 교차에 의해 만들어지는 사각형 영역이다.Is a basic area into which data is input in a spreadsheet program or the like and is a rectangular area formed by mutual intersection of rows and columns which are horizontal and vertical grid shapes constituting a basic form of spreadsheet.

- 필드 (Field)- Field

컴퓨터의 명령어와 같은 일단의 데이터 중에서 고정된 위치의 범위를 의미한다. 예를 들어, 하나의 레코드 중에서 특정 종류의 데이터를 위해서 사용되는 지정된 영역을 의미할 수 있다.Means a range of fixed positions in a set of data such as a computer command. For example, it may refer to a designated area used for a certain kind of data in one record.

- 포멧 (Format)- Format

데이터 형식이라고도 하며, 데이터를 기억 또는 입출력하는 형태에 관한 규칙이다. 예를 들어, 자료가 파일 또는 레코드 안에서 실수 또는 정수 몇 바이트의 크기로 처리되는지를 나타내는 것 등이 있다.It is also referred to as a data format, and is a rule regarding the form of storing or inputting / outputting data. For example, to indicate how many bytes of data are treated as real or integer in a file or record.

- 컴퓨터 (Computer)- Computer

본 발명의 상세한 설명에서 기재하고 있는 데이터 정제를 수행하는 엔진을 실행할 수 있다. 일 실시예에서, 컴퓨터는 메모리나 서버, 인터넷 등과 같은 로컬 또는 원격 저장 장치로부터 데이터를 얻는다. 다른 실시예에서, 컴퓨터에서 실행되는 애플리케이션 프로그램을 사용하여 데이터가 컴퓨터에서 생성된다. It is possible to implement an engine that performs the data purification described in the detailed description of the present invention. In one embodiment, the computer obtains data from a local or remote storage device, such as a memory or server, the Internet, or the like. In another embodiment, data is generated in a computer using an application program running on the computer.

컴퓨터는 사용자 또는 기타 엔티티로부터 입력 또는 피드백을 얻어 이를 적용하도록 구성될 수 있다. 피드백은 출력에 관한 사용자 또는 기타 엔티티의 선호도를 이해하기 위해 컴퓨터에서 해석될 수 있다. 입력 또는 피드백은 사용자나 기타 엔티티로부터 직접 얻거나 및/또는 컴퓨터에 의해 생성될 수 있는 하나 이상의 프롬프트(prompt)에 대한 응답에서 얻을 수 있다. 이런 입력 또는 피드백에 기반하여, 컴퓨터는 정제가 완료된 최종 데이터를 추출할 수 있다. 또한, 컴퓨터는 나중의 사용을 위해 도출된 문제점을 제거하는 방법이 복수일 경우, 각 방법에 가중치를 부여하여 이를 메모리에 저장할 수 있다.The computer may be configured to receive input or feedback from a user or other entity and apply it. Feedback can be interpreted in the computer to understand the preferences of the user or other entity for the output. Input or feedback may be obtained from a response to one or more prompts that may be obtained directly from a user or other entity and / or generated by a computer. Based on this input or feedback, the computer can extract the final data for which the purification has been completed. In addition, when there are a plurality of methods for eliminating the problems for later use, the computer can weight each method and store it in a memory.

본 발명에서 설명되는 대상이 컴퓨터 시스템상의 운영 체제 및 응용 프로그램의 실행과 연계하여 실행되는 프로그램 모듈의 일반적인 범주에서 제시되지만, 본 기술분야에 관한 통상의 기술자는 다른 타입의 프로그램 모듈과 조합하여 다른 구현예들이 수행될 수 있음을 인지할 것이다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 컴포넌트, 데이터 구조, 그리고, 특정 작업을 수행하는 또는 특정 추상 데이터 타입을 구현하는 다른 타입의 구조를 포함한다. 나아가, 본 기술분야에 관한 통상의 기술자는 본원에서 설명되는 대상이 핸드-헬드 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 가전, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는, 다른 컴퓨터 시스템 구성으로 실시될 수 있음을 이해할 것이다.Although the subject matter described herein is presented in the general context of program modules that are implemented in connection with the execution of an operating system and an application program on a computer system, one of ordinary skill in the art will understand that other implementations It will be appreciated that the examples may be performed. Generally, program modules include routines, programs, components, data structures, and other types of structures that perform particular tasks or implement particular abstract data types. Further, those skilled in the art will appreciate that the subject matter described herein may be practiced in other computer systems, including hand-held devices, multiprocessor systems, microprocessor-based or programmable consumer electronics, minicomputers, mainframe computers, It will be understood that the invention may be practiced in various other forms.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 본 발명의 일 실시예에 의한 데이터 정제 장치를 나타내는 도면이다.1 is a view showing a data purifying apparatus according to an embodiment of the present invention.

도 1 을 참조하면, 본 발명의 일 실시예에 따른 데이터 정제 장치 (1000) 는 데이터 획득부 (100), 테스트부 (200), 데이터 문제점 표시부 (300) 및 데이터 처리부 (400) 를 포함한다.Referring to FIG. 1, a data refining apparatus 1000 according to an embodiment of the present invention includes a data acquiring unit 100, a testing unit 200, a data problem display unit 300, and a data processing unit 400.

데이터 획득부 (100) 는 데이터 정제 장치 (1000) 의 외부에서 데이터를 읽어올 수 있다.The data acquiring unit 100 can read data from outside the data refining apparatus 1000.

테스트부 (200) 는 데이터를 테스트 함으로써, 데이터에 내재된 문제점이 검출될 수 있다.By testing the data, the test unit 200 can detect problems inherent in the data.

테스트는 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행될 수 있다. 이로써, 데이터의 종류나 형식에 구애받지 않고 데이터 정제가 수행될 수 있다.Tests can be performed by rules found in the data itself through analysis of the data. Thus, the data can be refined regardless of the type and format of the data.

데이터 문제점 표시부 (300) 는 테스트를 통해 검출된 문제점을 사용자에게 표시할 수 있다. 문제점의 표시 방법은, 문제점이 존재하는 데이터 영역의 컬러를 변화시키거나, 셀 단위로 저장되어 있는 데이터의 경우 셀에 사각형 표시를 하는 방법일 수 있다. 하지만, 이에 한정되지 않고, 시각적인 방법이라면 모두 가능하다.The data problem display unit 300 can display the problem detected through the test to the user. A problem display method may be a method of changing the color of a data area in which a problem exists or a method of displaying a square in a cell in the case of data stored in units of cells. However, the present invention is not limited thereto, and it is possible to use a visual method.

데이터 처리부 (400) 에서는 데이터의 후처리가 수행될 수 있다. 후처리는 테스트를 통해 검출된 문제점을 제거하는 방법을 도출하여, 사용자에게 제공할 수있다.The data processing unit 400 may perform post-processing of data. The post-processing can derive a method for eliminating the problem detected through the test and provide it to the user.

나아가, 이에 한하지 않고, 사용자로부터 피드백을 받아 적어도 부분적으로 상기 피드백을 반영하여 상기 문제점을 제거하는 방식으로도 수행될 수 있다.Further, the present invention is not limited to this, and may be performed in a manner of receiving the feedback from the user and at least partly reflecting the feedback to eliminate the problem.

한편, 문제점을 제거하는 방법이 복수개가 도출되는 경우, 각 방법에 가중치를 부여하여 순위를 매길 수 있고, 각 방법과 순위를 매칭시킨 상태로 사용자에게 제공할 수 있다.Meanwhile, when a plurality of methods for eliminating a problem are derived, each method may be weighted and ranked, and the method may be provided to the user in a state in which the methods and ranking are matched.

본 발명의 일 실시예에 따른 테스트부 (200) 는 데이터 값의 오류 판단 모듈 (202) 을 포함한다.The test unit 200 according to an exemplary embodiment of the present invention includes a data value error determination module 202.

데이터 값의 오류 판단 모듈 (202) 은 데이터의 분석을 통해 데이터 자체에서 규칙을 발견하고, 이를 바탕으로 테스트를 수행할 수 있다.The error judgment module 202 of the data value can detect the rule in the data itself through the analysis of the data and perform the test based on the rule.

데이터 값의 오류 판단 모듈 (202) 에 의해 수행되는 규칙은 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 인식된 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 문제점으로 검출되는 것일 수 있다.A rule to be performed by the error judgment module 202 of the data value is such that one area in which data is to be tested is set, a field type of all the cells in one area is recognized, and among the recognized field types, A field type is selected, and data input to a cell having the field type of the minimum ratio is classified as an error value, thereby being detected as a problem.

이로써, 미리 설정된 기준 또는 표준과 데이터를 대비하지 않고도, 데이터 셀 분석을 통해 데이터 자체에서 발견된 규칙으로 테스트가 수행될 수 있다.Thereby, the test can be performed with rules found in the data itself through data cell analysis without contrasting the data with the preset reference or standard.

따라서, 데이터의 종류나 형식과 무관하게, 필드 타입에 오류가 있는 데이터 셀이 분류됨으로써 데이터가 정제될 수 있다.Therefore, the data can be refined by classifying the data cell having the erroneous field type irrespective of the type and format of the data.

본 발명의 일 실시예에 따른 테스트부 (200) 는 데이터 포멧의 일관성 판단 모듈 (203) 을 포함한다.The test unit 200 includes a data format consistency determination module 203 according to an embodiment of the present invention.

데이터 포멧의 일관성 판단 모듈 (203) 역시 데이터의 분석을 통해 데이터 자체에서 규칙을 발견하고, 이를 바탕으로 테스트를 수행할 수 있다.The data format consistency determination module 203 also analyzes the data to find rules in the data itself and can perform tests based on the rules.

데이터 포멧의 일관성 판단 모듈 (203) 에 의해 수행되는 규칙은 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것일 수 있다.The rules performed by the consistency determination module 203 of the data format are such that one area in which data is tested is set, the format of all the cells in one area is recognized, and the format of the maximum ratio is selected from among the formats , Data input to a cell having a format different from the maximum rate format may be detected as the problem.

이로써, 미리 설정된 기준 또는 표준 포멧과 입력된 데이터의 포멧을 대비하지 않고도, 데이터 셀 분석을 통해 데이터 자체에서 발견된 규칙으로 테스트가 수행될 수 있다.This allows the test to be performed with rules found in the data itself through data cell analysis, without having to contrast the format of the input data with the preset reference or standard format.

따라서, 입력된 데이터에 대비가 불가능한 포멧이 포함되는 경우가 고려될 필요 없이, 테스트가 수행될 수 있고, 문제점이 검출될 수 있다.Therefore, the test can be performed, and a problem can be detected, without considering the case where the input data includes a format incapable of being contrasted.

본 발명의 일 실시예에 따른 테스트부 (200) 는 데이터 구조문제 판단 모듈 (204) 을 포함한다.The test unit 200 according to an exemplary embodiment of the present invention includes a data structure problem determination module 204.

데이터 구조문제 판단 모듈 (204) 역시 데이터의 분석을 통해 데이터 자체에서 규칙을 발견하고, 이를 바탕으로 테스트를 수행할 수 있다.The data structure problem determination module 204 can also detect the rules in the data itself through analysis of the data and perform tests based on the rules.

데이터 구조문제 판단 모듈 (204) 에 의해 수행되는 규칙은 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것일 수 있다.A rule performed by the data structure problem determination module 204 may be one in which a test is performed on data, and a discontinuous blank area recognized in the one-area internal cells may be detected as the problem.

이로써, 데이터 자체에 대한 테스트를 통해 데이터 구조문제가 발견되고 문제점으로 검출될 수 있다.As a result, data structure problems can be detected and detected as problems through testing on the data itself.

따라서, 예상치 못한 구조문제가 존재하는 데이터에 대해서도 테스트가 수행될 수 있고, 문제점이 검출될 수 있다.Thus, the test can be performed on data for which an unexpected structural problem exists, and a problem can be detected.

본 발명의 다른 실시예에 있어서, 테스트부 (200) 는 데이터 복사 모듈 (201), 데이터 값의 오류 판단 모듈 (202), 데이터 포멧의 일관성 판단 모듈 (203) 및 데이터 구조문제 판단 모듈 (204) 을 포함한다.The test unit 200 includes a data copy module 201, a data value error determination module 202, a data format consistency determination module 203, and a data structure problem determination module 204. [ .

데이터 복사 모듈 (201) 에 의해 복수의 데이터 복사본이 생성될 수 있고, 상기 데이터 복사본은 데이터 값의 오류 판단 모듈 (202), 데이터 포멧의 일관성 판단 모듈 (203) 및 데이터 구조문제 판단 모듈 (204) 각각에 할당될 수 있다.A plurality of data copies may be generated by the data copy module 201 and the data copies may include a data value error determination module 202, a data format consistency determination module 203, and a data structure problem determination module 204. [ Respectively.

이 경우, 데이터 값의 오류 판단 모듈 (202), 데이터 포멧의 일관성 판단 모듈 (203) 및 데이터 구조문제 판단 모듈 (204) 에서 동시에 각각의 모듈에 따른 테스트가 수행될 수 있다.In this case, a test according to each module can be simultaneously performed by the error determination module 202, the data format consistency determination module 203, and the data structure problem determination module 204 at the same time.

따라서, 데이터에 예상되는 문제점들이 동시에 그리고 신속하게 검출될 수 있다.Thus, problems anticipated in the data can be detected simultaneously and quickly.

그리고, 데이터로부터 검출된 문제점들 모두가 데이터 문제점 표시부 (300) 에 표시되어, 사용자는 데이터 상에 존재하는 문제점들을 일견에 인식할 수 있다.Then, all the problems detected from the data are displayed on the data problem display unit 300, so that the user can recognize the problems on the data at first sight.

상기 데이터 값의 오류 판단 모듈 (202) 에 의해 수행되는 상기 규칙은, 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것일 수 있다.The rule performed by the error judgment module 202 of the data value is such that one field in which data is tested in the data is set, a field type of all the cells in one area is recognized, and a minimum ratio And the data input to the cell having the field type of the minimum ratio is classified as an error value, thereby being detected as the problem.

상기 데이터 포멧의 일관성 판단 모듈 (203) 에 의해 수행되는 상기 규칙은, 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것일 수 있다.The rules performed by the consistency determination module 203 of the data format are set such that one area in which data is to be tested is set, a format of all the cells in one area is recognized, And the data input to the cell having the format different from the format of the maximum rate may be detected as the problem.

상기 데이터 구조문제 판단 모듈 (204) 에 의해 수행되는 상기 규칙은, 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것일 수 있다.The rule performed by the data structure problem determination module 204 may be such that one area in which data is tested is set in the data and a discontinuous blank area recognized in the one area internal cells is detected as the problem .

본 발명의 다른 실시예 따른 데이터 처리부 (400) 에서 수행되는 후처리는, 테스트를 통해 검출된 문제점을 제거하는 방법을 도출하고, 상기 방법과 미리 저장된 규칙에 의해 상기 문제점을 제거하여, 최종 데이터를 사용자에게 제공하는 것일 수 있다.The post-processing performed in the data processing unit 400 according to another embodiment of the present invention can be achieved by deriving a method for eliminating the problem detected through testing and eliminating the problem by the method and pre-stored rules, It may be to provide to the user.

이로써, 사용자는 추가적인 가공 없이도 활용이 가능한 정제된 데이터를 획득할 수 있다.This allows the user to obtain refined data that can be utilized without further processing.

본 발명의 일 실시예에 따른 데이터 처리부 (400) 에서 수행되는 후처리는,데이터 셀들의 필드 타입 중에서, 최대 비율의 필드 타입을 선정하고, 데이터 값의 오류 판단 모듈 (202) 에 의해 검출된 오류 값을 상기 최대 비율의 필드 타입을 갖는 특정 값으로 대치하는 것일 수 있다.The post-processing performed by the data processing unit 400 according to an exemplary embodiment of the present invention selects a field type of the maximum ratio among the field types of the data cells and outputs the error detected by the error determination module 202 Value with a specific value having the field type of the maximum rate.

이로써, 필드 타입 오류 값을 갖는 데이터 셀이 정제될 수 있다.Thereby, a data cell having a field type error value can be refined.

본 발명의 일 실시예에 따른 데이터 처리부 (400) 에서 수행되는 후처리는, 테스트를 통해 문제점으로 검출된 데이터 포멧을 테스트에 따라 결정된 최대 비율의 포멧으로 변경하는 것일 수 있다.The post-processing performed in the data processing unit 400 according to the embodiment of the present invention may be to change the data format detected as a problem through the test to the maximum ratio format determined according to the test.

이로써, 포멧의 일관성이 결여된 데이터가 정제될 수 있다.This allows the data lacking format consistency to be refined.

본 발명의 일 실시예에 따른 데이터 처리부 (400) 에서 수행되는 후처리는,테스트를 통해 문제점으로 검출된 불연속적인 공백 영역을 제거하는 것일 수 있다.The post-processing performed in the data processing unit 400 according to an embodiment of the present invention may be to remove a discontinuous blank area detected as a problem through testing.

이로써, 구조문제가 존재하는 데이터가 정제될 수 있다.In this way, data in which structural problems exist can be refined.

도 2 는 본 발명의 일 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.2 is a flowchart for explaining a data refinement method according to an embodiment of the present invention.

도 2 를 참조하면, 본 발명의 일 실시예에 따른 데이터 정제 방법은, a) 데이터를 읽어오는 데이터 획득 단계 (S101a); b) 복수의 데이터 복사본을 생성하는 데이터 복사 단계 (S102a); c) 상기 데이터 복사본을 할당받아서, 일 영역에 대해 데이터 셀의 필드 타입을 분석하고, 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터를 오류 값으로 분류하여 문제점으로 검출하는 데이터 값의 오류 판단 단계 (S201a); d) 일 영역에 대해 데이터 셀의 포멧을 분석하고, 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터를 문제점으로 검출하는 데이터 포멧의 일관성 판단 단계 (S202a); e) 일 영역에 대해 불연속적인 공백 영역을 문제점으로 검출하는 데이터 구조 문제 판단단계 (S203a); f) 상기 문제점을 사용자에게 시각적인 방법으로 표시하는 데이터 문제점 표시 단계 (S300a); g) 상기 문제점을 제거하는 방법을 도출하는 데이터 문제점 제거 방법 도출 단계 (S401a); 및 h) 사용자에게 도출된 상기 데이터 문제점 제거 방법을 제공하는 단계 (S402a)를 포함한다.Referring to FIG. 2, a data refining method according to an embodiment of the present invention includes: a) data acquisition step (S101a) of reading data; b) a data copying step (S102a) of generating a plurality of copies of data; c) analyzing a field type of the data cell with respect to one area by receiving the data copy, classifying the data input into the cell having the minimum ratio field type as an error value, (S201a); d) determining a consistency of data format (S202a) for analyzing a format of a data cell with respect to one area and detecting data inputted to a cell having a format different from the maximum rate format; e) a data structure problem determination step (S203a) for detecting a discontinuous blank area as a problem for one area; f) displaying a data problem (S300a) for displaying the problem to a user in a visual manner; g) deriving a data problem removal method (S401a) for deriving a method for removing the problem; And h) providing the method of removing the data problem derived by the user (S402a).

상기 c) 내지 e) 단계는 순서가 바뀌어 실시될 수 있으며, 바람직하게는 동시에 실시될 수 있다.The steps c) to e) may be performed in a reversed order, preferably simultaneously.

c) 내지 e) 단계가 동시에 실시되는 경우, 데이터 정제가 신속하게 이루어질 수 있다.If the steps c) to e) are carried out simultaneously, the data can be rapidly purified.

도 3 은 본 발명의 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.3 is a flowchart for explaining a data refining method according to another embodiment of the present invention.

도 3 을 참조하면, 본 발명의 다른 실시예에 따른 데이터 정제 방법은, 상기 h) 단계 이후에, i) 사용자의 피드백을 획득하여 적어도 부분적으로 이를 반영함으로써, 상기 데이터 문제점을 제거하는 단계 (S403b) 를 더 포함한다.Referring to FIG. 3, the data refinement method according to another embodiment of the present invention may further comprise: i) after the step h), removing the data problem by obtaining and at least partially reflecting feedback of the user (S403b ).

이로써, 사용자가 활용하고자 하는 영역에 보다 부합되는 정제된 데이터가 생산될 수 있다.Thus, refined data can be produced that more closely matches the area the user wants to utilize.

도 4 는 본 발명의 또 다른 실시예에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.4 is a flowchart for explaining a data refinement method according to another embodiment of the present invention.

도 4 를 참조하면, 본 발명의 또 다른 실시예에 따른 데이터 정제 방법은, 상기 h) 단계 대신에, h') 미리 저장된 규칙에 의해 상기 데이터 문제점을 제거하고, 최종 데이터를 사용자에게 제공하는 단계 (S402c) 를 포함한다.Referring to FIG. 4, a data refining method according to another embodiment of the present invention includes the steps of: h ') replacing the step h), removing the data problem by a pre-stored rule, and providing final data to a user (S402c).

이로써, 사용자의 개입 없이, 사용자가 추가적인 가공 없이 바로 활용할 수 있는 정제된 데이터가 생산될 수 있다.This allows the production of refined data that can be utilized by the user directly without further processing without user intervention.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included within the scope of the present invention.

100 : 데이터 획득부 200 : 테스트부
201 : 데이터 복사 모듈 202 : 데이터 값의 오류 판단 모듈
203 : 데이터 포멧의 일관성 판단 모듈
204 : 데이터 구조문제 판단 모듈
300 : 데이터 문제점 표시부
400 : 데이터 처리부
100: data acquisition unit 200:
201: data copy module 202: error judgment module of data value
203: Data format consistency determination module
204: Data structure problem determination module
300: Data problem indicator
400:

Claims (14)

데이터를 읽어오는 데이터 획득부;
상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부;
검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및
상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고,
상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되고,
상기 테스트부는 데이터 값의 오류 판단 모듈을 포함하고,
상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은,
상기 데이터에서 테스트가 수행되는 일 영역이 설정되고,
상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고,
상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고,
상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것인 데이터 정제 장치.
A data acquisition unit for reading data;
A test unit for detecting a problem inherent in the data by testing the data;
A data problem display unit for displaying the detected problem to a user; And
And a data processing unit for performing post-processing of the data,
The test is performed by rules found in the data itself through analysis of the data,
Wherein the test unit includes a data value error determination module,
Wherein the rule performed by the error determination module of the data value comprises:
One area in which the test is performed in the data is set,
The field type of the entire one-area internal cells is recognized,
Among the field types, a minimum ratio field type is selected,
Wherein data input to a cell having the field type of the minimum ratio is classified as an error value, thereby being detected as the problem.
데이터를 읽어오는 데이터 획득부;
상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부;
검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및
상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고,
상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되고,
상기 테스트부는 데이터 포멧의 일관성 판단 모듈을 포함하고,
상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은,
상기 데이터에서 테스트가 수행되는 일 영역이 설정되고,
상기 일 영역 내부 셀들 전체의 포멧이 인식되고,
상기 포멧 중에서, 최대 비율의 포멧이 선정되고,
상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것인 데이터 정제 장치.
A data acquisition unit for reading data;
A test unit for detecting a problem inherent in the data by testing the data;
A data problem display unit for displaying the detected problem to a user; And
And a data processing unit for performing post-processing of the data,
The test is performed by rules found in the data itself through analysis of the data,
Wherein the test unit includes a data format consistency determination module,
Wherein the rules performed by the consistency determination module of the data format include:
One area in which the test is performed in the data is set,
The format of the entire internal cells of one area is recognized,
Among the above formats, a maximum ratio format is selected,
Wherein data entered into a cell having a format different from the maximum ratio format is detected as the problem.
데이터를 읽어오는 데이터 획득부;
상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부;
검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및
상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고,
상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되고,
상기 테스트부는 데이터 구조문제 판단 모듈을 포함하고,
상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은,
상기 데이터에서 테스트가 수행되는 일 영역이 설정되고,
상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치.
A data acquisition unit for reading data;
A test unit for detecting a problem inherent in the data by testing the data;
A data problem display unit for displaying the detected problem to a user; And
And a data processing unit for performing post-processing of the data,
The test is performed by rules found in the data itself through analysis of the data,
Wherein the testing unit includes a data structure problem determination module,
Wherein the rules performed by the data structure problem determination module include:
One area in which the test is performed in the data is set,
Wherein discontinuous blank areas recognized in the one area internal cells are detected as the problem.
데이터를 읽어오는 데이터 획득부;
상기 데이터를 테스트 함으로써, 상기 데이터에 내재된 문제점을 검출하는 테스트부;
검출된 상기 문제점을 사용자에게 표시하는 데이터 문제점 표시부; 및
상기 데이터의 후처리를 수행하는 데이터 처리부를 포함하고,
상기 테스트는 상기 데이터의 분석을 통해 데이터 자체에서 발견된 규칙에 의해 수행되고,
상기 테스트부는 데이터 복사 모듈, 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈을 포함하고,
상기 데이터 복사 모듈에 의해 복수의 데이터 복사본이 생성되고,
상기 데이터 복사본이 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈 각각에 할당되고,
상기 데이터 값의 오류 판단 모듈, 데이터 포멧의 일관성 판단 모듈 및 데이터 구조문제 판단 모듈에서 동시에 테스트가 수행되는 것을 특징으로 하는 데이터 정제 장치.
A data acquisition unit for reading data;
A test unit for detecting a problem inherent in the data by testing the data;
A data problem display unit for displaying the detected problem to a user; And
And a data processing unit for performing post-processing of the data,
The test is performed by rules found in the data itself through analysis of the data,
Wherein the test unit includes a data copy module, a data value error determination module, a data format consistency determination module, and a data structure problem determination module,
A plurality of data copies are generated by the data copy module,
Wherein the data copy is allocated to each of a data value error determination module, a data format consistency determination module, and a data structure problem determination module,
Wherein the test is simultaneously performed in the error determination module of the data value, the consistency determination module of the data format, and the data structure problem determination module.
제 4 항에 있어서,
상기 데이터 값의 오류 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 필드 타입이 인식되고, 상기 필드 타입 중에서, 최소 비율의 필드 타입이 선정되고, 상기 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터가 오류 값으로 분류됨으로써, 상기 문제점으로 검출되는 것이고,
상기 데이터 포멧의 일관성 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 전체의 포멧이 인식되고, 상기 포멧 중에서, 최대 비율의 포멧이 선정되고, 상기 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터가 상기 문제점으로 검출되는 것이며,
상기 데이터 구조문제 판단 모듈에 의해 수행되는 상기 규칙은, 상기 데이터에서 테스트가 수행되는 일 영역이 설정되고, 상기 일 영역 내부 셀들 중에서 인식되는 불연속적인 공백 영역이 상기 문제점으로 검출되는 것인 데이터 정제 장치.
5. The method of claim 4,
Wherein the rule is performed by the error judgment module of the data value, wherein one field to be tested is set in the data, a field type of the entire one of the internal cells is recognized, Type is selected and data input to a cell having the field type of the minimum ratio is classified as an error value,
The rules performed by the consistency determination module of the data format are configured such that one area in which the test is performed in the data is set, a format of all the cells in one area is recognized, and a maximum ratio format is selected Data inputted to a cell having a format different from that of the maximum rate is detected as the problem,
Wherein the rules performed by the data structure problem determination module are such that one area for testing is set in the data and a discontinuous blank area recognized in the one area internal cells is detected as the problem. .
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 후처리는,
상기 문제점을 제거하는 방법을 도출하여, 사용자에게 제공하고,
사용자로부터 피드백을 받아 적어도 부분적으로 상기 피드백을 반영하여 상기 문제점을 제거하는 것을 특징으로 하는 데이터 정제 장치.
6. The method according to any one of claims 1 to 5,
The post-
A method for eliminating the above problem is derived and provided to a user,
And receives the feedback from the user and at least partly reflects the feedback to eliminate the problem.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 후처리는,
상기 문제점을 제거하는 방법을 도출하고,
상기 방법과 미리 저장된 규칙에 의해 상기 문제점을 제거하여, 최종 데이터를 사용자에게 제공하는 것을 특징으로 하는 데이터 정제 장치.
6. The method according to any one of claims 1 to 5,
The post-
A method for eliminating the above problem is derived,
And said final data is provided to a user by eliminating said problem by said method and pre-stored rules.
제 1 항에 있어서,
상기 후처리는,
상기 필드 타입 중에서, 최대 비율의 필드 타입을 선정하고,
상기 오류 값을 상기 최대 비율의 필드 타입을 갖는 특정 값으로 대치하는 것인 데이터 정제 장치.
The method according to claim 1,
The post-
Selecting a field type having a maximum ratio among the field types,
And replaces the error value with a specific value having the field type of the maximum rate.
제 2 항에 있어서,
상기 후처리는,
상기 문제점으로 검출된 데이터 포멧을 상기 최대 비율의 포멧으로 변경하는 것인 데이터 정제 장치.
3. The method of claim 2,
The post-
And changes the detected data format to the maximum ratio format.
제 3 항에 있어서,
상기 후처리는,
상기 문제점으로 검출된 불연속적인 공백 영역을 제거하는 것인 데이터 정제 장치.
The method of claim 3,
The post-
And removes the discontinuous blank area detected as the problem.
a) 데이터를 읽어오는 데이터 획득 단계;
b) 복수의 데이터 복사본을 생성하는 데이터 복사 단계;
c) 상기 데이터 복사본을 할당받아서, 일 영역에 대해 데이터 셀의 필드 타입을 분석하고, 최소 비율의 필드 타입을 갖는 셀에 입력된 데이터를 오류 값으로 분류하여 문제점으로 검출하는 데이터 값의 오류 판단 단계;
d) 일 영역에 대해 데이터 셀의 포멧을 분석하고, 최대 비율의 포멧과 상이한 포멧을 갖는 셀에 입력된 데이터를 문제점으로 검출하는 데이터 포멧의 일관성 판단 단계;
e) 일 영역에 대해 불연속적인 공백 영역을 문제점으로 검출하는 데이터 구조 문제 판단 단계;
f) 상기 문제점을 사용자에게 시각적인 방법으로 표시하는 데이터 문제점 표시 단계;
g) 상기 문제점을 제거하는 방법을 도출하는 데이터 문제점 제거 방법 도출 단계; 및
h) 사용자에게 도출된 상기 데이터 문제점 제거 방법을 제공하는 단계를 포함하는 데이터 정제 방법.
a) a data acquiring step of reading data;
b) a data copying step of generating a plurality of copies of data;
c) analyzing a field type of the data cell with respect to one area by receiving the data copy, classifying the data input into the cell having the minimum ratio field type as an error value, ;
d) analyzing a format of a data cell with respect to one area, and detecting data inputted to a cell having a format different from a maximum ratio format as a problem;
e) a data structure problem determination step of detecting a discontinuous blank area as a problem for one area;
f) displaying a data problem for displaying the problem to a user in a visual manner;
g) deriving a data problem removal method for deriving a method for eliminating the problem; And
h) providing the user with a method for removing the data problem derived from the data.
제 11 항에 있어서,
상기 h) 단계 이후에,
i) 사용자의 피드백을 획득하여 적어도 부분적으로 이를 반영함으로써, 상기 데이터 문제점을 제거하는 단계를 더 포함하는 것을 특징으로 하는 데이터 정제 방법.
12. The method of claim 11,
After the step h)
i) removing the data problem by obtaining and at least partially reflecting the feedback of the user.
제 11 항에 있어서,
상기 h) 단계 대신에,
h') 미리 저장된 규칙에 의해 상기 데이터 문제점을 제거하고, 최종 데이터를 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 데이터 정제 방법.
12. The method of claim 11,
Instead of the step h)
h ') removing the data problem by pre-stored rules, and providing final data to the user.
삭제delete
KR1020160167862A 2016-12-09 2016-12-09 Apparatus and method for refining data by eliminating problems that is inherent in data KR101964454B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160167862A KR101964454B1 (en) 2016-12-09 2016-12-09 Apparatus and method for refining data by eliminating problems that is inherent in data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160167862A KR101964454B1 (en) 2016-12-09 2016-12-09 Apparatus and method for refining data by eliminating problems that is inherent in data

Publications (2)

Publication Number Publication Date
KR20180066714A KR20180066714A (en) 2018-06-19
KR101964454B1 true KR101964454B1 (en) 2019-04-01

Family

ID=62790566

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160167862A KR101964454B1 (en) 2016-12-09 2016-12-09 Apparatus and method for refining data by eliminating problems that is inherent in data

Country Status (1)

Country Link
KR (1) KR101964454B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102005952B1 (en) 2019-02-13 2019-10-01 이승봉 Apparatus and Method for refining data of removing noise data in Machine learning modeling

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101331579B1 (en) 2013-07-16 2013-11-20 (주) 퓨처파워텍 Automatic control system for diagnosis failure and controlling remaining life by pearson correlation coefficient analysis
JP2014026575A (en) * 2012-07-30 2014-02-06 Nec Computertechno Ltd Test device, test method, and test program
KR101478907B1 (en) 2012-05-11 2014-12-31 가부시키가이샤 어드밴티스트 Signal processing circuit and testing apparatus using the same

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000215619A (en) 1999-01-26 2000-08-04 Matsushita Electric Ind Co Ltd Data error correcting apparatus
US9405914B2 (en) * 2011-05-10 2016-08-02 Thales Canada Inc. Data analysis system
KR101940486B1 (en) * 2011-08-25 2019-01-21 한국전자통신연구원 Low cost apparatus and method for error-based program testing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101478907B1 (en) 2012-05-11 2014-12-31 가부시키가이샤 어드밴티스트 Signal processing circuit and testing apparatus using the same
JP2014026575A (en) * 2012-07-30 2014-02-06 Nec Computertechno Ltd Test device, test method, and test program
KR101331579B1 (en) 2013-07-16 2013-11-20 (주) 퓨처파워텍 Automatic control system for diagnosis failure and controlling remaining life by pearson correlation coefficient analysis

Also Published As

Publication number Publication date
KR20180066714A (en) 2018-06-19

Similar Documents

Publication Publication Date Title
JP2017151970A (en) Method and apparatus for processing service requests
JP5767471B2 (en) Apparatus and method for evaluating test completeness
CN105446874B (en) A kind of detection method and device of resource distribution file
Binkley et al. Locating dependence clusters and dependence pollution
KR101892206B1 (en) Bidirectional text checker
US20150094997A1 (en) Explaining partially illegal combinations in combinatorial models
JP2012185642A (en) Test case generation method, program, and system
Walsh et al. ReDeCheck: An automatic layout failure checking tool for responsively designed web pages
CN106815140A (en) A kind of interface test method and device
JP2015088191A (en) System and method to facilitate user interface enabled review of static analysis warnings
CN103198071A (en) Data report generation method and device adopting same
KR101964454B1 (en) Apparatus and method for refining data by eliminating problems that is inherent in data
US20170308379A1 (en) Evaluating documentation coverage
US10459434B2 (en) Inspection tool for manufactured components
CN105159826B (en) A kind of method and apparatus of wrong sentence in positioning target program
JP6416588B2 (en) Source code verification system
JP2018014000A (en) Test support program, test support system, and test support method
JP2008197962A (en) Failure verification method, failure verification device and failure verification program for logic system
CN105335430B (en) A kind of customer churn determining method of path and device based on map scene
JP6854248B2 (en) Boundary search test support device and boundary search test support method
CN114265780A (en) Method, system, equipment and storage medium for testing report system
CN107402882B (en) Web page testing method and device
CN110880182B (en) Image segmentation model training method, image segmentation device and electronic equipment
CN110888809B (en) Risk prediction method and device for test task
JP5746652B2 (en) Plant data reproducing device and plant data reproducing method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant