KR101632073B1 - Method, device, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis - Google Patents

Method, device, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis Download PDF

Info

Publication number
KR101632073B1
KR101632073B1 KR20150143390A KR20150143390A KR101632073B1 KR 101632073 B1 KR101632073 B1 KR 101632073B1 KR 20150143390 A KR20150143390 A KR 20150143390A KR 20150143390 A KR20150143390 A KR 20150143390A KR 101632073 B1 KR101632073 B1 KR 101632073B1
Authority
KR
Grant status
Grant
Patent type
Prior art keywords
profiling
device
system
non
transitory
Prior art date
Application number
KR20150143390A
Other languages
Korean (ko)
Inventor
장원중
Original Assignee
장원중
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30286Information retrieval; Database structures therefor ; File system structures therefor in structured data stores
    • G06F17/30312Storage and indexing structures; Management thereof
    • G06F17/30318Details of Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30286Information retrieval; Database structures therefor ; File system structures therefor in structured data stores
    • G06F17/30587Details of specialised database models
    • G06F17/30595Relational databases
    • G06F17/30598Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/3061Information retrieval; Database structures therefor ; File system structures therefor of unstructured textual data
    • G06F17/30699Filtering based on additional data, e.g. user or group profiles

Abstract

본 발명의 일 태양에 따르면, 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 방법으로서, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 단계, 상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 단계, 및 상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 단계를 포함하는 방법이 제공된다. According to one aspect of the invention there is provided a method for providing a statistical analysis based data profiling (data profiling), based on data included in each of the attributes defined in the data set, at least one statistic on each of the properties calculating a value, and the at least one statistical value thus calculated as a reference, the method comprising: determining a weight to be given for each property, and at least one or more levels is the weight of the attributes defined in the data set of the predetermined this property of the method includes determining, as an attribute, to be subjected to the data profile is provided.

Description

통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체{METHOD, DEVICE, SYSTEM AND NON-TRANSITORY COMPUTER-READABLE RECORDING MEDIUM FOR PROVIDING DATA PROFILING BASED ON STATISTICAL ANALYSIS} Statistical analysis of the data based on a method for providing a profile, the system and temporality of non-computer-readable storage medium {METHOD, DEVICE, SYSTEM AND NON-TRANSITORY COMPUTER-READABLE RECORDING MEDIUM FOR PROVIDING DATA PROFILING BASED ON STATISTICAL ANALYSIS}

본 발명은 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다. The invention relates to a method, system, and computer-readable recording medium of the non-temporality to provide a statistical analysis based on the data profile.

근래에 들어, 이메일(email), 소셜 네트워크 서비스(SNS), 멀티미디어(Multimedia), 모바일(Mobile), 사물 인터넷(IoT) 등을 통하여 생성되는 데이터가 급속히 증가하고 있고, 그 정보량은 이미 제타바이트(ZettaByte, 10 21 ) 수준을 넘어서고 있다. For the recent years, e-mail (email), a social network service (SNS), multimedia (Multimedia), mobile (Mobile), and the data is rapidly increasing that are generated through the Internet of Things (IoT), etc., the amount of information is already Zeta byte ( zettaByte, has surpassed 10 21) level.

또한, 빅 데이터를 분석하고 활용하는 기술이 전 산업 분야에 걸쳐서 활발하게 연구되고 있고 전 세계적으로 이슈가 되고 있으며, 국내에서도 정부(3.0) 차원에서 공공정보의 적극적인 개방을 통한 데이터 공유를 지향하고 있는 상황이다. In addition, a technique for analyzing big data and use have been studied vigorously throughout the entire industry and around the world is an issue, and the government (3.0) level in the country striving for data sharing through an aggressive opening of the public information the situation. 또한, 위와 같이 방대하게 쏟아지는 데이터를 활용하여 사용자에게 유용한 서비스를 제공하는 기술 역시 다양하게 개발되고 있는 실정이다. In addition, for utilizing the vastly pouring data as above, it provides the user with useful services technology is also a situation that is variously developed.

이러한 상황에서, 데이터 품질의 신뢰성 확보가 선행될 필요가 있는데, 종래에 소개된 데이터 품질 진단 기술의 일 예로서, 데이터의 사용 목적에 따라 전체 속성 중 중요하다고 판단되는 일부 속성만을 대상으로 하여 데이터 품질을 진단(또는 데이터 프로파일링)하는 기술을 들 수 있다. In such a situation, it is necessary that reliability of the data quality that is to be followed, as an example of the introduction to the prior data quality diagnostic techniques, and only for some of the attributes deemed important of all attributes in accordance with the intended use of the data, data quality a it can be mentioned a technique to detect (or data profiling). 하지만, 이러한 종래 기술에 따르면, 데이터 프로파일링 결과가 관리자의 주관적인 판단에 따라 크게 달라질 수 있다는 문제점이 존재한다. However, according to this prior art, a problem that the data profiling result may vary greatly depending on the subjective judgment of the administrator is present. 예를 들면, 고객에게 홍보용 자료를 우편으로 보내기 위한 목적으로 데이터 집합을 사용하는 경우를 가정할 수 있다. For example, it can be assumed that the data set used for the purpose of sending a mailing promotional materials to customers. 이러한 경우에, 주소라는 속성이 가장 중요하다는 판단 하에 주소라는 데이터 속성에 포함되는 데이터에 대하여만 데이터 프로파일링을 수행할 수 있는데, 데이터 집합이 반드시 우편 발송용으로만 사용된다고 단정하기 어렵고 주소라는 속성이 중요하다는 판단도 관리자의 주관적인 판단에 불과하므로, 데이터 품질 진단이 효율적으로 수행될 수 있을지언정 데이터 프로파일링 결과에 대한 신뢰성은 떨어질 수 밖에 없게 되는 문제점이 발생하게 된다. In this case, only for the data contained in the address of the data attribute under the responsibility of the property it called address that the most important may perform data profiling attributes of the data set is necessarily difficult to conclude that only used for mailing address this is important because only a determination is also a subjective judgment of the administrator that, a problem that not only data quality diagnosis can fall is jieonjeong can be performed efficiently confidence in the data profile result is generated.

종래에 소개된 데이터 품질 진단 기술의 다른 예로서, 데이터 집합에서 정의되는 모든 속성을 대상으로 데이터 프로파일링을 수행하는 기술을 들 수 있다. It can be given as another example of the introduction to the prior data quality diagnostic technique, for all the attributes that are defined in a data set to techniques for performing data profiling. 이러한 종래 기술에 따르면, 정확한 데이터 프로파일링 결과를 얻을 수는 있지만, 데이터 집합에 포함되는 모든 데이터에 대하여 데이터 프로파일링을 수행해야 하기 때문에 지나치게 많은 시간과 노력이 소요된다는 한계가 존재한다. According to this prior art, to get the correct data profiling results, but there is a limit that is too much time and energy consuming because it must perform data profiling on all data included in the data set. 예를 들면, 데이터 집합에서 정의되는 100개의 속성마다 1억건의 거래 정보 데이터가 존재하는 경우를 가정할 수 있는데, 이러한 경우에, 데이터 프로파일링의 대상이 되는 총 데이터 수가 100억개(속성 수 x 레코드 수 = 100 x 100,000,000)에 달하게 된다. For example, there a case in which 100 million transaction information data every 100 attributes are defined in a data set exists may assume, can in such a case, the 10 billion (property total number of data is to be subjected to the data profiling x record It can be reached on = 100 x 100,000,000).

따라서, 신뢰성을 확보할 수 있으면서도 효율이 높은 데이터 프로파일링 기술이 요구되고 있는 실정이다. Therefore, it is possible to secure the reliability, yet a situation that is required to have highly efficient data profiling techniques.

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다. The present invention as its object to solve all the above problems.

또한, 본 발명은 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여 각 속성에 관한 적어도 하나의 통계값을 산출하고, 위의 산출되는 적어도 하나의 통계값을 참조로 하여 각 속성에 대하여 부여되는 가중치를 결정하고, 데이터 집합에서 정의되는 속성 중 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정함으로써, 신뢰성을 확보하면서도 효율이 높은 데이터 프로파일링을 수행할 수 있도록 하는 것을 다른 목적으로 한다. In addition, given the present invention the at least one statistical value calculated at least one statistical value, calculated above for each attribute on the basis of data included in each of the attributes defined in the data set as a reference for each property determining a weight that is, the weight of the attribute is defined in a data set group to perform data profiling with high efficiency while, ensuring the reliability by determining at least one property or more predetermined levels, as an attribute, to be subjected to the data profiling and to allow for any other purpose.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다. Typical configurations of the present invention for achieving the abovementioned objects is as follows.

본 발명의 일 태양에 따르면, 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 방법으로서, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 단계, 상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 단계, 및 상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 단계를 포함하는 방법이 제공된다. According to one aspect of the invention there is provided a method for providing a statistical analysis based data profiling (data profiling), based on data included in each of the attributes defined in the data set, at least one statistic on each of the properties calculating a value, and the at least one statistical value thus calculated as a reference, the method comprising: determining a weight to be given for each property, and at least one or more levels is the weight of the attributes defined in the data set of the predetermined this property of the method includes determining, as an attribute, to be subjected to the data profile is provided.

본 발명의 다른 태양에 따르면, 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 시스템으로서, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 통계값 산출부, 상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 가중치 부여부, 및 상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 대상 속성 결정부를 포함하는 시스템이 제공된다. According to another aspect of the invention there is provided a system for providing a statistical analysis based data profiling (data profiling), based on data included in each of the attributes defined in the data set, at least one statistic on each of the properties to the at least one statistical value statistical value calculating unit, the calculation for calculating a value as a reference, if the weight unit for determining a weight to be given to said each of the attributes, and the weights of the attributes defined in the data set of the group the system including a target attribute determination unit determining at least one property or more predetermined levels, as an attribute, to be subjected to the data profile is provided.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 사용자 디바이스, 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다. In addition, the computer-readable recording medium of the non-temporality is further provided for recording a computer program for performing the alternative, the user device, system and method for implementing the invention.

본 발명에 의하면, 데이터 집합에서 정의되는 여러 속성 중 통계 분석에 기반하여 오류 발생 가능성이 높다고 판단되는 일부 속성에 포함되는 데이터에 대하여 데이터 프로파일링을 수행하게 되므로, 관리자의 주관적인 판단에 따라 임의로 선택되는 속성에 포함되는 데이터에 대하여 데이터 프로파일링을 수행하는 종래 기술에 비하여 신뢰성을 크게 높일 수 있게 되는 효과가 달성된다. According to the present invention, since it performs data profiling with respect to the data contained in some of the properties that are highly likely error is determined based on a statistical analysis of a number of attributes that are defined in a data set, which is optionally selected depending on the subjective judgment of the administrator an effect that is able to significantly improve the reliability compared to the conventional techniques for performing data profiling with respect to data contained in the property is achieved.

또한, 본 발명에 의하면, 데이터 집합에서 정의되는 모든 속성의 데이터에 대하여 데이터 프로파일링을 수행하는 종래 기술에 비하여 효율을 획기적으로 향상시킬 수 있게 되는 효과가 달성된다. According to the present invention, the effect of being able to greatly improve the efficiency over the prior art that performs the data profile to the data of all the attributes that are defined in a data set is obtained.

또한, 본 발명에 의하면, 통계 분석 결과와 함께 데이터 집합에 적용되는 업무 규칙(코드 값, 비즈니스 규칙 등)을 더 반영하여 데이터 프로파일링의 대상이 되는 속성을 결정할 수 있으므로, 데이터 프로파일링의 완성도를 높일 수 있게 되는 효과가 달성된다. According to the present invention, so that better reflects the business rules (code value, business rules, etc.) to be applied to the data set with a statistical analysis can determine the property to be subjected to the data profile, the completeness of the data profiling the effect can be improved is achieved.

도 1은 본 발명의 일 실시예에 따라 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다. 1 is a view showing a schematic configuration of an entire system for providing a statistical analysis based data profiling in accordance with an embodiment of the invention.
도 2는 본 발명의 일 실시예에 따라 데이터 프로파일링 시스템의 내부 구성을 예시적으로 나타내는 도면이다. Figure 2 shows the internal structure of the data profiling system in accordance with one embodiment of the invention by way of example.
도 3은 본 발명의 일 실시예에 따라 속성 추출부의 내부 구성을 예시적으로 나타내는 도면이다. Figure 3 shows the internal structure portion extracted attribute Illustratively according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따라 데이터 집합에서 정의되는 속성 중 데이터 프로파일링의 대상이 되는 속성을 결정하는 구성을 개념적으로 나타내는 도면이다. Figure 4 is a view of the configuration that determines the properties to be subjected to the data profile of the properties that are defined on the set of data in accordance with an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. Detailed description of the present invention described below are described with reference to the accompanying drawings showing by way of illustration specific embodiments in which the invention may be practiced. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. These embodiments are described in detail sufficient itgie those skilled in the art to practice the invention. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. Various embodiments of the present invention to be understood that different mutually exclusive is no need each other. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. For example, a particular feature, structure, and characteristic described herein may be implemented as other embodiments without departing from the spirit and scope of the invention in connection with an embodiment. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. In addition, the location or arrangement of individual elements within each disclosed embodiment is to be understood that changes may be made without departing from the spirit and scope of the invention. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. Therefore, the following description is not to be taken as limiting sense, the scope of the present invention, if properly described, the claims are limited only by the terms of the appended claims along with the full range equivalent to that claim. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. Like reference numerals in the drawings refer to the same or similar functionality throughout the several aspects.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. Hereinafter, in order that the self this invention one of ordinary skill in the art can be easily performed with reference to the accompanying drawings, with respect to a preferred embodiment of the present invention will be described in detail.

전체 시스템의 구성 Configuration of the entire system

도 1은 본 발명의 일 실시예에 따라 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다. 1 is a view showing a schematic configuration of an entire system for providing a statistical analysis based data profiling in accordance with an embodiment of the invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 데이터 프로파일링 시스템(200), 사용자 디바이스(300) 및 외부 서버(400)를 포함하여 구성될 수 있다. 1, the overall system in accordance with one embodiment of the present invention may be configured to include a communication network 100, the data profiling system 200, the user device 300 and external server 400 .

먼저, 본 발명의 일 실시예에 따른 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. First, a communication network 100 according to one embodiment of the present invention may be configured not block the communication mode, such as wired communication, wireless communication, local area network (LAN; Local Area Network), metropolitan area network (MAN; Metropolitan Area Network ), a wide area network (WAN; wide Area network), etc. may be of a variety of communication networks. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드와이드웹(WWW; World Wide Web)일 수 있다. Preferably, the network 100 is a well-known Internet or the World Wide Web in the present specification; can be (WWW World Wide Web). 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다. However, communication network 100 may dare thereto without the need, well-known wired or wireless data network, telephone network, known or well-known wired or wireless television communication network of the to be limited to include in the at least a portion.

다음으로, 본 발명의 일 실시예에 따르면, 데이터 프로파일링 시스템(200)은 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다. Next, according to one embodiment of the present invention, the data profiling system 200 may be provided to the memory means equipped with a microprocessor, a digital device with computing power. 이러한 데이터 프로파일링 시스템(200)은 서버 시스템일 수 있다. The data profiling system 200 may be a server system.

구체적으로, 본 발명의 일 실시예에 따르면, 데이터 프로파일링 시스템(200)은, 아래에서 자세하게 설명되는 바와 같이, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여 각 속성에 관한 적어도 하나의 통계값을 산출하고, 위의 산출되는 적어도 하나의 통계값을 참조로 하여 각 속성에 대하여 부여되는 가중치를 결정하고, 데이터 집합에서 정의되는 속성 중 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정함으로써, 신뢰성을 확보하면서도 효율이 높은 데이터 프로파일링을 수행할 수 있도록 하는 기능을 수행할 수 있다. More specifically, according to one embodiment of the present invention, the data profiling system 200, as will be described in detail below, based on data included in each of the attributes defined in the data set of at least one of each property calculating the statistical value, at least one of determining a weight to be given for each property to the statistical value as a reference, and the level of the weight of the attribute is defined in a data set group is set not less than at least one attribute data profile calculated above by determining as to be subjected to the ring properties, it is possible to perform the functions to perform data profiling efficiency is high while ensuring the reliability.

데이터 프로파일링 시스템(200)의 기능에 관하여는 아래에서 더 자세하게 알아보기로 한다. Is to learn more in detail below with respect to the functions of the data profiling system 200. 한편, 데이터 프로파일링 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 데이터 프로파일링 시스템(200)에 요구되는 기능이나 구성요소의 적어도 일부가 필요에 따라 후술할 사용자 디바이스(300) 또는 외부 서버(400)에서 실현되거나 포함될 수도 있음은 당업자에게 자명하다. On the other hand, the data profile been described above with respect to the ring system 200, this description is exemplary and data profiling system 200, the user device will be described later in accordance with at least some of the needs of the features or components required in (300 ) or it may be included or implemented in an external server (400) will be apparent to those skilled in the art.

다음으로, 본 발명의 일 실시예에 따르면, 사용자 디바이스(300)는 통신망(100)을 통하여 데이터 프로파일링 시스템(200)에 접속한 후 통신할 수 있는 기능을 수행하는 디지털 기기로서, 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 디바이스(300)로서 채택될 수 있다. Next, according to an embodiment of the present invention, user device 300 is a digital device that performs a function to communicate and then connected to the data profiling system 200 through the network 100, the memory means If provided with the digital devices with the computing power and equipped with a microprocessor has any number can be employed as the user device 300 in accordance with the present invention.

다음으로, 본 발명의 일 실시예에 따르면, 외부 서버(400)는 통신망(100)을 통하여 데이터 프로파일링 시스템(200)에 접속한 후 통신할 수 있는 기능을 포함하는 서버로서, 데이터 프로파일링의 대상이 되는 로우 데이터(Raw Data) 또는 데이터 집합(Data Set)을 파일 또는 데이터베이스의 형태로 제공하는 기능을 수행할 수 있다. Next, according to one embodiment of the invention, the external server 400 in a server, including the ability to communicate and then connected to the data profiling system 200 through the network 100, data profiling, the raw data (Raw data), or data sets (data set) to be subjected to may perform functions provided in the form of a file or database. 예를 들면, 외부 서버(400)는, 구조화된 데이터로서 기준 정보, 거래 정보, 집계 정보 등을 제공할 수 있고, 반구조화된 데이터로서 HTML, XML, GIS 등을 제공할 수 있으며, 비구조화된 데이터로서 동영상, 이미지, 사운드, 문서 등을 제공할 수 있다. For example, the external server 400, as a structured data may provide criteria information, transaction information, aggregate information such as the semi-structured data and to provide HTML, XML, GIS or the like, unstructured as the data may provide a video, image, sound, and documents.

데이터 프로파일링 시스템의 구성 Configuration of the data profiling system

이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 데이터 프로파일링 시스템의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다. Hereinafter, for the implementation of the present invention it will now be made of the internal structure and each component of the data profiling system that performs an important function capabilities.

도 2는 본 발명의 일 실시예에 따라 데이터 프로파일링 시스템의 내부 구성을 예시적으로 나타내는 도면이다. Figure 2 shows the internal structure of the data profiling system in accordance with one embodiment of the invention by way of example.

도 3은 본 발명의 일 실시예에 따라 속성 추출부의 내부 구성을 예시적으로 나타내는 도면이다. Figure 3 shows the internal structure portion extracted attribute Illustratively according to an embodiment of the present invention.

도 4는 본 발명의 일 실시예에 따라 데이터 집합에서 정의되는 속성 중 데이터 프로파일링의 대상이 되는 속성을 결정하는 구성을 개념적으로 나타내는 도면이다. Figure 4 is a view of the configuration that determines the properties to be subjected to the data profile of the properties that are defined on the set of data in accordance with an embodiment of the present invention.

도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 데이터 프로파일링 시스템(200)은, 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240), 통신부(250) 및 제어부(260)를 포함할 수 있다. 2 and 3, the data profiling system 200 according to one embodiment of the present invention, the data set management unit 210, the attribute extraction section 220, a data profiling execution unit 230, a database 240 may include a communication unit 250 and the controller 260. 여기서, 속성 추출부(220)는, 통계값 산출부(221), 가중치 부여부(222) 및 대상 속성 결정부(223)를 포함할 수 있다. Here, the attribute extraction section 220 may comprise a statistical value calculating unit 221, whether or not the weight portion 222 and the target attribute determination unit 223. The 본 발명의 일 실시예에 따르면, 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240), 통신부(250) 및 제어부(260)는 그 중 적어도 일부가 외부 시스템(미도시됨)과 통신하는 프로그램 모듈들일 수 있다. In accordance with one embodiment of the present invention, the data set management unit 210, the attribute extraction section 220, a data profiling execution unit 230, a database 240, a communication section 250 and control section 260 at least of the program may be a module that is part of a communication with an external system (not shown). 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 데이터 프로파일링 시스템(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. These program modules may be may be included in the operating system, applications, modules, and other program data profiling system 200 in the form of a module, physically stored on a storage device of a number of well-known. 또한, 이러한 프로그램 모듈들은 데이터 프로파일링 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. In addition, such program modules may be stored in the data profiling system 200 may communicate with the remote storage device as possible. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다. On the other hand, these program modules performs a specific task, which will be described later in accordance with the present invention, or encompassing routines, sub-routines, programs, objects, components, data structures, etc. that perform particular abstract data types, but are not limited to.

먼저, 본 발명의 일 실시예에 따르면, 데이터 집합 관리부(210)는 외부 서버(400)로부터 데이터 프로파일링의 대상이 되는 로우 데이터 또는 데이터 집합을 획득하는 기능을 수행할 수 있다(도 4의 (a) 참조). First, according to one embodiment of the present invention, the data set management unit 210 may perform the function of obtaining a set of raw data or data to be subjected to the data profile from the external server 400 (FIG. 4 ( see a)). 또한, 본 발명의 일 실시예에 따르면, 데이터 집합 관리부(210)는 위와 같이 수집되는 다양한 유형의 로우 데이터를 데이터 프로파일링에 적합한 포맷의 데이터 집합으로 변환하는 기능을 수행할 수 있다(도 4의 (b) 참조). Further, according to one embodiment of the present invention, the data set management unit 210 may perform the function of converting the various types of raw data is collected as above, the set of data of a format suitable for data profiling (Fig. 4 see (b)).

다음으로, 본 발명의 일 실시예에 따르면, 속성 추출부(220)(구체적으로는, 통계값 산출부(221))는 데이터 프로파일링의 대상이 되는 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 각 속성에 관한 적어도 하나의 통계값을 산출하는 기능을 수행할 수 있다. Next, the data included in accordance with one embodiment of the present invention, the attribute extraction section 220 (specifically, the statistical value calculation unit 221) are each of the attributes defined in the data set to be subjected to the data profiling to, may perform a function of calculating at least one statistical value on the basis of the respective properties.

여기서, 데이터 집합에서 정의되는 속성은, 데이터 집합에 포함되는 수많은 데이터(즉, 레코드(record))를 분류하는 기준이 되는 항목을 가리키는 것으로서, 예를 들면, 기상 상황에 따른 자전거 대여 현황(Bike Sharing Demand)에 관한 데이터 집합에서는, 일시(date), 년(year), 월(month), 일(day), 시간(hour), 계절(season), 휴일(holiday), 근무일(working day), 날씨(weather), 습도(humidity), 임시대여(casual), 등록대여(registered), 대여횟수(count), 온도(temp), 불쾌지수(atemp), 바람세기(windspeed) 등의 속성이 정의될 수 있다. Here, the attributes defined in the data set, as indicating a number of data (i.e., a record (record)) items serving as a reference for classifying included in the data set, for example, a bicycle rental status according to the weather conditions (Bike Sharing the data set on Demand), date and time (date), year (year), May (month), day (day), time (hour), season (season), holidays (holiday), working (working day), weather (weather), moisture (humidity), temporary rentals (casual), registered rental (registered), rental times (count), temperature (temp), discomfort index (atemp), can be attributes such as wind strength (windspeed) definition have.

구체적으로, 본 발명의 일 실시예에 따르면, 속성 추출부(220)는 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에서 오류가 발생할 가능성을 가늠할 수 있는 척도로서 활용될 수 있는 통계값을 산출할 수 있다. More specifically, according to one embodiment of the invention, the attribute extraction section 220 to calculate the statistical value that can be used as a measure of how well the likelihood of errors in the data contained in each of the attributes defined in the data set can. 예를 들면, 결측치, 최소값, 최대값, 최빈값, 평균값, 분산, 표준편차, 다섯수치 요약, 이상치(outlier), 영에 가까운 분산값(Near Zero Variance) 등의 통계값이 산출될 수 있다. For example, a statistical value of the missing value, minimum value, maximum value, mode, mean, variance, standard deviation, five levels summary, outliers (outlier), near the zero dispersion value (Near Zero Variance) can be calculated.

또한, 본 발명의 일 실시예에 따르면, 속성 추출부(220)(구체적으로는, 가중치 부여부(222))는 데이터 집합에서 정의되는 각 속성에 관하여 위와 같이 산출되는 적어도 하나의 통계값을 참조로 하여, 데이터 집합에서 정의되는 각 속성에 대하여 부여되는 가중치를 결정하는 기능을 수행할 수 있다(도 4의 (c) 참조). Further, according to one embodiment of the invention, the attribute extraction section 220 (specifically, the weight portion Status 222) With respect to each of the attributes defined in the data set with reference to at least one statistical value calculated as above, as to, it may perform the function of determining the weight to be given for each property to be defined in the data set (see (c) in Fig. 4).

구체적으로, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 데이터 집합에서 정의되는 제1 속성에 관하여 산출되는 적어도 하나의 통계값이 기설정된 기준을 만족하면, 제1 속성에 대하여 기설정된 가중치가 부여되도록 결정할 수 있다. Specifically, when the attribute extraction section 220 according to an embodiment of the present invention, meet the criterion is at least one statistical value calculated with respect to the first attribute is defined in a data set group is set, the machine with respect to one property can be determined such that the set weighting. 보다 구체적으로, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 제1 속성에 포함되는 데이터에서 오류가 발생할 가능성이 클수록 제1 속성에 대하여 부여되는 가중치를 높게 결정할 수 있다. More specifically, the attribute extraction section 220 according to an embodiment of the present invention, the greater the likelihood of errors in the data contained in the first attribute may determine increase the weight given to the first attribute.

여기서, 본 발명의 일 실시예에 따르면, 데이터 집합에서 정의되는 각 속성에 대하여 부여될 수 있는 가중치에는 제1 가중치 및 제2 가중치가 포함될 수 있으며, 제1 가중치와 제2 가중치는 서로 독립적으로 결정될 수 있다. Here, according to one embodiment of the present invention, the weight can be given for each property to be defined in the data set can contain the first weight and the second weight, the first weight and the second weight is determined independently of each other can. 구체적으로, 본 발명의 일 실시예에 따른 속성 추출부(220)는 제1 속성에 포함되는 데이터에서 오류가 발생할 가능성이 기설정된 수준에 해당하는 경우에 제1 속성에 대하여 제1 가중치가 부여되도록 결정할 수 있고, 제1 속성에 포함되는 데이터에서 오류가 발생할 가능성이 기설정된 수준을 초과하는 경우에는 제1 속성에 대하여 제2 가중치가 더 부여되도록 결정할 수 있다. So specific, attribute extraction unit 220 according to an embodiment of the present invention includes a first weight is given to the case that the chance of errors in the data, which corresponds to the set level for a first attribute in the first attribute may determine, when the likelihood of errors in the data contained in the first attribute group exceeds the set level, it may be determined such that the second weight is further given to the first attribute.

예를 들면, 데이터 집합에서 정의되는 속성에 대하여 제1 가중치 및 제2 가중치를 부여하는 기준은 각각 아래의 표 1 및 표 2와 같이 설정될 수 있다. For example, a reference to with respect to the properties that are defined in a data set providing a first weight and second weights may be set as shown in Tables 1 and 2 below, respectively.

제1 가중치 부여 기준 First weighting criteria 제1 가중치 First weight
결측치(NA)가 한 건이라도 존재하는 경우 If there is even one missing value (NA) Articles 0.1 0.1
영에 근접한 분산(Near Zero Variance)이 존재하는 경우 If you have distributed close to zero (Near Zero Variance) exists 0.1 0.1
표준편차가 a 이상인 경우 If you have more than a standard deviation 0.1 0.1
Space("") 건 수가 b를 초과하는 경우 Space ( "") if the number of cases exceeds the b 0.1 0.1
이상치(Outlier) Bonferroni p 값이 c 미만인 경우 Outliers (Outlier) when Bonferroni p value is less than c 0.1 0.1
데이터 시간 간격(최종일-최초일)이 현재 시간 간격(현재일-최초일)보다 큰 경우 Greater than (the first one today) - Data interval (the last day of the first one), the current time interval, 0.1 0.1

제2 가중치 부여 기준 Second weighting criteria 제2 가중치 Second weight
결측치(NA) 건 수가 전체 데이터 건 수의 d% 이상인 경우 If the number of missing values ​​(NA) d% s or greater number of cases the full data 0.1 0.1
이상치(Outlier) Bonferroni p 값이 e보다 작거나 같은 경우(e는 표 1의 c보다 작음) Outliers (Outlier) when Bonferroni p value is less than or equal to e (e is smaller than c in Table 1) 0.1 0.1

다만, 본 발명에 따른 제1 가중치 및 제2 가중치 부여 기준이 반드시 위의 표 1 또는 표 2에 열거된 것에 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 변경될 수 있음을 밝혀 둔다. However, the first weight and second weights given criteria in accordance with the present invention is not necessarily limited to those listed in Table 1 or Table 2, above, it may be changed any number within the range capable of achieving the object of the present invention place discovered that.

또한, 본 발명의 일 실시예에 따르면, 속성 추출부(220)는(구체적으로는, 대상 속성 결정부(223)), 데이터 집합에서 정의되는 속성 중 앞서 부여된 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 기능을 수행할 수 있다. Further, according to one embodiment of the invention, the attribute extraction section 220 (specifically, the object attribute determining unit 223), at least one more than the weighted advance of the attributes defined in the data set of the predetermined level the attribute may perform the function of determining, as an attribute, to be subjected to the data profiling.

또한, 본 발명의 일 실시예에 따르면, 속성 추출부(220)는, 데이터 집합에 적용되는 업무 규칙을 더 참조로 하여, 데이터 집합에서 정의되는 속성 중 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정할 수 있다. Further, according to one embodiment of the invention, the attribute extraction section 220, the destination of the at least one attribute of the attribute to be defined in the business rules to be applied to the data set by further reference, the data set of data profiling which it can be determined as an attribute. 여기서, 업무 규칙에는, 데이터 집합에 적용되는 코드 값이나 비즈니스 규칙 등이 포함될 수 있다. Here, business rules, and it can include such code values ​​and business rules that apply to the data set.

예를 들면, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 데이터 집합에서 정의되는 속성 중 적어도 두 속성 사이에서 산출되는 제1 가중치 및 제2 가중치의 합의 기하평균(GM; Geometric Mean)을 참조로 하여, 위의 기하평균이 기설정된 수준 이상인 조합을 이루는 적어도 두 속성을 데이터 프로파일링의 되는 속성으로서 결정할 수 있다. For example, the attribute extraction section 220 according to an embodiment of the present invention, arrangement of a first weight and a second weight calculated at least between the two properties of the attributes defined in the data set of the geometric mean (GM; Geometric Mean ) was the reference, and the at least two properties, the geometric mean is a group forming a predetermined level or more combinations of the above can be determined as an attribute of data to be profiled. 여기서, 적어도 두 속성 사이의 제1 가중치 및 제2 가중치의 합의 기하평균(GM; Geometric Mean)을 산출하는 수학식은 아래의 수학식 1과 같이 나타낼 수 있다. Here, the first weight and a second agreement between the geometric mean of the weights of at least two attributes; can be expressed as shown in Equation 1 below equation to calculate the (GM Geometric Mean).

Figure 112015099238326-pat00001

위의 수학식 1에서, S는 속성 집합(a 1 , a 2 , ..., a i , a n )이고, n은 S에서 선택된 속성의 개수이고, a i 는 i 번째 속성이고, a i14 는 i 번째 속성에 부여된 제1 가중치이고, a i15 는 i 번째 속성에 부여된 제2 가중치이다. And from equation (1) above, S is the number of the set of attributes (a 1, a 2, ... , a i, a n), n is property selected from S, a i is the i-th attribute, a i14 is a first weighting for the i-th attribute, a i15 is the second weighting to the i-th property.

다른 예를 들면, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 데이터 집합에서 정의되는 각 속성에 대하여 부여된 제1 가중치 및 제2 가중치에 근거하여 데이터 집합에서 정의되는 복수의 속성을 적어도 하나의 그룹으로 분류할 수 있고, 위의 그룹 중 적어도 한 그룹에 속하는 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정될 수 있다. In another example, extraction properties in accordance with one embodiment of the present invention, unit 220, based on the first weight and second weights assigned for each property to be defined in the data set a plurality of attributes are defined in a data set a can be classified into at least one group, the at least one property pertaining to the at least one group of the groups above, it may be determined as an attribute, to be subjected to the data profiling.

다음으로, 본 발명의 일 실시예에 따르면, 데이터 프로파일링 수행부(230)는 데이터 프로파일링의 대상이 되는 속성으로서 결정되는 적어도 하나의 속성만을 대상으로 하여 데이터 프로파일링을 수행하는 기능을 수행할 수 있다. Next, in accordance with one embodiment of the invention, data profiling execution unit 230 only the at least one property which is determined as an attribute, to be subjected to the data profile to the target to perform a function to perform data profiling can.

한편, 본 발명의 일 실시예에 따르면, 데이터베이스(240)는 로우 데이터, 데이터 집합, 데이터 집합에서 정의되는 속성에 관하여 산출되는 통계값, 데이터 집합에서 정의되는 속성에 대하여 부여되는 가중치, 데이터 프로파일링의 대상으로서 결정된 속성, 데이터 프로파일링 수행 결과 등에 관한 정보를 저장하는 기능을 수행할 수 있다. Meanwhile, according to one embodiment of the present invention, database 240 is the raw data, data sets, a data set of statistical values ​​calculated with respect to a property defined in a, the weight to be given to the properties that are defined in a data set, data profiling, as the target may perform a function of storing the information on the determined attributes, perform data profiling results. 이러한 데이터베이스(240)는 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있다. The database 240 is a concept that includes a computer-readable recording medium may be a database, as well as in a narrow sense database of light, or the like of data recorded based on the file system.

다음으로, 본 발명의 일 실시예에 따르면, 통신부(250)는 데이터 프로파일링 시스템(200)이 사용자 디바이스(300) 또는 외부 서버(400)와 통신할 수 있도록 하는 기능을 수행한다. Next, in accordance with one embodiment of the invention, the communication unit 250 performs a function to make data profiling system 200 can communicate with the user device 300 or external server 400.

마지막으로, 본 발명의 일 실시예에 따른 제어부(260)는 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240) 및 통신부(250) 간의 데이터의 흐름을 제어하는 기능을 수행한다. Finally, the data between the control unit 260 sets of data management unit 210, the attribute extraction section 220, a data profiling execution unit 230, a database 240 and a communication unit 250 in accordance with one embodiment of the present invention the functions to control the flow. 즉, 제어부(256)는 외부로부터의 또는 데이터 프로파일링 시스템(200)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240) 및 통신부(250)에서 각각 고유 기능을 수행하도록 제어한다. That is, the controller 256 by controlling the flow of data between the components of or data profiling system 200 from the outside, the data set management unit 210, the attribute extraction section 220, a data profiling execution unit ( 230), and controls to perform, each with its own function in the database 240, and a communication unit 250. the

실험예 Experimental Example

이하에서는, 본 발명에 따른 데이터 프로파일링 시스템(200)이 제공하는 통계 분석 기반의 데이터 프로파일링 방법에 따라 데이터 프로파일링을 수행한 실험 결과에 대하여 살펴보기로 한다. In the following, it will now be made of a result of performing data profiling according to the present invention, the data profiling system 200 Statistical analysis based on the data profile to the service according to the.

본 실험에서는, 캐글(Kaggle)에 등록된 "Bike Sharing Demand" 데이터 집합을 활용하였고, 데이터 프로파일링의 성능 평가를 위해 데이터 품질 효율 측정값(DQEM)을 산출하였다. In this experiment, it was utilized to set the "Bike Sharing Demand" data registered in kaegeul (Kaggle), was calculated quality data efficiency measure (DQEM) to evaluate the performance of the data profiling. 여기서, 데이터 품질 효율 측정값을 산출하는 수학식은 아래의 수학식 2와 같이 나타낼 수 있다. Here, it may be expressed by Equation (2) below, equation for calculating the efficiency of data quality measures.

Figure 112015099238326-pat00002

위의 수학식 2에서, S는 전체 속성 수와 레코드 수의 곱(즉, 테이터 집합에 포함되는 전체 데이터 건 수)이고, m은 데이터 프로파일링의 대상이 되는 속성 수와 레코드 수의 곱이다. In equation (2) above, S is the (number of cases full data included in other words, mutator set) the product of the total number of attributes and record number, m is the product of the number of attributes to be subjected to the data profile and the number of records.

본 실험에서는, 본 발명에 따른 통계 분석 기반의 데이터 프로파일링 방법에 의하여, 데이터 집합에서 정의되는 16개의 속성 중 7개의 속성에 관하여 오류 발생 가능성이 높음을 시사하는 통계값이 산출되었고, 이들 7개의 속성에 대하여는 기설정된 조건에 따라 제1 가중치 또는 제2 가중치가 부여되었다. In this experiment, by statistical analysis based data profiling method according to the invention, a statistical value that is prone to error and suggests high with respect to the seven properties of the 16 properties to be defined in the data set has been calculated, these seven the first weight or the second weight in accordance with the conditions set group with respect to the properties was given.

연번 Tracking Number 속성명 Property name 제1 가중치 관련 통계값 A first weight-related statistics 제2 가중치 관련 통계값 A second weight related statistics
1 One 날씨(weather) Weather (weather) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
2 2 온도(temp) Temperature (temp) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
3 3 불쾌지수(atemp) Discomfort index (atemp) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
4 4 바람세기(windspeed) Wind strength (windspeed) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
5 5 임시대여(casual) Temporary rental (casual) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
결측치(NA) : 6,493건 Missing data (NA): 6,493 cases 결측치(NA) : 37.36% Missing data (NA): 37.36%
6 6 등록대여(registered) Rental properties (registered) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
표준편차(sd) : 151.039 The standard deviation (sd): 151.039 - -
결측치(NA) : 6,493건 Missing data (NA): 6,493 cases 결측치(NA) : 37.36% Missing data (NA): 37.36%
7 7 대여횟수(count) Rental times (count) Bonferroni p : 0 Bonferroni p: 0 Bonferroni p : 0 Bonferroni p: 0
표준편차(sd) : 181.144 The standard deviation (sd): 181.144 - -
결측치(NA) : 6,493건 Missing data (NA): 6,493 cases 결측치(NA) : 37.36% Missing data (NA): 37.36%

연번 Tracking Number 속성명 Property name 제1 가중치 First weight 제2 가중치 Second weight
1 One 날씨(weather) Weather (weather) 0.1 0.1 0.1 0.1
2 2 온도(temp) Temperature (temp) 0.1 0.1 0.1 0.1
3 3 불쾌지수(atemp) Discomfort index (atemp) 0.1 0.1 0.1 0.1
4 4 바람세기(windspeed) Wind strength (windspeed) 0.1 0.1 0.1 0.1
5 5 임시대여(casual) Temporary rental (casual) 0.2 0.2 0.2 0.2
6 6 등록대여(registered) Rental properties (registered) 0.3 0.3 0.2 0.2
7 7 대여횟수(count) Rental times (count) 0.3 0.3 0.2 0.2

표 3 및 표 4를 참조하면, 데이터 집합에서 정의되는 16개의 속성 중 날씨, 온도, 불쾌지수, 바람세기, 임시대여, 등록대여 및 대여횟수라는 7개의 속성에 대하여 오류 발생 가능성이 높음을 시사하는 제1 가중치 또는 제2 가중치가 부여되었음을 확인할 수 있다. Referring to Table 3 and Table 4, the weather of the 16 properties that are defined in the data set, the temperature, discomfort index, wind strength, temporary rentals, properties for hire, and the possibility of error occurrence with respect to the seven attributes of rental times to suggest High the first can be concluded that the weight or the second weight is assigned.

본 실험에서는, (i) 데이터 집합에서 정의되는 16개의 속성 중 제1 가중치가 0.3 이상인 2개의 속성만을 대상으로 하여 데이터 프로파일링을 수행한 경우에, 데이터 품질 효율 측정값(DQEM)이 87.5%인 것으로 산출되었고, (ii) 데이터 집합에서 정의되는 16개의 속성 중 제1 가중치가 0.1 이상인 7개의 속성만을 대상으로 하여 데이터 프로파일링을 수행한 경우에, 데이터 품질 효율 측정값이 56.25%인 것으로 산출되었다. In this experiment, (i) by Only two attributes than the first weight of the 16 properties of 0.3, which is defined in a data set in case of performing a data profiling, data quality, efficiency measure (DQEM) is 87.5% of was calculated to be, was calculated (ii) in the case of using only for the seven properties than the first weight of the 16 properties of 0.1 as defined in the dataset perform data profiling, that the data quality efficiency measure of 56.25% . 이러한 데이터 품질 효율 측정값은, 데이터 집합에서 정의되는 16개의 속성 모두를 대상으로 하여 데이터 프로파일링을 수행하는 종래 기술에 따르는 경우에 산출되는 데이터 품질 효율 측정값(0 %)에 비하여 획기적으로 높은 것에 해당한다. This data quality efficiency measure is, as compared to the quality of the data efficiency measure (0%) is calculated if the targeting all 16 properties to be defined in the data set according to the prior art for performing data profiling significantly higher correspond.

따라서, 본 발명에 의하면, 데이터 프로파일링의 효율을 획기적으로 향상시킬 수 있게 되는 효과가 달성됨을 확인할 수 있다. Therefore, according to the present invention, it can be seen that to achieve the effect of being able to greatly improve the efficiency of the data profiling. 또한, 본 발명에 의하면, 관리자의 주관적인 판단에 따라 임의로 선택되는 속성에 포함되는 데이터를 대상으로 하여 데이터 프로파일링을 수행하는 종래 기술에 비하여 신뢰성을 높일 수 있게 되는 효과도 달성된다. According to the present invention, it may be achieved by targeting the data contained in the property that is arbitrarily selected depending on the subjective judgment of the administrator effect of being able to increase reliability over the prior art that performs the data profiling.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. Embodiment according to the invention described above are implemented for example in the form of program instructions that may be performed through various computer components may be written to the non-temporality computer-readable recording medium. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. A computer-readable recording medium of the non-temporality may also include, alone or in combination with the program instructions, data files, data structures, and the like. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. Program instructions recorded on a computer-readable recording medium of the non-temporality may be one well-known and available to those skilled in things or computer software, and specifically designed for the present invention. 비일시성의 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. Examples of the computer readable recording medium of the non-temporality has, hard disks, floppy disks, and magnetic tape and the magnetic of the magnetic medium, CD-ROM, such as an optical recording medium, flop tikeol disk (floptical disk) such as DVD - optical medium ( storing program instructions, such as magneto-optical media), and ROM, RAM, flash memory, hardware devices that are specially configured to, perform. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. Examples of program instructions include, the use of such as both machine code, such as produced by a compiler, interpreter to contain higher level code that may be executed by a computer. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. The hardware devices may be configured to act as one or more software modules in order to perform the process according to the invention, and vice versa.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다. While the invention has been above described by the specific details and exemplary embodiments and drawings, such as specific components, which is only be provided to assist the overall understanding of the invention, the present invention is not limited to the above embodiments , those of ordinary skill in the art can be achieved with various changes and modifications to the described.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다. Accordingly, the scope of the invention is jeonghaejyeoseo is not restricted to the embodiment described above, in all, as well as the claims, which will be described later patent equivalents and claims as, or equivalently modified ones scope of the spirit of the invention I will say.

100: 통신망 100: communication network
200: 데이터 프로파일링 시스템 200: data profiling system
210: 데이터 집합 관리부 210: Datasets management
220: 속성 추출부 220: attribute extractor
221: 통계값 산출부 221: statistical value calculating unit
222: 가중치 부여부 222: if the weight parts
223: 대상 속성 결정부 223: To attribute determiner
230: 데이터 프로파일링 수행부 230: Perform a data profiling unit
240: 데이터베이스 240: Database
250: 통신부 250: Communication
260: 제어부 260: control unit
300: 사용자 디바이스 300: the user device
400: 외부 서버 400: an external server

Claims (10)

  1. 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 방법으로서, A method for providing a statistical analysis based data profiling (data profiling),
    데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 단계, On the basis of data included in each of the attributes defined in the data set, the method comprising: calculating at least one statistical value on the respective properties,
    상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 단계, 및 Step of the at least one statistical value is calculated as the reference, determining a weight to be given to said each of the attributes, and
    상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 단계 The method comprising at least one attribute or more levels above the pre-set weight of the attributes defined in the data sets determined as the attribute to be subjected to the data profiling
    를 포함하고, And including,
    상기 가중치 결정 단계에서, In the weight determining step,
    제1 속성에 관하여 산출되는 적어도 하나의 통계값이 기설정된 기준을 만족하면, 상기 제1 속성에 대하여 기설정된 가중치가 부여되도록 결정하는 방법. If any of the criteria, at least one set of statistics is a group which is calculated with respect to the first attribute, a method for determining that a predetermined weight is assigned to the first property.
  2. 제1항에 있어서, According to claim 1,
    상기 적어도 하나의 통계값에는, 결측치, 최소값, 최대값, 최빈값, 평균값, 분산, 표준편차, 다섯수치 요약, 이상치(outlier), 영에 가까운 분산값(Near Zero Variance) 중 적어도 하나가 포함되는 방법. In the at least one statistical value, the method included missing value, minimum value, maximum value, mode, mean, variance, standard deviation, of five figures summarized, at least one outlier (outlier), close to the variance value to zero (Near Zero Variance) is .
  3. 삭제 delete
  4. 제1항에 있어서, According to claim 1,
    상기 가중치는 속성에 포함되는 데이터에서 오류가 발생할 가능성이 클수록 높게 결정되는 방법. Wherein the weight is likely to result in errors in the data contained in the property higher high crystal.
  5. 제1항에 있어서, According to claim 1,
    상기 가중치에는, 서로 독립적으로 결정되는 제1 가중치 및 제2 가중치 중 적어도 하나가 포함되는 방법. The weight, the at least one method that includes the one of the first weight and a second weight which is determined independently of each other.
  6. 제5항에 있어서, 6. The method of claim 5,
    상기 속성 결정 단계에서, In the attribute determination step,
    적어도 두 속성 사이의 제1 가중치 및 제2 가중치의 합의 기하평균을 참조로 하여, 상기 기하평균이 기설정된 수준 이상인 조합을 이루는 적어도 두 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 방법. By a first weight and refer to the consensus geometric mean of the second weight between the at least two properties, a method for at least two properties that make the combination of the geometric mean group than set level determined as a property that is subject to data profiling.
  7. 제1항에 있어서, According to claim 1,
    상기 속성 결정 단계에서, In the attribute determination step,
    상기 데이터 집합에 적용되는 업무 규칙을 더 참조로 하여, 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 방법. How to business rules that are applied to the data set by further reference, determined as the attribute to be subjected to the data profile the at least one attribute.
  8. 제1항에 있어서, According to claim 1,
    상기 결정되는 적어도 하나의 속성에 포함되는 데이터만을 대상으로 하여 상기 데이터 집합에 대한 데이터 프로파일링을 수행하는 단계 Step of the data only for being included in at least one property that the decision to perform data profiling on the dataset
    를 더 포함하는 방법. The method further includes.
  9. 제1항, 제2항 및 제4항 내지 제8항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 비일시성의 컴퓨터 판독 가능한 기록 매체. Of claim 1, claim 2 and claim 4 to 8 of the non-temporality storing a computer program for executing a method according to any one of items A computer-readable recording medium.
  10. 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 시스템으로서, A system for providing a statistical analysis based data profiling (data profiling),
    데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 통계값 산출부, On the basis of data included in each of the attributes defined in the data set, it calculates statistical values ​​for calculating at least one statistical value on the respective properties,
    상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 가중치 부여부, 및 Whether the weight unit to the at least one statistical value is calculated as the reference, determining a weight to be given to said each of the attributes, and
    상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 대상 속성 결정부 Destination attribute determination unit for at least one property or more levels above the pre-set weight of the attributes defined in the data sets determined as the attribute to be subjected to the data profiling
    를 포함하고, And including,
    상기 가중치 부여부는, 제1 속성에 관하여 산출되는 적어도 하나의 통계값이 기설정된 기준을 만족하면, 상기 제1 속성에 대하여 기설정된 가중치가 부여되도록 결정하는 시스템. The weighting unit comprises at least one statistical value when the group satisfy the predetermined criteria, the system determining that a predetermined weighted for the first attribute is calculated with respect to the first attribute.
KR20150143390A 2015-06-04 2015-10-14 Method, device, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis KR101632073B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150079056 2015-06-04
KR20150079056 2015-06-04

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2016/005920 WO2016195421A1 (en) 2015-06-04 2016-06-03 Method, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis

Publications (1)

Publication Number Publication Date
KR101632073B1 true KR101632073B1 (en) 2016-06-20

Family

ID=56354579

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20150143390A KR101632073B1 (en) 2015-06-04 2015-10-14 Method, device, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis

Country Status (2)

Country Link
KR (1) KR101632073B1 (en)
WO (1) WO2016195421A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150015029A (en) * 2008-10-23 2015-02-09 아브 이니티오 테크놀로지 엘엘시 A method, a system, and a computer-readable medium storing a computer program for performing a data operation, measuring data quality, or joining data elements

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849075B2 (en) * 2003-09-15 2010-12-07 Ab Initio Technology Llc Joint field profiling
US8869208B2 (en) * 2011-10-30 2014-10-21 Google Inc. Computing similarity between media programs
KR101530848B1 (en) * 2012-09-20 2015-06-24 국립대학법인 울산과학기술대학교 산학협력단 Apparatus and method for quality control using datamining in manufacturing process
KR101448228B1 (en) * 2013-02-12 2014-10-10 이주양 Apparatus and Method for social data analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150015029A (en) * 2008-10-23 2015-02-09 아브 이니티오 테크놀로지 엘엘시 A method, a system, and a computer-readable medium storing a computer program for performing a data operation, measuring data quality, or joining data elements

Also Published As

Publication number Publication date Type
WO2016195421A1 (en) 2016-12-08 application

Similar Documents

Publication Publication Date Title
US20100198828A1 (en) Forming crowds and providing access to crowd data in a mobile environment
US6741990B2 (en) System and method for efficient and adaptive web accesses filtering
US20090281851A1 (en) Method and system for determining on-line influence in social media
US20120226627A1 (en) System and method for business reputation scoring
US20130297619A1 (en) Social media profiling
US20120158527A1 (en) Systems, Methods and/or Computer Readable Storage Media Facilitating Aggregation and/or Personalized Sequencing of News Video Content
CN102426686A (en) Internet information product recommending method based on matrix decomposition
US20110179019A1 (en) System and method for finding unexpected, but relevant content in an information retrieval system
US20110282893A1 (en) Decreasing duplicates and loops in an activity record
US20120066312A1 (en) Ad-hoc micro-blogging groups
US20090276346A1 (en) System and method for classifying a financial transaction as a recurring financial transaction
JP2008305258A (en) Evaluation method for user, user evaluation system and program
CN102662956A (en) Method for identifying opinion leaders in social network based on topic link behaviors of users
US9165299B1 (en) User-agent data clustering
US20120284270A1 (en) Method and device to detect similar documents
US20100100495A1 (en) Computer-implemented self-advertising system and method thereof
CN102693229A (en) Analysis method, recommendation method, analysis apparatus and recommendation apparatus for software
US20140122294A1 (en) Determining a characteristic group
US20090037315A1 (en) System and method for brokering agents and auditionees
US20120155290A1 (en) Carrying out predictive analysis relating to nodes of a communication network
US20130305376A1 (en) Systems, methods and computer readable media for calculating a security index of an application hosted in a cloud environment
CN103500228A (en) Similarity measuring method improved through collaborative filtering recommendation algorithm
CN101311898A (en) Software element reliability evaluation method and system
US8126820B1 (en) Community to support the definition and sharing of source trust level configurations
US20120290790A1 (en) Method, server, computer program and computer program product for caching

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant