WO2016195421A1 - Method, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis - Google Patents

Method, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis Download PDF

Info

Publication number
WO2016195421A1
WO2016195421A1 PCT/KR2016/005920 KR2016005920W WO2016195421A1 WO 2016195421 A1 WO2016195421 A1 WO 2016195421A1 KR 2016005920 W KR2016005920 W KR 2016005920W WO 2016195421 A1 WO2016195421 A1 WO 2016195421A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
data
weight
profiling
value
Prior art date
Application number
PCT/KR2016/005920
Other languages
French (fr)
Korean (ko)
Inventor
장원중
Original Assignee
장원중
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 장원중 filed Critical 장원중
Publication of WO2016195421A1 publication Critical patent/WO2016195421A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a method, system and non-transitory computer readable recording medium for providing statistical analysis based data profiling.
  • data quality diagnosis technique is determined by targeting only some attributes that are considered important among all attributes according to the purpose of use of data. And techniques for diagnosing (or data profiling).
  • data profiling can only be performed on the data contained in the data attribute called address, judging that the attribute called address is the most important, and it is difficult to assume that the data set is necessarily used only for mailing and the attribute called address.
  • This important judgment is only a subjective judgment of the manager, but the data quality diagnosis can be performed efficiently, but the reliability of the data profiling result is inevitably deteriorated.
  • Another example of a data quality diagnosis technique introduced in the related art may be a technique of performing data profiling on all attributes defined in a data set.
  • a data quality diagnosis technique may be a technique of performing data profiling on all attributes defined in a data set.
  • the object of the present invention is to solve all the above-mentioned problems.
  • the present invention calculates at least one statistical value for each attribute based on data included in each attribute defined in the data set, and assigns to each attribute with reference to the calculated at least one statistical value.
  • a method for providing statistical profiling-based data profiling based on data included in each attribute defined in a data set, the at least one statistics related to each attribute. Calculating a value, determining a weight to be assigned to each attribute with reference to the calculated at least one statistical value, and at least one of the attributes defined in the data set equal to or greater than a predetermined level
  • a method is provided that includes determining an attribute of a as an attribute subject to data profiling.
  • a system for providing statistical profiling-based data profiling wherein at least one statistic for each attribute is based on data contained in each attribute defined in the data set.
  • a statistical value calculator for calculating a value, a weighting unit for determining a weight given to each attribute with reference to the at least one calculated statistical value, and the weight among attributes defined in the data set A system is provided that includes a target attribute determiner that determines at least one attribute above a set level as an attribute to be subjected to data profiling.
  • non-transitory computer readable recording medium for recording another method, user device, system and computer program for executing the method for implementing the present invention.
  • the data profiling is performed on data included in some attributes determined to have a high probability of error based on statistical analysis among various attributes defined in the data set, the data are randomly selected according to the subjective judgment of the administrator. Compared with the prior art of performing data profiling on the data included in the attribute, the effect of greatly increasing the reliability is achieved.
  • the present invention it is possible to determine the attributes that are subject to data profiling by further reflecting the business rules (code values, business rules, etc.) applied to the data set together with the statistical analysis results, thereby improving the degree of completeness of data profiling. The effect of being able to increase is achieved.
  • FIG. 1 is a diagram illustrating a schematic configuration of an entire system for providing statistical analysis-based data profiling according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an internal configuration of a data profiling system according to an embodiment of the present invention.
  • FIG. 3 is a diagram exemplarily illustrating an internal configuration of an attribute extractor according to an exemplary embodiment of the present invention.
  • FIG. 4 is a diagram conceptually illustrating a configuration for determining an attribute, which is an object of data profiling, among attributes defined in a data set according to an embodiment of the present invention.
  • control unit 260 control unit
  • FIG. 1 is a diagram illustrating a schematic configuration of an entire system for providing statistical analysis-based data profiling according to an embodiment of the present invention.
  • the entire system may include a communication network 100, a data profiling system 200, a user device 300, and an external server 400. .
  • the communication network 100 may be configured regardless of a communication mode such as wired communication or wireless communication, and includes a local area network (LAN) and a metropolitan area network (MAN). ), And various communication networks such as a wide area network (WAN).
  • LAN local area network
  • MAN metropolitan area network
  • WAN wide area network
  • the communication network 100 as used herein may be a known Internet or World Wide Web (WWW).
  • WWW World Wide Web
  • the communication network 100 may include, at least in part, a known wired / wireless data communication network, a known telephone network, or a known wired / wireless television communication network without being limited thereto.
  • the data profiling system 200 may be a digital device having a computing capability by mounting a microprocessor and a memory means.
  • This data profiling system 200 may be a server system.
  • the data profiling system 200 at least one of each property based on the data contained in each property defined in the data set A statistical value is calculated, the weights assigned to each attribute are determined by referring to the at least one statistical value calculated above, and the data profile includes at least one attribute whose weight is equal to or greater than a predetermined level among the attributes defined in the data set.
  • the function of the data profiling system 200 will be described in more detail below. Meanwhile, the data profiling system 200 has been described as above, but this description is exemplary, and at least some of the functions or components required for the data profiling system 200 will be described later as needed. It will be apparent to those skilled in the art that or may be realized or included in the external server (400).
  • the user device 300 is a digital device that performs a function capable of communicating after connecting to the data profiling system 200 through the communication network 100, the memory means Any digital device having a computing power with a microprocessor can be adopted as the user device 300 according to the present invention.
  • the external server 400 is a server that includes a function that can communicate after connecting to the data profiling system 200 through the communication network 100, A function of providing a raw data or a data set in the form of a file or a database may be performed.
  • the external server 400 may provide reference information, transaction information, aggregate information, etc. as structured data, and may provide HTML, XML, GIS, etc. as semi-structured data, and may provide unstructured data.
  • a moving picture, an image, a sound, a document, or the like can be provided.
  • FIG. 2 is a diagram illustrating an internal configuration of a data profiling system according to an embodiment of the present invention.
  • FIG. 3 is a diagram exemplarily illustrating an internal configuration of an attribute extractor according to an exemplary embodiment of the present invention.
  • FIG. 4 is a diagram conceptually illustrating a configuration for determining an attribute, which is an object of data profiling, among attributes defined in a data set according to an embodiment of the present invention.
  • the data profiling system 200 may include a data set management unit 210, an attribute extractor 220, a data profiling performer 230, and a database. 240, a communication unit 250, and a control unit 260 may be included.
  • the attribute extractor 220 may include a statistical value calculator 221, a weighting unit 222, and a target attribute determiner 223.
  • the data set management unit 210, the attribute extraction unit 220, the data profiling unit 230, the database 240, the communication unit 250, and the control unit 260 are at least one of them. Some may be program modules in communication with an external system (not shown).
  • Such program modules may be included in the data profiling system 200 in the form of operating systems, application modules, and other program modules, and may be physically stored on various known storage devices. In addition, these program modules may be stored in a remote storage device that can communicate with the data profiling system 200.
  • program modules include, but are not limited to, routines, subroutines, programs, objects, components, data structures, etc. that perform particular tasks or execute particular abstract data types, described below, in accordance with the present invention.
  • the data set management unit 210 may perform a function of acquiring a raw data or a data set that is the object of data profiling from the external server 400 (FIG. a). In addition, according to an embodiment of the present invention, the data set management unit 210 may perform a function of converting the various types of raw data collected as described above into a data set having a format suitable for data profiling (FIG. 4). (b)).
  • the attribute extracting unit 220 may include data included in each attribute defined in the data set to be subjected to data profiling. Based on the above, the at least one statistical value for each attribute may be calculated.
  • the attribute defined in the data set refers to an item which is a criterion for classifying a large number of data (ie, records) included in the data set.
  • a criterion for classifying a large number of data ie, records
  • bicycle sharing status according to weather conditions (Bike Sharing)
  • weather Properties such as weather, humidity, casual, registered, rental count, temperature, temp, atemp and windspeed can be defined. have.
  • the attribute extractor 220 may calculate a statistical value that may be used as a measure for estimating the possibility of an error occurring in data included in each attribute defined in the data set. Can be. For example, statistical values such as missing values, minimum values, maximum values, mode values, average values, variances, standard deviations, five numerical summaries, outliers, and near zero variances may be calculated.
  • the attribute extractor 220 (specifically, the weighting unit 222) refers to at least one statistical value calculated as described above with respect to each attribute defined in the data set.
  • a function of determining a weight assigned to each attribute defined in the data set may be performed (see FIG. 4C).
  • the attribute extracting unit 220 if at least one statistical value calculated with respect to the first attribute defined in the data set satisfies a predetermined criterion, It may be determined that a set weight is given. More specifically, the attribute extracting unit 220 according to an embodiment of the present invention may determine a higher weight assigned to the first attribute as the probability that an error occurs in the data included in the first attribute is greater.
  • a weight that may be assigned to each attribute defined in the data set may include a first weight and a second weight, and the first weight and the second weight may be determined independently of each other.
  • the attribute extracting unit 220 may be assigned a first weight to the first attribute when the probability that an error occurs in the data included in the first attribute corresponds to a preset level. If the probability that an error occurs in the data included in the first attribute exceeds a predetermined level, the second weight may be further assigned to the first attribute.
  • the criteria for assigning the first weight and the second weight to the attributes defined in the data set may be set as shown in Table 1 and Table 2 below.
  • Second weight The number of missing (NA) cases is at least d% of the total number of data cases.
  • 0.1 Outlier Bonferroni p value is less than or equal to e (e is less than c in Table 1) 0.1
  • the first weighting factor and the second weighting criterion according to the present invention are not necessarily limited to those listed in Table 1 or Table 2 above, and may be changed as long as the object of the present invention can be achieved. It is revealed.
  • the attribute extracting unit 220 (specifically, the target attribute determining unit 223), at least one of the weights previously given among the attributes defined in the data set is at least a predetermined level.
  • the function of determining the attribute of as a target of data profiling can be performed.
  • the attribute extracting unit 220 further refers to a business rule applied to the data set, so that the object of data profiling includes at least one attribute among the attributes defined in the data set. It can be determined as an attribute to be made.
  • the business rule may include a code value or a business rule applied to the data set.
  • the attribute extractor 220 may include a geometric mean (GM) of a sum of first and second weights calculated between at least two attributes among attributes defined in a data set. ), At least two attributes which form a combination in which the geometric mean above is a predetermined level or more may be determined as attributes to be data profiling.
  • Equation for calculating a geometric mean (GM) of the sum of the first and second weights between at least two attributes may be expressed as Equation 1 below.
  • S is a set of attributes (a 1 , a 2 , ..., a i , a n ), n is the number of attributes selected from S, a i is the i th attribute, and a i14 Is a first weight assigned to the i-th attribute and a i15 is a second weight assigned to the i-th attribute.
  • the attribute extractor 220 may include a plurality of attributes defined in the data set based on the first weight and the second weight assigned to each attribute defined in the data set. May be classified into at least one group, and at least one attribute belonging to at least one of the above groups may be determined as an attribute for data profiling.
  • the data profiling performing unit 230 performs a function of performing data profiling targeting only at least one attribute determined as an attribute of data profiling. Can be.
  • the database 240 may include raw data, a data set, statistical values calculated with respect to attributes defined in the data set, weights assigned to attributes defined in the data set, and data profiling.
  • the function may store information on an attribute determined as a target of the data, a result of performing data profiling, and the like.
  • the database 240 is a concept including a computer-readable recording medium.
  • the database 240 may be a broad database including data recording based on a file system as well as a narrow database.
  • the communication unit 250 performs a function to enable the data profiling system 200 to communicate with the user device 300 or the external server 400.
  • control unit 260 is data between the data set management unit 210, the attribute extraction unit 220, the data profiling unit 230, the database 240, and the communication unit 250.
  • the controller 256 controls the flow of data from the outside or between each component of the data profiling system 200, thereby controlling the data set management unit 210, the attribute extractor 220, and the data profiling performer ( 230, the database 240 and the communication unit 250 control to perform a unique function, respectively.
  • Equation 2 Equation 2 below.
  • Equation 2 S is the product of the total number of attributes and the number of records (that is, the total number of data included in the data set), and m is the product of the number of attributes and the number of records that are subject to data profiling.
  • the present invention it can be seen that the effect that can significantly improve the efficiency of data profiling is achieved.
  • Embodiments according to the present invention described above may be implemented in the form of program instructions that may be executed by various computer components, and may be recorded on a non-transitory computer readable recording medium.
  • the non-transitory computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the non-transitory computer readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts.
  • non-transitory computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, magnetic-optical media such as floppy disks ( magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

According to one aspect of the present invention, provided is a method for providing data profiling based on a statistical analysis, comprising the steps of: calculating, on the basis of data belonging to each of attributes defined in a data set, at least one statistical value related to each of the attributes; determining a weight imparted to each of the attributes with reference to the at least one statistical value which has been calculated; and determining, among the attributes defined in the data set, at least one attribute having the weight greater than a preset level as an attribute subject to data profiling.

Description

통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체Method, system and non-transitory computer readable recording medium for providing statistical analysis based data profiling
본 발명은 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.The present invention relates to a method, system and non-transitory computer readable recording medium for providing statistical analysis based data profiling.
근래에 들어, 이메일(email), 소셜 네트워크 서비스(SNS), 멀티미디어(Multimedia), 모바일(Mobile), 사물 인터넷(IoT) 등을 통하여 생성되는 데이터가 급속히 증가하고 있고, 그 정보량은 이미 제타바이트(ZettaByte, 1021) 수준을 넘어서고 있다.In recent years, data generated through email, social network services (SNS), multimedia, multimedia, mobile, and the Internet of Things (IoT) is rapidly increasing, and the amount of information has already been increased by zettabyte ( ZettaByte, 10 21 ) Beyond the level.
또한, 빅 데이터를 분석하고 활용하는 기술이 전 산업 분야에 걸쳐서 활발하게 연구되고 있고 전 세계적으로 이슈가 되고 있으며, 국내에서도 정부(3.0) 차원에서 공공정보의 적극적인 개방을 통한 데이터 공유를 지향하고 있는 상황이다. 또한, 위와 같이 방대하게 쏟아지는 데이터를 활용하여 사용자에게 유용한 서비스를 제공하는 기술 역시 다양하게 개발되고 있는 실정이다.In addition, technologies that analyze and utilize big data are being actively researched across industries and are becoming an issue around the world, and in Korea, the government aims to share data through active openness of public information at the level of government (3.0). Situation. In addition, a variety of technologies for providing useful services to users by using such a massive amount of data are being developed.
이러한 상황에서, 데이터 품질의 신뢰성 확보가 선행될 필요가 있는데, 종래에 소개된 데이터 품질 진단 기술의 일 예로서, 데이터의 사용 목적에 따라 전체 속성 중 중요하다고 판단되는 일부 속성만을 대상으로 하여 데이터 품질을 진단(또는 데이터 프로파일링)하는 기술을 들 수 있다. 하지만, 이러한 종래 기술에 따르면, 데이터 프로파일링 결과가 관리자의 주관적인 판단에 따라 크게 달라질 수 있다는 문제점이 존재한다. 예를 들면, 고객에게 홍보용 자료를 우편으로 보내기 위한 목적으로 데이터 집합을 사용하는 경우를 가정할 수 있다. 이러한 경우에, 주소라는 속성이 가장 중요하다는 판단 하에 주소라는 데이터 속성에 포함되는 데이터에 대하여만 데이터 프로파일링을 수행할 수 있는데, 데이터 집합이 반드시 우편 발송용으로만 사용된다고 단정하기 어렵고 주소라는 속성이 중요하다는 판단도 관리자의 주관적인 판단에 불과하므로, 데이터 품질 진단이 효율적으로 수행될 수 있을지언정 데이터 프로파일링 결과에 대한 신뢰성은 떨어질 수 밖에 없게 되는 문제점이 발생하게 된다.In such a situation, it is necessary to secure reliability of data quality. As an example of a data quality diagnosis technique introduced in the related art, data quality is determined by targeting only some attributes that are considered important among all attributes according to the purpose of use of data. And techniques for diagnosing (or data profiling). However, according to this conventional technology, there is a problem that the data profiling result may vary greatly depending on the subjective judgment of the administrator. For example, suppose you use a dataset to mail promotional materials to customers. In this case, data profiling can only be performed on the data contained in the data attribute called address, judging that the attribute called address is the most important, and it is difficult to assume that the data set is necessarily used only for mailing and the attribute called address. This important judgment is only a subjective judgment of the manager, but the data quality diagnosis can be performed efficiently, but the reliability of the data profiling result is inevitably deteriorated.
종래에 소개된 데이터 품질 진단 기술의 다른 예로서, 데이터 집합에서 정의되는 모든 속성을 대상으로 데이터 프로파일링을 수행하는 기술을 들 수 있다. 이러한 종래 기술에 따르면, 정확한 데이터 프로파일링 결과를 얻을 수는 있지만, 데이터 집합에 포함되는 모든 데이터에 대하여 데이터 프로파일링을 수행해야 하기 때문에 지나치게 많은 시간과 노력이 소요된다는 한계가 존재한다. 예를 들면, 데이터 집합에서 정의되는 100개의 속성마다 1억건의 거래 정보 데이터가 존재하는 경우를 가정할 수 있는데, 이러한 경우에, 데이터 프로파일링의 대상이 되는 총 데이터 수가 100억개(속성 수 x 레코드 수 = 100 x 100,000,000)에 달하게 된다.Another example of a data quality diagnosis technique introduced in the related art may be a technique of performing data profiling on all attributes defined in a data set. According to this prior art, although accurate data profiling results can be obtained, there is a limitation that it takes too much time and effort because data profiling must be performed on all data included in the data set. For example, suppose 100 million transaction information data exist for every 100 attributes defined in the data set, in which case the total number of data subject to data profiling is 10 billion (number of attributes x records). Number = 100 x 100,000,000).
따라서, 신뢰성을 확보할 수 있으면서도 효율이 높은 데이터 프로파일링 기술이 요구되고 있는 실정이다.Therefore, there is a need for a data profiling technique with high efficiency while ensuring reliability.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.The object of the present invention is to solve all the above-mentioned problems.
또한, 본 발명은 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여 각 속성에 관한 적어도 하나의 통계값을 산출하고, 위의 산출되는 적어도 하나의 통계값을 참조로 하여 각 속성에 대하여 부여되는 가중치를 결정하고, 데이터 집합에서 정의되는 속성 중 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정함으로써, 신뢰성을 확보하면서도 효율이 높은 데이터 프로파일링을 수행할 수 있도록 하는 것을 다른 목적으로 한다.In addition, the present invention calculates at least one statistical value for each attribute based on data included in each attribute defined in the data set, and assigns to each attribute with reference to the calculated at least one statistical value. By determining the weights to be determined and determining at least one property whose weight is equal to or greater than a predetermined level among the properties defined in the data set as an object to be subjected to data profiling, efficient data profiling can be performed while ensuring reliability. To do so for other purposes.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.Representative configuration of the present invention for achieving the above object is as follows.
본 발명의 일 태양에 따르면, 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 방법으로서, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 단계, 상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 단계, 및 상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 단계를 포함하는 방법이 제공된다.According to an aspect of the present invention, there is provided a method for providing statistical profiling-based data profiling, based on data included in each attribute defined in a data set, the at least one statistics related to each attribute. Calculating a value, determining a weight to be assigned to each attribute with reference to the calculated at least one statistical value, and at least one of the attributes defined in the data set equal to or greater than a predetermined level A method is provided that includes determining an attribute of a as an attribute subject to data profiling.
본 발명의 다른 태양에 따르면, 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 시스템으로서, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 통계값 산출부, 상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 가중치 부여부, 및 상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 대상 속성 결정부를 포함하는 시스템이 제공된다.According to another aspect of the present invention, there is provided a system for providing statistical profiling-based data profiling, wherein at least one statistic for each attribute is based on data contained in each attribute defined in the data set. A statistical value calculator for calculating a value, a weighting unit for determining a weight given to each attribute with reference to the at least one calculated statistical value, and the weight among attributes defined in the data set A system is provided that includes a target attribute determiner that determines at least one attribute above a set level as an attribute to be subjected to data profiling.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 사용자 디바이스, 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.In addition, there is further provided a non-transitory computer readable recording medium for recording another method, user device, system and computer program for executing the method for implementing the present invention.
본 발명에 의하면, 데이터 집합에서 정의되는 여러 속성 중 통계 분석에 기반하여 오류 발생 가능성이 높다고 판단되는 일부 속성에 포함되는 데이터에 대하여 데이터 프로파일링을 수행하게 되므로, 관리자의 주관적인 판단에 따라 임의로 선택되는 속성에 포함되는 데이터에 대하여 데이터 프로파일링을 수행하는 종래 기술에 비하여 신뢰성을 크게 높일 수 있게 되는 효과가 달성된다.According to the present invention, since data profiling is performed on data included in some attributes determined to have a high probability of error based on statistical analysis among various attributes defined in the data set, the data are randomly selected according to the subjective judgment of the administrator. Compared with the prior art of performing data profiling on the data included in the attribute, the effect of greatly increasing the reliability is achieved.
또한, 본 발명에 의하면, 데이터 집합에서 정의되는 모든 속성의 데이터에 대하여 데이터 프로파일링을 수행하는 종래 기술에 비하여 효율을 획기적으로 향상시킬 수 있게 되는 효과가 달성된다.In addition, according to the present invention, an effect that can significantly improve the efficiency compared to the prior art that performs data profiling on the data of all the attributes defined in the data set.
또한, 본 발명에 의하면, 통계 분석 결과와 함께 데이터 집합에 적용되는 업무 규칙(코드 값, 비즈니스 규칙 등)을 더 반영하여 데이터 프로파일링의 대상이 되는 속성을 결정할 수 있으므로, 데이터 프로파일링의 완성도를 높일 수 있게 되는 효과가 달성된다.In addition, according to the present invention, it is possible to determine the attributes that are subject to data profiling by further reflecting the business rules (code values, business rules, etc.) applied to the data set together with the statistical analysis results, thereby improving the degree of completeness of data profiling. The effect of being able to increase is achieved.
도 1은 본 발명의 일 실시예에 따라 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.1 is a diagram illustrating a schematic configuration of an entire system for providing statistical analysis-based data profiling according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따라 데이터 프로파일링 시스템의 내부 구성을 예시적으로 나타내는 도면이다.2 is a diagram illustrating an internal configuration of a data profiling system according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따라 속성 추출부의 내부 구성을 예시적으로 나타내는 도면이다.3 is a diagram exemplarily illustrating an internal configuration of an attribute extractor according to an exemplary embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따라 데이터 집합에서 정의되는 속성 중 데이터 프로파일링의 대상이 되는 속성을 결정하는 구성을 개념적으로 나타내는 도면이다.4 is a diagram conceptually illustrating a configuration for determining an attribute, which is an object of data profiling, among attributes defined in a data set according to an embodiment of the present invention.
<부호의 설명><Description of the code>
100: 통신망100: network
200: 데이터 프로파일링 시스템200: data profiling system
210: 데이터 집합 관리부210: data set management unit
220: 속성 추출부220: attribute extraction unit
221: 통계값 산출부221: statistical value calculation unit
222: 가중치 부여부222: weighting unit
223: 대상 속성 결정부223: target attribute determination unit
230: 데이터 프로파일링 수행부230: data profiling unit
240: 데이터베이스240: database
250: 통신부250: communication unit
260: 제어부260: control unit
300: 사용자 디바이스300: user device
400: 외부 서버400: external server
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is defined only by the appended claims, along with the full range of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.
전체 시스템의 구성Configuration of the entire system
도 1은 본 발명의 일 실시예에 따라 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.1 is a diagram illustrating a schematic configuration of an entire system for providing statistical analysis-based data profiling according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 데이터 프로파일링 시스템(200), 사용자 디바이스(300) 및 외부 서버(400)를 포함하여 구성될 수 있다.As shown in FIG. 1, the entire system according to an embodiment of the present invention may include a communication network 100, a data profiling system 200, a user device 300, and an external server 400. .
먼저, 본 발명의 일 실시예에 따른 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드와이드웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.First, the communication network 100 according to an embodiment of the present invention may be configured regardless of a communication mode such as wired communication or wireless communication, and includes a local area network (LAN) and a metropolitan area network (MAN). ), And various communication networks such as a wide area network (WAN). Preferably, the communication network 100 as used herein may be a known Internet or World Wide Web (WWW). However, the communication network 100 may include, at least in part, a known wired / wireless data communication network, a known telephone network, or a known wired / wireless television communication network without being limited thereto.
다음으로, 본 발명의 일 실시예에 따르면, 데이터 프로파일링 시스템(200)은 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다. 이러한 데이터 프로파일링 시스템(200)은 서버 시스템일 수 있다.Next, according to an embodiment of the present invention, the data profiling system 200 may be a digital device having a computing capability by mounting a microprocessor and a memory means. This data profiling system 200 may be a server system.
구체적으로, 본 발명의 일 실시예에 따르면, 데이터 프로파일링 시스템(200)은, 아래에서 자세하게 설명되는 바와 같이, 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여 각 속성에 관한 적어도 하나의 통계값을 산출하고, 위의 산출되는 적어도 하나의 통계값을 참조로 하여 각 속성에 대하여 부여되는 가중치를 결정하고, 데이터 집합에서 정의되는 속성 중 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정함으로써, 신뢰성을 확보하면서도 효율이 높은 데이터 프로파일링을 수행할 수 있도록 하는 기능을 수행할 수 있다.Specifically, according to one embodiment of the invention, the data profiling system 200, as described in detail below, at least one of each property based on the data contained in each property defined in the data set A statistical value is calculated, the weights assigned to each attribute are determined by referring to the at least one statistical value calculated above, and the data profile includes at least one attribute whose weight is equal to or greater than a predetermined level among the attributes defined in the data set. By determining it as an attribute of the ring, it is possible to perform a function to ensure efficient data profiling while ensuring reliability.
데이터 프로파일링 시스템(200)의 기능에 관하여는 아래에서 더 자세하게 알아보기로 한다. 한편, 데이터 프로파일링 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 데이터 프로파일링 시스템(200)에 요구되는 기능이나 구성요소의 적어도 일부가 필요에 따라 후술할 사용자 디바이스(300) 또는 외부 서버(400)에서 실현되거나 포함될 수도 있음은 당업자에게 자명하다.The function of the data profiling system 200 will be described in more detail below. Meanwhile, the data profiling system 200 has been described as above, but this description is exemplary, and at least some of the functions or components required for the data profiling system 200 will be described later as needed. It will be apparent to those skilled in the art that or may be realized or included in the external server (400).
다음으로, 본 발명의 일 실시예에 따르면, 사용자 디바이스(300)는 통신망(100)을 통하여 데이터 프로파일링 시스템(200)에 접속한 후 통신할 수 있는 기능을 수행하는 디지털 기기로서, 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 디바이스(300)로서 채택될 수 있다.Next, according to an embodiment of the present invention, the user device 300 is a digital device that performs a function capable of communicating after connecting to the data profiling system 200 through the communication network 100, the memory means Any digital device having a computing power with a microprocessor can be adopted as the user device 300 according to the present invention.
다음으로, 본 발명의 일 실시예에 따르면, 외부 서버(400)는 통신망(100)을 통하여 데이터 프로파일링 시스템(200)에 접속한 후 통신할 수 있는 기능을 포함하는 서버로서, 데이터 프로파일링의 대상이 되는 로우 데이터(Raw Data) 또는 데이터 집합(Data Set)을 파일 또는 데이터베이스의 형태로 제공하는 기능을 수행할 수 있다. 예를 들면, 외부 서버(400)는, 구조화된 데이터로서 기준 정보, 거래 정보, 집계 정보 등을 제공할 수 있고, 반구조화된 데이터로서 HTML, XML, GIS 등을 제공할 수 있으며, 비구조화된 데이터로서 동영상, 이미지, 사운드, 문서 등을 제공할 수 있다.Next, according to an embodiment of the present invention, the external server 400 is a server that includes a function that can communicate after connecting to the data profiling system 200 through the communication network 100, A function of providing a raw data or a data set in the form of a file or a database may be performed. For example, the external server 400 may provide reference information, transaction information, aggregate information, etc. as structured data, and may provide HTML, XML, GIS, etc. as semi-structured data, and may provide unstructured data. As data, a moving picture, an image, a sound, a document, or the like can be provided.
데이터 프로파일링 시스템의 구성Configuration of the Data Profiling System
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 데이터 프로파일링 시스템의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.Hereinafter, the internal configuration of the data profiling system performing important functions for the implementation of the present invention and the function of each component will be described.
도 2는 본 발명의 일 실시예에 따라 데이터 프로파일링 시스템의 내부 구성을 예시적으로 나타내는 도면이다.2 is a diagram illustrating an internal configuration of a data profiling system according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따라 속성 추출부의 내부 구성을 예시적으로 나타내는 도면이다.3 is a diagram exemplarily illustrating an internal configuration of an attribute extractor according to an exemplary embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따라 데이터 집합에서 정의되는 속성 중 데이터 프로파일링의 대상이 되는 속성을 결정하는 구성을 개념적으로 나타내는 도면이다.4 is a diagram conceptually illustrating a configuration for determining an attribute, which is an object of data profiling, among attributes defined in a data set according to an embodiment of the present invention.
도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 데이터 프로파일링 시스템(200)은, 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240), 통신부(250) 및 제어부(260)를 포함할 수 있다. 여기서, 속성 추출부(220)는, 통계값 산출부(221), 가중치 부여부(222) 및 대상 속성 결정부(223)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240), 통신부(250) 및 제어부(260)는 그 중 적어도 일부가 외부 시스템(미도시됨)과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 데이터 프로파일링 시스템(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 데이터 프로파일링 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.2 and 3, the data profiling system 200 according to an embodiment of the present invention may include a data set management unit 210, an attribute extractor 220, a data profiling performer 230, and a database. 240, a communication unit 250, and a control unit 260 may be included. Here, the attribute extractor 220 may include a statistical value calculator 221, a weighting unit 222, and a target attribute determiner 223. According to an embodiment of the present invention, the data set management unit 210, the attribute extraction unit 220, the data profiling unit 230, the database 240, the communication unit 250, and the control unit 260 are at least one of them. Some may be program modules in communication with an external system (not shown). Such program modules may be included in the data profiling system 200 in the form of operating systems, application modules, and other program modules, and may be physically stored on various known storage devices. In addition, these program modules may be stored in a remote storage device that can communicate with the data profiling system 200. On the other hand, such program modules include, but are not limited to, routines, subroutines, programs, objects, components, data structures, etc. that perform particular tasks or execute particular abstract data types, described below, in accordance with the present invention.
먼저, 본 발명의 일 실시예에 따르면, 데이터 집합 관리부(210)는 외부 서버(400)로부터 데이터 프로파일링의 대상이 되는 로우 데이터 또는 데이터 집합을 획득하는 기능을 수행할 수 있다(도 4의 (a) 참조). 또한, 본 발명의 일 실시예에 따르면, 데이터 집합 관리부(210)는 위와 같이 수집되는 다양한 유형의 로우 데이터를 데이터 프로파일링에 적합한 포맷의 데이터 집합으로 변환하는 기능을 수행할 수 있다(도 4의 (b) 참조).First, according to an embodiment of the present invention, the data set management unit 210 may perform a function of acquiring a raw data or a data set that is the object of data profiling from the external server 400 (FIG. a). In addition, according to an embodiment of the present invention, the data set management unit 210 may perform a function of converting the various types of raw data collected as described above into a data set having a format suitable for data profiling (FIG. 4). (b)).
다음으로, 본 발명의 일 실시예에 따르면, 속성 추출부(220)(구체적으로는, 통계값 산출부(221))는 데이터 프로파일링의 대상이 되는 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 각 속성에 관한 적어도 하나의 통계값을 산출하는 기능을 수행할 수 있다.Next, according to an embodiment of the present invention, the attribute extracting unit 220 (specifically, the statistical value calculating unit 221) may include data included in each attribute defined in the data set to be subjected to data profiling. Based on the above, the at least one statistical value for each attribute may be calculated.
여기서, 데이터 집합에서 정의되는 속성은, 데이터 집합에 포함되는 수많은 데이터(즉, 레코드(record))를 분류하는 기준이 되는 항목을 가리키는 것으로서, 예를 들면, 기상 상황에 따른 자전거 대여 현황(Bike Sharing Demand)에 관한 데이터 집합에서는, 일시(date), 년(year), 월(month), 일(day), 시간(hour), 계절(season), 휴일(holiday), 근무일(working day), 날씨(weather), 습도(humidity), 임시대여(casual), 등록대여(registered), 대여횟수(count), 온도(temp), 불쾌지수(atemp), 바람세기(windspeed) 등의 속성이 정의될 수 있다.Here, the attribute defined in the data set refers to an item which is a criterion for classifying a large number of data (ie, records) included in the data set. For example, bicycle sharing status according to weather conditions (Bike Sharing) In the dataset for Demand, the date, year, month, day, hour, season, holiday, working day, weather Properties such as weather, humidity, casual, registered, rental count, temperature, temp, atemp and windspeed can be defined. have.
구체적으로, 본 발명의 일 실시예에 따르면, 속성 추출부(220)는 데이터 집합에서 정의되는 각 속성에 포함되는 데이터에서 오류가 발생할 가능성을 가늠할 수 있는 척도로서 활용될 수 있는 통계값을 산출할 수 있다. 예를 들면, 결측치, 최소값, 최대값, 최빈값, 평균값, 분산, 표준편차, 다섯수치 요약, 이상치(outlier), 영에 가까운 분산값(Near Zero Variance) 등의 통계값이 산출될 수 있다.Specifically, according to an embodiment of the present invention, the attribute extractor 220 may calculate a statistical value that may be used as a measure for estimating the possibility of an error occurring in data included in each attribute defined in the data set. Can be. For example, statistical values such as missing values, minimum values, maximum values, mode values, average values, variances, standard deviations, five numerical summaries, outliers, and near zero variances may be calculated.
또한, 본 발명의 일 실시예에 따르면, 속성 추출부(220)(구체적으로는, 가중치 부여부(222))는 데이터 집합에서 정의되는 각 속성에 관하여 위와 같이 산출되는 적어도 하나의 통계값을 참조로 하여, 데이터 집합에서 정의되는 각 속성에 대하여 부여되는 가중치를 결정하는 기능을 수행할 수 있다(도 4의 (c) 참조).In addition, according to an embodiment of the present invention, the attribute extractor 220 (specifically, the weighting unit 222) refers to at least one statistical value calculated as described above with respect to each attribute defined in the data set. In this case, a function of determining a weight assigned to each attribute defined in the data set may be performed (see FIG. 4C).
구체적으로, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 데이터 집합에서 정의되는 제1 속성에 관하여 산출되는 적어도 하나의 통계값이 기설정된 기준을 만족하면, 제1 속성에 대하여 기설정된 가중치가 부여되도록 결정할 수 있다. 보다 구체적으로, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 제1 속성에 포함되는 데이터에서 오류가 발생할 가능성이 클수록 제1 속성에 대하여 부여되는 가중치를 높게 결정할 수 있다.Specifically, the attribute extracting unit 220 according to an embodiment of the present invention, if at least one statistical value calculated with respect to the first attribute defined in the data set satisfies a predetermined criterion, It may be determined that a set weight is given. More specifically, the attribute extracting unit 220 according to an embodiment of the present invention may determine a higher weight assigned to the first attribute as the probability that an error occurs in the data included in the first attribute is greater.
여기서, 본 발명의 일 실시예에 따르면, 데이터 집합에서 정의되는 각 속성에 대하여 부여될 수 있는 가중치에는 제1 가중치 및 제2 가중치가 포함될 수 있으며, 제1 가중치와 제2 가중치는 서로 독립적으로 결정될 수 있다. 구체적으로, 본 발명의 일 실시예에 따른 속성 추출부(220)는 제1 속성에 포함되는 데이터에서 오류가 발생할 가능성이 기설정된 수준에 해당하는 경우에 제1 속성에 대하여 제1 가중치가 부여되도록 결정할 수 있고, 제1 속성에 포함되는 데이터에서 오류가 발생할 가능성이 기설정된 수준을 초과하는 경우에는 제1 속성에 대하여 제2 가중치가 더 부여되도록 결정할 수 있다.According to an embodiment of the present invention, a weight that may be assigned to each attribute defined in the data set may include a first weight and a second weight, and the first weight and the second weight may be determined independently of each other. Can be. Specifically, the attribute extracting unit 220 according to an embodiment of the present invention may be assigned a first weight to the first attribute when the probability that an error occurs in the data included in the first attribute corresponds to a preset level. If the probability that an error occurs in the data included in the first attribute exceeds a predetermined level, the second weight may be further assigned to the first attribute.
예를 들면, 데이터 집합에서 정의되는 속성에 대하여 제1 가중치 및 제2 가중치를 부여하는 기준은 각각 아래의 표 1 및 표 2와 같이 설정될 수 있다.For example, the criteria for assigning the first weight and the second weight to the attributes defined in the data set may be set as shown in Table 1 and Table 2 below.
표 1
제1 가중치 부여 기준 제1 가중치
결측치(NA)가 한 건이라도 존재하는 경우 0.1
영에 근접한 분산(Near Zero Variance)이 존재하는 경우 0.1
표준편차가 a 이상인 경우 0.1
Space("") 건 수가 b를 초과하는 경우 0.1
이상치(Outlier) Bonferroni p 값이 c 미만인 경우 0.1
데이터 시간 간격(최종일-최초일)이 현재 시간 간격(현재일-최초일)보다 큰 경우 0.1
Table 1
First weighting criteria First weight
If any missing value (NA) exists 0.1
When Near Zero Variance Exists 0.1
If the standard deviation is a or more 0.1
If the number of Space ("") entries exceeds b 0.1
Outlier Bonferroni p is less than c 0.1
The data time interval (last day-first day) is greater than the current time interval (current day-first day). 0.1
표 2
제2 가중치 부여 기준 제2 가중치
결측치(NA) 건 수가 전체 데이터 건 수의 d% 이상인 경우 0.1
이상치(Outlier) Bonferroni p 값이 e보다 작거나 같은 경우(e는 표 1의 c보다 작음) 0.1
TABLE 2
Second weighting criteria Second weight
The number of missing (NA) cases is at least d% of the total number of data cases. 0.1
Outlier Bonferroni p value is less than or equal to e (e is less than c in Table 1) 0.1
다만, 본 발명에 따른 제1 가중치 및 제2 가중치 부여 기준이 반드시 위의 표 1 또는 표 2에 열거된 것에 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 변경될 수 있음을 밝혀 둔다.However, the first weighting factor and the second weighting criterion according to the present invention are not necessarily limited to those listed in Table 1 or Table 2 above, and may be changed as long as the object of the present invention can be achieved. It is revealed.
또한, 본 발명의 일 실시예에 따르면, 속성 추출부(220)는(구체적으로는, 대상 속성 결정부(223)), 데이터 집합에서 정의되는 속성 중 앞서 부여된 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 기능을 수행할 수 있다.In addition, according to an embodiment of the present invention, the attribute extracting unit 220 (specifically, the target attribute determining unit 223), at least one of the weights previously given among the attributes defined in the data set is at least a predetermined level. The function of determining the attribute of as a target of data profiling can be performed.
또한, 본 발명의 일 실시예에 따르면, 속성 추출부(220)는, 데이터 집합에 적용되는 업무 규칙을 더 참조로 하여, 데이터 집합에서 정의되는 속성 중 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정할 수 있다. 여기서, 업무 규칙에는, 데이터 집합에 적용되는 코드 값이나 비즈니스 규칙 등이 포함될 수 있다.In addition, according to an embodiment of the present invention, the attribute extracting unit 220 further refers to a business rule applied to the data set, so that the object of data profiling includes at least one attribute among the attributes defined in the data set. It can be determined as an attribute to be made. In this case, the business rule may include a code value or a business rule applied to the data set.
예를 들면, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 데이터 집합에서 정의되는 속성 중 적어도 두 속성 사이에서 산출되는 제1 가중치 및 제2 가중치의 합의 기하평균(GM; Geometric Mean)을 참조로 하여, 위의 기하평균이 기설정된 수준 이상인 조합을 이루는 적어도 두 속성을 데이터 프로파일링의 되는 속성으로서 결정할 수 있다. 여기서, 적어도 두 속성 사이의 제1 가중치 및 제2 가중치의 합의 기하평균(GM; Geometric Mean)을 산출하는 수학식은 아래의 수학식 1과 같이 나타낼 수 있다.For example, the attribute extractor 220 according to an embodiment of the present invention may include a geometric mean (GM) of a sum of first and second weights calculated between at least two attributes among attributes defined in a data set. ), At least two attributes which form a combination in which the geometric mean above is a predetermined level or more may be determined as attributes to be data profiling. Here, Equation for calculating a geometric mean (GM) of the sum of the first and second weights between at least two attributes may be expressed as Equation 1 below.
수학식 1
Figure PCTKR2016005920-appb-M000001
Equation 1
Figure PCTKR2016005920-appb-M000001
위의 수학식 1에서, S는 속성 집합(a1, a2, ..., ai, an)이고, n은 S에서 선택된 속성의 개수이고, ai는 i 번째 속성이고, ai14는 i 번째 속성에 부여된 제1 가중치이고, ai15는 i 번째 속성에 부여된 제2 가중치이다.In Equation 1 above, S is a set of attributes (a 1 , a 2 , ..., a i , a n ), n is the number of attributes selected from S, a i is the i th attribute, and a i14 Is a first weight assigned to the i-th attribute and a i15 is a second weight assigned to the i-th attribute.
다른 예를 들면, 본 발명의 일 실시예에 따른 속성 추출부(220)는, 데이터 집합에서 정의되는 각 속성에 대하여 부여된 제1 가중치 및 제2 가중치에 근거하여 데이터 집합에서 정의되는 복수의 속성을 적어도 하나의 그룹으로 분류할 수 있고, 위의 그룹 중 적어도 한 그룹에 속하는 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정될 수 있다.For another example, the attribute extractor 220 according to an embodiment of the present invention may include a plurality of attributes defined in the data set based on the first weight and the second weight assigned to each attribute defined in the data set. May be classified into at least one group, and at least one attribute belonging to at least one of the above groups may be determined as an attribute for data profiling.
다음으로, 본 발명의 일 실시예에 따르면, 데이터 프로파일링 수행부(230)는 데이터 프로파일링의 대상이 되는 속성으로서 결정되는 적어도 하나의 속성만을 대상으로 하여 데이터 프로파일링을 수행하는 기능을 수행할 수 있다.Next, according to an embodiment of the present invention, the data profiling performing unit 230 performs a function of performing data profiling targeting only at least one attribute determined as an attribute of data profiling. Can be.
한편, 본 발명의 일 실시예에 따르면, 데이터베이스(240)는 로우 데이터, 데이터 집합, 데이터 집합에서 정의되는 속성에 관하여 산출되는 통계값, 데이터 집합에서 정의되는 속성에 대하여 부여되는 가중치, 데이터 프로파일링의 대상으로서 결정된 속성, 데이터 프로파일링 수행 결과 등에 관한 정보를 저장하는 기능을 수행할 수 있다. 이러한 데이터베이스(240)는 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있다.Meanwhile, according to an exemplary embodiment of the present invention, the database 240 may include raw data, a data set, statistical values calculated with respect to attributes defined in the data set, weights assigned to attributes defined in the data set, and data profiling. The function may store information on an attribute determined as a target of the data, a result of performing data profiling, and the like. The database 240 is a concept including a computer-readable recording medium. The database 240 may be a broad database including data recording based on a file system as well as a narrow database.
다음으로, 본 발명의 일 실시예에 따르면, 통신부(250)는 데이터 프로파일링 시스템(200)이 사용자 디바이스(300) 또는 외부 서버(400)와 통신할 수 있도록 하는 기능을 수행한다.Next, according to an embodiment of the present invention, the communication unit 250 performs a function to enable the data profiling system 200 to communicate with the user device 300 or the external server 400.
마지막으로, 본 발명의 일 실시예에 따른 제어부(260)는 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240) 및 통신부(250) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 즉, 제어부(256)는 외부로부터의 또는 데이터 프로파일링 시스템(200)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 데이터 집합 관리부(210), 속성 추출부(220), 데이터 프로파일링 수행부(230), 데이터베이스(240) 및 통신부(250)에서 각각 고유 기능을 수행하도록 제어한다.Finally, the control unit 260 according to an embodiment of the present invention is data between the data set management unit 210, the attribute extraction unit 220, the data profiling unit 230, the database 240, and the communication unit 250. To control the flow of the. That is, the controller 256 controls the flow of data from the outside or between each component of the data profiling system 200, thereby controlling the data set management unit 210, the attribute extractor 220, and the data profiling performer ( 230, the database 240 and the communication unit 250 control to perform a unique function, respectively.
실험예Experimental Example
이하에서는, 본 발명에 따른 데이터 프로파일링 시스템(200)이 제공하는 통계 분석 기반의 데이터 프로파일링 방법에 따라 데이터 프로파일링을 수행한 실험 결과에 대하여 살펴보기로 한다.Hereinafter, an experimental result of performing data profiling according to a statistical analysis-based data profiling method provided by the data profiling system 200 according to the present invention will be described.
본 실험에서는, 캐글(Kaggle)에 등록된 "Bike Sharing Demand" 데이터 집합을 활용하였고, 데이터 프로파일링의 성능 평가를 위해 데이터 품질 효율 측정값(DQEM)을 산출하였다. 여기서, 데이터 품질 효율 측정값을 산출하는 수학식은 아래의 수학식 2와 같이 나타낼 수 있다.In this experiment, we used the "Bike Sharing Demand" data set registered in Kaggle, and calculated the data quality efficiency measure (DQEM) for performance evaluation of data profiling. Here, the equation for calculating the data quality efficiency measurement value can be expressed as Equation 2 below.
수학식 2
Figure PCTKR2016005920-appb-M000002
Equation 2
Figure PCTKR2016005920-appb-M000002
위의 수학식 2에서, S는 전체 속성 수와 레코드 수의 곱(즉, 테이터 집합에 포함되는 전체 데이터 건 수)이고, m은 데이터 프로파일링의 대상이 되는 속성 수와 레코드 수의 곱이다.In Equation 2, S is the product of the total number of attributes and the number of records (that is, the total number of data included in the data set), and m is the product of the number of attributes and the number of records that are subject to data profiling.
본 실험에서는, 본 발명에 따른 통계 분석 기반의 데이터 프로파일링 방법에 의하여, 데이터 집합에서 정의되는 16개의 속성 중 7개의 속성에 관하여 오류 발생 가능성이 높음을 시사하는 통계값이 산출되었고, 이들 7개의 속성에 대하여는 기설정된 조건에 따라 제1 가중치 또는 제2 가중치가 부여되었다.In this experiment, statistical values suggesting that errors are likely to occur with respect to seven of the sixteen attributes defined in the data set were calculated by the statistical analysis-based data profiling method according to the present invention. The attribute has been given a first weight or a second weight according to a preset condition.
표 3
연번 속성명 제1 가중치 관련 통계값 제2 가중치 관련 통계값
1 날씨(weather) Bonferroni p : 0 Bonferroni p : 0
2 온도(temp) Bonferroni p : 0 Bonferroni p : 0
3 불쾌지수(atemp) Bonferroni p : 0 Bonferroni p : 0
4 바람세기(windspeed) Bonferroni p : 0 Bonferroni p : 0
5 임시대여(casual) Bonferroni p : 0 Bonferroni p : 0
결측치(NA) : 6,493건 결측치(NA) : 37.36%
6 등록대여(registered) Bonferroni p : 0 Bonferroni p : 0
표준편차(sd) : 151.039 -
결측치(NA) : 6,493건 결측치(NA) : 37.36%
7 대여횟수(count) Bonferroni p : 0 Bonferroni p : 0
표준편차(sd) : 181.144 -
결측치(NA) : 6,493건 결측치(NA) : 37.36%
TABLE 3
Serial number Attribute name First weight related statistics Second weight related statistics
One Weather Bonferroni p: 0 Bonferroni p: 0
2 Temp Bonferroni p: 0 Bonferroni p: 0
3 Discomfort index (atemp) Bonferroni p: 0 Bonferroni p: 0
4 Windspeed Bonferroni p: 0 Bonferroni p: 0
5 Casual rent Bonferroni p: 0 Bonferroni p: 0
Missing value (NA): 6,493 cases Missing value (NA): 37.36%
6 Registered Bonferroni p: 0 Bonferroni p: 0
Standard deviation (sd): 151.039 -
Missing value (NA): 6,493 cases Missing value (NA): 37.36%
7 Rental Count Bonferroni p: 0 Bonferroni p: 0
Standard deviation (sd): 181.144 -
Missing value (NA): 6,493 cases Missing value (NA): 37.36%
표 4
연번 속성명 제1 가중치 제2 가중치
1 날씨(weather) 0.1 0.1
2 온도(temp) 0.1 0.1
3 불쾌지수(atemp) 0.1 0.1
4 바람세기(windspeed) 0.1 0.1
5 임시대여(casual) 0.2 0.2
6 등록대여(registered) 0.3 0.2
7 대여횟수(count) 0.3 0.2
Table 4
Serial number Attribute name First weight Second weight
One Weather 0.1 0.1
2 Temp 0.1 0.1
3 Discomfort index (atemp) 0.1 0.1
4 Windspeed 0.1 0.1
5 Casual rent 0.2 0.2
6 Registered 0.3 0.2
7 Rental Count 0.3 0.2
표 3 및 표 4를 참조하면, 데이터 집합에서 정의되는 16개의 속성 중 날씨, 온도, 불쾌지수, 바람세기, 임시대여, 등록대여 및 대여횟수라는 7개의 속성에 대하여 오류 발생 가능성이 높음을 시사하는 제1 가중치 또는 제2 가중치가 부여되었음을 확인할 수 있다.Referring to Tables 3 and 4, it is likely that errors are likely to occur for seven of the sixteen attributes defined in the dataset: weather, temperature, unpleasantness index, wind strength, temporary rental, registration and rental frequency. It can be confirmed that the first weight or the second weight is assigned.
본 실험에서는, (i) 데이터 집합에서 정의되는 16개의 속성 중 제1 가중치가 0.3 이상인 2개의 속성만을 대상으로 하여 데이터 프로파일링을 수행한 경우에, 데이터 품질 효율 측정값(DQEM)이 87.5%인 것으로 산출되었고, (ii) 데이터 집합에서 정의되는 16개의 속성 중 제1 가중치가 0.1 이상인 7개의 속성만을 대상으로 하여 데이터 프로파일링을 수행한 경우에, 데이터 품질 효율 측정값이 56.25%인 것으로 산출되었다. 이러한 데이터 품질 효율 측정값은, 데이터 집합에서 정의되는 16개의 속성 모두를 대상으로 하여 데이터 프로파일링을 수행하는 종래 기술에 따르는 경우에 산출되는 데이터 품질 효율 측정값(0 %)에 비하여 획기적으로 높은 것에 해당한다.In the present experiment, (i) when data profiling was performed on only two attributes having a first weight of 0.3 or higher among 16 attributes defined in the data set, the data quality efficiency measure (DQEM) was 87.5%. (Ii) The data quality efficiency measurement was calculated to be 56.25% when data profiling was performed on only seven attributes having a first weight of 0.1 or more among the sixteen attributes defined in the data set. . This data quality efficiency measure is significantly higher than the data quality efficiency measure (0%) calculated in accordance with the prior art of performing data profiling on all 16 attributes defined in the data set. Corresponding.
따라서, 본 발명에 의하면, 데이터 프로파일링의 효율을 획기적으로 향상시킬 수 있게 되는 효과가 달성됨을 확인할 수 있다. 또한, 본 발명에 의하면, 관리자의 주관적인 판단에 따라 임의로 선택되는 속성에 포함되는 데이터를 대상으로 하여 데이터 프로파일링을 수행하는 종래 기술에 비하여 신뢰성을 높일 수 있게 되는 효과도 달성된다.Therefore, according to the present invention, it can be seen that the effect that can significantly improve the efficiency of data profiling is achieved. In addition, according to the present invention, it is also possible to achieve an effect of increasing the reliability compared to the prior art of performing data profiling on the data included in the attribute selected arbitrarily according to the subjective judgment of the administrator.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 비일시성의 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Embodiments according to the present invention described above may be implemented in the form of program instructions that may be executed by various computer components, and may be recorded on a non-transitory computer readable recording medium. The non-transitory computer readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the non-transitory computer readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts. Examples of non-transitory computer readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, magnetic-optical media such as floppy disks ( magneto-optical media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.Although the present invention has been described by specific embodiments such as specific components and the like, but the embodiments and the drawings are provided to assist in a more general understanding of the present invention, the present invention is not limited to the above embodiments. For those skilled in the art, various modifications and variations can be made from these descriptions.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.Accordingly, the spirit of the present invention should not be limited to the above-described embodiments, and all of the equivalents or equivalents of the claims, as well as the appended claims, fall within the scope of the spirit of the present invention. I will say.

Claims (9)

  1. 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 방법으로서,As a method for providing data profiling based on statistical analysis,
    데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 단계,Calculating at least one statistical value for each attribute based on data included in each attribute defined in the data set,
    상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 단계, 및Determining a weight given to each attribute by referring to the calculated at least one statistical value, and
    상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 단계Determining at least one of the attributes defined in the data set whose weight is equal to or greater than a predetermined level as an attribute to be subjected to data profiling;
    를 포함하고,Including,
    상기 가중치 결정 단계에서,In the weight determination step,
    제1 속성에 관하여 산출되는 적어도 하나의 통계값이 기설정된 기준을 만족하면, 상기 제1 속성에 대하여 기설정된 가중치가 부여되도록 결정하는 방법.And if the at least one statistical value calculated with respect to the first attribute satisfies a predetermined criterion, a predetermined weight is assigned to the first attribute.
  2. 제1항에 있어서,The method of claim 1,
    상기 적어도 하나의 통계값에는, 결측치, 최소값, 최대값, 최빈값, 평균값, 분산, 표준편차, 다섯수치 요약, 이상치(outlier), 영에 가까운 분산값(Near Zero Variance) 중 적어도 하나가 포함되는 방법.The at least one statistical value includes at least one of a missing value, a minimum value, a maximum value, a mode value, an average value, a variance, a standard deviation, a five-value summary, an outlier, and a near zero variance. .
  3. 제1항에 있어서,The method of claim 1,
    상기 가중치는 속성에 포함되는 데이터에서 오류가 발생할 가능성이 클수록 높게 결정되는 방법.The weighting method is determined as the higher the probability that an error occurs in the data included in the attribute.
  4. 제1항에 있어서,The method of claim 1,
    상기 가중치에는, 서로 독립적으로 결정되는 제1 가중치 및 제2 가중치 중 적어도 하나가 포함되는 방법.The weighted method includes at least one of a first weighted value and a second weighted value determined independently of each other.
  5. 제4항에 있어서,The method of claim 4, wherein
    상기 속성 결정 단계에서,In the attribute determination step,
    적어도 두 속성 사이의 제1 가중치 및 제2 가중치의 합의 기하평균을 참조로 하여, 상기 기하평균이 기설정된 수준 이상인 조합을 이루는 적어도 두 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 방법.A method for determining, as an attribute to be subjected to data profiling, with reference to a geometric mean of a sum of a first weight and a second weight between at least two attributes, the combination of which the geometric mean is above a predetermined level.
  6. 제1항에 있어서,The method of claim 1,
    상기 속성 결정 단계에서,In the attribute determination step,
    상기 데이터 집합에 적용되는 업무 규칙을 더 참조로 하여, 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 방법.Determining at least one attribute as an attribute subject to data profiling, further with reference to a business rule applied to the data set.
  7. 제1항에 있어서,The method of claim 1,
    상기 결정되는 적어도 하나의 속성에 포함되는 데이터만을 대상으로 하여 상기 데이터 집합에 대한 데이터 프로파일링을 수행하는 단계Performing data profiling on the data set targeting only data included in the determined at least one attribute
    를 더 포함하는 방법.How to include more.
  8. 제1항 내지 제7항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 비일시성의 컴퓨터 판독 가능한 기록 매체.A non-transitory computer readable recording medium having recorded thereon a computer program for executing the method according to any one of claims 1 to 7.
  9. 통계 분석 기반의 데이터 프로파일링(data profiling)을 제공하기 위한 시스템으로서,A system for providing data profiling based on statistical analysis,
    데이터 집합에서 정의되는 각 속성에 포함되는 데이터에 기초하여, 상기 각 속성에 관한 적어도 하나의 통계값을 산출하는 통계값 산출부,A statistical value calculator for calculating at least one statistical value for each attribute based on data included in each attribute defined in the data set;
    상기 산출되는 적어도 하나의 통계값을 참조로 하여, 상기 각 속성에 대하여 부여되는 가중치를 결정하는 가중치 부여부, 및A weighting unit for determining a weight given to each attribute with reference to the at least one calculated statistical value, and
    상기 데이터 집합에서 정의되는 속성 중 상기 가중치가 기설정된 수준 이상인 적어도 하나의 속성을 데이터 프로파일링의 대상이 되는 속성으로서 결정하는 대상 속성 결정부A target attribute determination unit that determines at least one attribute whose weight is equal to or greater than a predetermined level among attributes defined in the data set as an attribute to be subjected to data profiling.
    를 포함하고,Including,
    상기 가중치 부여부는, 제1 속성에 관하여 산출되는 적어도 하나의 통계값이 기설정된 기준을 만족하면, 상기 제1 속성에 대하여 기설정된 가중치가 부여되도록 결정하는 시스템.And the weighting unit determines that a predetermined weight is given to the first attribute when at least one statistical value calculated with respect to the first attribute satisfies a predetermined criterion.
PCT/KR2016/005920 2015-06-04 2016-06-03 Method, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis WO2016195421A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20150079056 2015-06-04
KR10-2015-0079056 2015-06-04
KR10-2015-0143390 2015-10-14
KR1020150143390A KR101632073B1 (en) 2015-06-04 2015-10-14 Method, device, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis

Publications (1)

Publication Number Publication Date
WO2016195421A1 true WO2016195421A1 (en) 2016-12-08

Family

ID=56354579

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/005920 WO2016195421A1 (en) 2015-06-04 2016-06-03 Method, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis

Country Status (2)

Country Link
KR (1) KR101632073B1 (en)
WO (1) WO2016195421A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389295A (en) * 2019-06-14 2019-10-29 福建省福联集成电路有限公司 A kind of electrical data processing method and storage medium based on VBA language

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365910B1 (en) * 2019-12-31 2022-02-22 가톨릭관동대학교산학협력단 Data profiling method and data profiling system using attribute value quality index
KR102240496B1 (en) * 2020-04-17 2021-04-15 주식회사 한국정보기술단 Data quality management system and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090039803A (en) * 2003-09-15 2009-04-22 아브 이니티오 소프트웨어 엘엘시 Data profiling
KR20140039380A (en) * 2012-09-20 2014-04-02 국립대학법인 울산과학기술대학교 산학협력단 Apparatus and method for quality control using datamining in manufacturing process
KR20140088205A (en) * 2011-10-30 2014-07-09 구글 인코포레이티드 Computing similarity between media programs
KR20140101906A (en) * 2013-02-12 2014-08-21 이주양 Apparatus and Method for social data analysis
KR20150015029A (en) * 2008-10-23 2015-02-09 아브 이니티오 테크놀로지 엘엘시 A method, a system, and a computer-readable medium storing a computer program for performing a data operation, measuring data quality, or joining data elements

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090039803A (en) * 2003-09-15 2009-04-22 아브 이니티오 소프트웨어 엘엘시 Data profiling
KR20150015029A (en) * 2008-10-23 2015-02-09 아브 이니티오 테크놀로지 엘엘시 A method, a system, and a computer-readable medium storing a computer program for performing a data operation, measuring data quality, or joining data elements
KR20140088205A (en) * 2011-10-30 2014-07-09 구글 인코포레이티드 Computing similarity between media programs
KR20140039380A (en) * 2012-09-20 2014-04-02 국립대학법인 울산과학기술대학교 산학협력단 Apparatus and method for quality control using datamining in manufacturing process
KR20140101906A (en) * 2013-02-12 2014-08-21 이주양 Apparatus and Method for social data analysis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389295A (en) * 2019-06-14 2019-10-29 福建省福联集成电路有限公司 A kind of electrical data processing method and storage medium based on VBA language
CN110389295B (en) * 2019-06-14 2022-03-25 福建省福联集成电路有限公司 VBA language-based electrical data processing method and storage medium

Also Published As

Publication number Publication date
KR101632073B1 (en) 2016-06-20

Similar Documents

Publication Publication Date Title
WO2018090544A1 (en) Method and device for detecting dos/ddos attack, server, and storage medium
WO2018205373A1 (en) Method and apparatus for estimating injury claims settlement and loss adjustment expense, server and medium
WO2016195421A1 (en) Method, system and non-transitory computer-readable recording medium for providing data profiling based on statistical analysis
WO2011010823A2 (en) Method for detecting and preventing a ddos attack using cloud computing, and server
WO2020211146A1 (en) Identifier association method and device, and electronic apparatus
CN111262851A (en) DDOS attack detection method and device, electronic equipment and storage medium
CN111414949B (en) Picture clustering method and device, electronic equipment and storage medium
WO2020082588A1 (en) Method and apparatus for identifying abnormal service request, electronic device, and medium
JPWO2003100619A1 (en) Unauthorized access detection device, unauthorized access detection program, and unauthorized access detection method
WO2017155292A1 (en) Anomaly detection method and detection program
WO2015129983A1 (en) Device and method for recommending movie on basis of distributed mining of fuzzy association rules
Shen et al. Improved approximate detection of duplicates for data streams over sliding windows
WO2011099688A1 (en) Method for managing a personalized social network map in an application server which provides personalized content, and program recording medium for executing the method
CN114363091B (en) Method and system for realizing unified login of platform application based on APISIX
JPWO2017169189A1 (en) Analysis device, analysis method, and program
CN106961441B (en) User dynamic access control method for Hadoop cloud platform
WO2018062614A1 (en) Metering data management system and computer-readable recording medium
CN113495886A (en) Method and device for detecting pollution sample data for model training
JP4420085B2 (en) Data processing apparatus, data processing method, program, and recording medium
WO2019098584A1 (en) System and method for calculating user&#39;s reliability for unknown device in internet-of-things environment
WO2017195943A1 (en) Method and device for identifying data of storage server for service having high temporality with human relationship
CN115470399A (en) ID (identity) communication method, device, equipment and storage medium based on big data
CN112543199B (en) IP abnormal flow detection method, system, computer equipment and storage medium
CN111431764B (en) Node determining method, device, system and medium
CN109918366B (en) Data security processing method based on big data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16803774

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 15.03.2018)

122 Ep: pct application non-entry in european phase

Ref document number: 16803774

Country of ref document: EP

Kind code of ref document: A1