KR100798577B1 - Analyzing system and analyzing method for data quality problem - Google Patents
Analyzing system and analyzing method for data quality problem Download PDFInfo
- Publication number
- KR100798577B1 KR100798577B1 KR1020070064860A KR20070064860A KR100798577B1 KR 100798577 B1 KR100798577 B1 KR 100798577B1 KR 1020070064860 A KR1020070064860 A KR 1020070064860A KR 20070064860 A KR20070064860 A KR 20070064860A KR 100798577 B1 KR100798577 B1 KR 100798577B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- quality
- analysis
- analyzing
- target data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 136
- 238000005206 flow analysis Methods 0.000 claims abstract description 23
- 238000003326 Quality management system Methods 0.000 claims abstract description 12
- 238000005259 measurement Methods 0.000 claims description 23
- 238000003908 quality control method Methods 0.000 claims description 12
- 238000007726 management method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000010921 in-depth analysis Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000003324 Six Sigma (6σ) Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/231—Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Signal Processing (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 1은 실시예에 따른 데이터품질문제 분석시스템의 개념도.1 is a conceptual diagram of a data quality problem analysis system according to an embodiment;
도 2는 실시예에 따른 데이터품질문제 분석시스템을 이용한 데이터품질문제 분석방법의 흐름도.2 is a flowchart of a data quality problem analysis method using a data quality problem analysis system according to an embodiment;
도 3은 실시예에 따른 데이터품질문제 분석시스템의 데이터 흐름 분석방법의 개념도.3 is a conceptual diagram of a data flow analysis method of a data quality problem analysis system according to an embodiment;
도 4는 실시예에 따른 데이터품질문제 분석시스템의 데이터 상세분석방법의 개념도.4 is a conceptual diagram of a detailed data analysis method of a data quality problem analysis system according to an embodiment.
실시예는 데이터품질문제 분석시스템 및 데이터품질문제 분석방법에 관한 것이다.An embodiment relates to a data quality problem analysis system and a data quality problem analysis method.
종래기술에 의한 데이터품질관리시스템(Data Quality Management System:DQMS)은 일반적으로 6시그마 기법에 준하여 정의 단계, 측정 단계, 분석 단계, 개선 단계 및 통제 단계로 이루어진다고 할 수 있다. In the prior art, the Data Quality Management System (DQMS) generally consists of a definition step, a measurement step, an analysis step, an improvement step, and a control step according to a six sigma technique.
정의단계는 품질 측정을 위한 범위, 측정 인덱스, 업무규칙을 정의하는 단계이고, 측정단계는 업무 규칙을 측정 스크립트(script)로 변환하여 품질측정을 실행하는 단계이며, 분석단계는 측정된 결과를 가지고 데이터 품질 문제(오류 데이터)에 대한 원인 분석하는 단계이고, 개선단계는 원인 분석된 결과를 기반으로 개선활동을 수행하는 단계이고, 통제단계는 권한 통제, 절차 통제, 모니터링과 같은 상기 활동에 대한 통제하는 단계이다.The definition step is to define the range, measurement index, and business rules for quality measurement.The measurement step is to execute quality measurement by converting business rules into measurement scripts.The analysis step has measured results. Analyze the cause of data quality problems (error data), and the improvement phase is the step of performing improvement activities based on the cause analysis result, and the control phase is the control of the above activities such as authority control, procedure control, and monitoring. It's a step.
그런데, 종래기술에 의하면 이러한 단계 중 현재 국내외에서 데이터 품질관리를 위해 상용화된 기술들은 정의, 측정, 통제에 집중되어 있다.However, according to the prior art, currently commercialized technologies for data quality management at home and abroad are concentrated on definition, measurement, and control.
즉, 종래기술에 의하면 데이터 품질문제의 실제원인은 데이터에 있음에도, 데이터 모델을 추적하는데 그치고 있다. In other words, according to the prior art, although the actual cause of the data quality problem is in the data, it only tracks the data model.
따라서, 종래기술에 의하면 데이터 품질문제의 원인을 분석하기 위해 사용자는 데이터의 연관관계를 분석한 후 구조화조회언어(Structured Query Language:SQL) 스크립트(Script)를 직접 작성 및 실행하여 분석활동을 하게 되는 한계가 있다.Therefore, according to the related art, in order to analyze the cause of the data quality problem, the user analyzes the relationship of data and then directly writes and executes a structured query language (SQL) script to perform an analysis activity. There is a limit.
또한, 종래기술에 의하면 품질관리 개념의 일부 제품이 있으나 데이터 분석에 대한 시스템적인 지원이 부족한 실정이다.In addition, according to the prior art, there are some products of the concept of quality control, but there is a lack of systematic support for data analysis.
실시예는 데이터베이스(DB) 데이터 상에 품질문제가 있을 경우 원인을 분석하기 위한 기술에 관한 것으로, 특히 데이터 품질이 의심스러운 데이터에 대해 데이터 흐름을 추적할 수 있는 기술 및 주변 데이터와의 상호 연계성 분석을 할 수 있는 기술을 제공할 수 있는 데이터품질문제 분석시스템 및 데이터품질문제 분석방법을 제공하고자 한다.The embodiment relates to a technique for analyzing the cause when there is a quality problem in the database (DB) data, and in particular, a technique capable of tracking the data flow for data whose questionable data quality is suspected, and an interconnection analysis with surrounding data. It aims to provide a data quality problem analysis system and data quality problem analysis method that can provide the technology to do this.
실시예에 따른 데이터품질문제 분석시스템은 품질분석대상 데이터를 포함하는 데이터 품질관리시스템; 및 상기 품질분석대상 데이터에 대한 메타 데이터를 포함하는 메타시스템;을 포함하고, 상기 데이터 품질관리시스템은, 상기 품질분석대상 데이터에 대한 메타데이터를 활용하여 데이터품질문제 원인을 분석하는 것을 특징으로 한다.Data quality problem analysis system according to an embodiment includes a data quality management system including the data to be analyzed quality; And a meta system including metadata about the quality analysis target data, wherein the data quality management system analyzes a cause of a data quality problem by using metadata about the quality analysis target data. .
또한, 실시예에 따른 데이터품질문제 분석방법은 품질분석대상 데이터를 추출하는 단계; 및 상기 품질분석대상 데이터에 대한 메타데이터를 활용하여 데이터품질문제 원인을 분석하는 단계;를 포함하는 것을 특징으로 한다.In addition, the data quality problem analysis method according to the embodiment comprises the steps of extracting the quality analysis target data; And analyzing the cause of the data quality problem by using the metadata for the quality analysis target data.
이와 같은 실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법에 의하면, 데이터 흐름분석, 상세 분석의 경우, 모두 이러한 분석을 위해 별도의 데이터베이스(DB)를 구축하지 않고 레거시 시스템(Lagacy System)의 데이터베이스(DB)에 대해 정의된 메타 데이터(metadata)를 이용하여 SQL(Structured Query Language)를 자동생성하여 보여줄 수 있다. 이로써, 사용자가 데이터베이스 상에서 발생하는 데이터 품질문제에 대해 깊이 있는 분석을 쉽고 빠르게 수행할 수 있는 장점이 있다.According to the data quality problem analysis system and the data quality problem analysis method according to the embodiment, in the case of data flow analysis and detailed analysis, the legacy system (Lagacy System) without establishing a separate database (DB) for such analysis SQL (Structured Query Language) can be automatically generated and displayed using metadata defined for the database. As a result, the user can easily and quickly perform in-depth analysis on data quality problems occurring in the database.
이하, 실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법을 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, a data quality problem analysis system and a data quality problem analysis method according to an embodiment will be described in detail with reference to the accompanying drawings.
(실시예)(Example)
도 1은 실시예에 따른 데이터품질문제 분석시스템의 개념도이다.1 is a conceptual diagram of a data quality problem analysis system according to an embodiment.
실시예에 따른 데이터품질문제 분석시스템은 품질관리대상 데이터베이스(100); 상기 품질관리대상 데이터베이스(100)로부터 추출된 품질측정대상 데이터(310)와, 상기 품질측정대상 데이터(310)로부터 추출된 품질분석대상 데이터(320)를 포함하는 데이터 품질관리시스템(300); 및 상기 품질분석대상 데이터(320)에 대한 메타 데이터를 포함하는 메타시스템(200);을 포함하고, Data quality problem analysis system according to the embodiment is the quality management target database (100); A data
상기 데이터 품질관리시스템(300)은, 상기 품질분석대상 데이터(320)에 대한 메타데이터를 활용하여 데이터품질문제 원인을 분석하는 것을 특징으로 한다.The data
실시예에 따른 데이터품질문제 분석시스템은 데이터 흐름분석, 상세 분석의 경우, 모두 이러한 분석을 위해 별도의 데이터베이스(DB)를 구축하지 않고 레거시 시스템(Lagacy System)의 데이터베이스(DB)에 대해 정의된 메타 데이터(metadata)를 이용하여 SQL(Structured Query Language)를 자동생성하여 보여줄 수 있다. 이로써, 사용자가 데이터베이스 상에서 발생하는 데이터 품질문제에 대해 깊이 있는 분석을 쉽고 빠르게 수행할 수 있는 효과가 있다.In the case of data flow analysis and detailed analysis, the data quality problem analysis system according to the embodiment does not establish a separate database (DB) for such an analysis, but defines a meta-data for the database of the legacy system (DB). SQL (Structured Query Language) can be automatically generated and displayed using metadata. As a result, the user can easily and quickly perform in-depth analysis on data quality problems occurring in the database.
예를 들어, 상기 데이터품질문제 분석시스템(500)에 의한 데이터 흐름분석은, 상기 품질분석대상 데이터(320)에 대한 특정 테이블의 데이터를 가지고, 흐름 추적결과를 보고자하는 타겟 테이블을 지정하고, 상기 데이터흐름과 관련된 메타데이터를 활용하여 타겟 데이터 리스트를 조회할 수 있다.For example, the data flow analysis by the data quality
또는, 예를 들어, 상기 데이터품질문제 분석시스템(500)에 의한 상세 분석은 상기 품질분석대상 데이터(320)에 대한 분석대상 칼럼과 연관칼럼을 지정하고, 상기 품질분석대상 데이터(320)에 대한 테이블 간 관계에 대한 메타데이터를 이용하여 상기 연관칼럼으로 상기 분석칼럼에 대한 데이터 그룹핑(Grouping)하여 상기 그룹핑된 데이터의 특성을 파악할 수 있다.Alternatively, for example, the detailed analysis by the data quality
상기 데이터품질문제 분석시스템(500)에 의한 데이터 흐름분석 및 상세분석에 대한 설명은 이후에 도 3 및 도 4를 참조하여 설명하기로 한다.A description of the data flow analysis and detailed analysis by the data quality
한편, 실시예에서 상기 품질관리대상 데이터베이스(100)에는 내부 데이터(110) 또는 외부 데이터(120)가 포함될 수 있다. 내부 데이터(110)는 상품정보, 고객정보, 거래정보 등을 포함할 수 있다.Meanwhile, in the embodiment, the quality
상기 메타시스템(200)은 상기 품질관리대상 데이터(100)에 대한 메타 데이터를 포함할 수 있다. 특히, 상기 메타시스템(200)은 상기 품질분석대상 데이터(320)에 대한 메타데이터를 포함할 수 있다.The
실시예에서, 메타데이터(metadata)는 품질관리대상 데이터(100) 또는 품질분석대상 데이터(320)의 구조화된 데이터로, 품질관리대상 데이터(100) 또는 품질분석대상 데이터(320)를 설명해주는 데이터이다.In an embodiment, the metadata is structured data of the quality
품질관리대상 데이터(100) 또는 품질분석대상 데이터(320)에는 많은 데이터가 존재할 수 있다. 예를 들어, 이 데이터들은 테이블에 있으며, 이들은 테이블명, 칼럼명, 테이블 간의 관계, 칼럼의 유효한 값 등이 존재하게 된다. 메타 데이터는 바로 테이블명, 칼럼명, 테이블간의 관계, 유효한 값 등이 메타 데이터이다. 물론, 실제 메타 데이터는 이보다 훨씬 많은 정보를 내포하고 있다.There may be a lot of data in the quality
상기 품질분석대상 데이터(320)는 상기 품질관리대상 데이터베이스(100)로부터 추출된 품질측정대상 데이터(310)를 품질 측정하여 품질점수 또는 상세결과에서 오류데이터 또는 데이터 품질이 의심스러운 데이터로 분류된 것일 수 있다.The quality
이때, 상기 데이터 품질관리시스템(300)에는 소정의 품질검증 규칙, DQI(Data Quality Indicators), CTQ(Critical to Quality) 등의 품질측정을 위한 기존정보가 정의되어 일을 수 있다. 예를 들어, CTQ란 상품이나 서비스, 그리고 상품 제조등의 프로세스가 TQM(Total Quality Managment)의 기준에 맞거나 구매자의 구매 기준 Quality에 충족되는 품질 기준을 의미할 수 있다.In this case, the data
상기 품질측정 기준에 의해 소정의 데이터의 품질이 결정된다. 이때, 실시예는 데이터 품질문제의 원인 분석을 위해 별도의 데이터베이스(DB)를 구축하지 않고 레거시 시스템(Lagacy System)의 데이터베이스(DB)에 대해 정의된 메타 데이터(metadata)를 이용(기본구성 정보 이용)하여 SQL(Structured Query Language)를 자동생성하여 보여줄 수 있다. The quality of predetermined data is determined by the quality measurement criteria. In this case, the embodiment uses metadata defined for the database of the legacy system (DB) without establishing a separate database (DB) for analyzing the cause of the data quality problem (using basic configuration information). To generate and show SQL (Structured Query Language) automatically.
한편, 실시예에서는, 상기 측정 데이터품질의 현황 또는 추이를 분석하고, 측정된 데이터에 대해 관리와 활용을 수행하는 관리 및 활용시스템(400)을 더 포함할 수 있다. Meanwhile, the embodiment may further include a management and
예를 들어, 상기 측정데이터 대한 분석은 올랩(OLAP: Online Analytical Processing)에 의할 수 있다.For example, the analysis of the measurement data may be performed by Online Analytical Processing (OLAP).
예를 들어, 올랩(OLAP)은 소정의 DW(Data Warehouse)에 SQL(Structured Query Language)을 자동으로 만들어 품질분석대상 데이터(320)에 보내게 되고, 분 석대상 데이터(320)는 그 SQL을 수행해서 결과를 올랩(OLAP)에 보내면 올랩(OLAP)은 화면으로 그 데이터를 보여 주게 된다.For example, OLAP automatically generates a structured query language (SQL) in a predetermined data warehouse (DW) and sends it to the quality
이때, 올랩(OLAP)이 자동으로 SQL을 만들 수 있는지 예를 들어 설명한다. 올랩(OLAP)은 그 자체에 있는 메타 데이터가 있기 때문에, DW(Data Warehouse) 구축시에 DW 데이터 모델(data model) 및 사용자에 대한 정보를 가지고 있으므로 올랩(OLAP) 화면에서 사용자가 원하는 정보를 위해 클릭(click)하면, 올랩(OLAP)은 사용자가 어떠한 DB 테이블(table)에 어떤 정보를 원하는지를 알기 위해 메타 데이터에 조회를 하면, 메타데이타는 그것을 테이블이름, 칼럼명, 조인형태(join type)형태 등을 올랩(OLAP)으로 보내고, 올랩(OLAP)은 이를 받아서 SQL을 만들어 DW DB로 보내게 된다.In this case, it will be described with an example whether OLAP can automatically generate SQL. Since OLAP has meta data in itself, it has information about DW data model and user when building DW (Data Warehouse). When clicked, OLAP queries the metadata to see what information the user wants in which DB table, and the metadata looks at the table name, column name, and join type. The form is sent to OLAP, and OLAP receives it, creates the SQL, and sends it to DW DB.
실시예에 따른 데이터품질문제 분석시스템(500)은 데이터 품질 관리 활동을 통해 오류로 도출된 데이터에 대한 근본적인 원인을 다양한 관점 및 기법을 통해 분석하는 활동으로, 이 중 기술적 접근이 필요한 영역(500)을 구현영역으로 선정하였다.The data quality
다음으로, 도 1 내지 도 3을 참조로 데이터품질문제 분석시스템을 이용한 데이터품질문제 분석방법을 설명한다.Next, a data quality problem analysis method using the data quality problem analysis system will be described with reference to FIGS. 1 to 3.
우선, 도 1과 같이 품질관리대상 데이터(100)로부터 품질측정대상 데이터(310)를 추출한다.First, the quality
다음으로, 상기 품질측정대상 데이터(310)로부터 품질분석대상 데이터(320)를 추출한다.Next, the
다음으로, 상기 품질분석대상 데이터(320)에 대한 메타데이터를 활용하여 데이터품질문제 원인을 분석한다.Next, the cause of the data quality problem is analyzed by using metadata about the quality
도 2는 실시예에 따른 데이터품질문제 분석시스템을 이용한 데이터품질문제 분석방법의 흐름도이다.2 is a flowchart illustrating a data quality problem analysis method using a data quality problem analysis system according to an embodiment.
실시예에 따른 데이터품질문제 분석시스템을 이용한 데이터품질문제 분석방법은 품질측정대상 데이터(310)의 테이블간 관계를 리버스(Reverse)한 후 룰(rule) 기반의 데이터의 흐름을 정의하여 품질측정대상 데이터(310)에 대해 상세분석 및 데이터 흐름분석을 할 수 있게 한다.In the data quality problem analysis method using the data quality problem analysis system according to the embodiment, the relationship between the tables of the quality
즉, 데이터 흐름 및 칼럼간 업무규칙 메타 데이터를 활용하여 분석대상 데이터(오류 데이터 또는 의심스러운 데이터)에 대해 그룹핑(Grouping)에 의한 상세분석 및 데이터 흐름을 앞 또는 뒤로 추적하는 데이터 흐름 분석을 수행한다.In other words, detailed analysis by grouping and data flow analysis that tracks data flow forward or backward on the analysis target data (error data or suspicious data) are performed by using data flow and inter-column business rule metadata. .
구체적으로 우선, 상기 데이터품질문제 원인을 분석하는 단계는, 품질측정대상 데이터(310)에 대한 칼럼 명명정보를 형태소로 분해하여 참조관계 후보를 분석한 후 데이터로 검증하여 참조관계를 확정하는 참조관계 리버스(reverse)단계(S 552)를 진행할 수 있다. Specifically, in the analyzing of the cause of the data quality problem, the column naming information on the quality
이후, 상기 확정된 참조관계를 상기 품질관리대상 데이터(100)의 메타정보로 등록할 수 있다.Thereafter, the determined reference relationship may be registered as meta information of the quality
다음으로, 상기 데이터품질문제 원인을 분석하는 단계는, 상기 리버스(everse)된 참조관계를 보완하여 데이터가 데이터베이스 상에 흘러가는 관점으로 참조관계의 선후관계를 재정의(redefine)하여 전체적인 데이터 흐름을 정의하는 데 이터 흐름 정의단계(S 554)를 진행할 수 있다.Next, analyzing the cause of the data quality problem, by complementing the reversed reference relationship (redefine) the front and rear relationship of the reference relationship in terms of the data flows on the database (redefine) the overall data flow To define the data flow definition step (S554) can proceed.
다음으로, 상기 데이터품질문제 원인을 분석하는 단계는, 상기 재정의된 데이터 흐름에 따라 테이블 내 칼럼이 가지는 관계를 식별하여 정의하는 칼럼간 관계 정의단계(S530)를 진행할 수 있다.Next, in analyzing the cause of the data quality problem, the relationship between columns may be defined (S530) by identifying and defining the relationship of the columns in the table according to the redefined data flow.
다음으로, 상기 데이터품질문제 원인을 분석하는 단계는, 상기 칼럼간에 정의된 관계를 기반으로 업무규칙을 분석하여 룰(rule) 기반으로 등록하여 품질관리대상 데이터(100)의 메타정보로 관리하는 룰기반 규칙등록단계(S 540)를 진행할 수 있다.Next, in analyzing the cause of the data quality problem, based on the relationship defined between the columns to analyze the business rule to register based on the rule (rule) to manage the rule as the meta information of the quality
다음으로, 상기 데이터품질문제 원인을 분석하는 단계는, 상기 품질분석대상 데이터(320)에 대한 데이터흐름 메타 데이터를 활용하여 데이터 흐름을 앞 또는 뒤로 추적하는 데이터흐름 분석단계(S 552)을 진행할 수 있다.Next, in analyzing the cause of the data quality problem, using the data flow metadata for the quality
또한, 상기 데이터품질문제 원인을 분석하는 단계는, 상기 칼럼간 업무 규칙(rule)의 메타 데이터를 활용하여 품질분석대상 데이터에 대한 그룹핑(Grouping)에 의한 상세분석 단계(S 554)를 진행할 수 있다.Also, in analyzing the cause of the data quality problem, a detailed analysis step (S 554) by grouping the quality analysis target data may be performed by using metadata of the inter-column business rule. .
상기 데이터흐름 분석단계(S 552)와 상세분석 단계(S 554) 단계는 각각 또는 함께 진행될 수 있다.The data flow analysis step (S 552) and the detailed analysis step (S 554) step may be performed separately or together.
도 3은 실시예에 따른 데이터품질문제 분석시스템의 데이터 흐름 분석방법(S 552)의 개념도이다.3 is a conceptual diagram of a data flow analysis method (S 552) of a data quality problem analysis system according to an embodiment.
상기 데이터흐름 분석단계(S 552)는 상기 품질분석대상 데이터(320)에 대한 특정 테이블의 데이터를 가지고, 흐름 추적결과를 보고자하는 타겟 테이블(추적 대 상 데이터)을 지정한다.The data flow analysis step (S 552) has a data of a specific table for the quality
이후, 상기 데이터흐름과 관련된 메타데이터를 활용하여 타겟 데이터 리스트(추적결과 데이터)를 조회할 수 있다.Thereafter, the target data list (tracking result data) may be inquired by using the metadata related to the data flow.
예를 들면, 도 3과 같이 데이터 흐름분석의 경우, 데이터 품질의 문제의 원인을 분석하고자 하는 특정 테이블(도 3에서 B 테이블)의 데이터를 가지고, 흐름 추적결과를 보고자하는 타겟 테이블(도 3에서 F 테이블)을 지정하게 되면 내부적으로 확보하고 있는 데이터 흐름과 관련된 메타데이터를 활용하여 타겟 데이터 리스트를 조회할 수 있다.For example, in the case of data flow analysis as shown in FIG. 3, a target table (in FIG. 3) having data of a specific table (Table B in FIG. 3) to analyze the cause of the problem of data quality and to view the flow trace result F table), you can search the target data list by utilizing the metadata related to the data flow secured internally.
상기 데이터흐름 분석(S 552)은 품질분석대상 데이터(오류가 발생한 데이터 또는 의심스러운 데이터)에 대해 데이터 발생의 업무적 흐름에 따라 추적이 가능하며, 데이터 흐름분석 기능은 흐름을 위한 테이블관계 및 업무규칙만 정의되어 있으면 어느 위치에서나 전 또는 후 방향 추적이 가능하다. 또한, 데이터흐름 분석(S 552)은 시스템상의 재무적 흐름 추적, 물류 흐름 추적 등에 용이하게 사용될 수 있다.The data flow analysis (S 552) can track the quality analysis target data (error data or suspicious data) according to the business flow of the data generation, the data flow analysis function is a table relationship and work for the flow If only a rule is defined, it can be traced forward or backward from any location. In addition, the data flow analysis (S 552) can be easily used for financial flow tracking, logistics flow tracking on the system.
도 4는 실시예에 따른 데이터품질문제 분석시스템의 데이터 상세분석방법(S 554)의 개념도이다.4 is a conceptual diagram of a detailed data analysis method (S554) of the data quality problem analysis system according to the embodiment.
상기 상세분석 단계(S 554)는 상기 품질분석대상 데이터(320)에 대한 분석대상 칼럼을 지정하는 단계, 상기 품질분석대상 데이터(320)에 대한 연관칼럼을 지정하는 단계, 상기 품질분석대상 데이터(320)에 대한 테이블 간 관계에 대한 메타데이터를 이용하여 상기 연관칼럼으로 상기 분석칼럼에 대한 데이터 그룹 핑(Grouping)하는 단계 및 상기 그룹핑된 데이터의 특성을 파악하는 단계를 포함할 수 있다.The detailed analysis step (S 554) is a step of specifying an analysis target column for the quality
상기 그룹핑된 데이터의 특성을 파악하는 단계는 분석된 그룹핑된 데이터 집합이 전체 데이터 분포와 비교하여 유의미한 차이점이 있는지 확인하는 것을 말한다.Identifying the characteristics of the grouped data refers to confirming whether the analyzed grouped data set has a significant difference compared to the entire data distribution.
예를 들어, 상기 상세분석 단계(S 554)는 도 4와 같이 분석하고자하는 분석 대상 칼럼(도 4에서 계약테이블-계약금액)을 지정하고, 연관 칼럼(도 4에서 고객테이블-고객ID, 고객테이블-성별, 고객테이블-지역, 부서테이블-부서, 계정테이블-계정과목 등)들을 지정하게 되면 내부적으로 확보하고 있는 테이블 간 관계에 대한 메타데이타를 가지고, 연관칼럼으로 분석칼럼에 대한 그룹핑(Grouping)한 결과값을 보여 줄 수 있다.For example, the detailed analysis step (S 554) designates an analysis target column (contract table-contract amount in FIG. 4) to be analyzed as shown in FIG. 4, and an associated column (customer table-customer ID and customer in FIG. If you specify table-gender, customer table-region, department table-department, account table-account, etc., it has metadata about internally secured tables and grouping analysis columns as related columns. ) Can show the result.
실시예에서, 상기 상세분석방법(S 554)은 오류원인을 분석하고자 하는 업무규칙 또는 칼럼을 주변의 데이터 값을 활용하여 다양한 분석을 할 수 있으며, 분석대상 업무규칙 또는 칼럼의 값을 소유한 테이블 내 다른 칼럼이나 조인관계를 형성할 수 있는 주변 테이블의 칼럼으로 그룹핑하여 오류의 상세 분포를 파악할 수 있다. 결과적으로 오류 데이터의 치우침 현상을 파악하여 개선 포인트를 포착할 수 있다.In an embodiment, the detailed analysis method (S 554) may perform a variety of analysis using the data rules around the business rule or column to analyze the cause of the error, the table owning the value of the analysis target business rule or column You can grasp the detailed distribution of errors by grouping them into other columns in the table or columns in the surrounding tables that can form join relationships. As a result, error data can be spotted and improvement points can be identified.
실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법에 의하면, 데이터 흐름분석, 상세 분석의 경우, 모두 이러한 분석을 위해 별도의 데이터베이스(DB)를 구축하지 않고 레거시 시스템(Lagacy System)의 데이터베이스(DB) 에 대해 정의된 메타 데이터(metadata)를 이용하여 SQL(Structured Query Language)를 자동생성하여 보여줄 수 있다. 이로써, 사용자가 데이터베이스 상에서 발생하는 데이터 품질문제에 대해 깊이 있는 분석을 쉽고 빠르게 수행할 수 있는 효과가 있다.According to the data quality problem analysis system and the data quality problem analysis method according to the embodiment, in the case of data flow analysis and detailed analysis, the database of the legacy system (Lagacy System) is not established for such analysis. By using metadata defined for (DB), SQL (Structured Query Language) can be automatically generated and displayed. As a result, the user can easily and quickly perform in-depth analysis on data quality problems occurring in the database.
실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법은 다음과 같은 다양한 적용이 가능할 수 있다.The data quality problem analysis system and the data quality problem analysis method according to the embodiment may be variously applied as follows.
우선, 실시예에 따른 데이터 흐름 추적개념을 활용하여 감사 추적(Audit Tracing)을 Legacy DB의 테이블 및 칼럼의 위치에 상관없이 전 또는 후로 수행할 수 있다.First, by using the data flow tracing concept according to the embodiment, audit tracing can be performed before or after regardless of the positions of tables and columns in the legacy DB.
또한, 실시예를 적용하여 업무적 또는 사업적 관점의 모니터링 지표를 정의한 후 지표상의 이상이 발생할 경우 원인 분석을 위한 데이터 트레이싱(Data Tracing)을 수행할 수 있다.In addition, after applying the embodiments to define the monitoring indicators from a business or business perspective, if the abnormality in the indicators can be performed data tracing for cause analysis (Data Tracing).
또한, 실시예의 상세 분석 개념을 활용하여 Legacy DB 상에 데이터 간의 상호 연계성 분석을 하여 의미 있는 정보를 추론하는 데이터마이닝(data mining)을 수행할 수 있다.In addition, data mining for inferring meaningful information may be performed by analyzing the correlation between the data on the legacy DB using the detailed analysis concept of the embodiment.
또한, 실시예는 통합 테스트 수행 시 시스템 개발 과정 중에 예상과 다른 결과가 나온 데이터에 대한 원인 분석을 위한 데이타 디버깅(Data Debugging)을 전후로 수행할 수 있다.In addition, the embodiment may perform before and after data debugging (Data Debugging) for analyzing the cause of the data that is different from the expected during the system development process when performing the integrated test.
또한, 실시예는 사용자가 특정 업무적 목적을 위한 레포트(Report) 생성 시 상세분석 및 데이터 흐름 분석 기능을 활용하여 관련 Query문을 생성하는 사용자 레포트(User Report) 기능을 수행할 수 있다.In addition, the embodiment may perform a user report (User Report) function to generate a related Query statement by utilizing the detailed analysis and data flow analysis function when the user generates a report for a specific business purpose.
또한, 실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법은 데이터품질문제 분석시스템을 통해 생성된 데이터 흐름정보는 데이터 품질 영역 이외에도 메타 데이터, 마스터 데이터 등의 정보관리(Information Management) 내 여러 기술 구성에서 응용될 수 있다.In addition, in the data quality problem analysis system and the data quality problem analysis method according to the embodiment, the data flow information generated through the data quality problem analysis system may include various data in information management such as metadata, master data, etc. It can be applied in a technical configuration.
본 발명은 전술한 실시예 및 도면에 의해 한정되는 것이 아니고, 하기 된 청구항의 권리범위에 속하는 범위 안에서 다양한 다른 실시예가 가능하다.The present invention is not limited by the above-described embodiments and drawings, and various other embodiments are possible within the scope of the claims.
실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법에 의하면, 데이터 흐름분석, 상세 분석의 경우, 모두 이러한 분석을 위해 별도의 데이터베이스(DB)를 구축하지 않고 레거시 시스템(Lagacy System)의 데이터베이스(DB)에 대해 정의된 메타 데이터(metadata)를 이용하여 SQL(Structured Query Language)를 자동생성하여 보여줄 수 있다. 이로써, 사용자가 데이터베이스 상에서 발생하는 데이터 품질문제에 대해 깊이 있는 분석을 쉽고 빠르게 수행할 수 있는 효과가 있다.According to the data quality problem analysis system and the data quality problem analysis method according to the embodiment, in the case of data flow analysis and detailed analysis, the database of the legacy system (Lagacy System) is not established for such analysis. By using metadata defined for (DB), SQL (Structured Query Language) can be automatically generated and shown. As a result, the user can easily and quickly perform in-depth analysis on data quality problems occurring in the database.
또한, 실시예에 따른 데이터품질문제 분석시스템 및 데이터품질문제 분석방법은 다양한 적용도 이루어질 수 있다.In addition, the data quality problem analysis system and the data quality problem analysis method according to the embodiment may be made in various applications.
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070064860A KR100798577B1 (en) | 2007-06-29 | 2007-06-29 | Analyzing system and analyzing method for data quality problem |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070064860A KR100798577B1 (en) | 2007-06-29 | 2007-06-29 | Analyzing system and analyzing method for data quality problem |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100798577B1 true KR100798577B1 (en) | 2008-01-28 |
Family
ID=39219478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070064860A KR100798577B1 (en) | 2007-06-29 | 2007-06-29 | Analyzing system and analyzing method for data quality problem |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100798577B1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101178998B1 (en) | 2010-10-08 | 2012-08-31 | 재단법인 한국데이터베이스진흥원 | Method and System for Certificating Data |
US8935200B2 (en) | 2011-02-28 | 2015-01-13 | International Business Machines Corporation | Dynamic database dump |
KR101835778B1 (en) * | 2016-01-26 | 2018-03-07 | (주)위세아이텍 | Apparatus and method for providing public data open interface |
KR102498062B1 (en) * | 2022-08-03 | 2023-02-10 | 주식회사 티유컨설팅 | Metadata management system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990033788A (en) * | 1997-10-27 | 1999-05-15 | 정선종 | Schema automatic storage system and its operation method |
KR20030027320A (en) * | 2001-09-28 | 2003-04-07 | 주식회사 케이티 | Method of Constructing Object_Oriented Meta Data Repository for Enterprise Data Systems |
KR20040052994A (en) * | 2004-05-25 | 2004-06-23 | 한동흔 | Screw |
JP2005149248A (en) | 2003-11-18 | 2005-06-09 | Nec Corp | Metadata restoration system, method thereof, storage device and program therefor |
KR20050055240A (en) * | 2003-12-05 | 2005-06-13 | 제노시스 주식회사 | Integrated management system for matadata and method thereof |
-
2007
- 2007-06-29 KR KR1020070064860A patent/KR100798577B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990033788A (en) * | 1997-10-27 | 1999-05-15 | 정선종 | Schema automatic storage system and its operation method |
KR20030027320A (en) * | 2001-09-28 | 2003-04-07 | 주식회사 케이티 | Method of Constructing Object_Oriented Meta Data Repository for Enterprise Data Systems |
JP2005149248A (en) | 2003-11-18 | 2005-06-09 | Nec Corp | Metadata restoration system, method thereof, storage device and program therefor |
KR20050055240A (en) * | 2003-12-05 | 2005-06-13 | 제노시스 주식회사 | Integrated management system for matadata and method thereof |
KR20040052994A (en) * | 2004-05-25 | 2004-06-23 | 한동흔 | Screw |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101178998B1 (en) | 2010-10-08 | 2012-08-31 | 재단법인 한국데이터베이스진흥원 | Method and System for Certificating Data |
US8935200B2 (en) | 2011-02-28 | 2015-01-13 | International Business Machines Corporation | Dynamic database dump |
KR101835778B1 (en) * | 2016-01-26 | 2018-03-07 | (주)위세아이텍 | Apparatus and method for providing public data open interface |
KR102498062B1 (en) * | 2022-08-03 | 2023-02-10 | 주식회사 티유컨설팅 | Metadata management system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622014B (en) | Test report generation method and device, readable storage medium and computer equipment | |
CN103106188B (en) | The graphical analytic system of data model and graphical analytical approach | |
Werner et al. | Multilevel process mining for financial audits | |
CN101894058B (en) | Method and device for analyzing test coverage automatically aiming at automatic test system | |
CN105721193A (en) | Method and device for system information monitoring | |
CN110515830A (en) | Operation trace method for visualizing, device, equipment and storage medium | |
US8346773B2 (en) | Product classification system | |
CN112817865A (en) | Coverage precision test method and system based on componentized distributed system | |
CN105373472B (en) | A kind of method of testing and test system of the statistical accuracy based on database | |
EP2250589A2 (en) | Systems and methods for mapping enterprise data | |
Ali et al. | A framework to implement data cleaning in enterprise data warehouse for robust data quality | |
JP2010211457A (en) | Flow comparison processing method and device | |
CN111125068A (en) | Metadata management method and system | |
US10241957B2 (en) | Workload patterns for realistic load recreation in performance testing | |
KR100798577B1 (en) | Analyzing system and analyzing method for data quality problem | |
CN112288614A (en) | Data processing method and device based on data resource platform | |
CN114331165A (en) | Automatic generation and analysis method and system for urban safety performance evaluation report | |
Liu et al. | Software architectural model discovery from execution data | |
US7992126B2 (en) | Apparatus and method for quantitatively measuring the balance within a balanced scorecard | |
Akca et al. | Run-time measurement of cosmic functional size for java business applications: Initial results | |
Li et al. | Overview of risk management system of commercial bank data center | |
CN108549672A (en) | A kind of intelligent data analysis method and system | |
CN108132802B (en) | Application method of configuration model in system development | |
WO2020208613A1 (en) | Systems and methods for hierarchical process mining | |
KR102403881B1 (en) | Apparatus and method for visualizing causality of events |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121206 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20131227 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20141230 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20151208 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170103 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20180102 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 13 |