KR20100068733A - Data cleansing system and method for developing integrated database, and recording medium therefor - Google Patents

Data cleansing system and method for developing integrated database, and recording medium therefor Download PDF

Info

Publication number
KR20100068733A
KR20100068733A KR1020080127188A KR20080127188A KR20100068733A KR 20100068733 A KR20100068733 A KR 20100068733A KR 1020080127188 A KR1020080127188 A KR 1020080127188A KR 20080127188 A KR20080127188 A KR 20080127188A KR 20100068733 A KR20100068733 A KR 20100068733A
Authority
KR
South Korea
Prior art keywords
data
error
value
refining
integrated database
Prior art date
Application number
KR1020080127188A
Other languages
Korean (ko)
Other versions
KR100987761B1 (en
Inventor
손강렬
신성호
윤영준
양명석
김진만
김재수
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020080127188A priority Critical patent/KR100987761B1/en
Publication of KR20100068733A publication Critical patent/KR20100068733A/en
Application granted granted Critical
Publication of KR100987761B1 publication Critical patent/KR100987761B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A data cleansing system and a method for developing integrated database, and a recording medium therefor are provided to collect data of scattered databases and detect data error and refine detected error. CONSTITUTION: A data collecting unit(220) collects data from a plurality of agency systems. A data error detector(230) detects an error which does not correspond to a standard through a comparison between the collected data and preset detection rules. According to the preset purification rules, a data purifying unit(240) refines the detected data. A user interface unit(280) provides information related to a data purification system(200) to user.

Description

통합 데이터베이스 구축을 위한 데이터 정제 시스템 및 방법과 이를 위한 기록매체{Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor}Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor}

본 발명은 통합 데이터베이스 구축을 위한 데이터 정제 시스템 및 방법과 이를 위한 기록매체에 관한 것으로서, 보다 상세하게는 통합 데이터베이스를 구축하기 위해 여러 곳에 분산되어 있는 데이터베이스의 데이터를 수집하여 오류를 검출하고, 검출된 오류를 정제하기 위한 통합 데이터베이스 구축을 위한 데이터 정제 시스템 및 방법과 이를 위한 기록매체에 관한 것이다.The present invention relates to a data purification system and method for building an integrated database, and a recording medium therefor. More specifically, an error is detected by collecting data from a database distributed in various places to build an integrated database. The present invention relates to a data purification system and method for constructing an integrated database for resolving errors, and a recording medium therefor.

종래에 개발되어 보급된 상용 제품들이나 특정 목적을 위해 프로그래밍 언어로 코딩하여 개발된 시스템들은 통합 데이터베이스 구축 관련 기술들을 부분적으로 구현하였을 뿐이다.Conventionally developed commercial products or systems developed by coding programming languages for specific purposes only partially implement integrated database construction related technologies.

예를 들어, 특정 소프트웨어는 데이터에 대한 오류 유형을 정의하고, 또 다른 소프트웨어는 데이터를 변환하여 전송하는 기능만 구현하는 등 하나의 시스템 상에서 해당 기능만을 중점적으로 개발하기 때문에, 분산되어 있는 데이터베이스의 내용을 보다 체계적으로 관리하는 기술이 제안되고 있지 않다.For example, certain software defines the type of error for the data, while another software focuses only on that feature on one system, such as implementing only the ability to transform and transmit the data, so that the contents of a distributed database There is no proposed technique for more systematic management.

본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 통합 데이터베이스 구축을 위해 분산되어 있는 데이터베이스의 데이터를 수집하여 오류를 검출하고, 검출된 오류를 정제하는 기술을 하나의 시스템 상에서 구현할 수 있도록 하기 위한 통합 데이터베이스 구축을 위한 데이터 정제 시스템 및 방법과 이를 위한 기록매체를 제공하는데 그 기술적 과제가 있다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems, and to collect a data of a distributed database for building an integrated database, to detect an error, and to implement a technique for refining a detected error on a system. There is a technical problem to provide a data purification system and method for building an integrated database and a recording medium therefor.

상술한 목적을 달성하기 위한 본 발명의 데이터 정제 시스템은 통신망을 통해 통신을 수행하기 위한 통신 인터페이스부; 복수의 기관 시스템으로부터 데이터를 수집하는 데이터 수집부; 상기 데이터 수집부에 의해서 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출하는 데이터 오류 검출부; 상기 데이터 오류 검출부에 의해서 검출된 데이터에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하는 데이터 정제부; 데이터 정제 시스템과 관련된 정보를 저장하는 데이터베이스; 및 데이터 정제 시스템과 관련된 정보를 사용자가 확인할 수 있도록 제공하기 위한 사용자 인터페이스부;를 포함한다.Data purification system of the present invention for achieving the above object is a communication interface for performing communication through a communication network; A data collector configured to collect data from a plurality of engine systems; A data error detector for detecting an error that does not correspond to a standard by comparing the data collected by the data collector with a preset detection rule; A data refiner for refining data according to a predetermined refinement rule with respect to the data detected by the data error detector; A database that stores information related to the data purification system; And a user interface for providing a user with information related to the data refining system.

상기 데이터 정제 시스템은, The data purification system,

상기 데이터 정제부에 의해서 정제 처리된 데이터를 변환하거나, 공통 서비스를 호출하거나, 또는 데이터의 전송 전 위치 데이터값과 전송 후 위치 데이터값 을 비교하여 업데이트된 데이터를 표시하는 데이터 검수부;를 더 포함하는 것이 바람직하다.A data inspecting unit for converting the data purified by the data refining unit, calling a common service, or comparing the pre-transmission location data value with the post-transmission location data value to display updated data; It is desirable to.

상기 데이터 정제 시스템은, The data purification system,

데이터 검수부에 의해서 데이터 검수 절차가 완료된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송하는 데이터 전송부;를 더 포함하는 것이 바람직하다.It is preferable that the data inspecting unit further comprises a data transmission unit for transmitting the data whose data inspection procedure is completed to a user terminal or a system in which an integrated database is constructed.

상기 데이터 정제 시스템은,The data purification system,

사용자 단말기로부터 데이터 검색을 비롯하여 서비스 요청을 수신하면, 상기 사용자 인터페이스부를 통해 요청된 데이터와 관련된 정보를 출력하여 제공하는 데이터 관리부;를 더 포함하는 것이 바람직하다.When receiving a service request including a data search from the user terminal, it is preferable to further include a data management unit for outputting and providing information associated with the requested data through the user interface unit.

상기 데이터 오류 검출부는,The data error detection unit,

데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정하는 검출 규칙 정의수단; 수집된 데이터를 상기 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크하는 데이터 오류 체크수단; 및 상기 데이터 오류 체크수단에 의해서 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출하는 데이터 오류 검출수단;을 포함하는 것이 바람직하다.Detection rule defining means for setting a detection rule including at least one of a data content criterion, a data structure criterion or a linkage criterion between tables; Data error checking means for checking whether there is a data value that does not match the detection rule by comparing the collected data with the detection rule; And data error detection means for detecting the error type after matching the corresponding error type with the data value checked because the data error check means does not match the detection rule.

상기 데이터 내용 기준은 의미 없는 값으로 설정된 오타, 메타정보 기준을 포함하며, 상기 데이터 오류 체크수단은, 수집된 데이터의 값 중 오타가 포함되어 있거나, 메타정보 기준에 일치하지 않는 데이터 값을 오류로 체크하는 것이 바람직 하다.The data content criterion includes a typo and a meta information criterion set to a meaningless value, and the data error checking means includes a data error that includes a typo in the collected data value or does not match the meta information criterion. It is desirable to check.

상기 데이터 구조 기준은 데이터 포맷 기준을 포함하며,The data structure criteria include data format criteria,

상기 데이터 오류 체크수단은,The data error checking means,

수집된 데이터의 값 중 상기 데이터 포맷 기준과 일치하지 않는 데이터 값을 오류로 체크하는 것이 바람직하다.It is preferable to check a data value of the collected data that does not match the data format criteria as an error.

상기 테이블 간 연계 기준은 연계되는 테이블 간 주키(PK: primary key)와 참조키(FK: foreign key)의 일치 여부를 확인하기 위한 기준이며,The linkage criterion between tables is a criterion for confirming whether a primary key (PK) and a reference key (FK) are matched between linked tables.

상기 데이터 오류 체크수단은,The data error checking means,

수집된 데이터의 기본 테이블과 부가 테이블에 각각 지정된 주키와 참조키가 일치하는지 여부를 확인하고, 일치하지 않으면 해당 데이터 값을 오류로 체크하는 것이 바람직하다.It is recommended to check whether the primary key and the reference key specified in the base table and the side table of the collected data match, and if not, check the data value as an error.

상기 데이터 정제부는,The data refiner,

오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정하는 정제 규칙 정의수단;Refinement rule definition means for setting a refinement rule for refining the value of the data judged to be an error;

상기 데이터 오류 검출부에 의해서 오류로 검출된 데이터값을 상기 정제 규칙에 따라 정제 처리를 수행하는 자동 정제 처리수단; 및Automatic refining processing means for performing a refining process on the data value detected as an error by said data error detecting unit according to said refining rule; And

사용자의 요청에 따라 상기 사용자 인터페이스부를 통해 오류 유형별 데이터값을 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리하는 사용자 정제 처리수단;을 포함하는 것이 바람직하다.And a user refining processing means for outputting a data value for each error type through the user interface unit according to a user's request, and refining the data value with a value input by the user.

다른 본 발명의 데이터 정제 방법은 a) 데이터 정제 시스템이 복수의 기관 시스템으로부터 데이터를 수집하는 단계; b) 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출하는 단계; c) 오류로 검출된 데이터값에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하고, 사용자에 의해서 입력된 값으로 데이터를 정제하는 단계; 및 d) 상기 c) 단계에서 정제된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송하는 단계;를 포함한다.Another data purification method of the present invention comprises the steps of: a) the data purification system collecting data from a plurality of engine systems; b) comparing the collected data with a preset detection rule to detect an error that does not correspond to a standard; c) purifying the data according to a predetermined refining rule for the data value detected as an error, and refining the data to a value input by the user; And d) transmitting the data purified in step c) to a user terminal or a system in which an integrated database is constructed.

상기 c) 단계 이후 d) 단계 이전에,After step c) and before step d),

데이터 정제 시스템이 상기 c) 단계에서 정제 처리된 데이터를 변환하거나, 공통 서비스를 호출하거나, 또는 데이터의 전송 전 위치 데이터값과 전송 후 위치 데이터값을 비교하여 업데이트된 데이터를 표시하는 단계;를 더 포함하는 것이 바람직하다.The data refining system converts the data refined in step c), calls a common service, or displays the updated data by comparing the position data value before transmission with the position data value after transmission. It is preferable to include.

상기 d) 단계 이후에,After step d),

사용자 단말기로부터 데이터 검색을 비롯하여 서비스 요청을 수신하면, 요청된 데이터와 관련된 정보를 출력하여 제공하는 단계;를 더 포함하는 것이 바람직하다.When receiving a service request including a data search from the user terminal, outputting and providing information related to the requested data; preferably.

상기 b) 단계는,B),

b-1) 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정하는 단계; b-2) 수집된 데이터를 상기 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크하는 단계; b-3) 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭 시킨 후, 오류로 검출하는 단계;를 포함하는 것이 바람직하다.b-1) setting a detection rule including at least one of a data content criterion, a data structure criterion or a linkage criterion between tables; b-2) comparing the collected data with the detection rule and checking whether there is a data value that does not match the detection rule; b-3) matching the error type to the checked data value because it does not match the detection rule, and detecting the error as an error.

상기 데이터 내용 기준은 의미 없는 값으로 설정된 오타, 메타정보 기준을 포함하며,The data content criterion includes a typo and a meta information criterion set to a meaningless value.

상기 b-2) 단계에서,In step b-2),

수집된 데이터의 값 중 오타가 포함되어 있거나, 메타정보 기준에 일치하지 않는 데이터 값을 오류로 체크하는 것이 바람직하다.It is preferable to check a data value that contains a typo or a data value that does not match the meta information criteria as an error.

상기 데이터 구조 기준은 데이터 포맷 기준을 포함하며, 상기 b-2) 단계에서, 수집된 데이터의 값 중 상기 데이터 포맷 기준과 일치하지 않는 데이터 값을 오류로 체크하는 것이 바람직하다.The data structure criterion includes a data format criterion, and in step b-2), it is preferable to check a data value that does not match the data format criterion among the values of the collected data as an error.

상기 테이블 간 연계 기준은 연계되는 테이블 간 주키(PK: primary key)와 참조키(FK: foreign key)의 일치 여부를 확인하기 위한 기준이며,The linkage criterion between tables is a criterion for confirming whether a primary key (PK) and a reference key (FK) are matched between linked tables.

상기 b-2) 단계에서,In step b-2),

수집된 데이터의 기본 테이블과 부가 테이블에 각각 지정된 주키와 참조키가 일치하는지 여부를 확인하고, 일치하지 않으면 해당 데이터 값을 오류로 체크하는 것이 바람직하다.It is recommended to check whether the primary key and the reference key specified in the base table and the side table of the collected data match, and if not, check the data value as an error.

상기 c) 단계는,C),

c-1) 오류로 검출된 데이터값을 기 설정된 정제 규칙에 따라 정제 처리를 수행하는 단계; c-2) 사용자의 요청에 따라 오류로 검출된 데이터값을 오류 유형별로 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리하는 단계;를 포함하는 것이 바람직하다.c-1) performing a purification process on the data value detected as an error according to a preset purification rule; c-2) outputting a data value detected as an error according to a user's request for each error type, and refining the data value to a value input by the user.

상기 c-1) 단계 이전에,Before step c-1),

오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정하는 단계;를 더 포함하는 것이 바람직하다.It is preferable to further include a; setting a purification rule for purifying the value of the data determined to be an error.

또 다른 본 발명의 기록매체는, a) 복수의 기관 시스템으로부터 데이터를 수집하는 기능; b) 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출하는 기능; c) 오류로 검출된 데이터값에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하고, 사용자에 의해서 입력된 값으로 데이터를 정제하는 기능; 및 d) 상기 c) 단계에서 정제된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송하는 기능;을 포함한다.Yet another recording medium of the present invention comprises: a) a function of collecting data from a plurality of engine systems; b) comparing the collected data with a preset detection rule to detect an error that does not correspond to a standard; c) refining the data according to a predetermined refining rule for the data value detected as an error, and refining the data with the value input by the user; And d) a function of transmitting the data refined in step c) to a user terminal or a system in which an integrated database is built.

상기 b) 기능은,B) function,

b-1) 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정하는 기능; b-2) 수집된 데이터를 상기 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크하는 기능; b-3) 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출하는 기능;을 포함하는 것이 바람직하다.b-1) setting a detection rule including at least one of a data content criterion, a data structure criterion or a linkage criterion between tables; b-2) comparing the collected data with the detection rule and checking whether there is a data value that does not match the detection rule; b-3) a function of matching a corresponding error type to a checked data value because it does not match the detection rule, and detecting the error as an error.

상기 c) 기능,C) function above;

오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정하는 기능; 오류로 검출된 데이터값을 상기 정제 규칙에 따라 정제 처리를 수행하는 기능; 사용자의 요청에 따라 오류로 검출된 데이터값을 오류 유형별로 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리하는 기능;을 포함하는 것이 바람직하 다.Setting a refinement rule for refining a value of data determined to be an error; Performing a refinement process on the data value detected as an error according to the refinement rule; And a function of outputting a data value detected as an error according to a user's request for each error type and purifying the data value to a value input by the user.

상술한 바와 같이 본 발명의 통합 데이터베이스 구축을 위한 데이터 정제 시스템 및 방법과 이를 위한 기록매체는 통합 데이터베이스 구축을 위해 분산되어 있는 데이터베이스의 데이터를 수집하여 오류를 검출하고, 검출된 오류를 정제하는 기술을 하나의 시스템 상에서 구현하기 때문에, 복수의 데이터베이스 각각에 저장되어 있는 데이터를 보다 체계적으로 관리할 수 있도록 하는 효과를 기대할 수 있다.As described above, a data purification system and method for constructing an integrated database of the present invention and a recording medium therefor include a technique for detecting an error and refining the detected error by collecting data from a distributed database for constructing an integrated database. Since it is implemented on one system, it can be expected that the data stored in each of the plurality of databases can be managed more systematically.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

먼저, 도 1은 본 발명에 의한 데이터 정제 시스템과 통신망의 연결 관계를 나타내는 도면이다.First, FIG. 1 is a diagram showing a connection relationship between a data purification system and a communication network according to the present invention.

도시하는 것과 같이, 데이터 정제 시스템(200)은 기관 A 시스템(100), 기관 B 시스템, 기관 C 시스템 등의 복수의 기관에 각각에 분산되어 있는 데이터베이스들을 통합하여 단일의 통합 데이터베이스를 구축하는 업무 프로세스를 지원하기 위해, 각 기관 시스템으로부터 수집된 데이터의 오류 검출 및 정제를 비롯한 절차를 수행한다. 상기 기관은 대학, 기업, 국민, 연구기관 등을 모두 포함한다.As shown, the data purification system 200 integrates databases distributed in a plurality of institutions, such as an institution A system 100, an institution B system, and an institution C system, respectively, to construct a single integrated database. To support this, perform procedures including error detection and purification of data collected from each institutional system. The institution includes all universities, corporations, the public, research institutions, and the like.

도 2는 본 발명에 의한 데이터 정제 시스템의 구성을 나타내는 도면이다.2 is a diagram illustrating a configuration of a data purification system according to the present invention.

도시하는 것과 같이, 데이터 정제 시스템(200)은 통신 인터페이스부(210), 데이터 수집부(220), 데이터 오류 검출부(230), 데이터 정제부(240), 데이터 검수부(250), 데이터 전송부(260), 데이터 관리부(270), 사용자 인터페이스부(280) 및 데이터베이스(290)를 포함한다.As shown in the drawing, the data purification system 200 includes a communication interface 210, a data collector 220, a data error detector 230, a data refiner 240, a data inspector 250, and a data transmitter. 260, a data manager 270, a user interface 280, and a database 290.

보다 상세히 설명하면, 통신 인터페이스부(210)는 통신망을 통해 통신을 수행하기 위한 구성 요소이다.In more detail, the communication interface 210 is a component for performing communication through a communication network.

데이터 수집부(220)는 복수의 기관 시스템(도1의 기관 A 시스템, 기관 B 시스템, 기관 C 시스템)(100)으로부터 데이터를 수집한다.The data collection unit 220 collects data from a plurality of engine systems (engine A system, engine B system, engine C system of FIG. 1) 100.

데이터 오류 검출부(230)는 데이터 수집부(220)에 의해서 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출한다.The data error detector 230 detects an error that does not correspond to a standard by comparing the data collected by the data collector 220 with a preset detection rule.

여기에서, 데이터 오류는 데이터가 표준에서 벗어난 것을 의미한다. 데이터의 표준을 결정하는 검출 규칙은 내용적인 측면, 구조적인 측면 등으로 구성되어, 기준 데이터와 비교하여 내용이 틀린 데이터도 오류이고, 데이터의 포맷이나 표준 코드값을 벗어난 데이터도 오류로 판단한다.Here, data error means that the data is out of standard. The detection rule for determining the standard of the data is composed of the content and structural aspects, so that the data whose contents are different from the standard data is an error, and the data that is out of the data format or the standard code value is determined as an error.

또한, 데이터 오류 검출부(230)에서 오류 데이터값으로 검출된 데이터값에는 해당 부분이 표시(오류로 판단되는 부분 표시)되어, 이후 데이터 정제 시 참조할 수 있도록 한다.In addition, the data value detected as the error data value by the data error detection unit 230 is displayed (parts that are determined to be an error) to be displayed for future reference.

데이터 정제부(240)는 데이터 오류 검출부(230)에 의해서 검출된 데이터에 대해 기 설정된 정제 규칙에 따라 데이터를 정제한다.The data refiner 240 refines the data according to a preset refinement rule for the data detected by the data error detector 230.

여기에서, 데이터 정제는 부정확, 불완전 또는 비논리적인 데이터를 결정하여 발견된 오류와 누락된 부분의 수정을 통해 품질을 개선하는 일련의 과정을 의미한다.Here, data refinement refers to a process of improving quality by determining inaccurate, incomplete or illogical data and correcting errors and omissions.

데이터 검수부(250)는 데이터 정제부(240)에 의해서 정제 처리된 데이터를 변환하거나, 공통 서비스를 호출하거나, 또는 데이터의 전송 전 위치 데이터값과 전송 후 위치 데이터값을 비교하여 업데이트된 데이터를 표시한다.The data inspecting unit 250 converts the data purified by the data purifying unit 240, calls a common service, or compares the position data value before transmission with the position data value after transmission and updates the updated data. Display.

여기에서, 공통 서비스 호출은 데이터별로 해당 데이터를 식별할 수 있도록 식별번호를 부여하는 별도의 시스템(도시하지 않음)을 호출하여, 정제된 데이터의 식별번호를 파악하는 것을 의미한다. 즉, 데이터 전송부(260)를 통해 전송되는 정제된 데이터는 공통 서비스 호출을 통해 수신한 식별번호를 포함하는 것이 가능하다.Here, the common service call means to call a separate system (not shown) which assigns an identification number so that the data can be identified for each data, thereby identifying the identification number of the purified data. That is, the purified data transmitted through the data transmitter 260 may include an identification number received through a common service call.

데이터 정제 시스템(200)에 입력된 데이터가 기존 데이터가 업데이트된 경우라면, 업데이트된 데이터를 표시하기 위해 전송 전 위치의 데이터값과 전송 후 위치의 데이터값을 비교하는 것이다. 비교 결과, 업데이트된 부분이 존재한다면, 데이터 검수부(250)는 테이블단위 또는 레코드 단위로 해당 부분을 표시한다.When the data input to the data refining system 200 is updated with existing data, the data value of the position before transmission and the data value of the position after transmission are compared to display the updated data. As a result of the comparison, if there is an updated part, the data inspecting unit 250 displays the corresponding part in table units or record units.

데이터 전송부(260)는 데이터 검수부(250)에 의해서 데이터 검수 절차가 완료된 데이터를 사용자 단말기(도시하지 않음) 또는 통합 데이터베이스를 구축한 시스템(도시하지 않음)으로 전송한다.The data transmitter 260 transmits the data whose data inspection procedure is completed by the data inspector 250 to a user terminal (not shown) or a system (not shown) in which an integrated database is constructed.

여기에서, 데이터 전송은 하나의 저장소에서 다른 저장소로 데이터를 전달하 는 것을 의미한다. 본 발명에서 개시하는 데이터 전송은 <0>과 <1>로 구성된 비트(bit)들의 이동을 의미하는 것이 아니라, 이보다 상위 개념으로 데이터베이스에 저장된 데이터들의 이동을 의미한다. 데이터 전송 시, 동일한 데이터가 저장하는 위치만 변경될 수도 있고, 위치 변경과 동시에 데이터도 변경될 수 있다.Here, data transmission means passing data from one repository to another. The data transmission disclosed in the present invention does not mean the movement of bits composed of <0> and <1>, but rather the movement of data stored in a database. During data transmission, only the location where the same data is stored may be changed, and at the same time, the data may be changed.

데이터 관리부(270)는 사용자 단말기로부터 데이터 검색을 비롯하여 서비스 요청을 수신하면, 사용자 인터페이스부(280)를 통해 요청된 데이터와 관련된 정보를 출력하여 제공한다.When the data manager 270 receives a service request including a data search from the user terminal, the data manager 270 outputs and provides information related to the requested data through the user interface 280.

사용자 인터페이스부(280)는 데이터 정제 시스템과 관련된 정보를 사용자가 확인할 수 있도록 제공하기 위한 구성 요소이다.The user interface unit 280 is a component for providing a user to check information related to the data purification system.

데이터베이스(290)는 데이터 정제 시스템(200)과 관련된 정보를 저장한다.Database 290 stores information related to data purification system 200.

도 3은 본 발명에 의한 데이터 오류 검출부의 구성을 나타내는 도면이다.3 is a diagram illustrating a configuration of a data error detection unit according to the present invention.

도시하는 것과 같이, 데이터 오류 검출부(230)는 검출 규칙 정의수단(231), 데이터 오류 체크수단(233) 및 데이터 오류 검출수단(235)을 포함한다.As shown, the data error detecting unit 230 includes a detection rule defining means 231, a data error checking means 233, and a data error detecting means 235.

보다 상세히 설명하면, 검출 규칙 정의수단(231)은 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정한다.In more detail, the detection rule defining means 231 sets a detection rule including at least one of a data content criterion, a data structure criterion, or a linkage criterion between tables.

여기에서, 데이터 내용 기준은 의미 없는 값으로 설정된 오타, 메타정보 기준을 포함하며, 데이터 구조 기준은 데이터 포맷 기준을 포함하며, 테이블 간 연계 기준은 연계되는 테이블 간 주키(PK: primary key)와 참조키(FK: foreign key)의 일치 여부를 확인하기 위한 기준을 포함한다.Here, the data content criterion includes a typo and a meta information criterion set to a meaningless value, the data structure criterion includes a data format criterion, and the linkage criterion between tables refers to a primary key (PK) associated with the link. It includes a criterion for checking whether a key (FK: foreign key) matches.

데이터 오류 체크수단(233)은 수집된 데이터를 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크한다.The data error checking means 233 compares the collected data with the detection rule and checks whether there is a data value that does not match the detection rule.

보다 상세히 설명하면, 데이터 오류 체크수단(233)은 수집된 데이터의 값 중 오타가 포함되어 있거나, 메타정보 기준에 일치하지 않는 데이터 값을 오류로 체크한다.In more detail, the data error checking means 233 checks for a data value that contains a typo or does not match the meta information criteria as an error among the values of the collected data.

예를 들어, 데이터 오류 체크수단(233)은 데이터값에 의미없는 < ----- >, < ***** >, < ...... >, < $%@^@@^@&@%#$@#$@ > 등의 값을 체크한다.For example, the data error checking means 233 may have meaningless <----->, <*****>, <......>, <$% @ ^ @@ ^ Check values such as @ & @% # $ @ # $ @>.

연구과제의 메타정보에는 연구책임자가 반드시 존재해야 한다고 설정했다면, 데이터 오류 체크수단(233)은 해당 컬럼의 데이터값에 연구책임자 코드에 해당하는 A 값이 반드시 하나 존재하는지 여부를 확인한다.If the research manager is required to exist in the meta information of the research project, the data error check means 233 checks whether or not there is one A value corresponding to the research director code in the data value of the corresponding column.

또한, 데이터 오류 체크수단(233)은 수집된 데이터의 값 중 데이터 포맷 기준과 일치하지 않는 데이터 값을 오류로 체크한다.In addition, the data error checking means 233 checks the data value of the collected data that does not match the data format criteria as an error.

예를 들어, 데이터 포맷 기준 중 날짜 형식의 표준을 YYYY-MM-DD 형태로 설정한 경우, 데이터 오류 체크수단(233)은 실제로 데이터 정제 시스템(200)에 수집되거나 입력되는 다양한 형태의 날짜 형식(<20081208>, <081208>, <12월8일> 등) 중 기 설정된 YYYY-MM-DD 형태와 일치하지 않는 데이터 값을 체크한다.For example, when the standard of the date format among the data format criteria is set in the form of YYYY-MM-DD, the data error checking means 233 may actually use various types of date formats (collected or input into the data refining system 200). <20081208>, <081208>, <December 8>, etc.) Check the data value that does not match the YYYY-MM-DD type.

이에 더하여, 데이터 오류 체크수단(233)은 수집된 데이터의 기본 테이블과 부가 테이블에 각각 지정된 주키와 참조키가 일치하는지 여부를 확인하고, 일치하지 않으면 해당 데이터 값을 오류로 체크한다.In addition, the data error checking means 233 checks whether the primary key and the reference key specified in the base table and the side table of the collected data match, and if not, checks the data value as an error.

보다 상세히 설명하면, 두 테이블이 연결되었다는 사실은 두 테이블을 연결하는 연결고리를 통해 판단할 수 있는 데, 주키와 참조키가 연결고리 역할을 하는 것이다. In more detail, the fact that two tables are linked can be determined by a link linking the two tables, in which the primary key and the reference key serve as the link.

예를 들어, 과제정보는 과제기본정보테이블(기본 테이블)과 관련된 복수의 다른 테이블(부가 테이블)(사업정보테이블, 연구비 테이블, 참여 연구원 테이블 등)로 구성되어 있고, 과제기본정보테이블은 과제와 관련된 복수의 다른 테이블과 연계된다. 이 경우, 과제기본정보테이블에 주키가 되는 컬럼을 지정하고, 과제와 관련된 복수의 다른 테이블에 참조키가 되는 컬럼을 지정하여 과제와 관련된 복수의 다른 테이블 각각에 존재하는 레코드가 어떤 과제와 연계되어 있는지를 검색할 수 있도록 하는 것이다.For example, the task information is composed of a plurality of other tables (additional tables) related to the task basic information table (basic table) (business information table, research fund table, participating researcher table, etc.) It is associated with a plurality of related other tables. In this case, the column that is the primary key is assigned to the task basic information table, and the column that is the reference key is assigned to a plurality of other tables related to the task, so that records existing in each of the plurality of other tables related to the task are associated with a task. To make sure that you can search.

상기 과제정보는 국가 R&D 사업을 추진하기 위해 세부적으로 분류한 과업을 의미한다. 이 과업에는 과제명, 과제예산, 과제수행기관, 과제책임자 등 과제를 설명하는 메타정보를 포함한다.The task information refers to the tasks classified in detail for the promotion of national R & D projects. This task includes meta-information that describes the task, such as the task name, budget, task implementation agency, task manager, and so on.

한편, 본 발명에서 개시하는 과제정보는 데이터의 일 예를 나타내는 것으로, 과제정보 이외에도 다른 종류의 데이터를 모두 포함한다.On the other hand, the task information disclosed in the present invention shows an example of data, and includes all other types of data in addition to the task information.

데이터 오류 검출수단(235)은 데이터 오류 체크수단(233)에 의해서 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출한다.The data error detecting means 235 matches the corresponding error type to the data value checked because the data error checking means 233 does not match the detection rule, and then detects it as an error.

도 3에서 개시하는 데이터 오류 검출 시, SQL 쿼리문 또는 사전에 데이터베이스의 컬럼에 정의한 데이터 형태 또는 Null 값 조건 등이 적용되는 것도 가능하 다.When detecting a data error disclosed in FIG. 3, a data type or a null value condition defined in a SQL query statement or a column of a database may be applied.

도 4는 본 발명에 의한 데이터 정제부의 구성을 나타내는 도면이다.4 is a diagram illustrating a configuration of a data purification unit according to the present invention.

도시하는 것과 같이, 데이터 정제부(240)는 정제 규칙 정의수단(241), 자동 정제 처리수단(243) 및 사용자 정제 처리수단(245)을 포함한다.As illustrated, the data refiner 240 includes a refinement rule defining means 241, an automatic refinement processing means 243, and a user refinement processing means 245.

보다 상세히 설명하면, 정제 규칙 정의수단(241)은 오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정한다.In more detail, the refinement rule defining means 241 sets a refinement rule for refining the value of the data determined to be an error.

자동 정제 처리수단(243)은 데이터 오류 검출부(230)에 의해서 오류로 검출된 데이터값을 정제 규칙에 따라 정제 처리를 수행한다.The automatic refining processing means 243 performs the refining process on the data value detected as an error by the data error detecting unit 230 according to the refining rule.

예를 들어, 자동 정제 처리수단(243)은 <20081208>과 같은 날짜 형태 값들에는 중간에 하이픈을 삽입하여 표준에 맞는 <2008-12-08>과 같은 형태로 정제한다. 또한, Null 값인 컬럼에는 기본적으로 숫자 1을 포함시켜 정제한다.For example, the automatic refining processing means 243 purifies the date type values, such as <20081208>, into a type such as <2008-12-08>, by inserting a hyphen in the middle. In addition, Null column is basically included in the number 1 to refine.

사용자 정제 처리수단(245)은 사용자의 요청에 따라 사용자 인터페이스부(280)를 통해 오류 유형별 데이터값을 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리한다.The user refining processing unit 245 outputs a data value for each error type through the user interface unit 280 according to a user's request, and refines the data value to a value input by the user.

예를 들어, 사용자 정체 처리수단(245)은 사용자로부터 특정 요청이 입력되면, 사전에 정의된 오류 유형에 따라 오류로 검출된 데이터값을 사용자 인터페이스부(280)를 통해 출력하고, 사용자가 입력/수정 사용자 인터페이스 화면을 통해 확인하여 입력하는 값으로 데이터를 정제 처리한다.For example, when a specific request is input from the user, the user congestion processing unit 245 outputs a data value detected as an error through the user interface unit 280 according to a predefined error type, and the user inputs / The data is refined to the value entered by checking through the modified user interface screen.

도 5는 본 발명에 의한 데이터 정제 방법을 설명하기 위한 흐름도이다.5 is a flowchart illustrating a data purification method according to the present invention.

먼저, 데이터 정제 시스템(200)의 데이터 수집부(220)는 복수의 기관 시스템(도 1의 기관 A 시스템, 기관 B 시스템, 기관 C 시스템)으로부터 데이터를 수집한다(S101).First, the data collection unit 220 of the data purification system 200 collects data from a plurality of engine systems (engine A system, engine B system, engine C system of FIG. 1) (S101).

데이터 오류 검출부(230)은 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출한다(S103).The data error detector 230 detects an error that does not correspond to a standard by comparing the collected data with a preset detection rule (S103).

데이터 정제부(240)는 오류로 검출된 데이터값에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하고, 사용자에 의해서 입력된 값으로 데이터를 정제한다(S105).The data refiner 240 refines the data according to a predetermined refinement rule with respect to the data value detected as an error, and refines the data to a value input by the user (S105).

데이터 검수부(250)는 단계 S105에서 정제 처리된 데이터를 변환하거나, 공통 서비스를 호출하거나, 또는 데이터의 전송 전 위치 데이터값과 전송 후 위치 데이터값을 비교하여 업데이트된 데이터를 표시한다(S107).The data inspecting unit 250 converts the purified data in step S105, calls a common service, or compares the position data value before transmission with the position data value after transmission and displays the updated data (S107). .

데이터 전송부(260)는 단계 S105와 단계 S107을 통해 정제되고 검수된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송한다(S109).The data transmission unit 260 transmits the purified and inspected data through the steps S105 and S107 to the user terminal or the system in which the integrated database is established (S109).

만약, 운용자의 필요에 따라 데이터 검수 절차를 생략한다면, 데이터 전송부(260)는 단계 S105를 통해 정제된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송한다.If the data inspection procedure is omitted according to the needs of the operator, the data transmission unit 260 transmits the purified data to the user terminal or the system in which the integrated database is established through step S105.

도시하지 않았지만, 이후, 사용자 단말기로부터 데이터 검색을 비롯하여 서비스 요청을 수신하면, 데이터 관리부(270)는 요청된 데이터와 관련된 정보를 출력하여 제공한다.Although not shown, after receiving a service request including data search from the user terminal, the data manager 270 outputs and provides information related to the requested data.

도 6은 본 발명에 의한 데이터 오류 검출 방법을 보다 상세하게 설명하기 위한 흐름도로서, 도 5의 단계 S103을 보다 상세하게 설명하기로 한다.6 is a flowchart illustrating a data error detection method according to the present invention in more detail, and step S103 of FIG. 5 will be described in more detail.

먼저, 데이터 오류 검출부(230)의 검출 규칙 정의수단(231)은 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정한다(S201).First, the detection rule defining means 231 of the data error detection unit 230 sets a detection rule including at least one of a data content criterion, a data structure criterion, and a linkage criterion between tables (S201).

이어서, 데이터 오류 체크수단(233)은 수집된 데이터를 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크한다(S203).Then, the data error checking means 233 compares the collected data with the detection rule and checks whether there is a data value that does not match the detection rule (S203).

보다 상세히 설명하면, 데이터 내용 기준은 의미 없는 값으로 설정된 오타, 메타정보 기준을 포함하며, 데이터 오류 체크수단(233)은 수집된 데이터의 값 중 오타가 포함되어 있거나, 메타정보 기준에 일치하지 않는 데이터 값을 오류로 체크한다.In more detail, the data content criterion includes a typo and a meta information criterion set to a meaningless value, and the data error checking means 233 includes a typo among values of the collected data or does not match the meta information criterion. Check the data value as an error.

또한, 데이터 구조 기준은 데이터 포맷 기준을 포함하며, 데이터 오류 체크수단(233)은 수집된 데이터의 값 중 상기 데이터 포맷 기준과 일치하지 않는 데이터 값을 오류로 체크한다.In addition, the data structure criterion includes a data format criterion, and the data error checking means 233 checks a data value which does not match the data format criterion among the collected data values as an error.

이에 더하여, 테이블 간 연계 기준은 연계되는 테이블 간 주키(PK: primary key)와 참조키(FK: foreign key)의 일치 여부를 확인하기 위한 기준이며, 데이터 오류 체크수단(233)은 수집된 데이터의 기본 테이블과 부가 테이블에 각각 지정된 주키와 참조키가 일치하는지 여부를 확인하고, 일치하지 않으면 해당 데이터 값을 오류로 체크한다.In addition, the linkage criterion between tables is a criterion for confirming whether a primary key (PK) and a reference key (FK) are matched with each other. Check whether the primary key and the reference key specified in the base table and the side table match, and if not, check the data value as an error.

이후, 데이터 오류 검출수단(235)은 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출한다(S205).Thereafter, the data error detecting means 235 matches the corresponding error type to the checked data value because it does not match the detection rule, and detects it as an error (S205).

도 7은 본 발명에 의한 데이터 정제 방법을 보다 상세하게 설명하기 위한 흐름도이다.7 is a flowchart illustrating the data purification method according to the present invention in more detail.

먼저, 도시하지 않았지만, 데이터 정제부(240)의 정제 규칙 정의수단(241)은 오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정한다.First, although not shown, the refining rule defining means 241 of the data refining unit 240 sets a refining rule for refining the value of the data determined to be an error.

이어서, 자동 정체 처리수단(243)은 오류로 검출된 데이터값을 상기 정제 규칙에 따라 정제 처리를 수행한다(S301).Subsequently, the automatic congestion processing means 243 performs the refining process on the data value detected as an error according to the refining rule (S301).

사용자 정제 처리수단(245)은 사용자의 요청에 따라 오류로 검출된 데이터값을 오류 유형별로 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리한다(S303 ~ S307).The user refining processing means 245 outputs the data value detected as an error according to the user's request for each error type, and refines the data value to the value input by the user (S303 to S307).

후술하는 특허청구범위에 기재되어 있는 a), b), c) 등은 특정 순서를 의미하는 것이 아니며, 운용자의 필요에 따라 해당 순서를 변경할 수 있다.The a), b), c), etc. described in the claims to be described later do not mean a specific order, and the order may be changed as required by the operator.

또한, 본 발명에서 개시하는 데이터 정제 시스템의 구성과 기능은 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체의 형태로 구현하는 것도 가능하다.In addition, the configuration and function of the data purification system disclosed in the present invention can be implemented in the form of a computer-readable recording medium recording a program.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예 시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features thereof. Therefore, the embodiments described above are to be understood in all respects as illustrative and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

도 1은 본 발명에 의한 데이터 정제 시스템과 통신망의 연결 관계를 나타내는 도면,1 is a diagram showing a connection relationship between a data purification system and a communication network according to the present invention;

도 2는 본 발명에 의한 데이터 정제 시스템의 구성을 나타내는 도면,2 is a diagram showing the configuration of a data purification system according to the present invention;

도 3은 본 발명에 의한 데이터 오류 검출부의 구성을 나타내는 도면,3 is a view showing the configuration of a data error detection unit according to the present invention;

도 4는 본 발명에 의한 데이터 정제부의 구성을 나타내는 도면,4 is a view showing the configuration of a data purification unit according to the present invention;

도 5는 본 발명에 의한 데이터 정제 방법을 설명하기 위한 흐름도,5 is a flowchart illustrating a data purification method according to the present invention;

도 6은 본 발명에 의한 데이터 오류 검출 방법을 보다 상세하게 설명하기 위한 흐름도,6 is a flowchart illustrating a data error detection method according to the present invention in more detail.

도 7은 본 발명에 의한 데이터 정제 방법을 보다 상세하게 설명하기 위한 흐름도이다.7 is a flowchart illustrating the data purification method according to the present invention in more detail.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>

100 : 기관 시스템 200 : 데이터 정제 시스템100: institutional system 200: data purification system

210 : 통신 인터페이스부 220 : 데이터 수집부210: communication interface unit 220: data collection unit

230 : 데이터 오류 검출부 231 : 검출 규칙 정의수단230: data error detection unit 231: detection rule definition means

233 : 데이터 오류 체크수단 235 : 데이터 오류 검출수단233: data error check means 235: data error detection means

240 : 데이터 정제부 241 : 정제 규칙 정의수단240: data refining unit 241: refining rule definition means

243 : 자동 정제 처리수단 245 : 사용자 정제 처리수단243: automatic tablet processing means 245: user tablet processing means

250 : 데이터 검수부 260 : 데이터 전송부250: data inspecting unit 260: data transmitting unit

270 : 데이터 관리부 280 : 사용자 인터페이스부270: data management unit 280: user interface unit

290 : 데이터베이스290: database

Claims (21)

통신망을 통해 통신을 수행하기 위한 통신 인터페이스부;A communication interface unit for performing communication through a communication network; 복수의 기관 시스템으로부터 데이터를 수집하는 데이터 수집부;A data collector configured to collect data from a plurality of engine systems; 상기 데이터 수집부에 의해서 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출하는 데이터 오류 검출부;A data error detector for detecting an error that does not correspond to a standard by comparing the data collected by the data collector with a preset detection rule; 상기 데이터 오류 검출부에 의해서 검출된 데이터에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하는 데이터 정제부;A data refiner for refining data according to a predetermined refinement rule with respect to the data detected by the data error detector; 데이터 정제 시스템과 관련된 정보를 저장하는 데이터베이스; 및A database that stores information related to the data purification system; And 데이터 정제 시스템과 관련된 정보를 사용자가 확인할 수 있도록 제공하기 위한 사용자 인터페이스부;A user interface for providing a user with information related to the data refining system; 를 포함하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.Data purification system for building an integrated database comprising a. 제1항에 있어서, The method of claim 1, 상기 데이터 정제 시스템은,The data purification system, 상기 데이터 정제부에 의해서 정제 처리된 데이터를 변환하거나, 공통 서비스를 호출하거나, 또는 데이터의 전송 전 위치 데이터값과 전송 후 위치 데이터값을 비교하여 업데이트된 데이터를 표시하는 데이터 검수부;A data inspecting unit converting the data purified by the data refining unit, calling a common service, or comparing the pre-transmission position data value with the post-transmission position data value to display updated data; 를 더 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.Data purification system for building an integrated database, further comprising. 제2항에 있어서,The method of claim 2, 상기 데이터 정제 시스템은,The data purification system, 데이터 검수부에 의해서 데이터 검수 절차가 완료된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송하는 데이터 전송부;A data transmission unit for transmitting the data whose data inspection procedure is completed by the data inspection unit to a user terminal or a system in which an integrated database is constructed; 를 더 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.Data purification system for building an integrated database, further comprising. 제1항에 있어서,The method of claim 1, 상기 데이터 정제 시스템은,The data purification system, 사용자 단말기로부터 데이터 검색을 비롯하여 서비스 요청을 수신하면, 상기 사용자 인터페이스부를 통해 요청된 데이터와 관련된 정보를 출력하여 제공하는 데이터 관리부;A data management unit that outputs and provides information related to the requested data through the user interface unit when receiving a service request including a data search from a user terminal; 를 더 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.Data purification system for building an integrated database, further comprising. 제1항에 있어서,The method of claim 1, 상기 데이터 오류 검출부는,The data error detection unit, 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정하는 검출 규칙 정의수단;Detection rule defining means for setting a detection rule including at least one of a data content criterion, a data structure criterion or a linkage criterion between tables; 수집된 데이터를 상기 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크하는 데이터 오류 체크수단; 및Data error checking means for checking whether there is a data value that does not match the detection rule by comparing the collected data with the detection rule; And 상기 데이터 오류 체크수단에 의해서 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출하는 데이터 오류 검출수단;Data error detection means for detecting the error type after matching the corresponding error type with the data value checked because the data error check means does not match the detection rule; 을 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.Data purification system for building an integrated database comprising a. 제5항에 있어서,The method of claim 5, 상기 데이터 내용 기준은 의미 없는 값으로 설정된 오타, 메타정보 기준을 포함하며,The data content criterion includes a typo and a meta information criterion set to a meaningless value. 상기 데이터 오류 체크수단은,The data error checking means, 수집된 데이터의 값 중 오타가 포함되어 있거나, 메타정보 기준에 일치하지 않는 데이터 값을 오류로 체크하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.The data purification system for building an integrated database, characterized in that errors are checked for data values that contain typos or do not match the meta-information criteria among the collected data values. 제5항에 있어서,The method of claim 5, 상기 데이터 구조 기준은 데이터 포맷 기준을 포함하며,The data structure criteria include data format criteria, 상기 데이터 오류 체크수단은,The data error checking means, 수집된 데이터의 값 중 상기 데이터 포맷 기준과 일치하지 않는 데이터 값을 오류로 체크하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.The data purification system for building an integrated database, characterized in that for checking the data value that does not match the data format criteria of the collected data as an error. 제5항에 있어서,The method of claim 5, 상기 테이블 간 연계 기준은 연계되는 테이블 간 주키(PK: primary key)와 참조키(FK: foreign key)의 일치 여부를 확인하기 위한 기준이며,The linkage criterion between tables is a criterion for confirming whether a primary key (PK) and a reference key (FK) are matched between linked tables. 상기 데이터 오류 체크수단은,The data error checking means, 수집된 데이터의 기본 테이블과 부가 테이블에 각각 지정된 주키와 참조키가 일치하는지 여부를 확인하고, 일치하지 않으면 해당 데이터 값을 오류로 체크하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.A data purification system for building an integrated database, comprising checking whether a primary key and a reference key specified in the base table and the side table of collected data match, and checking the corresponding data value as an error if they do not match. 제1항에 있어서,The method of claim 1, 상기 데이터 정제부는,The data refiner, 오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정하는 정제 규칙 정의수단;Refinement rule definition means for setting a refinement rule for refining the value of the data judged to be an error; 상기 데이터 오류 검출부에 의해서 오류로 검출된 데이터값을 상기 정제 규칙에 따라 정제 처리를 수행하는 자동 정제 처리수단; 및Automatic refining processing means for performing a refining process on the data value detected as an error by said data error detecting unit according to said refining rule; And 사용자의 요청에 따라 상기 사용자 인터페이스부를 통해 오류 유형별 데이터값을 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리하는 사용자 정제 처리수단;User purification processing means for outputting a data value for each error type through the user interface unit according to a user's request, and for refining the data value to a value input by the user; 을 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 시스템.Data purification system for building an integrated database comprising a. a) 데이터 정제 시스템이 복수의 기관 시스템으로부터 데이터를 수집하는 단계;a) the data purification system collecting data from the plurality of institutional systems; b) 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출하는 단계;b) comparing the collected data with a preset detection rule to detect an error that does not correspond to a standard; c) 오류로 검출된 데이터값에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하고, 사용자에 의해서 입력된 값으로 데이터를 정제하는 단계; 및c) purifying the data according to a predetermined refining rule for the data value detected as an error, and refining the data to a value input by the user; And d) 상기 c) 단계에서 정제된 데이터를 사용자 단말기 또는 통합 데이터베이스를 구축한 시스템으로 전송하는 단계;d) transmitting the data purified in step c) to a user terminal or a system in which an integrated database is constructed; 를 포함하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.Data purification method for building an integrated database comprising a. 제10항에 있어서,The method of claim 10, 상기 c) 단계 이후 d) 단계 이전에,After step c) and before step d), 데이터 정제 시스템이 상기 c) 단계에서 정제 처리된 데이터를 변환하거나, 공통 서비스를 호출하거나, 또는 데이터의 전송 전 위치 데이터값과 전송 후 위치 데이터값을 비교하여 업데이트된 데이터를 표시하는 단계;The data refining system converting the data purified in step c), calling a common service, or comparing the position data value before transmission with the position data value after displaying the updated data; 를 더 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.Data purification method for building an integrated database, characterized in that it further comprises. 제10항에 있어서,The method of claim 10, 상기 d) 단계 이후에,After step d), 사용자 단말기로부터 데이터 검색을 비롯하여 서비스 요청을 수신하면, 요청된 데이터와 관련된 정보를 출력하여 제공하는 단계;Outputting and providing information related to the requested data when receiving a service request including a data search from a user terminal; 를 더 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.Data purification method for building an integrated database, characterized in that it further comprises. 제10항에 있어서,The method of claim 10, 상기 b) 단계는,B), b-1) 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정하는 단계;b-1) setting a detection rule including at least one of a data content criterion, a data structure criterion or a linkage criterion between tables; b-2) 수집된 데이터를 상기 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크하는 단계;b-2) comparing the collected data with the detection rule and checking whether there is a data value that does not match the detection rule; b-3) 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출하는 단계;b-3) matching a corresponding error type to a checked data value that does not match the detection rule, and then detecting it as an error; 를 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.Data purification method for building an integrated database comprising a. 제13항에 있어서,The method of claim 13, 상기 데이터 내용 기준은 의미 없는 값으로 설정된 오타, 메타정보 기준을 포함하며,The data content criterion includes a typo and a meta information criterion set to a meaningless value. 상기 b-2) 단계에서,In step b-2), 수집된 데이터의 값 중 오타가 포함되어 있거나, 메타정보 기준에 일치하지 않는 데이터 값을 오류로 체크하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.The data purification method for building an integrated database, which includes a typo in the collected data value or checks a data value that does not match the meta information standard as an error. 제13항에 있어서,The method of claim 13, 상기 데이터 구조 기준은 데이터 포맷 기준을 포함하며,The data structure criteria include data format criteria, 상기 b-2) 단계에서,In step b-2), 수집된 데이터의 값 중 상기 데이터 포맷 기준과 일치하지 않는 데이터 값을 오류로 체크하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.The data purification method for building an integrated database, characterized in that for checking the data value that does not match the data format criteria of the collected data as an error. 제13항에 있어서,The method of claim 13, 상기 테이블 간 연계 기준은 연계되는 테이블 간 주키(PK: primary key)와 참조키(FK: foreign key)의 일치 여부를 확인하기 위한 기준이며,The linkage criterion between tables is a criterion for confirming whether a primary key (PK) and a reference key (FK) are matched between linked tables. 상기 b-2) 단계에서,In step b-2), 수집된 데이터의 기본 테이블과 부가 테이블에 각각 지정된 주키와 참조키가 일치하는지 여부를 확인하고, 일치하지 않으면 해당 데이터 값을 오류로 체크하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.A method of refining data for building a unified database, comprising checking whether a primary key and a reference key specified in the collected data base tables and side tables match each other, and checking the corresponding data values as errors. 제13항에 있어서,The method of claim 13, 상기 c) 단계는,C), c-1) 오류로 검출된 데이터값을 기 설정된 정제 규칙에 따라 정제 처리를 수 행하는 단계;c-1) performing a purification process on the data value detected as an error according to a preset purification rule; c-2) 사용자의 요청에 따라 오류로 검출된 데이터값을 오류 유형별로 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리하는 단계;c-2) outputting a data value detected as an error according to a user's request for each error type, and refining the data value to a value input by the user; 를 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.Data purification method for building an integrated database comprising a. 제17항에 있어서,The method of claim 17, 상기 c-1) 단계 이전에,Before step c-1), 오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정하는 단계;Setting a refinement rule to refine the value of the data determined to be an error; 를 더 포함하는 것을 특징으로 하는 통합 데이터베이스 구축을 위한 데이터 정제 방법.Data purification method for building an integrated database, characterized in that it further comprises. a) 복수의 기관 시스템으로부터 데이터를 수집하는 기능;a) collecting data from a plurality of institutional systems; b) 수집된 데이터를 기 설정된 검출 규칙과 비교하여 표준에 해당하지 않는 오류를 검출하는 기능;b) comparing the collected data with a preset detection rule to detect an error that does not correspond to a standard; c) 오류로 검출된 데이터값에 대해 기 설정된 정제 규칙에 따라 데이터를 정제하고, 사용자에 의해서 입력된 값으로 데이터를 정제하는 기능; 및c) refining the data according to a predetermined refining rule for the data value detected as an error, and refining the data with the value input by the user; And d) 상기 c) 단계에서 정제된 데이터를 사용자 단말기 또는 통합 데이터베이 스를 구축한 시스템으로 전송하는 기능;d) transmitting the data refined in step c) to a user terminal or a system for establishing an integrated database; 을 포함하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.Computer-readable recording medium recording a program comprising a. 제19항에 있어서,The method of claim 19, 상기 b) 기능은,B) function, b-1) 데이터 내용 기준, 데이터 구조 기준 또는 테이블 간 연계 기준 중 하나 이상을 포함하는 검출 규칙을 설정하는 기능;b-1) setting a detection rule including at least one of a data content criterion, a data structure criterion or a linkage criterion between tables; b-2) 수집된 데이터를 상기 검출 규칙과 비교하여 검출 규칙과 일치하지 않는 데이터값이 있는지 여부를 체크하는 기능;b-2) comparing the collected data with the detection rule and checking whether there is a data value that does not match the detection rule; b-3) 검출 규칙과 일치하지 않아 체크된 데이터값에 해당 오류 유형을 매칭시킨 후, 오류로 검출하는 기능;b-3) a function of matching an error type with a checked data value that does not match the detection rule and then detecting it as an error; 을 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.Computer-readable recording medium recording a program comprising a. 제19항에 있어서,The method of claim 19, 상기 c) 기능,C) function above; 오류로 판단된 데이터의 값을 정제하기 위한 정제 규칙을 설정하는 기능;Setting a refinement rule for refining a value of data determined to be an error; 오류로 검출된 데이터값을 상기 정제 규칙에 따라 정제 처리를 수행하는 기 능;Performing a refinement process on the data value detected as an error according to the refinement rule; 사용자의 요청에 따라 오류로 검출된 데이터값을 오류 유형별로 출력하고, 사용자에 의해서 입력되는 값으로 데이터값을 정제 처리하는 기능;Outputting a data value detected as an error for each error type according to a user's request, and refining the data value to a value input by the user; 을 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.Computer-readable recording medium recording a program comprising a.
KR1020080127188A 2008-12-15 2008-12-15 Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor KR100987761B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080127188A KR100987761B1 (en) 2008-12-15 2008-12-15 Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080127188A KR100987761B1 (en) 2008-12-15 2008-12-15 Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor

Publications (2)

Publication Number Publication Date
KR20100068733A true KR20100068733A (en) 2010-06-24
KR100987761B1 KR100987761B1 (en) 2010-10-13

Family

ID=42366941

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080127188A KR100987761B1 (en) 2008-12-15 2008-12-15 Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor

Country Status (1)

Country Link
KR (1) KR100987761B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101425868B1 (en) * 2012-11-29 2014-08-01 한국과학기술정보연구원 System and Method for processing of large scale data based rule set
KR102097741B1 (en) 2019-07-25 2020-04-06 주식회사 딥노이드 System for refining medical image data of training artificial intelligence and Driving method thereof
CN111752936A (en) * 2020-06-30 2020-10-09 中国科学院西北生态环境资源研究院 Data detection management method, device, server and readable storage medium
KR20220100402A (en) * 2021-01-08 2022-07-15 한국전력공사 Automatic Data Cleaning Method and System for Asset Management of Power Facility
KR102437098B1 (en) * 2022-04-15 2022-08-25 이찬영 Method and apparatus for determining error data based on artificial intenigence

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101038337B1 (en) * 2007-09-27 2011-06-01 조광현 Ontology based index method and search engine using the same

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101425868B1 (en) * 2012-11-29 2014-08-01 한국과학기술정보연구원 System and Method for processing of large scale data based rule set
KR102097741B1 (en) 2019-07-25 2020-04-06 주식회사 딥노이드 System for refining medical image data of training artificial intelligence and Driving method thereof
CN111752936A (en) * 2020-06-30 2020-10-09 中国科学院西北生态环境资源研究院 Data detection management method, device, server and readable storage medium
CN111752936B (en) * 2020-06-30 2024-04-26 中国科学院西北生态环境资源研究院 Data detection management method, device, server and readable storage medium
KR20220100402A (en) * 2021-01-08 2022-07-15 한국전력공사 Automatic Data Cleaning Method and System for Asset Management of Power Facility
KR102437098B1 (en) * 2022-04-15 2022-08-25 이찬영 Method and apparatus for determining error data based on artificial intenigence

Also Published As

Publication number Publication date
KR100987761B1 (en) 2010-10-13

Similar Documents

Publication Publication Date Title
Vuong et al. An open database of productivity in Vietnam's social sciences and humanities for public use
US8612372B2 (en) Detection rule-generating facility
US8429220B2 (en) Data exchange among data sources
US7908293B2 (en) Medical laboratory report message gateway
Keil et al. Comparison and evaluation of ontologies for units of measurement
US8161325B2 (en) Recommendation of relevant information to support problem diagnosis
CN100437573C (en) Identifying related names
CN107967313B (en) Method for combining data of different industries based on field data and coordinate commonality
US8055945B2 (en) Systems, methods and computer program products for remote error resolution reporting
US20140222826A1 (en) Data system and method
KR100987761B1 (en) Data Cleansing System and Method for Developing Integrated Database, and Recording Medium Therefor
GB2517582A (en) Data quality monitors
CN112115130A (en) Method, device, equipment and medium for acquiring data corresponding relation
CN111159272A (en) Data quality monitoring and early warning method and system based on data warehouse and ETL
CN111177139A (en) Data quality verification monitoring and early warning method and system based on data quality system
Sadek et al. Automated identification of miscoded and misclassified cases of diabetes from computer records
KR101425868B1 (en) System and Method for processing of large scale data based rule set
Manurung et al. Evaluation of the Indonesian early warning alert and response system (EWARS) in West Papua, Indonesia
US20170147569A1 (en) Search apparatus and search method
Moloi et al. Epidemiology, health systems and stakeholders in rheumatic heart disease in Africa: a systematic review protocol
KR20200053138A (en) Method, system and computer program for automatching adresses between building ledger and energy measuring instrument
CN110502529B (en) Data processing method, device, server and storage medium
KR101415528B1 (en) Apparatus and Method for processing data error for distributed system
JP6515048B2 (en) Incident management system
Fernández‐Marcial et al. Is ORCID your ID? A case study at the Faculty of Arts and Humanities of the University of Porto

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131004

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141002

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151102

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161005

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190430

Year of fee payment: 9

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 10