KR20140069669A

KR20140069669A - 규칙집합 기반 대용량 데이터 처리 시스템 및 방법

Info

Publication number: KR20140069669A
Application number: KR1020120137227A
Authority: KR
Inventors: 한승우; 손강렬; 임철수; 최희석; 김재수
Original assignee: 한국과학기술정보연구원
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2014-06-10
Also published as: KR101425868B1

Abstract

본 발명은 규칙집합 기반 대용량 데이터 처리 시스템 및 방법에 관한 것으로, 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 규칙집합이 저장된 규칙집합 데이터베이스, 작업 스케줄 시간, 데이터를 수집할 기관 시스템을 포함하는 작업 스케줄 정보를 입력받아 작업 스케줄을 설정하고, 작업 스케줄 시간에 해당 기관 시스템으로부터 데이터를 수집하는 잡 스케줄러, 상기 잡 스케줄러에서 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 상기 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 규칙 집합 로딩부, 상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 정합성 및 오류 검증부, 상기 정합성 및 오류 검증부의 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 갱신성 검증부, 상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 데이터 변환 처리부를 포함한다.

Description

규칙집합 기반 대용량 데이터 처리 시스템 및 방법{System and Method for processing of large scale data based rule set}

본 발명은 규칙집합 기반 대용량 데이터 처리 시스템 및 방법에 관한 것으로, 보다 상세하게는 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 규칙집합을 생성하고, 생성된 규칙 집합을 이용하여 데이터의 정합성 및 오류 발생 여부를 검사하며, 오류가 발생하지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하고, 결정된 갱신 유형에 따라 해당 데이터를 통합 데이터베이스에 연계하는 규칙집합 기반 대용량 데이터 처리 시스템 및 방법에 관한 것이다.

연구개발 정보 서비스에서 정보의 품질에 따른 사용자의 신뢰가 가장 중요하다. 신뢰도 향상을 위해 데이터의 발생 시점부터 변경, 폐기까지의 전 주기 관리가 필요하다. 데이터가 하나의 응용시스템에서 발생하여 관리되는 경우도 있으나 대부분의 서비스는 여러 응용시스템, 또는 여러 사용자 인터페이스, 서로 다른 기관 사이의 데이터 상호 연동을 통해 관리된다. 이러한 환경에서 데이터의 입력 값 범위, 형식 오류, 조건 오류 등이 발생하기 쉽고, 이 경우 그 원인을 파악하여 값을 수정하여야 하나, 오류에 대한 원인, 관련 조건 확인, 담당자 확인 및 수정이 어렵기 때문에 효율적인 데이터 관리가 필요하다.

종래에는 데이터 처리방법에 있어서 데이터의 변화분(신규입력(Insert), 갱신(Update), 삭제(Delete))보다 데이터의 변형, 가공 등에 초점이 맞추어져 데이터의 트랜잭션이 Row 단위로 발생하여, 대용량 데이터를 처리하는 다수/이기종의 데이터베이스로 구성된 과학기술정보자원 연계에 비효율적이며 연계 자원 운용 시 정보의 신뢰성 및 정확성을 제고하기 어렵다.

또한, 데이터 처리결과에 대한 모니터링 시스템 연동이 부재하여 데이터 관리에 대한 어려움은 더욱 가중되고 있다.

따라서, 다수의 연계 기관을 대상으로 데이터 흐름과 방법을 정의한 규칙집합을 생성하여 신속·정확한 데이터 변화분(신규입력(Insert), 갱신(Update), 삭제(Delete))에 대한 처리 및 검증 기법과 이에 대한 처리결과를 모니터링 할 수 있는 방법의 개발이 필요하다.

한국등록특허 제10-0987761호, 발명의 명칭 '통합 데이터베이스 구축을 위한 데이터 정제 시스템 및 방법과 이를 위한 기록매체'

본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 다수의 연계 기관을 대상으로 데이터 흐름과 방법을 정의한 규칙집합을 생성하고, 신속·정확한 데이터 변화분(신규입력(Insert), 갱신(Update), 삭제(Delete))에 대한 처리 및 검증을 수행하며, 데이터 처리결과를 모니터링 할 수 있는 규칙집합 기반 대용량 데이터 처리 시스템 및 방법을 제공하는데 있다.

본 발명의 다른 목적은 다수의 연계 기관으로부터 단일화된 통합시스템으로 데이터를 연계하기 위한 규칙집합을 생성하고, 그 규칙집합을 이용하여 수집된 데이터를 통합 데이터베이스로 연계하므로, 별도의 부가적인 환경설정 없이 맞춤형으로 연계환경을 통합 관리할 수 있는 규칙집합 기반 대용량 데이터 처리 시스템 및 방법을 제공하는데 있다.

본 발명의 또 다른 목적은 복수의 기관 시스템으로부터 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 결과를 모니터링 시스템과 연동시켜 데이터 연계처리결과를 효과적으로 관리할 수 있는 규칙집합 기반 대용량 데이터 처리 시스템 및 방법을 제공하는데 있다.

상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 규칙집합이 저장된 규칙집합 데이터베이스, 작업 스케줄 시간, 데이터를 수집할 기관 시스템을 포함하는 작업 스케줄 정보를 입력 받아 작업 스케줄을 설정하고, 작업 스케줄 시간에 해당 기관 시스템으로부터 데이터를 수집하는 잡 스케줄러, 상기 잡 스케줄러에서 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 상기 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 규칙 집합 로딩부, 상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 정합성 및 오류 검증부, 상기 정합성 및 오류 검증부의 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 갱신성 검증부, 상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 데이터 처리부를 포함하는 데이터 처리 장치가 제공된다.

상기 데이터 처리 장치는 상기 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 미디어정보, 테이블 정보, 매핑 정보, 변환정보, 정합성 정보, 오류처리 정보, 모니터링 정보 중 적어도 하나를 포함하는 규칙 집합을 생성하여 상기 규칙집합 데이터베이스에 저장하는 규칙집합 생성부를 더 포함할 수 있다.

또한, 데이터 처리 장치는 상기 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스에 저장하는 모니터링 관리부를 더 포함할 수 있다.

상기 정합성 및 오류 검증부는 상기 포맷 변환된 데이터를 상기 규칙집합과 비교하여, 상기 규칙집합과 일치하지 않은 데이터 값이 존재하는지 여부를 판단하고, 일치하지 않은 데이터 값에 해당 유형을 매칭시킨 후, 오류가 발생한 데이터를 검출할 수 있다.

상기 갱신성 검증부는 오류가 검출되지 않은 데이터에 대해 소스 항목과 타겟 항목의 해쉬값을 비교하여, 신규 입력(Insert), 갱신(Update), 삭제(Delete) 중 적어도 하나의 갱신 유형을 결정할 수 있다.

상기 데이터 처리부는 신규 입력(Insert) 대상으로 분류된 데이터의 경우, 통합 데이터베이스의 해당 영역에 대상 데이터를 신규로 입력하고, 갱신(Update) 대상으로 분류된 데이터의 경우, 통합 데이터베이스에 저장된 데이터 중에서 해당 데이터를 업데이트하며, 삭제(Delete) 대상으로 분류된 데이터의 경우, 통합 데이터베이스의 해당 데이터를 삭제 처리할 수 있다.

본 발명의 다른 측면에 따르면, 데이터 처리 장치가 규칙집합 기반으로 대용량 데이터를 처리하는 방법에 있어서, (a) 기 설정된 작업 스케줄 시간에 복수의 기관 시스템으로부터 데이터를 수집하는 단계, (b) 상기 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 단계, (c) 상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 단계, (d) 상기 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 단계, (e) 상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 단계를 포함하는 규칙집합 기반 대용량 데이터 처리 방법이 제공된다.

상기 규칙집합 기반 대용량 데이터 처리 방법은 상기 (a) 단계 이전에, 상기 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 미디어정보, 테이블 정보, 매핑 정보, 변환정보, 정합성 정보, 오류처리 정보, 모니터링 정보 중 적어도 하나를 포함하는 규칙 집합을 생성하여 상기 규칙집합 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

또한, 규칙집합 기반 대용량 데이터 처리 방법은 상기 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스에 저장하는 단계를 더 포함할 수 있다.

상기 (c) 단계는, 상기 포맷 변환된 데이터를 상기 규칙집합과 비교하여, 상기 규칙집합과 일치하지 않은 데이터 값이 존재하는지 여부를 판단하는 단계, 상기 판단결과 규칙 집합과 일치하지 않은 데이터 값이 존재하는 경우, 해당 데이터를 오류가 발생한 데이터로 검출하고, 오류가 발생한 데이터에 대한 오류 정보를 저장하는 단계를 포함할 수 있다.

상기 (d) 단계는 상기 오류가 검출되지 않은 데이터에 대해 소스 항목과 타겟 항목의 해쉬값을 비교하여, 신규 입력(Insert), 갱신(Update), 삭제(Delete) 중 적어도 하나의 갱신 유형을 결정할 수 있다.

상기 (e) 단계는 상기 갱신성 검사가 수행된 데이터의 갱신 유형이 신규 입력(Insert)인 경우 통합 데이터베이스의 해당 영역에 신규 입력(Insert) 대상 데이터를 신규로 입력하고, 갱신(Update)인 경우 통합 데이터베이스에 갱신 대상 데이터를 업데이트하며, 삭제(Delete)인 경우, 통합 데이터베이스에서 삭제 대상 데이터를 삭제 처리할 수 있다.

본 발명의 또 다른 측면에 따르면, 데이터 처리 장치에 의해 실행될 때, (a) 기 설정된 작업 스케줄 시간에 복수의 기관 시스템으로부터 데이터를 수집하는 단계, (b) 상기 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 단계, (c) 상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 단계, (d) 상기 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 단계, (e) 상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 단계를 포함하는 규칙집합 기반 대용량 데이터 처리 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.

본 발명에 따르면, 다수의 연계 기관을 대상으로 데이터 흐름과 방법을 정의한 규칙집합을 생성하고, 신속·정확한 데이터 변화분(신규입력(Insert), 갱신(Update), 삭제(Delete))에 대한 처리 및 검증을 수행하며, 데이터 처리결과를 모니터링 할 수 있다.

또한, 다수의 연계 기관으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 규칙집합을 생성하고, 그 규칙집합을 이용하여 수집된 데이터를 통합 데이터베이스로 연계하므로, 별도의 부가적인 환경설정 없이 맞춤형으로 연계환경을 통합 관리할 수 있다.

또한, 복수의 기관 시스템으로부터 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 결과를 모니터링 시스템과 연동시킴으로써, 데이터 연계처리결과를 효과적으로 관리할 수 있다.

또한, 한번 생성된 규칙집합은 그 역할 별로 관리되어 상황에 맞는 연계 환경에 적용될 수 있으므로, 연계 개발업무 적용에 효율성을 향상시킬 수 있다.

또한, 여러 연계 기관에서 입수되는 데이터를 규칙집합 기반(XML)으로 데이터의 할당 및 변환을 정의함으로써, 데이터의 수집 및 변환의 신속성과 정확성 확보할 수 있다.

또한, 데이터 정합성 및 오류 검출로 데이터 품질을 제고하고, 해당 오류의 원인, 종류, 내부 처리 결과, 오류 개선방법을 제시할 수 있다.

또한, 모니터링 정보(정보단위, 스키마단위로 데이터처리일자, 작동상태, 스케줄러시작시간, 스케줄러종료시간, 오류건수, 정상전송건수, 발생된 입력, 수정, 삭제건수, 에러건수 등)를 생성함으로써, 데이터 진행상태 및 프로세스 흐름관리 확인 및 파악이 가능한 효과가 있다.

도 1은 본 발명의 실시예에 따른 규칙집합 기반 대용량 데이터 처리 시스템을 나타낸 도면.
도 2는 본 발명의 실시예에 따른 데이터 처리 장치의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명의 실시예에 따른 규칙 집합의 예시도.
도 4는 본 발명의 실시예에 따른 데이터 처리 장치가 대용량 데이터를 처리하는 방법을 나타낸 흐름도.

본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.

도 1은 본 발명의 실시예에 따른 규칙집합 기반 대용량 데이터 처리 시스템을 나타낸 도면이다.

도 1을 참조하면, 규칙집합 기반 대용량 데이터 처리 시스템은 복수의 기관 시스템(100a, 100b,.., 100n, 이하 100이라 칭함)으로부터 수집된 데이터를 규칙집합을 기초로 처리하는 데이터 처리 장치(200), 데이터 처리 장치(200)에서 처리된 데이터를 통합하여 저장하는 중앙 시스템(300)을 포함한다.

데이터 처리 장치(200)는 기관 1 시스템(100a), 기관 2 시스템(100b) 등의 복수의 기관에 각각에 분산되어 있는 데이터베이스들을 통합하여 단일의 통합 데이터베이스(320)를 구축하는 업무 프로세스를 지원하기 위해, 각 기관 시스템(100)으로부터 수집된 데이터의 오류 검출 및 갱신성 검증을 비롯한 절차를 수행한다.

또한, 데이터 처리 장치(200)는 복수의 기관 시스템(100)과 중앙 시스템(300)을 상호 연계하여 연계 서비스를 실행한다.

기관은 대학, 기업, 국민, 연구기관 등을 모두 포함한다.

데이터 처리 장치(200)에 대한 상세한 설명은 도 2를 참조하기로 한다.

중앙 시스템(300)은 데이터 처리 장치(200)로부터 데이터를 수신하여 통합 데이터베이스(320)에 저장한다. 이러한 중앙 시스템(300)은 데이터 처리 장치(200)로부터 데이터를 수신하는 데이터 수신부(310), 데이터 수신부(310)에서 수신된 데이터가 저장된 통합 데이터베이스(320)를 포함한다. 통합 데이터베이스(320)는 복수의 기관에 각각에 분산되어 있는 데이터베이스들을 통합한 데이터베이스일 수 있다.

복수의 기관 시스템(100), 데이터 처리 장치(200), 중앙 시스템(300) 각각은 통신 기능을 탑재한 장치라면 어느 것이라도 적용될 수 있다. 여기서, 통신 기능은 이동통신, 위성통신 등의 무선 통신기능, 인터넷 등의 유선 통신기능, 와이파이 등의 근거리 무선 통신기능 등을 포함할 수 있다.

도 2는 본 발명의 실시예에 따른 데이터 처리 장치의 구성을 개략적으로 나타낸 블럭도, 도 3은 본 발명의 실시예에 따른 규칙 집합의 예시도이다.

도 2를 참조하면, 데이터 처리 장치(200)는 규칙 집합 생성부(210), 규칙 집합 데이터베이스(220), 잡 스케줄러(230), 규칙 집합 로딩부(240), 정합성/오류 검증부(250), 갱신성 검증부(260), 데이터 처리부(270), 모니터링 정보 데이터베이스(280), 모니터링 관리부(290)를 포함한다.

규칙 집합 생성부(210)는 복수의 기관 시스템을 대상으로 데이터 흐름과 방법을 정의한 규칙집합을 생성한다.

즉, 규칙 집합 생성부(210)는 다수의 연계 기관으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 미디어정보, 테이블 정보, 매핑 정보, 변환정보, 정합성 정보, 오류처리 정보, 모니터링 정보 등을 포함하는 규칙 집합을 생성한다. 여기서, 미디어 정보는 주소나 URL 등의 접근 가능한 매체의 주소, 즉, 소스 DB 또는 타겟 DB의 주소(IP)를 포함할 수 있다. 테이블 정보는 미디어 내의 연계 대상 테이블에 대한 이름을 정의한 것으로, 연계하고자 하는 테이블 또는 컬럼명을 포함할 수 있다. 매핑 정보는 두 개 이상의 테이블 정보 내에서 데이터 매핑을 의미하는 것으로, 매핑 정의서에 의해 소스 항목과 타겟 항목 간 할당 정보를 정의한다. 여기서, 소스항목은 제공대상 DB의 전송대상 테이블/컬럼, 타겟항목은 목적지DB의 테이블/컬럼을 칭할 수 있다. 변환 정보는 데이터가 변환될 formula가 담겨 있는 항목일 수 있다. 정합성 정보는 regular expression에 의한 정합성 정보를 의미하는 것으로, 생성될 규칙집합의 경로, 명칭 등을 포함할 수 있다. 오류처리 정보는 오류 발생시 오류 유형과 함께 기록할 테이블 정보를 의미할 수 있다. 모니터링 정보는 데이터 매핑 및 변환에 대한 statistics 정보를 기록한 것으로, 정보 단위 또는 스키마 단위로 데이터 처리일자, 작동상태, 잡 스케줄러 시작시간, 잡 스케줄러 종료시간, 오류건수, 정상전송건수, 발생된 입력 건수, 수정 건수, 삭제건수, 에러 건수 등을 포함할 수 있다.

또한, 규칙 집합 생성부(210)는 복수의 기관 시스템으로부터 수집된 데이터와 중앙 시스템에 저장된 통합수집데이터와의 데이터 할당 및 변환규칙을 규칙집합에 정의한다. 여기서, 규칙 집합은 XML 형식일 수 있다. 예컨대, 규칙 집합 생성부(210)는 데이터 할당 및 변환의 대상이 되는 소스 데이터와 통합수집데이터 간의 매핑 관계를 데이터의 코드, 스키마, 변환관계 등의 상세한 정의를 명기하고 초기 SQL문을 작성한다. 그리고 규칙 집합 생성부(210)는 소스 데이터베이스의 테이블과 대상 데이터베이스의 1:1, 1:N, N:1 등의 관계 및 코드/형식 변환 등의 상세 변환 내역을 정의하여 XML 기반의 규칙을 작성한다.

또한, 규칙 집합 생성부(210)는 생성된 규칙 집합을 규칙 집합 데이터베이스(220)에 저장한다.

또한, 규칙 집합 생성부(210)에서 생성된 규칙집합은 도 3과 같이 구성될 수 있다. 도 3을 참조하면, 규칙 집합은 DB 환경 정보, 선행작업 정의, 소스 정보, 타겟 정보, 매핑 정보, 소스 테이블 조건식, 타겟 테이블 조건식, 에러 테이블 정의 등을 포함할 수 있다.

잡 스케줄러(230)는 데이터 연동 및 처리에 대한 작업 스케줄을 설정하고, 작업 스케줄 시간이 되면, 복수의 기관 시스템으로부터 데이터를 수집하는 작업을 구동한다. 즉, 잡 스케줄러(230)는 1일 1회, 1일 수회 등의 작업 스케줄 시간, 데이터를 수집할 기관 시스템 등을 포함하는 작업 스케줄 정보를 입력받아 작업 스케줄을 설정한다. 그런 후, 잡 스케줄러(230)는 작업 스케줄 시간이 되면, 해당 기관 시스템으로부터 연구과제 정보, 논문, 특허 등의 다양한 데이터를 수집한다.

규칙 집합 로딩부(240)는 잡 스케줄러(230)에서 수집된 데이터를 표준 데이터 포맷으로 변환하고, 기 설정된 규칙 집합을 규칙 집합 데이터베이스(220)로부터 로딩한다. 즉, 규칙 집합 로딩부(240)는 수집된 데이터를 표준데이터 포맷으로 유형변환, 데이터의 통합 분리 등의 변환을 수행한다. 그런 후, 규칙 집합 로딩부(240)는 규칙 집합 데이터베이스(220)로부터 포맷 변환된 데이터에 해당하는 규칙 집합을 로딩한다.

정합성/오류 검증부(250)는 규칙 집합 로딩부(240)에서 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하여, 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증한다. 즉, 정합성/오류 검증부(250)는 포맷 변환된 데이터를 규칙 집합과 비교하여, 규칙 집합과 일치하지 않은 데이터 값이 존재하는지 여부를 판단한다. 상기 판단결과, 규칙 집합과 일치하지 않은 데이터 값이 존재하는 경우, 정합성/오류 검증부(250)는 그 데이터 값에 해당 유형을 매칭시킨 후, 오류가 발생한 데이터로 검출한다. 오류가 발생한 데이터는 오류 데이터로 걸러지게 되고, 오류 정보는 모니터링 정보 데이터베이스(280)에 저장되어, 다양한 유형의 오류 추적을 가능하게 한다. 모니터링 정보 데이터베이스(280)에 저장된 오류 정보는 모니터링 서비스와 연동되어 게시되므로, 연계수행자는 연계수행시 발생한 오류내용에 대해서 확인하고 수정해야 할 부분이 무엇인지를 인지할 수 있어 효율적인 데이터 관리를 가능하게 한다.

갱신성 검증부(260)는 정합성/오류 검증부(250)의 검증 결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행한다. 즉, 오류가 발생한 데이터는 연계대상이 아니므로, 오류발생이 없는 데이터만 갱신성 검사를 수행하여 연계대상으로 분류하고 연계를 수행한다. 여기서, 연계는 갱신성 검사가 완료된 데이터를 통합 데이터베이스에 반영한다는 것을 의미할 수 있다.

갱신성 검증부(260)는 오류가 검출되지 않은 데이터에 대해 신규 입력(Insert), 갱신(Update), 삭제(Delete) 등의 갱신성 검사를 수행하여, 갱신 유형을 결정한다. 이로 인해 데이터 전송 준비가 완료된다. 즉, 갱신성 검증부(260)는 소스 항목과 타겟 항목의 해쉬값을 비교하여 해당 데이터의 갱신 유형을 분류한다. 여기서, 갱신 유형은 신규 입력(Insert), 갱신(Update), 삭제(Delete) 등을 포함할 수 있다.

예를 들어, 표 1과 같은 소스 데이터와 타겟 데이터를 이용하여 데이터의 이관 유형을 결정하는 방법에 대해 설명하기로 한다.

표 1을 참조하면, 소스 DB와 타겟 DB의 PK값을 비교한 결과, 소스항목에는 PK가 존재하나 타겟항목에 PK가 없을 경우, 갱신성 검증부(260)는 해당 데이터를 Insert 대상으로 분류한다. 또한, 소스 DB와 타겟 DB의 PK값을 비교한 결과, 소스항목과 타겟항목의 PK는 같으나 PK+데이터의 해쉬 값이 다를 경우, 갱신성 검증부(260)는 해당 데이터를 Update 대상으로 분류한다. 또한, 소스 DB와 타겟 DB의 PK값을 비교한 결과, 타겟항목에는 PK가 존재하나 소스항목에 PK가 없을 경우, 갱신성 검증부(260)는 해당 데이터를 Delete 대상으로 분류한다. 또한, 소스 DB와 타겟 DB의 PK값을 비교한 결과, 소스항목과 타겟항목의 PK도 같고 PK+데이터의 해쉬 값 또한 같을 경우 갱신성 검증부(260)는 해당 데이터를 Equals 대상(연계대상에서 제외)으로 분류한다.

상기와 같이 갱신성 검증부(260)는 데이터 변화분(예컨대, 신규입력(Insert), 갱신(Update), 삭제(Delete))에 대한 처리과정에서 소스 항목과 타겟 항목의 해쉬값을 비교하여 신속하고 정확한 연계를 가능하게 한다. 여기서, 데이터 변화분(I,U,D)은 신규로 입력, 변경된 정보가 있어 수정하여 재입력, 삭제를 칭하는 말로 연계대상의 분류가 어떻게 되는지를 지칭하는 것이다.

데이터 처리부(270)는 갱신성 검증부(260)에서 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신한다. 다시 말하면, 데이터 처리부(270)는 갱신성 검사가 수행된 데이터를 타켓 항목(테이블/컬럼)에 매핑시켜 입력하는 역할을 수행한다.

예컨대, 갱신성 검증부(260)에서 Insert 대상으로 분류된 데이터의 경우, 데이터 처리부(270)는 통합 데이터베이스의 해당 영역에 Insert 대상 데이터를 신규로 입력한다. 또한, 갱신성 검증부(260)에서 Update 대상으로 분류된 데이터의 경우, 데이터 처리부(270)는 통합 데이터베이스에 저장된 데이터 중에서 해당 데이터를 업데이트한다. 또한, 갱신성 검증부(260)에서 Delete 대상으로 분류된 데이터의 경우, 데이터 처리부(270)는 통합 데이터베이스의 해당 데이터를 삭제 처리한다.

모니터링 관리부(290)는 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스(280)에 저장한다. 즉, 모니터링 관리부(290)는 수집된 데이터를 통합 데이터베이스에 전송하기까지 연동 전반에 대한 구간별, 상태별, 연계 현황, 데이터 흐름 등을 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스(280)에 저장한다.

예컨대, 모니터링 관리부(290)는 수집데이터의 총 개수, 입력데이터 개수, 갱신데이터 개수, 삭제 데이터 개수, 오류데이터 개수 등 연동 데이터의 모니터링에 필요한 다양한 정보를 수집하고, 그 수집된 정보를 모니터링 정보 데이터베이스(280)에 저장하여, 데이터 처리 결과를 관리할 수 있게 한다.

예를 들어, 데이터 처리 장치(200)가 기관1 시스템으로부터 데이터를 제공받은 다음 통합 DB로 연계된 데이터를 끌어오는 과정의 경우, 모니터링 관리부(290)는 기관1 시스템에서 데이터 처리 장치(200)로 데이터를 제공해주는 구간, 데이터 처리 장치(200)로부터 통합DB로 데이터를 끌어오는 구간으로 구간을 구분하고, 각 구간을 별도로 모니터링하고, 모니터링 정보를 모니터링 정보 데이터베이스(280)에 저장한다.

또한, 모니터링 관리부(290)는 기관1 시스템으로부터 수집중인 데이터가 정상적으로 연계되어 통합 데이터베이스에 반영되었는지의 여부, 오류상태로 반영되지 않았는지의 여부, 오류는 아니지만 미반영 상태인지의 여부 등과 같은 상태를 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스(280)에 저장한다.

도 4는 본 발명의 실시예에 따른 데이터 처리 장치가 대용량 데이터를 처리하는 방법을 나타낸 흐름도이다.

도 4를 참조하면, 데이터 처리 장치는 복수의 기관 시스템을 대상으로 데이터 흐름과 방법을 정의한 규칙집합을 생성한다(S402). 즉, 데이터 처리 장치는 다수의 연계 기관으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 미디어정보, 테이블 정보, 매핑 정보, 변환정보, 정합성 정보, 오류처리 정보, 모니터링 정보 등을 포함하는 규칙 집합을 생성한다.

단계 S402의 수행 후, 데이터 처리 장치는 데이터 연동 및 처리에 대한 작업 스케줄을 설정한다(S344). 즉, 데이터 처리 장치는 1일 1회, 1일 수회 등의 작업 스케줄 시간, 데이터를 수집할 기관 시스템 등을 포함하는 작업 스케줄 정보를 입력받아 작업 스케줄을 설정한다.

단계 S404의 수행 후, 데이터 처리 장치는 작업 스케줄 시간이 되면, 복수의 기관 시스템으로부터 데이터를 수집하는 작업을 구동한다(S406). 즉, 데이터 처리 장치는 복수의 기관 시스템으로부터 연구과제 정보, 논문, 특허 등의 다양한 데이터를 수집한다.

단계 S406의 수행 후, 데이터 처리 장치는 수집된 데이터를 표준 데이터 포맷으로 변환하고(S408), 기 설정된 규칙 집합을 규칙 집합 데이터베이스로부터 로딩한다(S410). 즉, 데이터 처리 장치는 수집된 데이터를 표준데이터 포맷으로 유형변환, 데이터의 통합 분리 등의 변환을 수행한다. 그런 후, 데이터 처리 장치는 규칙 집합 데이터베이스로부터 포맷 변환된 데이터에 해당하는 규칙 집합을 로딩한다.

단계 S410의 수행 후, 데이터 처리 장치는 포맷 변환된 데이터를 로딩한 규칙 집합과 비교하여 정합성 및 오류를 체크하고(S412), 오류 발생 여부를 판단한다(S414). 즉, 데이터 처리 장치는 포맷 변환된 데이터를 규칙 집합과 비교하여, 규칙 집합과 일치하지 않은 데이터 값이 존재하는지 여부를 판단한다. 상기 판단결과, 규칙 집합과 일치하지 않은 데이터 값이 존재하는 경우, 데이터 처리 장치는 그 데이터 값에 해당 유형을 매칭시킨 후, 오류가 발생한 데이터로 검출한다.

단계 S414의 판단결과 오류가 발생한 경우, 데이터 처리 장치는 오류가 발생한 데이터에 대한 오류 정보를 모니터링 정보 데이터베이스에 저장하여(S416), 모니터링 정보를 생성한다(S418).

만약, 단계 S414의 판단결과 오류가 발생하지 않은 경우, 데이터 처리 장치는 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행한다(S420). 즉, 데이터 처리 장치는 오류가 검출되지 않은 데이터에 대해 신규 입력(Insert), 갱신(Update), 삭제(Delete) 등의 갱신성 검사를 수행하여, 갱신 유형을 결정한다

단계 S420이 수행되면, 데이터 처리 장치는 갱신성 검사가 수행된 데이터를 갱신 유형에 따라 타겟 항목에 매핑시켜 입력한다(S422). 즉, 데이터 처리 장치는 Insert 대상으로 분류된 데이터의 경우, 통합 데이터베이스의 해당 영역에 대상 데이터를 신규로 입력한다. 또한, 데이터 처리 장치는 Update 대상으로 분류된 데이터의 경우, 통합 데이터베이스에 저장된 데이터 중에서 해당 데이터를 업데이트한다. 또한, 데이터 처리 장치는 Delete 대상으로 분류된 데이터의 경우, 통합 데이터베이스의 해당 데이터를 삭제 처리한다.

단계 S422의 수행 후, 데이터 처리 장치는 수집된 데이터로부터 중앙 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고 그 모니터링 정보를 데이터베이스에 저장한다(S418).

후술하는 특허청구범위에 기재되어 있는 (a), (b), (c), (d), (e)는 특정 순서를 의미하는 것이 아니며, 운용자의 필요에 따라 해당 순서를 변경할 수 있다.

본 발명에서 개시하는 데이터 처리 장치의 구성과 기능은 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체의 형태로 구현하는 것도 가능하다.

또한, 규칙집합 기반 대용량 데이터 처리 방법은 프로그램으로 작성 가능하며, 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 프로그래머에 의하여 용이하게 추론될 수 있다.

이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 기관 시스템 200 : 데이터 처리 장치
210 : 규칙 집합 생성부 220 : 규칙 집합 DB
230 : 잡 스케줄러 240 : 규칙 집합 로딩부
250 : 정합성/오류 검증부 260 : 갱신성 검증부
270 : 데이터 변환 처리부 280 : 모니터링 정보 DB
290 : 모니터링 관리부

Claims

복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 규칙집합이 저장된 규칙집합 데이터베이스;
작업 스케줄 시간, 데이터를 수집할 기관 시스템을 포함하는 작업 스케줄 정보를 입력받아 작업 스케줄을 설정하고, 작업 스케줄 시간에 해당 기관 시스템으로부터 데이터를 수집하는 잡 스케줄러;
상기 잡 스케줄러에서 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 상기 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 규칙 집합 로딩부;
상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 정합성 및 오류 검증부;
상기 정합성 및 오류 검증부의 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 갱신성 검증부; 및
상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 데이터 변환 처리부;
를 포함하는 데이터 처리 장치.
제1항에 있어서,
상기 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 미디어정보, 테이블 정보, 매핑 정보, 변환정보, 정합성 정보, 오류처리 정보, 모니터링 정보 중 적어도 하나를 포함하는 규칙 집합을 생성하여 상기 규칙집합 데이터베이스에 저장하는 규칙집합 생성부를 더 포함하는 데이터 처리 장치.
제1항에 있어서,
상기 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스에 저장하는 모니터링 관리부를 더 포함하는 데이터 처리 장치.
제1항에 있어서,
상기 정합성 및 오류 검증부는 상기 포맷 변환된 데이터를 상기 규칙집합과 비교하여, 상기 규칙집합과 일치하지 않은 데이터 값이 존재하는지 여부를 판단하고, 일치하지 않은 데이터 값에 해당 유형을 매칭시킨 후, 오류가 발생한 데이터를 검출하는 것을 특징으로 하는 데이터 처리 장치.
제1항에 있어서,
상기 갱신성 검증부는 오류가 검출되지 않은 데이터에 대해 소스 항목과 타겟 항목의 해쉬값을 비교하여, 신규 입력(Insert), 갱신(Update), 삭제(Delete) 중 적어도 하나의 갱신 유형을 결정하는 것을 특징으로 하는 데이터 처리 장치.
제1항에 있어서,
상기 데이터 처리부는 신규 입력(Insert) 대상으로 분류된 데이터의 경우, 통합 데이터베이스의 해당 영역에 대상 데이터를 신규로 입력하고, 갱신(Update) 대상으로 분류된 데이터의 경우, 통합 데이터베이스에 저장된 데이터 중에서 해당 데이터를 업데이트하며, 삭제(Delete) 대상으로 분류된 데이터의 경우, 통합 데이터베이스의 해당 데이터를 삭제 처리하는 것을 특징으로 하는 데이터 처리 장치.
데이터 처리 장치가 규칙집합 기반으로 대용량 데이터를 처리하는 방법에 있어서,
(a) 기 설정된 작업 스케줄 시간에 복수의 기관 시스템으로부터 데이터를 수집하는 단계;
(b) 상기 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 단계;
(c) 상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 단계;
(d) 상기 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 단계; 및
(e) 상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 단계;
를 포함하는 규칙집합 기반 대용량 데이터 처리 방법.
제7항에 있어서,
상기 (a) 단계 이전에,
상기 복수의 기관 시스템으로부터 단일화된 통합 데이터베이스로 데이터를 연계하기 위한 미디어정보, 테이블 정보, 매핑 정보, 변환정보, 정합성 정보, 오류처리 정보, 모니터링 정보 중 적어도 하나를 포함하는 규칙 집합을 생성하여 상기 규칙집합 데이터베이스에 저장하는 단계를 더 포함하는 규칙집합 기반 대용량 데이터 처리 방법.
제7항에 있어서,
상기 수집된 데이터를 통합 데이터베이스에 전송하기까지의 데이터 처리 결과를 모니터링하고, 그 모니터링 정보를 모니터링 정보 데이터베이스에 저장하는 단계를 더 포함하는 규칙집합 기반 대용량 데이터 처리 방법.
제7항에 있어서,
상기 (c) 단계는,
상기 포맷 변환된 데이터를 상기 규칙집합과 비교하여, 상기 규칙집합과 일치하지 않은 데이터 값이 존재하는지 여부를 판단하는 단계; 및
상기 판단결과 규칙 집합과 일치하지 않은 데이터 값이 존재하는 경우, 해당 데이터를 오류가 발생한 데이터로 검출하고, 오류가 발생한 데이터에 대한 오류 정보를 저장하는 단계를 포함하는 것을 특징으로 하는 규칙집합 기반 대용량 데이터 처리 방법.
제7항에 있어서,
상기 (d) 단계는,
상기 오류가 검출되지 않은 데이터에 대해 소스 항목과 타겟 항목의 해쉬값을 비교하여, 신규 입력(Insert), 갱신(Update), 삭제(Delete) 중 적어도 하나의 갱신 유형을 결정하는 것을 특징으로 하는 규칙집합 기반 대용량 데이터 처리 방법.
제7항에 있어서,
상기 (e) 단계는,
상기 갱신성 검사가 수행된 데이터의 갱신 유형이 신규 입력(Insert)인 경우 통합 데이터베이스의 해당 영역에 대상 데이터를 신규로 입력하고, 갱신(Update)인 경우 통합 데이터베이스에 갱신 대상 데이터를 업데이트하며, 삭제(Delete)인 경우, 통합 데이터베이스에서 삭제 대상 데이터를 삭제 처리하는 것을 특징으로 하는 규칙집합 기반 대용량 데이터 처리 방법.
데이터 처리 장치에 의해 실행될 때,
(a) 기 설정된 작업 스케줄 시간에 복수의 기관 시스템으로부터 데이터를 수집하는 단계;
(b) 상기 수집된 데이터를 기 설정된 표준 데이터 포맷으로 변환하고, 규칙집합 데이터베이스로부터 해당 규칙 집합을 로딩하는 단계;
(c) 상기 포맷 변환된 데이터를 로딩된 규칙 집합과 비교하고, 그 비교결과를 근거로 상기 포맷 변환된 데이터의 정합성 및 오류 발생 여부를 검증하는 단계;
(d) 상기 검증결과 오류가 검출되지 않은 데이터에 대해 갱신성 검사를 수행하여 갱신 유형을 결정하는 단계; 및
(e) 상기 갱신성 검사가 수행된 데이터의 갱신 유형에 따라 통합 데이터베이스에 해당 데이터를 갱신하는 단계를 포함하는 규칙집합 기반 대용량 데이터 처리 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체.