KR20190064348A

KR20190064348A - 이기종 포맷 데이터의 수집 프로세스 자동화 시스템

Info

Publication number: KR20190064348A
Application number: KR1020170163815A
Authority: KR
Inventors: 이두식; 송호석; 노원석
Original assignee: 주식회사 아임클라우드
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2019-06-10

Abstract

본 발명의 일 실시예에 따르면, 다양한 타입의 레거시 시스템으로부터 데이터를 수집하는 데이터 크롤러; 데이터 크롤러가 수집한 상기 데이터의 변경내역을 인-메모리 DB 기반으로 관리하는 데이터 라이프 사이클 관리 시스템; 및 데이터 크롤러가 수집한 데이터를 저장 및 관리하고 그러한 데이터에 대한 리니지를 생성 및 관리하는 빅 데이터 시스템을 포함하는 이기종 포맷 데이터의 수집 프로세스 자동화 시스템이 제공된다.

Description

이기종 포맷 데이터의 수집 프로세스 자동화 시스템{Automatic system for gathering process of heterogeneous format data}

본 발명은 이기종 포맷 데이터의 수집 프로세스 자동화 시스템에 관한 것이다.

최근 정형 또는 비정형 등의 대규모 데이터에 의미있는 가치를 부여하는 빅 데이터(big data) 기술에 대한 관심이 높아지고 있다. 많은 응용 서비스들은 빅 데이터를 통해 정확하고 빠른 결과가 도출되도록 요청된다.

빅 데이터라는 용어는, 어느 정도 경과한 시간 내에 속한 데이터를 수집, 관리, 저장, 검색, 공유, 분석, 및 시각화하기 위한 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 량을 갖는 데이터 셋(data set)에 대하여 주로 적용된다. 빅 데이터의 사이즈는 테라바이트, 엑사바이트 또는 제타바이트의 범위를 가질 수도 있다.

빅 데이터는 다양한 분야에 존재한다. 예를 들어, 웹로그(web logs), RFID(radio frequency identification), 소셜 네트워크(social network), 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱(internet search indexing), 천문학, 기상학, 유전체학, 생물지구화학(biogeochemistry), 생물학, 군사 감시, 의료 기록, 사진 기록, 비디오 기록, 및 전자상거래 등이다.

빅 데이터는 일반적으로 하둡(Hadoop)이라는 생태계를 기반으로 수행되고 있다. 하둡은 정형 또는 비정형 등의 대량의 데이터를 수집하여 데이터의 중복 분산 저장 및 분산된 네트워크 클러스터에서 병렬로 처리한다. 이러한 하둡에 의하여 단시간의 정보의 처리 및 가치 있는 정보의 추출이라는 기술적 의의를 빅 데이터에 부여하고 있다. 하둡의 HDFS(Hadoop Distributed File System)은 대규모 데이터를 분산 저장 시키는 오픈 소스로써 수집된 데이터를 신뢰성 있게 저장하는 기술이다.

데이터 저장에 앞서 데이터를 수집하는 것은 빅 데이터의 기술 중 하나로써, 데이터 특성에 따라 하둡 생태계에 기반한 많은 데이터 수집 툴들이 이를 지원한다. 이러한 툴들을 이용하여 수집한 데이터에 대하여, 응용 서비스의 종류에 무관하게 수집된 정보에 대한 히스토리의 유지 관리가 필수적이라 할 것이다.

그러나 현재의 하둡은 하둡 내에서의 행위 또는 사건들에 대하여 히스토리 내역을 저장 및 관리하므로, 외부로부터 데이터가 새롭게 수집되거나 갱신될때에는 완전한 히스토리를 관리할 수 없게 된다.

본 발명의 일 실시예에 따르면 이기종 포맷 데이터의 수집 프로세스 자동화 시스템과 방법이 제공된다.

본 발명의 다른 실시예에 따르면 빅 데이터 시스템에 저장되는 데이터들에 대한 완전한 리니지를 생성할 수 있도록 하는 이기종 포맷 데이터의 수집 프로세스 자동화 시스템과 방법이 제공된다.

본 발명의 일 실시예에 따르면, 다양한 타입의 레거시 시스템으로부터 데이터를 수집하는 데이터 크롤러;

데이터 크롤러가 수집한 상기 데이터의 변경내역을 인-메모리 DB 기반으로 관리하는 데이터 라이프 사이클 관리 시스템; 및

데이터 크롤러가 수집한 데이터를 저장 및 관리하고 그러한 데이터에 대한 리니지를 생성 및 관리하는 빅 데이터 시스템; 을 포함하는 이기종 포맷 데이터의 수집 프로세스 자동화 시스템이 제공된다.

본 발명의 다른 실시예에 따르면, 데이터 크롤러가, 레거시 시스템으로부터 데이터를 수집 및 수집 데이터에 대한 상태값 생성하는 단계;

수집한 데이터와 상태값을 데이터 허브에 저장하는 단계;

데이터 라이프 사이클 관리 시스템이, 인-메모리 DB 클러스터 기반으로, 상태값 체크하고 데이터에 대하여 상태값에 대응되는 동작을 수행하며, 데이터에 대한 리니지를 구성할 수 있는 메타 데이터를 생성하는 단계; 및

빅 데이터 시스템이, 상기 메타 데이터를 이용하여 데이터에 대한 리니지를 구성하는 단계;를 포함하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 방법이 제공된다.

본 발명의 하나 이상의 실시예들에 따르면, 이기종 포맷 데이터의 자동으로 수집하고, 수집한 데이터의 리니지를 관리할 수 있게 된다. 즉, 빅 데이터 시스템에 저장되는 데이터들에 대한 완전한 리니지를 생성할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 이기종 포맷 데이터의 수집 프로세스 자동화 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 데이터 크롤러를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 데이터 라이프 사이클 관리 시스템을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 빅 데이터 시스템을 설명하기 위한 도면이다.
도 5는 이기종 포맷 데이터의 수집 프로세스 자동화 방법을 설명하기 위한 방법이다.

이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 본 명세서에서, 어떤 구성요소가 다른 구성요소 상에 있다고 언급되는 경우에 그것은 다른 구성요소 상에 직접 형성될 수 있거나 또는 그들 사이에 제 3의 구성요소가 게재될 수도 있다는 것을 의미한다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.

도 1은 본 발명의 일 실시예에 따른 이기종 포맷 데이터의 수집 프로세스 자동화 시스템을 설명하기 위한 도면이다.

도 1을 참조하면 본 발명의 일 실시예에 따른 이기종 포맷 데이터의 수집 프로세스 자동화 시스템은 데이터 크롤러(Data crawler)(20)와 데이터 라이프 사이클 관리 시스템(40)을 포함할 수 있다. 한편, 본 발명의 설명의 목적을 위해서 레거시 시스템들(10), 데이터 허브(30), 및 빅데이터 시스템(50)을 추가적으로 도시하였다.

레거시 시스템들(10)은 RDBMS 기반으로 데이터를 처리하는 레거시 시스템(11), NOSQL 기반으로 데이터를 처리하는 레거시 시스템(13), 및 파일 기반으로 데이터를 처리하는 레거시 시스템(15)을 포함할 수 있다. 여기서, 레거시 시스템들(11, 13, 15)은 예시적인 것으로서 다른 형태로 데이터를 처리하는 레거시 시스템도 레거시 시스템들(10)에 포함될 수 있다.

데이터 크롤러(Data crawler)(20)는 레거시 시스템들(10)로부터 데이터를 수집할 수 있다. 데이터 크롤러(20)는 또한 레거시 시스템들(10)로부터 수집한 데이터가 새로운 데이터인지, 기존 데이터의 변경인지 등에 대한 판단을 하며, 그 데이터에 대한 상태값을 생성한다. 데이터 크롤러(20)는 수집하는 데이터 마다 상태값을 생성하며, 수집한 데이터와 상태값을 데이터 허브(30)에게 전송한다.

본원 명세서에서 '상태값'이라고 함은 예를 들면 데이터 크롤러(Data crawler)에 의해 수집되는 데이터가 기존 데이터를 변경한 것을 의미하는 값, 기존 데이터에 추가되는 것을 의미하는 값, 기존 데이터에서 적어도 일부 데이터가 삭제되는 것을 의미하는 값, 새로운 신규 데이터를 의미하는 값, 또는 데이터의 상태를 모르는 것을 의미하는 값일 수 있다.

본원 명세서에서 컴퓨팅 디바이스는 중앙 처리 장치, 메모리, 입력 디바이스(예를 들어, 키보드 및 포인팅 디바이스), 출력 디바이스(예를 들어, 디스플레이 디바이스), 및 저장 디바이스(예를 들어, 디스크 드라이브 또는 다른 비휘발성 저장 매체)를 포함할 수 있다. 메모리 및 저장 디바이스는 시스템을 구현하거나 작동가능하게 하는 컴퓨터 실행 가능한 명령어(예를 들어, 소프트웨어)를 이용하여 부호화될 수 있는 컴퓨터 판독가능한 저장 매체이다. 또한, 데이터 구조 및 메시지 구조는 통신 링크 상의 신호와 같은 데이터 전송 매체를 통해 저장되거나 전송될 수 있다. 인터넷, 근거리 통신망(local area network(LAN)), 광역 신망(wide area network(WAN)), 점 대 점 다이얼-업 접속(point-to-point dial-up connection), 무선 전화 네트워크 등과 같은 다양한 통신 링크가 사용될 수 있다.

퍼스널 컴퓨터, 서버 컴퓨터, 휴대용 또는 랩탑 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그래밍 가능한 가전 제품, 디지털 카메라, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전술된 시스템 또는 디바이스 중 임의의 시스템 또는 디바이스를 포함하는 분산형 컴퓨팅 환경, 셋탑 박스, 시스템 온 칩(systems on a chip(SOC)) 등을 포함하는 다양한 동작 환경에서 시스템의 실시예가 구현될 수 있다. 컴퓨터 시스템은 무선 전화, 퍼스널 디지털 어시스턴트(personal digital assistant(PDA)), 스마트 폰, 퍼스널 컴퓨터, 프로그래밍 가능한 가전 제품, 디지털 카메라 등일 수 있다.

시스템은 하나 이상의 컴퓨터 또는 다른 디바이스에 의해 실행된 프로그램 모듈과 같은 컴퓨터 실행 가능한 명령어를 일반적으로 지칭하는 용어로 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 임무를 수행하거나 특정 추상 자료 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 대개, 프로그램 모듈의 기능은 다양한 실시예에서 요구된 바와 같이 조합되거나 분산될 수 있다.

본원 명세서에서 '수집 데이터' 또는 '로(raw) 데이터'라고 함은 데이터 크롤러(Data crawler)(20)에 의해 수집된 데이터를 의미한다.

일 실시예에 따르면 데이터 크롤러(Data crawler)(20)는 에이전트(Agent) 기반으로 구성되는 프로그램일 수 있다.

일 실시예에 따르면, 데이터 크롤러(Data crawler)(20)는 레거시 시스템들(10) 각각에 위치되어 데이터를 수집하고, 수집한 데이터의 상태값을 생성한 후 데이터 허브(30)에게 전송한다.

다른 실시예에 따르면, 데이터 크롤러(Data crawler)(20)는 레거시 시스템들(10)에 위치된 것은 아니며, 레거시 시스템들(10)에 통신망을 통해서 접속하여 데이터를 수집하고, 수집한 데이터의 상태값을 생성한 후 데이터 허브(30)에게 전송한다.

데이터 허브(30)는 데이터 크롤러(Data crawler)(20)에 의해 수집된 수집 데이터와 그에 대응된 상태값을 저장할 수 있는 저장 디바이스를 가진 컴퓨터 시스템이다.

데이터 크롤러(20)에 대한 바람직한 실시예는 도 3을 참조하여 후술하기로 한다.

데이터 라이프 사이클 관리 시스템(40)은 데이터 허브(30)에 저장된 수집 데이터와 상태값을 읽어와서, 상태값을 체크하고 상태값에 따른 동작을 수행한다.

데이터 라이프 사이클 관리 시스템(40)은 인 메모리 DB(In-Memory DB)기반으로 동작을 한다. 즉, 데이터 라이프 사이클 관리 시스템(40)은 데이터 스토리지의 메인 메모리에 설치되어 운영되는 방식의 데이터베이스 관리 시스템이다. 한편, 인 메모리 DB는 종종 IMDB, 혹은 MMDB(Main Memory DBMS)으로 약칭되기도 한다.

데이터 라이프 사이클 관리 시스템(40)은 데이터 크롤러(20)에서 수집되는 데이터를 In-memoryDB 기반으로 관리하는 프로세스가 동작되도록 구성된 컴퓨터 시스템으로서, 수집 데이터의 상태값에 따른 조치를 하고, 그러한 조치를 반영한 메타 데이터를 생성하여 빅 데이터 시스템(50)에 제공한다.

예를 들면, 데이터 허브(30)로부터 읽어온 수집 데이터에 대한 상태값이 데이터 변경을 의미할 때, 데이터 라이프 사이클 관리 시스템(40)은 변경된 부분을 쿼리 기반으로 찾아내는 동작을 수행할 수 있다. 또한, 데이터 허브(30)는 그러한 변경된 부분에 대하여 빅 데이터 시스템(50)에 저장된 데이터에 반영한다. 반영방법은 미리 설정된 정책에 따라서, 변경 부분만을 반영하거나 변경 부분을 포함한 전체 파일이나 테이블 자체를 변경할 수 있다.

데이터 라이프 사이클 관리 시스템(40)은 위와 같은 빅 데이터 시스템(50)에 저장된 기존 데이터의 변경, 히스토리 내역 정보 갱신, 히스토리 내역 갱신 빈도에 따라 주기적으로 빅 데이터 시스템(50)으로 배치 처리 동작을 진행한다.

후술하겠지만, 데이터 라이프 사이클 관리 시스템(40)은 데이터에 대하여 수행한 모든 동작에 대한 메타 데이터를 생성하여, 빅 데이터 시스템(50)으로 제공한다. 빅 데이터 시스템(50)의 빅 데이터 기반 데이터 메타 정보 관리시스템은 그러한 메타 데이터를 이용하여 해당 데이터에 대한 계통도(lineage)를 생성 또는 갱신한다.

빅 데이터 시스템(50)은 데이터 라이프 관리 시스템(40)으로부터 전송되는 데이터와, 그 데이터에 대한 메타 데이터를 제공받는다. 빅 데이터 시스템(50)은 데이터 라이프 관리 시스템(40)으로부터 전송받은 데이터를 예를 들면 새로 저장하거나 또는 기존 데이터에 합치는 것과 같은 동작을 수행하며, 같이 전송받은 메타 데이터를 이용하여 새로 저장한 데이터 또는 기존 데이터와 합쳐진 데이터에 대한 히스토리 정보('계통도'라고도 함)를 생성 및/또는 갱신한다.

히스토리 정보는 임의의 데이터에 대하여 어디에서 기원한 데이터인지, 그리고 어떤 다른 데이터를 생성하는데 사용되었는지, 언제 변경되었는지, 어떤 시스템에 사용되고 있는지 등에 대한 정보를 포함한다.

도 2는 본 발명의 일 실시예에 따른 데이터 크롤러를 설명하기 위한 도면이다.

데이터 크롤러(Data crawler)(20)는 레거시 시스템들(10)로부터 수집한 데이터의 상태값을 생성한 후 수집 데이터와 함께 데이터 허브(30)에게 전송한다.

도 2를 참조하면, 데이터 크롤러(20)는 다양한 타입의 데이터베이스를 사용하는 레거시 시스템들에게 접속할 수 있는 플러그인을 포함하며, 이러한 플러그인은 복수의 API가 모듈형태로 구성된다. 여기서 복수의 모듈은 제1타입 데이터베이스에 접속할 수 있는 모듈(편의상 '제1모듈')과 제2타입 데이터베이스에 접속할 수 있는 모듈(편의상 '제2모듈')을 포함한다. 제1모듈은 자바 프로그램 안에서 SQL을 실행하기 위해 데이터베이스를 연결해주는 응용프로그램 인터페이스(API)이고, 제2모듈은 Oracle 데이터베이스를 연결해주는 응용프로그램 인터페이스(API)이다.

여기서, JDBC API 와 Oracle DB API는 예시적인 것이므로 본원 발명이 그러한 타입의 데이터베이스에 한정되는 것은 아니다. 또한 복수의 모듈이 2개인 경우를 예시로 들었으나 여기서 '2개'는 예시적인 것으로서 이러한 수에 본원 발명이 한정되는 것은 아니며, 복수의 모듈은 2개보다 더 많은 모듈들로 이루어질 수도 있다.

데이터 크롤러(20)는 또한 사용자가 설정값을 웹 브라우저를 이용해서 설정할 수 있도록 하는 웹 어플리케이션을 포함한다. 여기서, 웹 어플리케이션은 수집하는 데이터에 대한 정책을 Drag-Drop으로 편리하게 설정하도록 지원할 수 있고, 수집 데이터의 상태값을 제어(생성을 포함)하는 기능을 구비한다.

데이터 크롤러(20)는 또한 레거시 시스템들(10)로부터 데이터를 수집하는 에이젼트(agent)를 포함한다.

도 3은 본 발명의 일 실시예에 따른 데이터 라이프 사이클 관리 시스템을 설명하기 위한 도면이다.

데이터 라이프 사이클 관리 시스템(40)은 인 메모리 DB(In-Memory DB)기반으로 동작을 한다.

데이터 라이프 사이클 관리 시스템(40)은 수집 데이터의 상태값에 따른 조치를 하고, 그러한 조치를 반영한 메타 데이터를 생성하여 빅 데이터 시스템(50)에 제공한다.

상술한 동작을 수행하기 위하여 데이터 라이프 사이클 관리 시스템(40)은 도 3에 예시적으로 도시된 바와 같이 하돕(HDFS) 기반의 인 메모리 구성의 아키텍쳐(43)를 가진다.

도 3을 참조하면, 데이터 라이프 사이클 관리 시스템(40)은 원천 데이터(예를 들면, 로 데이터 또는 수집 데이터 또는 빅 데이터 시스템에서 새롭게 생성된 데이터)의 변경 내역 관리 기능, 배치 처리 전환(변경 빈도별) 기능, 쿼리 관리 기능, 쿼리 히스토리 관리 기능을 가진다.

원천 데이터 변경 내역 관리 기능은 원천 데이터에 대한 상태값과 변경 내역을 관리하는 기능이고, 배치 처리 전환 기능은 히스토리 내역 갱신 빈도에 따라서 일괄적으로 배치 처리하는 기능이고, 쿼리 관리 기능은 하돕(HDFS)에 대한 쿼리를 관리하는 기능이고, 그리고 쿼리 히스토리 관리 기능은 상기 쿼리에 대한 히스토리를 저장 유지하는 기능이다.

데이터 라이프 사이클 관리 시스템(40)은 또한 상기 원천 데이터 변경 내역과 쿼리 히스토리를 반영한 메타 데이터를 생성한다.

도 4는 본 발명의 일 실시예에 따른 빅 데이터 시스템을 설명하기 위한 도면이다.

본 발명의 일 실시예에 따른 빅 데이터 시스템(50)은 빅 데이터 기반 데이터 메타 정보 관리 시스템을 가지면, 이러한 빅 데이터 기반 데이터 메타 정보 관리 시스템은 돕(HDFS) 기반으로 메타 데이터를 처리 및 관리하며, 각각의 에코 시스템(Eco System)에서 처리 및 발생하는 기존 메타 데이터 또는 변경내역을 처리하며, 데이터 라이프 사이클 관리 시스템(40)의 상태값 및 히스토리 내역 처리 및 데이터를 저장한다.

상술한 동작을 수행하기 위하여 빅 데이터 시스템(50)은 도 4에 예시적으로 도시된 바와 같은 아키텍쳐를 가질 수 있다.

도 4를 참조하면, 빅 데이터 기반 데이터 메타 정보 관리 시스템을 가지며, 이러한 빅 데이터 기반 데이터 메타 정보 관리 시스템은 에코 시스템 히스토리 관리 모듈, 인-메모리 DB 연계 모듈, 잡 기반 리니지 처리 모듈, 파일 기반 리니지 처리 모듈을 포함한다.

에코 시스템 히스토리 관리 모듈은 에코 시스템에 저장된 다양한 형태의 데이터들의 히스토리를 저장 및 관리하고, 인-메모리 DB 연계 모듈은 데이터 라이프 사이클 관리 시스템(40)의 인-메모리 DB와의 연계를 지원하며, 잡 기반 리니지 처리 모듈은 잡의 히스토리를 저장 및 관리하고, 파일 기반 리니지 처리 모듈은 파일의 히스토리를 저장 및 관리한다.

이상 도 1 내지 도 4를 참조하여 설명한 이기종 포맷 데이터의 수집 프로세스 자동화 시스템은 데이터 크롤러(20)에 의해 수집되어 빅 데이터 시스템(50)에 저장되는 수집 데이터에 대하여 데이터 라이프 사이클 관리 시스템(40)이 메타 데이터를 생성하는 것으로 설명하였으나, 반대로 빅 데이터 시스템(50)이 생성한 데이터가 다른 레거시 시스템으로 전송될때의 경우에도 데이터 라이프 사이클 관리 시스템(40)을 경유하여 외부로 전송되도록 구성될 수 있다. 이러한 경우, 데이터 라이프 사이클 관리 시스템(40)은 외부로 전송되는 데이터에 대한 메타 데이터를 생성하여, 빅 데이터 시스템(50)으로 전송하며, 빅 데이터 시스템(50)은 그러한 메타 데이터를 반영하여 리니지를 생성할 수 있게 된다.

도 5는 이기종 포맷 데이터의 수집 프로세스 자동화 방법을 설명하기 위한 방법이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 이기종 포맷 데이터의 수집 프로세스 자동화 방법은 레거시 시스템으로부터 데이터를 수집 및 수집 데이터에 대한 상태값 생성(S101), 수집한 데이터와 상태값을 데이터 허브에 저장(S103), 인-메모리 DB 클러스터 기반으로, 상태값 체크하고 데이터에 대하여 상태값에 대응되는 동작을 수행하며, 데이터에 대한 리니지를 구성할 수 있는 메타 데이터를 생성(S105), 메타 데이터를 이용하여 데이터에 대한 리니지를 구성(생성 또는 변경)(S107)하는 단계들을 포함할 수 있다.

이러한 본 발명의 일 실시예에 따른 이기종 포맷 데이터의 수집 프로세스 자동화 방법은 도 1 내지 도 4를 참조하여 설명한 이기종 포맷 데이터의 수집 프로세스 자동화 시스템에 의해 구현될 수 있다.

예를 들면, 본 발명의 일 실시예에 따른 이기종 포맷 데이터의 수집 프로세스 자동화 방법은 데이터 크롤러(20)가 레거시 시스템으로부터 데이터를 수집 및 수집 데이터에 대한 상태값 생성(S101)하고, 데이터 허브(30)가 수집 데이터와 상태값을 저장(S103)하고, 데이터 라이프 사이클 관리 시스템(40)이 인-메모리 DB 클러스터 기반으로, 상태값 체크하고 데이터에 대하여 상태값에 대응되는 동작을 수행하고, 데이터에 대한 리니지를 구성할 수 있는 메타 데이터를 생성(S105)하며, 빅 데이터 시스템(50)이 데이터 라이프 사이클 관리 시스템이 생성한 메타 데이터를 이용하여 데이터에 대한 리니지를 구성(생성 또는 변경)(S107)한다.

이상과 같이 본 발명이 속하는 분야에서 통상의 지식을 가진 당업자라면 상술한 명세서의 기재로부터 다양한 수정 및 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

10, 11, 13, 15: 레거시 시스템
20: 데이터 크롤러
30: 데이터 허브
40: 데이터 라이프 사이클 관리 시스템
50: 빅 데이터 시스템

Claims

이기종 포맷 데이터의 수집 프로세스 자동화 시스템에 있어서
다양한 타입의 레거시 시스템으로부터 데이터를 수집하는 데이터 크롤러;
데이터 크롤러가 수집한 상기 데이터의 변경내역을 인-메모리 DB 기반으로 관리하는 데이터 라이프 사이클 관리 시스템; 및
데이터 크롤러가 수집한 데이터를 저장 및 관리하고 그러한 데이터에 대한 리니지를 생성 및 관리하는 빅 데이터 시스템; 을 포함하는 이기종 포맷 데이터의 수집 프로세스 자동화 시스템.
제1항에 있어서,
상기 데이터 크롤러는 수집한 데이터에 대한 상태값을 생성하고,
상기 데이터 라이프 사이클 관리 시스템은 상기 데이터 크롤러가 수집한 데이터와 상태값을 체크하여 상태값에 대응되는 처리 동작을 수행하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 시스템.
제2항에 있어서,
상기 데이터 라이프 사이클 관리 시스템은 상기 처리 동작을 반영한 메타 데이터를 생성하며, 이러한 메타 데이터는 상기 빅 데이터 시스템의 리니지 생성에 사용되는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 시스템.
제1항에 있어서,
상기 데이터 크롤러는 다양한 타입의 레거시 시스템들에게 접속할 수 있는 플러그인을 포함하며, 상기 플러그인은 복수의 API가 모듈형태로 구성되며,
상기 복수의 API는 JDBC 응용프로그램 인터페이스(API)와 Oracle 데이터베이스를 연결해주는 응용프로그램 인터페이스(API)를 포함하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 시스템.
제4항에 있어서,
상기 데이터 크롤러는 데이터를 수집하는 에이젼트를 포함하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 시스템.
이기종 포맷 데이터의 수집 프로세스 자동화 방법에 있어서,
데이터 크롤러가, 레거시 시스템으로부터 데이터를 수집 및 수집 데이터에 대한 상태값 생성하는 단계;
수집한 데이터와 상태값을 데이터 허브에 저장하는 단계;
데이터 라이프 사이클 관리 시스템이, 인-메모리 DB 클러스터 기반으로, 상태값 체크하고 데이터에 대하여 상태값에 대응되는 동작을 수행하며, 데이터에 대한 리니지를 구성할 수 있는 메타 데이터를 생성하는 단계; 및
빅 데이터 시스템이, 상기 메타 데이터를 이용하여 데이터에 대한 리니지를 구성하는 단계;를 포함하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 방법.
제6항에 있어서,
상기 데이터 크롤러는 다양한 타입의 레거시 시스템들에게 접속할 수 있는 플러그인을 포함하며, 상기 플러그인은 복수의 API가 모듈형태로 구성되며,
상기 복수의 API는 JDBC 응용프로그램 인터페이스(API)와 Oracle 데이터베이스를 연결해주는 응용프로그램 인터페이스(API)를 포함하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 방법.
제7항에 있어서,
상기 데이터 크롤러는 데이터를 수집하는 에이젼트를 더 포함하는 것인, 이기종 포맷 데이터의 수집 프로세스 자동화 방법.