KR102415001B1

KR102415001B1 - 데이터 리니지 관리 방법 및 그 시스템

Info

Publication number: KR102415001B1
Application number: KR1020210062081A
Authority: KR
Inventors: 김현하; 정석훈; 최승규; 임승용
Original assignee: 지티원 주식회사
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-07-01

Abstract

데이터 리니지 관리 방법 및 그 시스템이 개시된다. 본 발명의 일 실시예에 따른 데이터 리니지 관리 방법은 데이터 리니지(data lineage)를 생성하기 위한, 미리 결정된 소스 코드, 이티엘(ETL; extract, transform, load)의 데이터 매핑 정보와 데이터베이스를 수집하는 단계; 상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스를 분석하여 데이터 리니지를 생성하는 단계; 및 상기 생성된 데이터 리니지를 가시화하여 제공하는 단계를 포함한다.

Description

데이터 리니지 관리 방법 및 그 시스템{DATA LINEAGE MANAGEMENT METHOD AND SYSTEM THEREFORE}

본 발명은 데이터 리니지 관리 기술에 관한 것으로, 보다 구체적으로는 이티엘(ETL; extract, transform, load)의 데이터 매핑 정보와 데이터베이스 뿐만 아니라 프로그램의 소스 코드까지 분석하여 데이터 리니지(또는 데이터 계보)를 생성하고, 이렇게 생성된 데이터 리니지를 가시화하여 제공할 수 있는 데이터 리니지 관리 방법 및 그 시스템에 관한 것이다.

현재 IT 환경이 다양화, 대형화됨에 따라 이를 통합하고 효율적으로 운영하기 위한 방안, 그리고 새로운 비즈니스 환경 변화 및 IT 기술 변화에 신속하게 대응하기 위한 데이터의 관리 기능 강화에 대한 필요성이 점차 증대되고 있다. 이 중 데이터 리니지 관리는 어떤 중요 데이터가 어디로부터 어떤 변환 과정을 거쳐 흘러왔는지에 관한 정보를 체계적으로 관리하는 것을 의미하며, 이를 통해 업무 담당자와 IT 부서 담당자는 쉽게 데이터의 원천을 파악하거나 어디에서 데이터가 사용되고 있는지를 찾을 수 있어 생산성을 향상할 수 있다. 따라서 기업들은 프로그램 또는 데이터의 변경 발생에 따른 영향을 파악하여 업무변화에 최소한의 리스크 부담으로 유연하게 대응할 수 있게 된다.

현재의 데이터 리니지 관리(또는 데이터 흐름 관리)는 이티엘(ETL; extract, transform, load) 중심의 데이터 매핑 정의서를 활용하고 있는데, 이러한 데이터 리니지 관리는 소스(Source)와 타겟(Target) 사이의 ETL 매핑 관계만 정의되므로 중간 단계의 임시 테이블 및 기타 프로그램에 대한 정보가 누락되고, 수작업 혹은 반자동으로 관리되므로 데이터 흐름 정보의 현행화에 한계가 있다.

본 발명의 실시예들은, ETL의 데이터 매핑 정보와 데이터베이스 뿐만 아니라 프로그램의 소스 코드까지 분석하여 데이터 리니지(또는 데이터 계보)를 생성하고, 이렇게 생성된 데이터 리니지를 가시화하여 제공할 수 있는 데이터 리니지 관리 방법 및 그 시스템을 제공한다.

본 발명의 일 실시예에 따른 데이터 리니지 관리 방법은 데이터 리니지(data lineage)를 생성하기 위한, 미리 결정된 소스 코드, 이티엘(ETL; extract, transform, load)의 데이터 매핑 정보와 데이터베이스를 수집하는 단계; 상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스를 분석하여 데이터 리니지를 생성하는 단계; 및 상기 생성된 데이터 리니지를 가시화하여 제공하는 단계를 포함한다.

상기 생성하는 단계는 상기 수집된 소스 코드에 포함된 함수 파라미터, 변수, 상수, 쿼리(query)를 통해 상기 데이터베이스의 컬럼까지의 리니지를 분석하고, 상기 분석된 소스 코드의 리니지, 상기 이티엘의 데이터 매핑 정보와 상기 데이터베이스를 분석함으로써, 상기 데이터 리니지를 생성할 수 있다.

상기 생성하는 단계는 상기 분석된 소스 코드의 리니지, 상기 이티엘의 데이터 매핑 정보와 상기 데이터베이스의 타겟 컬럼에 유입되는 데이터 값이 생성되기까지의 산출 규칙을 자동 추출함으로써, 상기 데이터 리니지를 생성할 수 있다.

상기 제공하는 단계는 상기 데이터베이스의 특정 컬럼이 선택되는 경우 상기 특정 컬럼의 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공할 수 있다.

상기 제공하는 단계는 서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 상기 동일한 이름의 테이블을 구분하여 상기 생성된 데이터 리니지를 가시화할 수 있다.

상기 제공하는 단계는 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 상기 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 상기 가상 테이블로의 연결을 가시화하여 제공할 수 있다.

상기 제공하는 단계는 배치 프로그램에 의해 상기 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공할 수 있다.

본 발명의 일 실시예에 따른 데이터 리니지 관리 시스템은 데이터 리니지(data lineage)를 생성하기 위한, 미리 결정된 소스 코드, 이티엘(ETL; extract, transform, load)의 데이터 매핑 정보와 데이터베이스를 수집하는 수집부; 상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스를 분석하여 데이터 리니지를 생성하는 분석부; 및 상기 생성된 데이터 리니지를 가시화하여 제공하는 제공부를 포함한다.

상기 분석부는 상기 수집된 소스 코드에 포함된 함수 파라미터, 변수, 상수, 쿼리(query)를 통해 상기 데이터베이스의 컬럼까지의 리니지를 분석하고, 상기 분석된 소스 코드의 리니지, 상기 이티엘의 데이터 매핑 정보와 상기 데이터베이스를 분석함으로써, 상기 데이터 리니지를 생성할 수 있다.

상기 분석부는 상기 분석된 소스 코드의 리니지, 상기 이티엘의 데이터 매핑 정보와 상기 데이터베이스의 타겟 컬럼에 유입되는 데이터 값이 생성되기까지의 산출 규칙을 자동 추출함으로써, 상기 데이터 리니지를 생성할 수 있다.

상기 제공부는 상기 데이터베이스의 특정 컬럼이 선택되는 경우 상기 특정 컬럼의 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공할 수 있다.

상기 제공부는 서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 상기 동일한 이름의 테이블을 구분하여 상기 생성된 데이터 리니지를 가시화할 수 있다.

상기 제공부는 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 상기 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 상기 가상 테이블로의 연결을 가시화하여 제공할 수 있다.

상기 제공부는 배치 프로그램에 의해 상기 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공할 수 있다.

본 발명의 실시예들에 따르면, ETL의 데이터 매핑 정보와 데이터베이스 뿐만 아니라 프로그램의 소스 코드까지 분석하여 데이터 리니지(또는 데이터 계보)를 생성하고, 이렇게 생성된 데이터 리니지를 가시화하여 제공함으로써, ETL 중심의 데이터 리니지에 대한 한계를 극복하고, 이를 통해 데이터베이스의 타겟 컬럼의 데이터에 값에 대한 정확한 데이터 리니지를 제공할 수 있다.

본 발명의 실시예들에 따르면, 프로그램의 소스 코드까지 분석하여 데이터 리니지를 생성함으로써, 데이터 리니지를 정확하게 생성할 수 있다.

본 발명의 실시예들에 따르면, 데이터베이스의 타겟 컬럼에 유입되는 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공함으로써, 데이터 산출 규칙에 대하여 양방향으로 추척할 수 있다.

본 발명의 실시예들에 따르면, 서로 다른 데이터베이스 내에 동일한 이름의 테이블이 포함되는 경우 동일한 테이블을 구분하여 데이터 리니지를 가시화시키고, 수집/분석 대상이 아닌 데이터베이스의 테이블을 사용하는 경우 비수집 대상의 테이블을 가상 테이블로 가시화하며, 배치 프로그램에 의해 데이터베이스에 흘러가는 데이터의 주기를 가시화하여 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 리니지 관리 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 데이터 리니지 관리 서버에서의 동작을 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 데이터 리니지를 생성하는 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 4와 도 5는 데이터 산출 규칙을 가시화하여 제공하는 화면과 데이터 산출 규칙에 대한 일 예시도를 나타낸 것이다.
도 6은 서로 다른 데이터베이스에 동일한 테이블이 있는 경우를 설명하기 위한 일 예시도를 나타낸 것이다.
도 7은 가상 테이블과 배치 프로그램에 의해 데이터베이스에 데이터가 흘러가는 주기를 설명하기 위한 일 에시도를 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 데이터 리니지 관리 시스템에 대한 구성을 나타낸 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 실시예들은, ETL의 데이터 매핑 정보와 데이터베이스 뿐만 아니라 프로그램의 소스 코드까지 분석하여 데이터 리니지(또는 데이터 계보)를 생성하고, 이렇게 생성된 데이터 리니지를 가시화하여 제공하는 것을 그 요지로 한다.

도 1은 본 발명의 일 실시예에 따른 데이터 리니지 관리 방법에 대한 동작 흐름도를 나타낸 것으로, 데이터 리니지를 관리하는 데이터 리니지 관리 서버에서의 동작 흐름도를 나타낸 것이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 데이터 리니지 관리 방법은 데이터 리니지(data lineage)를 생성하기 위한, 프로그램의 소스 코드, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 수집한다(S110).

즉, 단계 S110은 데이터 소스와 데이터 가공에 의한 데이터와 분석 대상이 되는 데이터베이스에 대한 디스크립션(description)에 해당하는 스키마 정보를 수집한다. 그리고, 단계 S110에 의해 수집되는 프로그램은 PL/SQL, 자바, C 등의 다양한 프로그래밍 언어에 대한 프로그램을 포함할 수 있으며, 단계 S110에서 수집되는 데이터는 이 뿐만 아니라 분석 대상과 관련되는 빅 데이터, 온라인 데이터 등을 모두 포함할 수 있다.

여기서, 단계 S110은 ETL 도구에서 export 해주는 데이터 매핑 정보를 자동으로 수집할 수 있다.

단계 S110에 의해 프로그램의 소스 코드, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스가 수집되면, 수집된 프로그램의 소스 코드, ETL의 데이터 매핑 정보와 데이터베이스의 스키마 정보를 분석하여 프로그램의 소스 코드를 고려한 데이터 리니지를 생성한다(S120).

이 때, 단계 S120은 수집된 소스 코드에 포함된 함수 파라미터, 변수, 상수, 쿼리(query)를 통해 분석 대상이 되는 데이터베이스의 컬럼까지의 리니지(또는 흐름)를 분석하고, 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 분석함으로써, 데이터 리니지를 생성할 수 있다.

나아가, 단계 S120은 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스의 컬럼들 각각에 유입되는 데이터 값이 생성되기까지의 산출 규칙을 자동 추출함으로써, 데이터 리니지를 생성할 수 있다.

더 나아가, 단계 S120은 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 분석하는데 있어서, 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 가상 테이블로의 연결을 포함하는 데이터 리니지를 생성할 수도 있다.

더 나아가, 단계 S120은 서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 동일한 이름의 테이블을 구분하여 데이터 리니지를 생성할 수도 있다.

더 나아가, 단계 S120은 배치 프로그램에 의해 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기가 포함되도록, 데이터 리니지를 생성할 수도 있다.

상술한 바와 같이, 본 발명에서는 데이터 리니지를 생성할 때, 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 고려하여 다양한 정보를 제공할 수 있도록 데이터 리니지를 생성할 수 있다.

단계 S120에 의해 데이터 리니지가 생성되면, 생성된 데이터 리니지를 가시화하여 제공한다(S130).

일 예로, 단계 S130은 분석 대상이 되는 데이터베이스의 특정 컬럼이 선택되는 경우 특정 컬럼의 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공할 수 있다.

다른 일 예로, 단계 S130은 서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 동일한 이름의 테이블을 구분하여 생성된 데이터 리니지를 가시화할 수 있다.

또 다른 일 예로, 단계 S130은 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 가상 테이블로의 연결을 가시화하여 제공할 수 있다.

또 다른 일 예로, 단계 S130은 배치 프로그램에 의해 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공할 수 있다.

이러한 본 발명의 데이터 리니지 관리 방법에 대하여 도 2 내지 도 7을 참조하여 상세히 설명하면 다음과 같다.

도 2는 데이터 리니지 관리 서버에서의 동작을 설명하기 위한 일 예시도를 나타낸 것으로, 데이터 리니지 관리 서버에서 도 1의 동작을 수행하는 것이다.

도 2에 도시된 바와 같이, 데이터 리니지 관리 서버는 DBMS, SQL, ETL, 빅 데이터와 프로그램에서 데이터 리니지 관련 데이터를 수집하고, 이렇게 수집된 데이터 리니지 관련 데이터를 분석함으로써, 생성된 데이터 리니지를 가시화하여 제공할 수 있다. 즉, 데이터 리니지 관리 서버는 단계별 데이터베이스들 사이의 데이터 흐름과 데이터 산출(변환) 규칙을 정교하게 분석하고 소스-타겟 간 데이터 매핑 관계를 가시화할 수 있다.

물론, 데이터 리니지 관리 서버는 도 2에 도시된 데이터만을 수집하는 것으로 제한되거나 한정되지 않으며, 데이터 리니지를 생성하기 위하여 사용될 수 있는 모든 종류의 데이터를 수집할 수 있다.

예를 들어, 데이터 리니지 관리 서버는 도 3에 도시된 바와 같이, 프로그램 영역에서 프로시져(procedure)와 SQL을 파싱하고, 파싱된 프로시져와 SQL의 분석을 통해 파싱된 프로시져에서 SQL간 흐름을 생성하고, 파싱된 SQL에서 소스 테이블과 타겟 테이블간 컬럼 매핑을 수행함으로써, 프로시져명, 컬럼 매핑, 테이블 매핑, 테이블 컬럼간 연관 등에 대한 정보를 획득할 수 있다. 그리고, 데이터 리니지 관리 서버는 ETL 영역에서 XML 분석을 통해 SQL을 파싱하고, 파싱된 SQL에서 소스 테이블과 타겟 테이블간 컬럼 매핑을 수행하며, XML의 분석을 통한 JOB과 파싱된 SQL에서 소스 테이블과 타겟 테이블간 컬럼 매핑을 이용하여 JOB명, 컬럼 매핑, 테이블 매핑, 테이블 컬럼간 연관 등에 대한 정보를 획득할 수 있다.

데이터 관리 서버는 프로그램 영역과 ETL 영역 등에서 분석 획득된 정보를 이용하여 분석 대상이 되는 데이터베이스에 대한 데이터 리니지를 생성할 수 있으며, 이렇게 생성된 데이터 리니지는 BI 영역에서 생성된 BI 보고서를 분석하거나 BI 보고서에 포함된 데이터의 경로를 추정하는데 사용될 수 있다. 예를 들어, BI 보고서에 대한 XML로부터 SQL을 파싱하고, 파싱된 SQL과 XML을 통해 보고서 연관 테이블을 매핑함으로써, 보고서와 연관된 테이블과 컬럼을 통해 보고서에 사용된 데이터의 경로를 정확하게 확인할 수 있다.

그리고, 데이터 리니지 관리 서버는 소스와 타겟 사이의 데이터 흐름을 가시화하여 데이터 생성 및 활용을 추적하는데 사용할 수 있다. 예를 들어, 데이터 리니지 관리 서버는 업무 시스템 레벨 데이터 리니지를 가시화하고, 테이블 레벨의 데이터 이동 경로를 그래프 및 그리드 형태로 제공할 수 있으며, 업무 시스템 별 레이어로 구분하여 제공할 수도 있고, 컬럼 레벨의 데이터 이동 경로를 그래프 및 그리드 형태로 제공할 수도 있고, 소스 및 ETL 매핑 정보 누락 시, 사용자 정의 데이터 흐름을 지원할 수도 있다.

나아가, 데이터 리니지 관리 서버는 타겟 컬럼에 유입되는 데이터의 산출 규칙 정보를 제공할 수 있다. 예컨대, 데이터 리니지 관리 서버는 도 4와 도 5에 도시된 바와 같이, 타겟 컬럼의 데이터 값이 생성되기까지 산출 규칙(Derivation Rule)을 추출하고, 추출된 산출 규칙의 추적(양방향)을 통한 데이터의 이동 경로를 가시화하여 제공할 수 있다.

이 때, 데이터 리니지 관리 서버는 복잡한 SQL의 컬럼 흐름을 추적하여 산출식을 생성하며, 실제 output 컬럼에 대한 데이터가 생성되기 위한 여러 서브 쿼리들의 컬럼 중 해당하는 컬럼들만 조합하여 최종적인 산출식을 추출할 수 있다.

그리고, 데이터 리니지 관리 서버는 테이블 간 그리고 컬럼 간 형태로 화면을 제공할 수 있고 여기에 해당 컬럼의 산출식을 함께 제공할 수 있는데, 많은 데이터들이 함축하여 들어간 형태로, 여러 단계의 변수 흐름 또는 서브 쿼리들이 합쳐져 실제 물리적인 컬럼과 컬럼 간의 관계를 추출하여 컬럼 레벨의 흐름을 생성할 수 있다.

나아가, 본 발명의 실시예에 따른 방법은 동일 이름의 테이블들에 대하여 자동으로 구분하여 데이터 리니지를 가시화할 수 있다. 예를 들어, 데이터 리니지 관리 서버는 도 6에 도시된 바와 같이, DB A, DB B와 DB C에 동일한 이름의 테이블인 테이블 a가 존재하더라도, SQL이나 소스 코드 수정없이 정확하게 데이터 리니지 정보를 제공할 수 있다. 즉, 데이터 리니지 관리 서버는 소스 내의 DB 접속 정보를 기준으로 SQL을 분석하고 CRUD 별로 DB의 테이블을 자동 매핑함으로써, 다른 DB에 동일한 테이블명이 존재하더라도 이러한 동일 테이블을 자동 구분하여 데이터 리니지를 가시화하여 제공할 수 있다. 이 때, 데이터 리니지 관리 서버는 다른 DB에 동일한 테이블명이 존재하는 경우 이를 구분하여 저장하고, 해당 테이블이 사용되는 경우 이렇게 구분 저장된 정보를 이용할 수 있다.

나아가, 본 발명의 실시예에 따른 방법은 데이터베이스가 여러 개 있는 상황에서, 그 중 일부의 데이터베이스만을 분석 대상으로 하는 경우 분석 대상이 되지 않은 잔여 데이터베이스로 SQL이 연결되는 경우도 있기 때문에 이러한 잔여 데이터베이스로의 연결을 위하여 가상 테이블을 도입할 수 있다.

예를 들어, 도 7a에 도시된 바와 같이, 데이터 리니지 관리 서버는 수집/분석 대상이 아닌 DBMS의 테이블을 사용하는 경우에 대한 처리를 수행하고, 비수집 대상 DB 테이블에 대한 데이터 리니지(또는 흐름)를 가상 테이블(Virtual Table)을 이용하여 가시화하여 제공할 수 있다. 즉, 데이터 리니지 관리 서버는 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 가상 테이블로의 연결을 가시화하여 제공함으로써, 비수집 대상 DB 테이블에 대한 데이터 리니지를 가시화하여 제공할 수 있다. 이와 같이, 본 발명의 방법은 프로그램에서 사용하고 있지만, 분석 대상이 되지 않은 데이터베이스의 테이블을 가상 테이블로 가시화하여 제공할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 배치 프로그램의 데이터 적재 주기를 관리할 수도 있다.

예를 들어, 배치 프로그램의 목적에 따라 실행되는 주기가 다를 수 있는데, 도 7b에 도시된 바와 같이, 배치 프로그램에 의해 DB A에서 DB B로 이동할 때, 배치 프로그램에 의해 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공할 수 있다.

이와 같이, 본 발명의 실시예에 따른 방법은 ETL의 데이터 매핑 정보와 데이터베이스 뿐만 아니라 프로그램의 소스 코드까지 분석하여 데이터 리니지(또는 데이터 계보)를 생성하고, 이렇게 생성된 데이터 리니지를 가시화하여 제공함으로써, ETL 중심의 데이터 리니지에 대한 한계를 극복하고, 이를 통해 데이터베이스의 타겟 컬럼의 데이터에 값에 대한 정확한 데이터 리니지를 제공할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 프로그램의 소스 코드까지 분석하여 데이터 리니지를 생성함으로써, 데이터 리니지를 정확하게 생성할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 데이터베이스의 타겟 컬럼에 유입되는 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공함으로써, 데이터 산출 규칙에 대하여 양방향으로 추척할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 서로 다른 데이터베이스 내에 동일한 이름의 테이블이 포함되는 경우 동일한 테이블을 구분하여 데이터 리니지를 가시화시키고, 수집/분석 대상이 아닌 데이터베이스의 테이블을 사용하는 경우 비수집 대상의 테이블을 가상 테이블로 가시화하며, 배치 프로그램에 의해 데이터베이스에 흘러가는 데이터의 주기를 가시화하여 제공할 수 있다.

또한, 본 발명의 실시예에 따른 방법은 데이터베이스에 들어 있는 메타 정보를 분석하기 때문에 별도의 메타데이터 관리 시스템을 필요로 하지 않는다.

나아가, 본 발명의 실시에에 따른 방법은 DB 오브젝트 명, DB 오브젝트 타입, 키워드를 이용한 검색, SQL 문 검색, 결과내 검색, CRUD별 검색 등 다양한 조건들을 조합하여 검색할 수 있는 기능을 제공할 수도 있다.

도 8은 본 발명의 일 실시예에 따른 데이터 리니지 관리 시스템에 대한 구성을 나타낸 것으로, 도 1 내지 도 7의 데이터 리니지 관리 방법을 수행하는 시스템에 대한 개념적인 구성을 나타낸 것이며, 상술한 데이터 리니지 관리 서버에 대한 개념적인 구성을 나타낸 것이다.

도 8을 참조하면, 본 발명의 실시예에 따른 시스템(800)은 수집부(810), 분석부(820) 및 제공부(830)를 포함한다.

수집부(810)는 데이터 리니지(data lineage)를 생성하기 위한, 프로그램의 소스 코드, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 수집한다.

이 때, 수집부(810)는 데이터 소스와 데이터 가공에 의한 데이터와 분석 대상이 되는 데이터베이스의 스키마 정보를 수집하며, 수집부(810)에 의해 수집되는 프로그램은 PL/SQL, 자바, C 등의 다양한 프로그래밍 언어에 대한 프로그램을 포함할 수 있으며, 수집부(810)에 의해 수집되는 데이터는 이 뿐만 아니라 분석 대상과 관련되는 빅 데이터, 온라인 데이터 등을 모두 포함할 수 있다.

분석부(820)는 수집된 프로그램의 소스 코드, ETL의 데이터 매핑 정보와 데이터베이스를 분석하여 프로그램의 소스 코드를 고려한 데이터 리니지를 생성한다.

이 때, 분석부(820)는 수집된 소스 코드에 포함된 함수 파라미터, 변수, 상수, 쿼리(query)를 통해 분석 대상이 되는 데이터베이스의 컬럼까지의 리니지(또는 흐름)를 분석하고, 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 분석함으로써, 데이터 리니지를 생성할 수 있다.

나아가, 분석부(820)는 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스의 컬럼들 각각에 유입되는 데이터 값이 생성되기까지의 산출 규칙을 자동 추출함으로써, 데이터 리니지를 생성할 수 있다.

더 나아가, 분석부(820)는 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 분석하는데 있어서, 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 가상 테이블로의 연결을 포함하는 데이터 리니지를 생성할 수도 있다.

더 나아가, 분석부(820)는 서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 동일한 이름의 테이블을 구분하여 데이터 리니지를 생성할 수도 있다.

더 나아가, 분석부(820)는 배치 프로그램에 의해 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기가 포함되도록, 데이터 리니지를 생성할 수도 있다.

상술한 바와 같이, 분석부(820)는 데이터 리니지를 생성할 때, 분석된 소스 코드의 리니지, ETL의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스를 고려하여 다양한 정보를 제공할 수 있도록 데이터 리니지를 생성할 수 있다.

제공부(830)는 분석부(820)에 의해 데이터 리니지가 생성되면, 생성된 데이터 리니지를 가시화하여 제공한다.

이 때, 제공부(830)는 분석 대상이 되는 데이터베이스의 특정 컬럼이 선택되는 경우 특정 컬럼의 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공할 수 있다.

이 때, 제공부(830)는 서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 동일한 이름의 테이블을 구분하여 생성된 데이터 리니지를 가시화할 수 있다.

이 때, 제공부(830)는 복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 가상 테이블로의 연결을 가시화하여 제공할 수 있다.

이 때, 제공부(830)는 배치 프로그램에 의해 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공할 수 있다.

비록, 도 8의 시스템에서 그 설명이 생략되었더라도, 도 8을 구성하는 각 구성 수단은 도 1 내지 도 7에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

데이터 리니지(data lineage)를 생성하기 위한, 미리 결정된 소스 코드, 이티엘(ETL; extract, transform, load)에서 내보내는 이티엘의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스에 대한 디스크립션(description)에 해당하는 데이터베이스의 스키마 정보를 수집하는 단계;
상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스의 스키마 정보를 분석하여 데이터 리니지를 생성하는 단계; 및
상기 생성된 데이터 리니지를 가시화하여 제공하는 단계
를 포함하고,
상기 생성하는 단계는
상기 수집된 소스 코드에 포함된 함수 파라미터, 변수, 상수, 쿼리(query)를 통해 상기 데이터베이스의 컬럼까지의 리니지를 분석하고, 상기 분석된 소스 코드의 리니지, 상기 이티엘의 데이터 매핑 정보와 상기 데이터베이스를 분석함으로써, 상기 데이터 리니지를 생성하되,
상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스의 스키마 정보를 이용하여, 타겟이 되는 상기 데이터베이스에 대해 상기 소스 코드를 고려하여 소스와 타겟간 데이터 매핑 관계를 나타내는 상기 데이터 리니지를 생성하는 것
을 특징으로 하는 데이터 리니지 관리 방법.
삭제
제1항에 있어서,
상기 생성하는 단계는
SQL의 컬럼 흐름을 추적하여 산출 규칙을 자동 추출하며, 실제 출력 컬럼에 대한 데이터가 생성되기 위한 서브 쿼리들의 컬럼 중 해당하는 컬럼들만 조합하여 최종적인 산출 규칙을 추출하는 것을 특징으로 하는 데이터 리니지 관리 방법.
제3항에 있어서,
상기 제공하는 단계는
상기 데이터베이스의 특정 컬럼이 선택되는 경우 상기 특정 컬럼의 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공하는 것을 특징으로 하는 데이터 리니지 관리 방법.
제1항에 있어서,
상기 제공하는 단계는
서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 상기 동일한 이름의 테이블을 구분하여 상기 생성된 데이터 리니지를 가시화하는 것을 특징으로 하는 데이터 리니지 관리 방법.
제1항에 있어서,
상기 제공하는 단계는
복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 상기 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 상기 가상 테이블로의 연결을 가시화하여 제공하는 것을 특징으로 하는 데이터 리니지 관리 방법.
제1항에 있어서,
상기 제공하는 단계는
배치 프로그램에 의해 상기 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공하는 것을 특징으로 하는 데이터 리니지 관리 방법.
데이터 리니지(data lineage)를 생성하기 위한, 미리 결정된 소스 코드, 이티엘(ETL; extract, transform, load)에서 내보내는 이티엘의 데이터 매핑 정보와 분석 대상이 되는 데이터베이스에 대한 디스크립션(description)에 해당하는 데이터베이스의 스키마 정보를 수집하는 수집부;
상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스의 스키마 정보를 분석하여 데이터 리니지를 생성하는 분석부; 및
상기 생성된 데이터 리니지를 가시화하여 제공하는 제공부
를 포함하고,
상기 분석부는,
상기 수집된 소스 코드에 포함된 함수 파라미터, 변수, 상수, 쿼리(query)를 통해 상기 데이터베이스의 컬럼까지의 리니지를 분석하고, 상기 분석된 소스 코드의 리니지, 상기 이티엘의 데이터 매핑 정보와 상기 데이터베이스를 분석함으로써, 상기 데이터 리니지를 생성하되,
상기 수집된 소스 코드, 이티엘의 데이터 매핑 정보와 데이터베이스의 스키마 정보를 이용하여, 타겟이 되는 상기 데이터베이스에 대해 상기 소스 코드를 고려하여 소스와 타겟간 데이터 매핑 관계를 나타내는 상기 데이터 리니지를 생성하는 것
을 특징으로 하는 데이터 리니지 관리 시스템.
삭제
제8항에 있어서,
상기 분석부는
SQL의 컬럼 흐름을 추적하여 산출 규칙을 자동 추출하며, 실제 출력 컬럼에 대한 데이터가 생성되기 위한 서브 쿼리들의 컬럼 중 해당하는 컬럼들만 조합하여 최종적인 산출 규칙을 추출하는 것을 특징으로 하는 데이터 리니지 관리 시스템.
제10항에 있어서,
상기 제공부는
상기 데이터베이스의 특정 컬럼이 선택되는 경우 상기 특정 컬럼의 데이터 값이 생성되기까지의 산출 규칙을 가시화하여 제공하는 것을 특징으로 하는 데이터 리니지 관리 시스템.
제8항에 있어서,
상기 제공부는
서로 다른 데이터베이스 내에 동일한 이름의 테이블을 포함하는 경우 상기 동일한 이름의 테이블을 구분하여 상기 생성된 데이터 리니지를 가시화하는 것을 특징으로 하는 데이터 리니지 관리 시스템.
제8항에 있어서,
상기 제공부는
복수의 데이터베이스들 중 일부의 데이터베이스만을 수집하여 분석하고, 상기 복수의 데이터베이스들 중 나머지 데이터베이스와의 연결이 분석되는 경우 가상 테이블을 생성하여 상기 가상 테이블로의 연결을 가시화하여 제공하는 것을 특징으로 하는 데이터 리니지 관리 시스템.
제8항에 있어서,
상기 제공부는
배치 프로그램에 의해 상기 데이터베이스의 특정 칼럼에 데이터가 흘러가는 주기를 함께 가시화하여 제공하는 것을 특징으로 하는 데이터 리니지 관리 시스템.