KR102655198B1

KR102655198B1 - 다중 관점 이벤트 로그를 생성하는 시스템 및 방법

Info

Publication number: KR102655198B1
Application number: KR1020230122543A
Authority: KR
Inventors: 이상화; 원석래; 리스카 아스리아나 수트리스노와티; 아이큐 레비세이 풀샤시; 프란스 프라타마; 김운재
Original assignee: 주식회사 아이오코드
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-04-08

Abstract

본 발명은 다중 관점 이벤트 로그를 생성하는 시스템 및 방법에 관한 것으로, 데이터 소스를 수신하고, 상기 데이터 소스에서 메타 데이터를 추출하고, 상기 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하고, 상기 샘플 이벤트 로그의 품질을 계산하고, 상기 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 상기 이벤트 맵을 기반으로 상기 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성할 수 있다.
　

Description

다중 관점 이벤트 로그를 생성하는 시스템 및 방법{SYSTEM AND METHOD FOR GENERATING MULTI-PERSPECTIVE EVENT LOGS}

이하의 일 실시 예들은 다중 관점 이벤트로 로그를 생성하는 시스템 및 방법 에 관한 것이다.

프로세스 마이닝 분석은 비즈니스 프로세스의 다양한 관점을 나타내기 위해 특정 방식으로 그룹화할 수 있는 일련의 이벤트로 구성된 이벤트 로그를 입력으로 사용한다.

실제로 이벤트 로그는 대부분의 실제 상황에서 항상 쉽게 사용할 수 있는 것은 아니다. 대부분의 경우 이벤트 로그는 데이터 소스(예를 들어, 정보 시스템 또는 데이터베이스)에서 추출되어 프로세스 마이닝이 해석할 수 있는 특정 구조 및 형식으로 변환되어야 한다.

추출 및 식별(예를 들어, 사례, 활동, 타임 스탬프) 프로세스에는 프로세스에 대한 수동 작업과 도메인 지식이 필요하며 시간과 비용이 많이 드는 이벤트 로그 생성의 주요 과제가 된다.

이벤트 로그 생성의 또 다른 과제는 프로세스 관점을 다루는 것이다. 이벤트 로그는 일반적으로 특정 프로세스 분석 목표에 바인딩된다. 즉, 비즈니스 관점과 관점 자체가 데이터의 개체와 상호 연관될 수 있다.

데이터베이스에 대한 여러 관점을 추출할 수 있다. 이는 동일한 프로세스 데이터에 대해 여러 이벤트 로그와 프로세스 모델이 생성될 수 있음을 의미한다.

특히, rdb2log 또는 OpenSLEX와 같은 데이터베이스에서 이벤트 로그를 자동으로 추출하기 위한 여러 가지 접근 방식이 제안되었다. 그러나 데이터베이스의 부분 또는 전체 스캔이 필요하므로 이러한 접근 방식의 계산 시간이 길고 소스가 관계형 데이터베이스로 제한된다.

본 발명은 다중 관점 이벤트 로그를 생성하는 시스템 및 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 실시 예에 따른 다중 관점 이벤트 로그를 생성하는 방법은, 데이터 소스를 수신하는 단계; 상기 데이터 소스에서 메타 데이터를 추출하는 단계; 상기 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하는 단계; 상기 샘플 이벤트 로그의 품질을 계산하는 단계; 및 상기 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 상기 이벤트 맵을 기반으로 상기 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성하는 단계를 포함할 수 있다.

이때, 상기 메타 데이터를 이용해서 상기 이벤트 맵과 상기 샘플 이벤트 로그를 생성하는 단계는, 상기 추출된 메타데이터를 표준화된 엔터티 관계 데이터 모델로 변환하는 단계; 상기 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하는 단계; 상기 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론하는 단계; 상기 데이터 카탈로그에서 사례 개념을 추론하는 단계; 상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념을 연관시켜 상기 이벤트 맵을 생성하는 단계; 및 상기 데이터 소스에서 샘플 데이터를 추출하고, 상기 이벤트 맵을 기반으로 상기 샘플 데이터에서 데이터를 추출해서 상기 샘플 이벤트 로그를 생성하는 단계를 포함할 수 있다.

이때, 상기 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하는 단계는, 상기 엔터티 관계 데이터 모델들에 포함된 필드 이름 유사성을 확인하는 단계; 확인된 유사성을 이용해서 상기 데이터 카탈로그가 비순환이 되도록 상기 엔터티 관계 데이터 모델들을 연결하는 단계; 및 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 각각에서 필수적이지 않은 선택적인 필드를 제거하는 단계를 포함할 수 있다.

이때, 상기 데이터 카탈로그에서 상기 활동 개념 및 상기 타임 스탬프 개념을 추론하는 단계는, 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들에 대한 각 필드의 데이터 유형을 분석하는 단계; 사전 기반 패턴 일치를 사용하여 상기 엔터티 관계 데이터 모델들의 각 필드 이름을 분석하는 단계; 상기 엔터티 관계 데이터 모델들에 포함된 필드 중에서 날짜 또는 시간 분석을 통해서 활동 개념과 타임 스탬프 개념을 추론하는 단계; 상기 엔터티 관계 데이터 모델들 각각에서 대표 타임 스템프 필드를 제외한 나머지 타임 스탬프 필드를 제거하는 단계; 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들에 중복된 열 이름을 제거하는 단계; 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들에 각각에 대해서 해당 엔터티 관계 데이터 모델에 의존하는 엔터티 관계 데이터 모델의 수를 기준으로 상기 엔터티 관계 데이터 모델들에 각각의 중심성을 계산하는 단계; 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 중에서 타임 스탬프 개념 후보가 없고, 해당 엔터티 관계 데이터 모델을 의존하는 엔터티 관계 데이터 모델이 없는 엔터티 관계 데이터 모델을 제거하는 단계; 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 각각에 대해서 최대 하나의 범주 필드와 숫자 필드를 가지도록 기본 키 또는 외래 키가 아니 필드 및 타임 스탬프에 해당하지 않는 필드를 제거하는 단계: 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 각각에 대해서 타임 스템프 필드의 텍스트 유사성 분석을 통해서 타임 스탬프 개념 및 활동 수명 주기를 추론하는 단계; 및 상기 타임 스탬프 개념에서 날짜 및 시간 패턴을 제거하고, 상기 기본 키 또는 상기 외래 키가 아니 필드 및 상기 타임 스탬프에 해당하지 않는 필드를 연결하여 활동 개념을 추론하는 단계를 포함할 수 있다.

이때, 상기 데이터 카탈로그에서 상기 사례 개념을 추론하는 단계는, 상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들의 각 필드가 인용된 횟수와 인용된 횟수의 순위를 추론하여 상기 사례 개념을 생성할 수 있다.

이때, 다중 관점 이벤트 로그를 생성하는 방법은, 상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념 중에서 적어도 하나가 발견되지 않으면, 데이터 품질을 기반으로 이벤트 맵을 생성하는 단계; 및 상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성하는 단계를 더 포함할 수 있다.

이때, 상기 샘플 이벤트 로그의 품질을 계산하는 단계는, 상기 샘플 이벤트 로그의 사례 식별자 비율, 추적 변형 비율, 케이스당 고유 활동의 평균 비율 및 엔드 포인트 활동 비율 및 시작 종료 활동 비율 중에서 적어도 하나를 고려해서 계산할 수 있다.

이때, 다중 관점 이벤트 로그를 생성하는 방법은, 상기 샘플 이벤트 로그의 품질 값이 기준값 미만이면, 데이터 품질을 기반으로 이벤트 맵을 생성하는 단계; 및 상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성하는 단계를 더 포함할 수 있다.

이때, 상기 데이터 품질을 기반으로 이벤트 맵을 생성하는 단계는, 상기 데이터 소스로부터 데이터 품질 지표를 계산하는 단계; 상기 데이터 소스로부터 데이터 품질 차원과 평균값을 계산하는 단계; 분류 알고리즘을 사용하여 이벤트 개념 후보를 추론하는 단계; 상기 이벤트 개념 후보를 기반으로 다수의 후보 이벤트 맵을 생성하는 단계; 상기 데이터 소스에서 샘플 데이터를 추출하고, 상기 다수의 후보 이벤트 맵 각각을 기반으로 샘플 후보 이벤트 로그를 생성하는 단계; 상기 샘플 후보 이벤트 로그 각각에 대한 품질을 계산하는 단계; 및 상기 샘플 후보 이벤트 로그의 품질을 기반으로 상기 다수의 후보 이벤트 맵 중에서 상기 이벤트 맵을 결정하는 단계를 포함할 수 있다.

이때, 상기 분류 알고리즘을 사용하여 상기 이벤트 개념 후보를 추론하는 단계는, 사전에 학습된 이벤트 로그를 학습 데이터로 상기 분류 알고리즘의 입력으로 하여 생성된 분류 모델을 이용하여 상기 데이터 소스로부터 추출되는 엔터티 관계 데이터 모델들의 각 필드에 대한 이벤트 개념을 상기 이벤트 개념 후보로 예측하는 단계; 상기 엔터티 관계 데이터 모델들에서 기본 키 또는 외래 키가 아니면서 이벤트 개념 필드가 아닌 필드를 제거하는 단계; 상기 엔터티 관계 데이터 모델들에 포함된 모든 상기 이벤트 개념 필드에 대한 데이터 품질 지표의 평균값을 평균해서 임계값으로 설정하고, 상기 이벤트 개념 필드의 데이터 품질 지표의 평균값이 상기 임계값 보다 낮은 상기 이벤트 개념 필드를 제거하는 단계; 상기 엔터티 관계 데이터 모델들에 포함된 필드 이름은 동일하나 이벤트 개념 필드의 이벤트 개념 후보가 다른 필드를 같은 이벤트 개념 후보를 가지도록 수정하는 단계; 및 상기 엔터티 관계 데이터 모델들에 포함된 동일한 필드 이름을 가진 필드를 가장 높은 데이터 품질 지표의 평균값을 가진 필드를 제외하고 제거하는 단계를 포함할 수 있다.

이때, 상기 샘플 후보 이벤트 로그의 품질을 기반으로 상기 다수의 후보 이벤트 맵 중에서 상기 이벤트 맵을 결정하는 단계는, 품질이 가장 높은 상기 샘플 후보 이벤트 로그에 대응하는 후보 이벤트 맵을 상기 이벤트 맵을 결정할 수 있다.

이때, 상기 샘플 후보 이벤트 로그의 품질을 기반으로 상기 다수의 후보 이벤트 맵 중에서 상기 이벤트 맵을 결정하는 단계는, 상기 다수의 후보 이벤트 맵과 대응하는 상기 샘플 후보 이벤트 로그의 품질 정보를 사용자에게 제공하고, 상기 사용자가 선택하는 후보 이벤트 맵을 상기 이벤트 맵을 결정할 수 있다.

본 발명의 일 실시 예에 따른 다중 관점 이벤트 로그를 생성하는 시스템은, 데이터 소스를 저장하는 메모리; 및 프로세서를 포함하고, 상기 프로세서는, 상기 데이터 소스에서 메타 데이터를 추출하고, 상기 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하고, 상기 샘플 이벤트 로그의 품질을 계산하고, 상기 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 상기 이벤트 맵을 기반으로 상기 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성할 수 있다.

이때, 상기 프로세서는, 상기 메타 데이터를 이용해서 상기 이벤트 맵과 상기 샘플 이벤트 로그를 생성할 때, 상기 추출된 메타데이터를 표준화된 엔터티 관계 데이터 모델로 변환하고, 상기 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하고, 상기 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론하고, 상기 데이터 카탈로그에서 사례 개념을 추론하고, 상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념을 연관시켜 상기 이벤트 맵을 생성하고, 상기 데이터 소스에서 샘플 데이터를 추출하고, 상기 이벤트 맵을 기반으로 상기 샘플 데이터에서 데이터를 추출해서 상기 샘플 이벤트 로그를 생성할 수 있다.

이때, 상기 프로세서는, 상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념 중에서 적어도 하나가 발견되지 않으면, 데이터 품질을 기반으로 이벤트 맵을 생성하고, 상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성할 수 있다.

이때, 상기 프로세서는, 상기 샘플 이벤트 로그의 품질을 계산할 때, 상기 샘플 이벤트 로그의 사례 식별자 비율, 추적 변형 비율, 케이스당 고유 활동의 평균 비율 및 엔드 포인트 활동 비율 및 시작 종료 활동 비율 중에서 적어도 하나를 고려해서 계산할 수 있다.

이때, 상기 프로세서는, 상기 샘플 이벤트 로그의 품질 값이 기준값 미만이면, 데이터 품질을 기반으로 이벤트 맵을 생성하고, 상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 다중 관점 이벤트 로그를 생성하는 시스템의 개략적인 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 시스템에서 다중 관점 이벤트 로그를 생성하는 개략적인 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시 예에 따른 시스템에서 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하는 과정을 도시한 흐름도이다.
도 4는 본 발명의 일 실시 예에 따른 시스템에서 데이터 카탈로그를 생성하는 과정을 도시한 흐름도이다.
도 5는 본 발명의 일 실시 예에 따른 시스템에서 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론하는 과정을 도시한 흐름도이다.
도 6은 본 발명의 일 실시 예에 따른 시스템에서 데이터 품질을 기반으로 이벤트 맵을 생성하는 과정을 도시한 흐름도이다.
도 7은 본 발명의 일 실시 예에 따른 시스템에서 분류 알고리즘을 사용해서 이벤트 개면 후보를 추론하는 과정을 도시한 흐름도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다.　 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다.　 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.　 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.　 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.　 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

어느 하나의 실시 예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성요소는, 다른 실시 예에서 동일한 명칭을 사용하여 설명하기로 한다. 반대되는 기재가 없는 이상, 어느 하나의 실시 예에 기재한 설명은 다른 실시 예에도 적용될 수 있으며, 중복되는 범위에서 구체적인 설명은 생략하기로 한다.

이하에서는, 본 발명의 일 실시 예에 따른 다중 관점 이벤트 로그를 생성하는 시스템 및 방법을 첨부된 도 1 내지 도 7을 참조하여 상세히 설명한다.

도 1은 본 발명의 일 실시 예에 따른 다중 관점 이벤트 로그를 생성하는 시스템의 개략적인 구성을 도시한 도면이다.

도 1을 참조하면, 다중 관점 이벤트 로그를 생성하는 시스템(100)은 프로세서(110), 통신부(120) 및 메모리(130)를 포함하여 구성될 수 있다.

통신부(120)는 수신기(Receiver)와 송신기(transmitter)를 포함하는 통신 인터페이스 장치로서 유선 또는 무선으로 데이터를 송수신할 수 있다.　 통신부(120)는 외부 데이터베이스 서버 등과 통신을 연결하여 데이터 소스를 수신할 수 있다.

메모리(130)는 시스템(100)의 전반적인 동작을 제어하기 위한 운영체제, 응용 프로그램 및 저장용 데이터를 저장하고, 또한 본 발명에 따라 데이터 소스, 메타 데이터, 엔터티 관계 데이터 모델들, 데이터 카탈로그, 이벤트 맵, 샘플 이벤트 로그 및 다중 관점 이벤트 로그를 저장할 수 있다.

프로세서(110)는 메타 데이터 추출부(111), 제1 이벤트 맵 생성부(112), 품질 계산부(113), 제2 이벤트 맵 생성부(114) 및 다중 관점 이벤트 로그 생성부(115)를 포함하여 구성될 수 있다.

메타 데이터 추출부(111)는 메모리(130)에서 데이터 소스를 수신하고, 데이터 소스에서 메타 데이터를 추출할 수 있다.

제1 이벤트 맵 생성부(112)는 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성할 수 있다.

보다 구체적으로, 제1 이벤트 맵 생성부(112)는 1) 추출된 메타데이터를 표준화된 엔터티 관계 데이터 모델로 변환하고, 2) 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하고, 3) 데이터 카탈로그에서 활동 개념(activity notion) 및 타임 스탬프 개념(timestamp notion)을 추론하고, 데이터 카탈로그에서 사례 개념(case notion) 을 추론하고, 4) 활동 개념, 타임 스탬프 개념 및 사례 개념을 연관시켜 이벤트 맵을 생성하고, 5) 데이터 소스에서 샘플 데이터를 추출하고, 이벤트 맵을 기반으로 샘플 데이터에서 데이터를 추출해서 샘플 이벤트 로그를 생성할 수 있다.

이때, 제1 이벤트 맵 생성부(112)는 활동 개념, 타임 스탬프 개념 및 사례 개념 중에서 적어도 하나가 발견되지 않으면, 제2 이벤트 맵 생성부(114)로 데이터 품질을 기반으로 이벤트 맵을 생성을 요청할 수 있다.

제1 이벤트 맵 생성부(112)는 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성할 때, 다음의 과정으로 생성할 수 있다.　 제1 이벤트 맵 생성부(112)는 1) 　엔터티 관계 데이터 모델들에 포함된 필드 이름 유사성을 확인하고, 2) 확인된 유사성을 이용해서 데이터 카탈로그가 비순환이 되도록 엔터티 관계 데이터 모델들을 연결하고, 3) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 각각에서 필수적이지 않은 선택적인 필드를 제거하여 데이터 카탈로그를 생성할 수 있다.

제1 이벤트 맵 생성부(112)는 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론 할 때, 다음의 과정으로 추론할 수 있다.　 제1 이벤트 맵 생성부(112)는 1) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들에 대한 각 필드의 데이터 유형을 분석하고, 2) 사전 기반 패턴 일치를 사용하여 엔터티 관계 데이터 모델들의 각 필드 이름을 분석하고, 3) 엔터티 관계 데이터 모델들에 포함된 필드 중에서 날짜 또는 시간 분석을 통해서 활동 개념과 타임 스탬프 개념을 추론하고, 4) 엔터티 관계 데이터 모델들 각각에서 대표 타임 스템프 필드를 제외한 나머지 타임 스탬프 필드를 제거하고, 5) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들에 중복된 열 이름을 제거하고, 6) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들에 각각에 대해서 해당 엔터티 관계 데이터 모델에 의존하는 엔터티 관계 데이터 모델의 수를 기준으로 엔터티 관계 데이터 모델들에 각각의 중심성을 계산하고, 7) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 중에서 타임 스탬프 개념 후보가 없고, 해당 엔터티 관계 데이터 모델을 의존하는 엔터티 관계 데이터 모델이 없는 엔터티 관계 데이터 모델을 제거하고, 8) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 각각에 대해서 최대 하나의 범주 필드와 숫자 필드를 가지도록 기본 키 또는 외래 키가 아니 필드 및 타임 스탬프에 해당하지 않는 필드를 제거하고, 9) 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 각각에 대해서 타임 스템프 필드의 텍스트 유사성 분석을 통해서 타임 스탬프 개념 및 활동 수명 주기를 추론하고, 10) 타임 스탬프 개념에서 날짜 및 시간 패턴을 제거하고, 기본 키 또는 외래 키가 아니 필드 및 타임 스탬프에 해당하지 않는 필드를 연결하여 활동 개념을 추론할 수 있다.

제1 이벤트 맵 생성부(112)는 데이터 카탈로그에서 사례 개념을 추론할 때, 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들의 각 필드가 인용된 횟수와 인용된 횟수의 순위를 추론하여 사례 개념을 생성할 수 있다.

품질 계산부(113)는 샘플 이벤트 로그의 품질을 계산할 수 있다.

보다 구체적으로, 품질 계산부(113)는 샘플 이벤트 로그의 사례 식별자 비율, 추적 변형 비율, 케이스당 고유 활동의 평균 비율, 엔드 포인트 활동 비율 및 시작 종료 활동 비율 중에서 적어도 하나를 고려해서 샘플 이벤트 로그의 품질을 계산할 수 있다.

제2 이벤트 맵 생성부(114)는 샘플 이벤트 로그의 품질 값이 기준값 미만이면, 데이터 품질을 기반으로 이벤트 맵을 생성할 수 있다. 　보다 구체적으로, 제2 이벤트 맵 생성부(114)는 1) 데이터 소스로부터 데이터 품질 지표를 계산하고, 2) 데이터 소스로부터 데이터 품질 차원과 평균값을 계산하고, 3) 분류 알고리즘을 사용하여 이벤트 개념 후보를 추론하고, 4) 이벤트 개념 후보를 기반으로 다수의 후보 이벤트 맵을 생성하고, 5) 데이터 소스에서 샘플 데이터를 추출하고, 다수의 후보 이벤트 맵 각각을 기반으로 샘플 후보 이벤트 로그를 생성하고, 6) 샘플 후보 이벤트 로그 각각에 대한 품질을 계산하고, 7) 샘플 후보 이벤트 로그의 품질을 기반으로 다수의 후보 이벤트 맵 중에서 이벤트 맵을 결정할 수 있다.

제2 이벤트 맵 생성부(114)는 샘플 후보 이벤트 로그의 품질을 기반으로 다수의 후보 이벤트 맵 중에서 이벤트 맵을 결정할 때, 완전 자동으로 설정된 경우, 품질이 가장 높은 샘플 후보 이벤트 로그에 대응하는 후보 이벤트 맵을 이벤트 맵을 결정할 수 있다.

제2 이벤트 맵 생성부(114)는 샘플 후보 이벤트 로그의 품질을 기반으로 다수의 후보 이벤트 맵 중에서 이벤트 맵을 결정할 때, 수동으로 설정된 경우, 다수의 후보 이벤트 맵과 대응하는 샘플 후보 이벤트 로그의 품질 정보를 사용자에게 제공하고, 사용자가 선택하는 후보 이벤트 맵을 이벤트 맵을 결정할 수 있다.

제2 이벤트 맵 생성부(114)는 분류 알고리즘을 사용하여 이벤트 개념 후보를 추론할 때, 다음의 과정으로 추론할 수 있다.　 제2 이벤트 맵 생성부(114)는 1) 사전에 학습된 이벤트 로그를 학습 데이터로 분류 알고리즘의 입력으로 하여 생성된 분류 모델을 이용하여 데이터 소스로부터 추출되는 엔터티 관계 데이터 모델들의 각 필드에 대한 이벤트 개념을 이벤트 개념 후보로 예측하고, 2) 엔터티 관계 데이터 모델들에서 기본 키 또는 외래 키가 아니면서 이벤트 개념 필드가 아닌 필드를 제거하고, 3) 엔터티 관계 데이터 모델들에 포함된 모든 이벤트 개념 필드에 대한 데이터 품질 지표의 평균값을 평균해서 임계값으로 설정하고, 이벤트 개념 필드의 데이터 품질 지표의 평균값이 임계값 보다 낮은 이벤트 개념 필드를 제거하고, 4) 엔터티 관계 데이터 모델들에 포함된 필드 이름은 동일하나 이벤트 개념 필드의 이벤트 개념 후보가 다른 필드를 같은 이벤트 개념 후보를 가지도록 수정하고, 5) 엔터티 관계 데이터 모델들에 포함된 동일한 필드 이름을 가진 필드를 가장 높은 데이터 품질 지표의 평균값을 가진 필드를 제외하고 제거하여 이벤트 개념 후보를 추론할 수 있다.

또한, 제2 이벤트 맵 생성부(114)는 제1 이벤트 맵 생성부(112)로부터 활동 개념, 타임 스탬프 개념 및 사례 개념 중에서 적어도 하나가 발견되지 않았다는 이유로 이벤트 맵의 생성을 요청받으면, 1) 데이터 품질을 기반으로 이벤트 맵을 생성을 하고, 2) 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 데이터 소스에서 다중 관점 이벤트 로그를 생성할 수 있다.

다중 관점 이벤트 로그 생성부(115)는 품질 계산부(113)에서 계산한 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 이벤트 맵을 기반으로 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성할 수 있다.

다중 관점 이벤트 로그 생성부(115)는 제2 이벤트 맵 생성부(114)에서 데이터 품질을 기반으로 생성된 이벤트 맵을 생성하면, 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 데이터 소스에서 다중 관점 이벤트 로그를 생성할 수 있다.

도 1에서 메타 데이터 추출부(111), 제1 이벤트 맵 생성부(112), 품질 계산부(113), 제2 이벤트 맵 생성부(114) 및 다중 관점 이벤트 로그 생성부(115)는 프로세서(110)에 포함되어 구성되어 있지만, 이에 한정되는 것은 아니며, 별도의 장치로 구성될 수도 있다.　 또한, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현될 수도 있다.

이하, 상기와 같이 구성된 본 발명에 따른 방법을 아래에서 도면을 참조하여 설명한다.

도 2는 본 발명의 일 실시 예에 따른 시스템에서 다중 관점 이벤트 로그를 생성하는 개략적인 과정을 도시한 흐름도이다.

도 2를 참조하면, 시스템(100)은 데이터 소스를 수신할 수 있다(210).

그리고, 시스템(100)은 데이터 소스에서 메타 데이터를 추출할 수 있다(220).

이때, 메타 데이터는 기본 키, 외래 키 인지 여부를 표시하는 키 정보, 해당 필드가 무엇인지 나타내는 필드 이름, 해당 필드가 케이스 유형 또는 타임 스템프 유형인지 여부를 구분하는 유형 정보, 해당 필드가 필수인지 옵션 인지 여부를 표시하는 필수 정보를 포함하여 구성될 수 있다.

그리고, 시스템(100)은 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성할 수 있다(230). 230단계의 구체적은 설명은 추후 도 3을 통해서 설명하고자 한다.

그리고, 시스템(100)은 샘플 이벤트 로그의 품질을 계산할 수 있다(240).

240단계에서 시스템(100)은 샘플 이벤트 로그의 사례 식별자 비율, 추적 변형 비율, 케이스당 고유 활동의 평균 비율 및 엔드 포인트 활동 비율 및 시작 종료 활동 비율 중에서 적어도 하나를 고려해서 계산할 수 있다.

보다 구체적으로 240단계에서 시스템(100)은 아래 <수학식 1>과 <수학식 2>를 참조해서　이벤트 로그의 품질을 계산할 수 있다.

[수학식 1]

여기서,

는　이벤트 로그()의 흥미도 이고,

는이벤트 로그()의 사례 식별자 비율이고,

는 이벤트 로그()의 고유 사례 식별자의 총 수이고,

는 이벤트 로그()의 총 이벤트 수이고,

는이벤트 로그()의 추적 변형 비율이고,

는 이벤트 로그()의 총 추적 변형 수이고,

　는 케이스당 고유 활동의 평균 비율이고,

는 이벤트 로그()의 케이스()의 총 고유 활동 수 이고,

는이벤트 로그()의 케이스()의 전체 이벤트이고,

는 엔드 포인트 활동 비율이고,

는이벤트 로그()의 고유한 시작 및 종료 활동의 총 수 이고,

　는 시작 종료 활동 비율이고,

는이벤트 로그()의 고유한 시작 및 종료 활동의 총 수를 나타냅니다.

는이벤트 로그()에서 시작 및 종료 활동의 공통 요소의 총 수를 나타냅니다.

는 사례 식별자 비율에 대한 0에서 1 사이의 값을 가지는 가중치이고,

는 추적 변형 비율에 대한 0에서 1 사이의 값을 가지는 가중치이고,

는 케이스당 고유 활동의 평균 비율에 대한 0에서 1 사이의 값을 가지는 가중치이고,

는 엔드 포인트 활동 비율에 대한 0에서 1 사이의 값을 가지는 가중치이고,

는 시작 종료 활동 비율에 대한 0에서 1 사이의 값을 가지는 가중치이다.

[수학식 2]

여기서, 는 다중 관점 이벤트 로그 관심도로 이벤트 맵 결과 에서 생성되는 각 이벤트 로그 관점 에 대한 이벤트 로그 관심도의 평균으로, 샘플 이벤트 로그의 품질에 해당하고,

　는 <수학식 1>에서 각 이벤트 로그의 관점 　의 이벤트 로그 흥미도를 나타내고,

은 이벤트 로그 관점의 총 수 이다.

이때, 이벤트 맵과 생성된 이벤트 로그 관점 간의 관계는 각 이벤트 맵 관점에 대해 정확히 1개의 이벤트 로그가 생성되어 의 관계를 가질 수 있다.

그리고, 시스템(100)은 샘플 이벤트 로그의 품질 값이 기준값 이상지 여부를 확인할 수 있다(250).

250단계의 확인결과 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 시스템(100)은 이벤트 맵을 기반으로 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성할 수 있다(270).

250단계의 확인결과 샘플 이벤트 로그의 품질 값이 기준값 미만이면, 시스템(100)은 데이터 품질을 기반으로 이벤트 맵을 생성할 수 있다(260). 260단계의 구체적은 설명은 추후 도 6을 통해서 설명하고자 한다.

그리고, 시스템(100)은 270단계에서 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 데이터 소스에서 다중 관점 이벤트 로그를 생성할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 시스템에서 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하는 과정을 도시한 흐름도이다.

도 3을 참조하면, 시스템(100)은 추출된 메타데이터를 표준화된 엔터티 관계 데이터 모델로 변환할 수 있다(310).

그리고, 시스템(100)은 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성할 수 있다(320). 320단계의 구체적은 설명은 추후 도 4를 통해서 설명하고자 한다.

그리고, 시스템(100)은 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론할 수 있다(330). 330단계의 구체적은 설명은 추후 도 5를 통해서 설명하고자 한다.

그리고, 시스템(100)은 데이터 카탈로그에서 사례 개념을 추론할 수 있다(340).

340단계에서 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들의 각 필드가 인용된 횟수와 인용된 횟수의 순위를 추론하여 사례 개념을 생성할 수 있다. 사례 개념은 엔터티 관계 데이터 모델 정보, 필드 이름, 해당 필드가 인용된 횟수 정보 및 인용된 횟수의 순위 정보를 포함할 수 있다.

그리고, 시스템(100)은 활동 개념, 타임 스탬프 개념 및 사례 개념을 모두 발견했는지 확인할 수 있다(350).

350단계의 확인결과 활동 개념, 타임 스탬프 개념 및 사례 개념을 모두 발견되지 않았으면, 즉, 활동 개념, 타임 스탬프 개념 및 사례 개념 중에서 하나라도 발견되지 않은 개념이 존재하면, 시스템(100)은 도 2의 260단계로 진행하여 260단계를 수행할 수 있다.

350단계의 확인결과 활동 개념, 타임 스탬프 개념 및 사례 개념을 모두 발견되었으면, 시스템(100)은 활동 개념, 타임 스탬프 개념 및 사례 개념을 연관시켜 이벤트 맵을 생성할 수 있다(360). 즉, 360단계에서 시스템(100)은 활동 개념, 타임 스탬프 개념 및 사례 개념을 모두 포함하도록 이벤트 맵을 생성할 수 있다.

그리고, 시스템(100)은 데이터 소스에서 샘플 데이터를 추출하고, 이벤트 맵을 기반으로 샘플 데이터에서 데이터를 추출해서 샘플 이벤트 로그를 생성할 수 있다(370).

그리고, 시스템(100)은 활동 개념, 타임 스탬프 개념 및 사례 개념 중에서 적어도 하나가 발견되지 않으면, 데이터 품질을 기반으로 이벤트 맵을 생성할 수 있다(380).

그리고, 시스템(100)은 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 데이터 소스에서 다중 관점 이벤트 로그를 생성할 수 있다(390).

도 4는 본 발명의 일 실시 예에 따른 시스템에서 데이터 카탈로그를 생성하는 과정을 도시한 흐름도이다.

도 4를 참조하면, 시스템(100)은 엔터티 관계 데이터 모델들에 포함된 필드 이름 유사성을 확인할 수 있다(410).

그리고, 시스템(100)은 확인된 유사성을 이용해서 데이터 카탈로그가 비순환이 되도록 엔터티 관계 데이터 모델들을 연결할 수 있다(420).

그리고, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 각각에서 필수적이지 않은 선택적인 필드를 제거할 수 있다(430).

도 5는 본 발명의 일 실시 예에 따른 시스템에서 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론하는 과정을 도시한 흐름도이다.

도 5를 참조하면, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들에 대한 각 필드의 데이터 유형을 분석 할 수 있다(510).

그리고, 시스템(100)은 사전 기반 패턴 일치를 사용하여 엔터티 관계 데이터 모델들의 각 필드 이름을 분석 할 수 있다(512).

그리고, 시스템(100)은 엔터티 관계 데이터 모델들에 포함된 필드 중에서 날짜 또는 시간 분석을 통해서 활동 개념과 타임 스탬프 개념을 추론할 수 있다(514). 이때, 타임 스탬프 개념은 엔터티 관계 데이터 모델 정보, 필드 이름 정보, 해당 필드의 수명 주기에 관한 정보를 포함할 수 있다.

그리고, 시스템(100)은 엔터티 관계 데이터 모델들 각각에서 대표 타임 스템프 필드를 제외한 나머지 타임 스탬프 필드를 제거할 수 있다(516).

그리고, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들에 중복된 열 이름을 제거할 수 있다(518).

그리고, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들에 각각에 대해서 해당 엔터티 관계 데이터 모델에 의존하는 엔터티 관계 데이터 모델의 수를 기준으로 엔터티 관계 데이터 모델들에 각각의 중심성을 계산할 수 있다(520).

그리고, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 중에서 타임 스탬프 개념 후보가 없고, 해당 엔터티 관계 데이터 모델을 의존하는 엔터티 관계 데이터 모델이 없는 엔터티 관계 데이터 모델을 제거할 수 있다(522).

그리고, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 각각에 대해서 최대 하나의 범주 필드와 숫자 필드를 가지도록 기본 키 또는 외래 키가 아니 필드 및 타임 스탬프에 해당하지 않는 필드를 제거할 수 있다(524).

그리고, 시스템(100)은 데이터 카탈로그에 포함된 엔터티 관계 데이터 모델들 각각에 대해서 타임 스템프 필드의 텍스트 유사성 분석을 통해서 타임 스탬프 개념 및 활동 수명 주기를 추론할 수 있다(526).

그리고, 시스템(100)은 타임 스탬프 개념에서 날짜 및 시간 패턴을 제거하고, 기본 키 또는 외래 키가 아니 필드 및 타임 스탬프에 해당하지 않는 필드를 연결하여 활동 개념을 추론할 수 있다(528).

도 6은 본 발명의 일 실시 예에 따른 시스템에서 데이터 품질을 기반으로 이벤트 맵을 생성하는 과정을 도시한 흐름도이다.

도 6을 참조하면, 시스템(100)은 데이터 소스로부터 데이터 품질 지표를 계산할 수 있다(610).

그리고, 시스템(100)은 데이터 소스로부터 데이터 품질 차원과 평균값을 계산할 수 있다(620).

이때, 시스템(100)은 610단계와 620단계를 Andrews, Robert, et al. "Quality-informed semi-automated event log generation for process mining." Decision Support Systems 132 (2020): 113265.을 참조해서 계산할 수 있다.

그리고, 시스템(100)은 분류 알고리즘을 사용하여 이벤트 개념 후보를 추론할 수 있다(630). 630단계의 구체적은 설명은 추후 도 7을 통해서 설명하고자 한다.

그리고, 시스템(100)은 이벤트 개념 후보를 기반으로 다수의 후보 이벤트 맵을 생성할 수 있다(640).

그리고, 시스템(100)은 데이터 소스에서 샘플 데이터를 추출하고, 다수의 후보 이벤트 맵 각각을 기반으로 샘플 후보 이벤트 로그를 생성할 수 있다(650).

그리고, 시스템(100)은 샘플 후보 이벤트 로그 각각에 대한 품질을 계산할 수 있다(660).

그리고, 시스템(100)은 샘플 후보 이벤트 로그의 품질을 기반으로 다수의 후보 이벤트 맵 중에서 이벤트 맵을 결정할 수 있다(670).

670단계에서 시스템(100)은 품질이 가장 높은 샘플 후보 이벤트 로그에 대응하는 후보 이벤트 맵을 이벤트 맵을 결정하거나 또는 다수의 후보 이벤트 맵과 대응하는 샘플 후보 이벤트 로그의 품질 정보를 사용자에게 제공하고, 사용자가 선택하는 후보 이벤트 맵을 이벤트 맵을 결정할 수 있다.

도 7은 본 발명의 일 실시 예에 따른 시스템에서 분류 알고리즘을 사용해서 이벤트 개면 후보를 추론하는 과정을 도시한 흐름도이다.

도 7을 참조하면, 그리고, 시스템(100)은 사전에 학습된 이벤트 로그를 학습 데이터로 분류 알고리즘의 입력으로 하여 생성된 분류 모델을 이용하여 데이터 소스로부터 추출되는 엔터티 관계 데이터 모델들의 각 필드에 대한 이벤트 개념을 이벤트 개념 후보로 예측할 수 있다(710).

그리고, 시스템(100)은 엔터티 관계 데이터 모델들에서 기본 키 또는 외래 키가 아니면서 이벤트 개념 필드가 아닌 필드를 제거할 수 있다(720).

그리고, 시스템(100)은 엔터티 관계 데이터 모델들에 포함된 모든 이벤트 개념 필드에 대한 데이터 품질 지표의 평균값을 평균해서 임계값으로 설정하고, 이벤트 개념 필드의 데이터 품질 지표의 평균값이 임계값 보다 낮은 이벤트 개념 필드를 제거할 수 있다(730).

그리고, 시스템(100)은 엔터티 관계 데이터 모델들에 포함된 필드 이름은 동일하나 이벤트 개념 필드의 이벤트 개념 후보가 다른 필드를 같은 이벤트 개념 후보를 가지도록 수정할 수 있다(740).

그리고, 시스템(100)은 엔터티 관계 데이터 모델들에 포함된 동일한 필드 이름을 가진 필드를 가장 높은 데이터 품질 지표의 평균값을 가진 필드를 제외하고 제거할 수 있다(750).

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다.　 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.　 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.　 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.　 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.　 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.　 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.　 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다.　 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.　 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.　 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.　 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.　 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.　 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.　 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

100: 다중 관점 이벤트 로그를 생성하는 시스템
110: 프로세서
111: 메타 데이터 추출부
112: 제1 이벤트 맵 생성부
113: 품질 계산부
114: 제2 이벤트 맵 생성부
115: 다중 관점 이벤트 로그 생성부
120: 통신부
130: 메모리

Claims

데이터 소스를 수신하는 단계;
상기 데이터 소스에서 메타 데이터를 추출하는 단계;
상기 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하는 단계;
상기 샘플 이벤트 로그의 품질을 계산하는 단계; 및
상기 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 상기 이벤트 맵을 기반으로 상기 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성하는 단계
를 포함하고,
상기 메타 데이터를 이용해서 상기 이벤트 맵과 상기 샘플 이벤트 로그를 생성하는 단계는,
상기 추출된 메타데이터를 표준화된 엔터티 관계 데이터 모델로 변환하는 단계;
상기 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하는 단계;
상기 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론하는 단계;
상기 데이터 카탈로그에서 사례 개념을 추론하는 단계;
상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념을 연관시켜 상기 이벤트 맵을 생성하는 단계; 및
상기 데이터 소스에서 샘플 데이터를 추출하고, 상기 이벤트 맵을 기반으로 상기 샘플 데이터에서 데이터를 추출해서 상기 샘플 이벤트 로그를 생성하는 단계
를 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
삭제
제1항에 있어서,
상기 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하는 단계는,
상기 엔터티 관계 데이터 모델들에 포함된 필드 이름 유사성을 확인하는 단계;
확인된 유사성을 이용해서 상기 데이터 카탈로그가 비순환이 되도록 상기 엔터티 관계 데이터 모델들을 연결하는 단계; 및
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 각각에서 필수적이지 않은 선택적인 필드를 제거하는 단계
를 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
제1항에 있어서,
상기 데이터 카탈로그에서 상기 활동 개념 및 상기 타임 스탬프 개념을 추론하는 단계는,
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들에 대한 각 필드의 데이터 유형을 분석하는 단계;
사전 기반 패턴 일치를 사용하여 상기 엔터티 관계 데이터 모델들의 각 필드 이름을 분석하는 단계;
상기 엔터티 관계 데이터 모델들에 포함된 필드 중에서 날짜 또는 시간 분석을 통해서 활동 개념과 타임 스탬프 개념을 추론하는 단계;
상기 엔터티 관계 데이터 모델들 각각에서 대표 타임 스템프 필드를 제외한 나머지 타임 스탬프 필드를 제거하는 단계;
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들에 중복된 열 이름을 제거하는 단계;
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들에 각각에 대해서 해당 엔터티 관계 데이터 모델에 의존하는 엔터티 관계 데이터 모델의 수를 기준으로 상기 엔터티 관계 데이터 모델들에 각각의 중심성을 계산하는 단계;
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 중에서 타임 스탬프 개념 후보가 없고, 해당 엔터티 관계 데이터 모델을 의존하는 엔터티 관계 데이터 모델이 없는 엔터티 관계 데이터 모델을 제거하는 단계;
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 각각에 대해서 최대 하나의 범주 필드와 숫자 필드를 가지도록 기본 키 또는 외래 키가 아닌 필드 및 타임 스탬프에 해당하지 않는 필드를 제거하는 단계:
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들 각각에 대해서 타임 스템프 필드의 텍스트 유사성 분석을 통해서 타임 스탬프 개념 및 활동 수명 주기를 추론하는 단계; 및
상기 타임 스탬프 개념에서 날짜 및 시간 패턴을 제거하고, 상기 기본 키 또는 상기 외래 키가 아닌 필드 및 상기 타임 스탬프에 해당하지 않는 필드를 연결하여 활동 개념을 추론하는 단계
를 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
제1항에 있어서,
상기 데이터 카탈로그에서 상기 사례 개념을 추론하는 단계는,
상기 데이터 카탈로그에 포함된 상기 엔터티 관계 데이터 모델들의 각 필드가 인용된 횟수와 인용된 횟수의 순위를 추론하여 상기 사례 개념을 생성하는
다중 관점 이벤트 로그를 생성하는 방법.
　
제1항에 있어서,
상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념 중에서 적어도 하나가 발견되지 않으면, 데이터 품질을 기반으로 이벤트 맵을 생성하는 단계; 및
상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성하는 단계
를 더 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
제1항에 있어서,
상기 샘플 이벤트 로그의 품질을 계산하는 단계는,
상기 샘플 이벤트 로그의 사례 식별자 비율, 추적 변형 비율, 케이스당 고유 활동의 평균 비율 및 엔드 포인트 활동 비율 및 시작 종료 활동 비율 중에서 적어도 하나를 고려해서 계산하는
다중 관점 이벤트 로그를 생성하는 방법.
　
제1항에 있어서,
상기 샘플 이벤트 로그의 품질 값이 기준값 미만이면, 데이터 품질을 기반으로 이벤트 맵을 생성하는 단계; 및
상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성하는 단계
를 더 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
제8항에 있어서,
상기 데이터 품질을 기반으로 이벤트 맵을 생성하는 단계는,
상기　데이터 소스로부터 데이터 품질 지표를 계산하는 단계;
상기 데이터 소스로부터 데이터 품질 차원과 평균값을 계산하는 단계;
분류 알고리즘을 사용하여 이벤트 개념 후보를 추론하는 단계;
상기 이벤트 개념 후보를 기반으로 다수의 후보 이벤트 맵을 생성하는 단계;
상기 데이터 소스에서 샘플 데이터를 추출하고, 상기 다수의 후보 이벤트 맵 각각을 기반으로 샘플 후보 이벤트 로그를 생성하는 단계;
상기 샘플 후보 이벤트 로그 각각에 대한 품질을 계산하는 단계; 및
상기 샘플 후보 이벤트 로그의 품질을 기반으로 상기 다수의 후보 이벤트 맵 중에서 상기 이벤트 맵을 결정하는 단계
를 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
제9항에 있어서,
상기 분류 알고리즘을 사용하여 상기 이벤트 개념 후보를 추론하는 단계는,
사전에 학습된 이벤트 로그를 학습 데이터로 상기 분류 알고리즘의 입력으로 하여 생성된 분류 모델을 이용하여 상기 데이터 소스로부터 추출되는 엔터티 관계 데이터 모델들의 각 필드에 대한 이벤트 개념을 상기 이벤트 개념 후보로 예측하는 단계;
상기 엔터티 관계 데이터 모델들에서 기본 키 또는 외래 키가 아니면서 이벤트 개념 필드가 아닌 필드를 제거하는 단계;
상기 엔터티 관계 데이터 모델들에 포함된 모든 상기 이벤트 개념 필드에 대한 데이터 품질 지표의 평균값들을 평균해서 임계값으로 설정하고, 상기 이벤트 개념 필드의 데이터 품질 지표의 평균값이 상기 임계값 보다 낮은 상기 이벤트 개념 필드를 제거하는 단계;
상기 엔터티 관계 데이터 모델들에 포함된 필드 이름은 동일하나 이벤트 개념 필드의 이벤트 개념 후보가 다른 필드를 같은 이벤트 개념 후보를 가지도록 수정하는 단계; 및
상기 엔터티 관계 데이터 모델들에 포함된 동일한 필드 이름을 가진 필드를 가장 높은 데이터 품질 지표의 평균값을 가진 필드를 제외하고 제거하는 단계
를 포함하는 다중 관점 이벤트 로그를 생성하는 방법.
　
제9항에 있어서,
상기 샘플 후보 이벤트 로그의 품질을 기반으로 상기 다수의 후보 이벤트 맵 중에서 상기 이벤트 맵을 결정하는 단계는,
품질이 가장 높은 상기 샘플 후보 이벤트 로그에 대응하는 후보 이벤트 맵을 상기 이벤트 맵으로 결정하는
다중 관점 이벤트 로그를 생성하는 방법.
　
제9항에 있어서,
상기 샘플 후보 이벤트 로그의 품질을 기반으로 상기 다수의 후보 이벤트 맵 중에서 상기 이벤트 맵을 결정하는 단계는,
상기 다수의 후보 이벤트 맵과 대응하는 상기 샘플 후보 이벤트 로그의 품질 정보를 사용자에게 제공하고, 상기 사용자가 선택하는 후보 이벤트 맵을 상기 이벤트 맵으로 결정하는
다중 관점 이벤트 로그를 생성하는 방법.
　
제1항 및 제3항 내지 제12항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
　
데이터 소스를 저장하는 메모리; 및
프로세서
를 포함하고,
상기 프로세서는,
상기 데이터 소스에서 메타 데이터를 추출하고, 상기 메타 데이터를 이용해서 이벤트 맵과 샘플 이벤트 로그를 생성하고, 상기 샘플 이벤트 로그의 품질을 계산하고, 상기 샘플 이벤트 로그의 품질 값이 기준값 이상이면, 상기 이벤트 맵을 기반으로 상기 데이터 소스에서 데이터를 수집하여 다중 관점 이벤트 로그를 생성하고,
상기 메타 데이터를 이용해서 상기 이벤트 맵과 상기 샘플 이벤트 로그를 생성할 때, 상기 추출된 메타데이터를 표준화된 엔터티 관계 데이터 모델로 변환하고, 상기 엔터티 관계 데이터 모델들을 연결하여 데이터 카탈로그를 생성하고, 상기 데이터 카탈로그에서 활동 개념 및 타임 스탬프 개념을 추론하고, 상기 데이터 카탈로그에서 사례 개념을 추론하고, 상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념을 연관시켜 상기 이벤트 맵을 생성하고, 상기 데이터 소스에서 샘플 데이터를 추출하고, 상기 이벤트 맵을 기반으로 상기 샘플 데이터에서 데이터를 추출해서 상기 샘플 이벤트 로그를 생성하는
다중 관점 이벤트 로그를 생성하는 시스템.
삭제
제14항에 있어서,
상기 프로세서는,
상기 활동 개념, 상기 타임 스탬프 개념 및 상기 사례 개념 중에서 적어도 하나가 발견되지 않으면, 데이터 품질을 기반으로 이벤트 맵을 생성하고,
상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성하는
　다중 관점 이벤트 로그를 생성하는 시스템.
　
제14항에 있어서,
상기 프로세서는,
상기 샘플 이벤트 로그의 품질을 계산할 때,
상기 샘플 이벤트 로그의 사례 식별자 비율, 추적 변형 비율, 케이스당 고유 활동의 평균 비율 및 엔드 포인트 활동 비율 및 시작 종료 활동 비율 중에서 적어도 하나를 고려해서 계산하는
다중 관점 이벤트 로그를 생성하는 시스템.
　
제14항에 있어서,
상기 프로세서는,
상기 샘플 이벤트 로그의 품질 값이 기준값 미만이면, 데이터 품질을 기반으로 이벤트 맵을 생성하고,
상기 데이터 품질을 기반으로 생성된 이벤트 맵을 기반으로 상기 데이터 소스에서 다중 관점 이벤트 로그를 생성하는
다중 관점 이벤트 로그를 생성하는 시스템.