KR20160071746A

KR20160071746A - 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법

Info

Publication number: KR20160071746A
Application number: KR1020140179277A
Authority: KR
Inventors: 허의남; 김용현
Original assignee: 경희대학교 산학협력단
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2016-06-22
Also published as: KR101679050B1

Abstract

개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법이 개시된다.
이 방법에서, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙과의 매칭을 위해 입력되는 로그 데이터들을 가공하고, 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지가 판단된다. 그 후, 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리가 선택된다. 계속해서, 상기 로그 데이터가 매칭되는 그룹화 규칙 또는 상기 생성되는 그룹화 규칙에 대해 문서 기반의 데이터베이스에서 검색되고, 검색되는 그룹에 해당되는 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터가 저장된다.

Description

개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법{PERSONALIZED LOG ANALYSIS SYSTEM AND RULE BASED LOG DATA GROUPING METHOD IN THE SAME}

본 발명은 개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법에 관한 것이다.

대부분 IT 기업에서 로그 데이터 관리를 위해 사용하는 데이터베이스는 관계형 데이터베이스인 MySQL로 일반적인 통계 분석을 목적으로 한다.

그러나, 개인 맞춤형 분석은 일반적인 통계 분석에서 더 나아가 비즈니스 목적을 고려하는 것으로, 각 고객에게 해당되는 데이터를 분석하고 가치있는 결과를 얻을 수 있다.

또한, 기존 시스템에서는 데이터 분석가들이 주로 사용하는 SAS, R 등의 분석 전문 툴을 대부분 적용하지 않아, 데이터 분석의 정확도가 떨어지고, 맞춤형 분석을 고려하지 않은 데이터 저장 구조로 인해 데이터 전처리 과정 및 개인 맞춤형 분석에서 오버헤드가 발생할 수 있다.

데이터 전처리 기술은 데이터 마이닝의 중요한 단계로 크게 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환의 네 가지로 분류되며, 분석 시 오류를 최소화하고 분석 결과의 정확도와 분석 성능을 높일 수 있기에 데이터 분석전에 반드시 수행해야 하는 중요한 단계이다.

종래 빅데이터를 관리하기 위해 대부분의 기업에서는 관계형 데이터베이스를 이용한다. 이러한 관계형 데이터베이스는 테이블 구조로 정해진 스키마의 데이터만을 수용할 수 있다.

따라서, 종래의 분석 시스템에서는 다양한 형태로 생성되는 로그 기반 빅데이터를 수용하기 어려우며, 또한 데이터 전처리를 위해서는 전처리 대상 데이터를 메모리에 로드해야하기 때문에 상당한 오버헤드를 발생시킬 수 있다. 데이터를 전처리하고 분석하기 위해서는 분석할 데이터 전체를 탐색해야 하지만, 분석 목적에 따라 분류되지 않고, 단순히 종류에 따라 분류된 관계형 데이터베이스에서는 높은 성능을 기대하기 어렵다. 특히, 개인 맞춤형 분석에서는 저장된 데이터들로부터 각 고객에게 해당되는 데이터만을 추출하여 전처리 및 분석을 수행해야 하기 때문에, 현재의 분석 시스템에서는 쿼리를 통한 전체 데이터베이스를 탐색하는 과정에서 오버헤드가 발생할 수 있다.

본 발명이 이루고자 하는 기술적 과제는 개인 맞춤형 로그 분석시 오버헤드를 감소시킬 수 있는 개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법을 제공한다.

본 발명의 한 특징에 따른 로그 데이터 그룹화 방법은,

로그 분석 시스템이 규칙 기반으로 로그 데이터를 그룹화하는 방법으로서, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙과의 매칭을 위해 입력되는 로그 데이터들을 가공하고, 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 단계; 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 단계; 상기 로그 데이터가 매칭되는 그룹화 규칙 또는 상기 생성되는 그룹화 규칙에 대해 문서 기반의 데이터베이스에서 검색하는 단계; 및 검색되는 그룹에 해당되는 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 단계를 포함한다.

여기서, 상기 그룹화를 수행하는 단계는, 상기 로그 데이터에 대해 군집 분석을 수행하는 단계; 상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 단계; 상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 단계; 및 상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 단계를 포함한다.

또한, 상기 군집 분석은 평균오차제곱합(Mean Square Error:MSE) 방식을 이용하여 수행되는 것을 특징으로 한다.

또한, 상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 저장되는 로그 데이터의 개수에 따라 전체 로그 데이터 개수 대비 상기 로그 데이터의 속성 값으로부터 추출되는 요소 개수의 비율을 설정하는 것을 특징으로 한다.

본 발명의 다른 특징에 따른 로그 분석 시스템은,

수집되는 로그 데이터에 대해, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙을 사용한 규칙 기반의 그룹화를 수행하여 문서 기반의 데이터베이스에 저장하는 그룹화부; 상기 문서 기반의 데이터베이스에 그룹화되어 저장되어 있는 로그 데이터에 대해 로그 분석을 위한 데이터 마이닝(data mining) 및 워크플로우(workflow) 최적화를 수행하는 전처리부; 상기 전처리부에 의해 최적화된 워크플로우를 사용하여 각 노드의 분석 모듈에게 작업을 분산 할당하는 분산 처리 관리부; 및 상기 각 분석 모듈을 통해 분석된 결과를 통해서 분석 결과가 빅앤서(Big Answer)인지를 결정하는 빅앤서 검증부를 포함한다.

여기서, 상기 그룹화부는, 로그 데이터를 상기 그룹화 규칙과의 매칭을 위해 가공하는 파싱부; 상기 파싱부에 의해 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 규칙 매칭부; 상기 규칙 매칭부에서 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 규칙 생성부; 상기 규칙 매칭부에서 판단되는 그룹화 규칙 또는 상기 규칙 생성부에서 생성되는 그룹화 규칙에 대해 상기 문서 기반의 데이터베이스에서 검색하는 그룹 검색부; 및 상기 그룹 검색부에 의해 검색되는 그룹에 해당되는 상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 로그 데이터 저장부를 포함한다.

또한, 상기 규칙 생성부는, 상기 로그 데이터에 대해 군집 분석을 수행하는 군집 분석기; 상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 속성 순위 결정기; 상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 요소 분석기; 및 상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 카테고리 선택기를 포함한다.

또한, 상기 그룹화 규칙을 저장하는 그룹화 규칙 저장부를 더 포함하고, 상기 카테고리 선택기는 선택되는 카테고리 정보와 함께 상기 로그 데이터의 종류, 상기 군집 분석의 결과 및 상기 요소 분석의 결과를 새로운 그룹화 규칙으로써 상기 그룹화 규칙 저장부로 전달하여 저장되도록 하는 것을 특징으로 한다.

또한, 상기 로그 데이터가 이메일 로그인 경우 상기 이메일 로그에 대한 규칙 기반 그룹화를 수행하는데 사용되는 그룹화 규칙은 개인 이메일 주소 및 개인이 클릭한 이메일에 포함된 광고 링크 정보를 포함한다.

또한, 상기 문서 기반의 데이터베이스는 몽고(Mongo) DB이고, 상기 분산 처리 관리부는 상기 몽고 DB와 상호 연관되어 동작하는 R 프로그래밍 언어를 통해 구축되는 것을 특징으로 한다.

본 발명에 따르면, 데이터 전처리 및 개인 맞춤형 로그 분석 수행 시 사업 목적에 따라 데이터 저장 구조를 구성하여 기존 기술에서 발생할 수 있는 오버헤드를 줄일 수 있다.

따라서, 향상된 맞춤형 분석 성능으로 보다 다양한 로그 기반 빅데이터 분석을 수행하고, 사업 목적이 접목된 데이터 저장 구조를 이용한 효율적인 정보 관리가 가능하다.

도 1은 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템을 개략적으로 도시한 도면이다.
도 2는 도 1에 도시된 그룹화부의 구체적인 구성을 도시한 도면이다.
도 3은 도 2에 도시된 규칙 생성부의 구체적인 구성을 도시한 도면이다.
도 4는 도 1의 로그 분석 시스템에서 수집되는 로그 데이터의 일 예를 도시한 도면이다.
도 5는 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법의 흐름도이다.
도 6은 도 1의 로그 분석 시스템에서 수집되는 로그 데이터가 전송 로그인 경우를 나타낸 도면이다.
도 7은 도 1의 로그 분석 시스템에서 수집되는 로그 데이터가 응답 로그인 경우를 나타낸 도면이다.
도 8은 도 1의 로그 분석 시스템에서 수집되는 로그 데이터가 웹 로그인 경우를 나타낸 도면이다.
도 9는 도 1의 로그 분석 시스템이 도 6, 도 7 및 도 8에 도시된 로그 데이터에 대해 고객의 이메일 주소를 그룹화 규칙으로 하여 저장한 컬렉션의 예를 도시한 도면이다.
도 10은 일반적인 저장 방법과 본 발명의 실시예에 따른 그룹화 방법에 따른 처리 시간을 나타낸 그래프이다.
도 11은 일반적인 저장 방법과 본 발명의 실시예에 따른 그룹화 방법에 따른 32만건의 이메일 로그에 대한 각 처리 과정의 시간을 나타낸 그래프이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템(10)을 개략적으로 도시한 도면이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 로그 분석 시스템(10)은 대시보드(Dash Board)(100), 그룹화 규칙 저장부(200), 분석 규칙 저장부(300), 그룹화부(400), 문서 기반 데이터베이스((Document-based database(DB))(500), 전처리부(600), 분산 처리 관리부(700) 및 빅앤서 검증부(Big Answer Verifier)(800)를 포함한다.

대시보드(100)는 로그 분석 시스템(10)의 관리자에 대한 사용자 인터페이스 기능을 수행하며, 관리자가 그룹화 규칙 저장부(700)에 저장된 그룹화 규칙과 분석 규칙 저장부(800)에 저장된 로그 데이터 분석 규칙을 관리할 수 있는 기능을 제공한다.

또한, 대시보드(100)는 관리자가 워크플로우(workflow)를 생성할 수 있는 기능을 제공한다. 이러한 워크플로우는 분석용 로그 데이터, 로그 종류, 분석 목적, 시스템 환경 등에 따라 달라질 수 있다.

대시보드(100)를 통해 생성되는 워크플로우의 메타데이터(metadata)는 추후 전처리부(600)에서 최적화될 수 있도록 특정 메모리(도시되지 않음)에 저장될 수 있다. 이러한 워크플로우 메타데이터에는 전체 처리 시간, 분석된 로그 개수 및 할당된 노드 개수 등의 정보가 포함된다.

그룹화 규칙 저장부(200)는 로그 데이터를 그룹화하는데 사용되는 그룹화 기준 규칙을 저장한다.

분석 규칙 저장부(300)는 데이터 마이닝(data mininig)과 워크플로우의 최적화를 위해 사용되는 분석 규칙을 저장한다. 여기서, 데이터 마이닝은 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것으로 정의되며, 보다 구체적으로는, 의미 있는 패턴과 규칙을 발견하기 위해 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 것을 의미한다.

그룹화부(400)는 개임 맞춤형 로그 분석을 위해 수집된 로그 데이터에 대해 그룹화 규칙 저장부(200)에 저장된 그룹화 규칙을 사용하여 그룹화를 수행한 후 문서 기반 DB(500)에 저장한다. 이러한 그룹화부(400)에 대해서는 아래에서 보다 상세하게 설명될 것이다.

문서 기반 DB(500)는 그룹화부(400)에 의해 그룹화되는 로그 데이터들을 문서 기반으로 저장하는 데이터베이스이다. 이러한 문서 기반 DB(500)는 정형화된 데이터는 물론 비정형화된 데이터 등 다양한 데이터를 관리하는 데이터베이스인 NoSQL(Not obly Structrued Query Language) 데이터베이스 중 하나의 형태인 문서 기반 NoSQL 데이터베이스이며, 일 예로는 몽고(Mongo) DB가 사용될 수 있다. 이러한 몽고 DB는 이미 잘 알려져 있는 데이터베이스로, 컬렉션(collection)과 자유 스키마(schema-free)와 같은 특징을 가지고 있다. 여기서 컬렉션은 몽고 DB에서 사용되는 논리 단위이다. 이와 같이, 몽고 DB가 문서 기반 DB(500)로 사용되면 그룹화부(400)에서 규칙 기반 데이터 그룹화 방법으로 그룹화된 로그 데이터가 몽고 DB(500)의 컬렉션으로 그룹화되어 저장될 것이다. 이러한 몽고 DB에 대해서는 이미 잘 알려져 있으며 여기에서는 구체적인 설명을 생략한다.

전처리부(600)는 분석 규칙 저장부(300)에 저장된 분석 규칙을 사용하여 문서 기반 DB(500)에 그룹화되어 저장되어 있는 로그 데이터들을 분석용 로그 데이터들로 최적화한다. 즉, 전처리부(600)는 데이터 분석을 위한 데이터 마이닝과 워크플로우 최적화를 수행한다. 이를 위해 전처리부(600)는 데이터 정제(refinement), 데이터 통합(integration), 데이터 축소(reduction) 및 데이터 변환(transformation)라는 4가지 과정을 수행한다. 데이터 정제 과정은 결측치(missing value) 또는 잡음(noise)에 대한 처리 과정이고, 데이터 통합 과정은은 중복된 데이터의 통합 과정이며, 데이터 축소 과정은 데이터 큐브로의 통합을 통해 데이터 크기를 축소시키는 과정이고, 데이터 변환 과정은 범용의 ETL(Extraction/Transformation/Loading) 도구와 같은 노멀라이징(normalizing) 과정이다. 이러한 전처리 과정에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 내용에 대한 설명을 생략한다.

분산 처리 관리부(700)는 전처리부(600)에 의해 최적화된 워크플로우를 사용하여 각 노드의 분석 모듈(900)에게 작업을 할당한다. 즉, 분산 처리 관리부(700)는 데이터베이스 탐색 및 스케줄링을 수행한다. 이를 위해, 분산 처리 관리부(700)는 데이터베이스 목록과 통계 프로그램 언어, 예를 들어 R 프로그래밍 언어와의 연결관계와 같은 각 노드의 상태를 관리한다. 분산 처리 관리부(700)는 최적화된 워크플로우에 따라서 로그가 저장된 데이터베이스를 탐색한다. 그리고, 분산 처리 관리부(700)는 부하 균형(load balance)를 위해 워크플로우를 스케줄링한다. 여기서, R 프로그래밍 언어는 통계 계산을 위한 프로그래밍 언어이자 소프트웨어 환경을 말하며, 이에 대해서는 이미 잘 알려져 있으므로 구체적인 설명을 생략한다.

본 발명의 실시예에서는 분산 처리 관리부(700)를 구축하기 위해 몽고 DB와 R 프로그래밍 언어를 사용한다. 몽고 DB는 로그 데이터를 관리하기 위해서만 사용된다. 분산 분석은 R 프로그래밍 언어를 사용하여 수행된다. 따라서, 몽고 DB와 R 프로그래밍 언어는 각 노드에 설치되고 분산된 분석을 위해 상호 보완적으로 동작된다. 데이터베이스 탐색에 대한 오버헤드를 감소시키기 위해, 분산 처리 관리부(700)는 각 몽고 DB의 데이터베이스와 컬렉션 목록을 저장한다. 그리고, R 프로그래밍 언어는 'RServe'와 'RSclient' 패키지를 사용하여 서버-클라이언트 관계로 통신할 수 있다. 따라서, 본 발명의 실시예에서는 몽고 DB와 R 프로그래밍 언어들 사용하여 분산된 분석 환경을 구축할 수 있다.

빅앤서 검증부(800)는 각 분석 모듈(900)을 통해 분석된 결과를 통해서 분석 결과가 빅앤서인지의 여부를 결정한다. 여기서, 빅앤서는 빅데이터 분석에서 중요한 분석 결과를 의미한다.

빅앤서 검증부(800)는 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템(10)에서 '중요한 결과인가"에 관한 분석 결과를 결정한다.

빅앤서 검증부(800)는 분석 과정에 관한 메타데이터를 생성한다. 메타데이터에는 전체 처리 시간, 분석 환경, 분석 요청 정보 등과 같은 정보가 포함된다. 이러한 메타데이터는 개인 맞춤형 로그 분석 시스템(10)의 최적화와 빅앤서 검증부(800)에 의한 판단 결과의 정확성을 개선하기 위한 분석 히스토리로써 사용된다.

상기에서 도 1에 예시된 개인 맞춤형 로그 분석 시스템(10)의 각 구성요소(100, 200, 300, 400, 500, 600, 700, 800, 900) 또는 그 들의 부분적 결합 구성은 소프트웨어를 실행하는 하드웨어로써 구성되거나, 또는 컴퓨팅(computing) 장치에서 수행되는 하나 이상의 어플리케이션 프로그램으로써 구성될 수 있다. 물론, 하드웨어와 소프트웨어가 결합되어 구성될 수도 있다. 소프트웨어로써 구성된 경우에는, 상기 예시된 구성요소들(100, 200, 300, 400, 500, 600, 700, 800, 900)의 전부 또는 일부의 기능에 대해 구현된 어플리케이션 프로그램은, 저장매체에 기록되어 그 매체의 기록신호를 판독할 수 있는 장치에 전달될 수도 있다. 또한, 도 1에 예시된 개인 맞춤형 로그 분석 시스템(10)은 하나의 통합된 서버(server)로써 구성될 수도 있다.

다음, 도 1에 도시된 그룹화부(400)에 대해 구체적으로 설명한다.

도 2는 도 1에 도시된 그룹화부(400)의 구체적인 구성을 도시한 도면이다.

도 2에 도시된 바와 같이, 그룹화부(400)는 파싱(parsing)부(410), 규칙 매칭부(420), 그룹 검색부(430), 로그 데이터 저장부(440) 및 규칙 생성부(450)를 포함한다.

파싱부(410)는 입력되는 로그 데이터들을 그룹화 규칙 저장부(200)에 저장되어 있는 그룹화 규칙과 매칭시킬 수 있는 자료로 가공한다.

규칙 매칭부(420)는 그룹 규칙 저장부(200)에 저장되어 있는 그룹화 규칙 중에서 파싱부(410)에 의해 가공된 로그 데이터에 매칭되는 그룹화 규칙이 있는지를 판단한다.

그룹 검색부(430)는 규칙 매칭부(420)에 의해 로그 데이터에 매칭되는 그룹화 규칙이 있는 것으로 판단되는 경우 매칭되는 규칙의 그룹을 문서 기반 DB(500)에서 검색한다.

로그 데이터 저장부(440)는 그룹 검색부(430)에 의해 검색된 문서 기반 DB(500)의 그룹에 해당되는 카테고리 컬렉션에 로그 데이터를 저장한다.

규칙 생성부(450)는 규칙 매칭부(420)에 의해 로그 데이터에 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우에 동작하며, 로그 데이터 분석을 통해 로그 데이터에 해당되는 새로운 그룹화 규칙을 결정하고 결정되는 그룹화 규칙에 해당되는 카테고리로 분류하여 그룹화를 수행한다.

규칙 생성부(450)는 로그 데이터 분석에 의해 새로이 결정되는 그룹화 규칙을 그룹화 규칙 저장부(200)로 전달하여 새로운 그룹화 규칙으로 저장되도록 한다.

또한, 규칙 생성부(450)는 새로운 그룹화 규칙에 해당되는 카테고리 정보를 그룹 검색부(430)로 전달하여 이에 해당되는 카테고리 컬렉션이 문서 기반 DB(500)에 있는지를 검색하고, 해당되는 카테고리 컬렉션이 없는 경우 이러한 사실을 로그 데이터 저장부(440)로 전달한다.

로그 데이터 저장부(440)는 규칙 생성부(450)로부터 로그 데이터를 그룹화하여 저장할 카테고리에 해당되는 컬렉션이 문서 기반 DB(500)에 없는 것으로 전달받는 경우 문서 기반 DB(500)로 해당 카테고리에 해당되는 카테고리 컬렉션을 설정하도록 한 후 설정되는 카테고리 컬렉션에 로그 데이터를 저장한다.

이하, 규칙 생성부(450)가 로그 데이터를 분석하여 새로운 그룹화 규칙을 생성하는 내용에 대해 구체적으로 설명한다.

도 3은 도 2에 도시된 규칙 생성부(450)의 구체적인 구성을 도시한 도면이다.

도 3에 도시된 바와 같이, 규칙 생성부(450)는 군집 분석기(451), 속성 순위 결정기(452), 요소 분석기(453) 및 카테고리 선택기(454)를 포함한다.

군집 분석기(451)는 규칙 매칭부(420)를 통해 로그 데이터들을 입력받아서 군집 분석을 수행한다. 여기서, 군집 분석은 어떤 개체나 대상물을 유사성(similarity) 또는 거리(distance)에 의하여 비슷한 특성을 가진 개체들이 함께 그룹지어지도록 몇 개의 군집으로 집단화하는 분석 기법으로, 이렇게 집단화하는 이유는 각각의 집단의 특성을 파악하기 위함이다. 그리고, 이러한 군집 분석에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.

도 4를 참조하면, 예시로 수집된 로그 데이터들이 속성으로 A속성, B속성 및 C속성을 가지고 있는 경우 군집 분석기(451)는 속성 A, B, C에 대해서 A-B, B-C, A-C별로 군집 분석을 수행한다. 이 때, 군집 분석기(451)는 일예로 평균오차제곱합(Mean Square Error:MSE)을 이용하여 군집 분석을 수행한다.

속성 순위 결정기(452)는 군집 분석기(451)에 의해 수행되는 군집 분석 결과에 따라 로그 데이터들의 속성별 순위를 나열한다.

도 4의 예를 참조하여, 군집 분석기(451)에 의한 군집 분석 결과, A-C > A-B > B-C라는 결과가 도출되었다면, 속성 순위 결정기(452)는 속성 순위를 A-C-B 순으로 결정할 수 있다.

요소 분석기(453)는 속성 순위 결정기(452)에 의해 속성 순위로 나열되는 속성 순서에 기초하여 로그 데이터들에 대한 요소 분석을 수행한다. 이 때, 요소 분석기(453)는 로그 데이터들의 속성 값들로부터 요소를 추출하고 전체 로그 개수 대비 요소의 비율을 구한다. 이러한 요소 비율이 높을 경우 너무 많은 컬렉션이 생성되지만, 낮을 경우에는 카테고리의 개수가 적기 때문에 각 컬렉션에 저장되는 로그 데이터의 개수가 증가하게 되므로 분석 목적에 따라 2차 분석이 필요하게 된다. 따라서, 분석 목적에 따라 요소 비율을 설정하여 적절한 로그 데이터 그룹화가 수행되도록 한다.

카테고리 선택기(454)는 요소 분석기(453)에서의 요소 분석 결과에 따라 문서 기반 DB(500)에서 해당되는 카테고리를 선택하여 그 결과를 그룹 검색부(430)로 전달한다. 여기서, 카테고리 선택기(454)는 선택된 카테고리 정보와 함께 로그 데이터의 종류, 군집 분석 결과, 요소 분석 결과를 새로운 그룹화 규칙으로써 그룹화 규칙 저장부(200)로 전달하여 저장되도록 한다. 따라서, 이 후의 로그 데이터들에 대한 그룹화시에 이렇게 저장된 새로운 그룹화 규칙이 적용될 수 있다.

이하, 도면을 참조하여 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법에 대해 설명한다.

도 5는 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법의 흐름도이다.

도 5를 참조하면, 먼저, 수집된 로그 데이터가 로그 데이터 파일 등을 통해 파싱부(410)로 입력되면(S100), 파싱부(410)는 입력되는 로그 데이터들을 그룹화 규칙 저장부(200)에 저장되어 있는 그룹화 규칙과 매칭시킬 수 있는 로그 데이터로 가공하는 로그 데이터 파싱을 수행한다(S110).

그 후, 규칙 매칭부(420)는 파싱된 로그 데이터에 대해 그룹 규칙 저장부(200)에 저장되어 있는 그룹화 규칙 중에서 매칭되는 그룹화 규칙이 있는지를 판단한다(S120).

만약 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우에는 규칙 생성부(450)의 군집 분석기(451)가 로그 데이터들에 대해 평균오차제곱합 방식에 따른 군집 분석을 수행한다(S130).

이러한 군집 분석 후에 속성 순위 결정기(452)는 군집 분석에 따른 속성 순위를 결정하여 나열하고(S140), 요소 분석기(453)는 나열된 속성 순위에 기초하여 로그 데이터들에 대한 요소 분석을 수행하면(S150), 요소 분석 결과에 따라 카테고리 선택기(454)가 로그 데이터가 그룹화될 카테고리를 선택한다(S160). 이 때, 카테고리 선택기(454)는 선택된 카테고리 정보와 함께 군집 분석 결과 및 요소 분석 결과를 새로운 그룹화 규칙으로써 그룹화 규칙 저장부(200)에 저장할 수 있다.

다음, 그룹 검색부(430)는 선택된 카테고리에 해당되는 그룹을 문서 기반 DB(500)에서 검색하고(S170), 로그 데이터 저장부(440)가 검색된 카테고리의 컬렉션에 해당 로그 데이터를 저장한다(S180). 이 때, 상기 단계(S160)에서 선택된 카테고리에 해당되는 컬렉션이 문서 기반 DB(500)에 없는 경우에는 문서 기반 DB(500)가 해당되는 카테고리 컬렉션을 생성한 후에 해당 로그 데이터를 저장한다.

한편, 상기 단계(S120)에서 매칭되는 그룹화 규칙이 있는 것으로 판단되는 경우에는 바로 그룹 검색부(430)가 매칭된 그룹화 규칙에 해당되는 그룹을 문서 기반 DB(500)에서 검색하고(S170), 로그 데이터 저장부(440)가 검색된 그룹의 카테고리 컬렉션에 해당 로그 데이터를 저장하게 된다(S180).

상기한 바와 같이, 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법으로 인해 데이터 전처리시의 오버헤드가 감소될 수 있다. 이러한 오버헤드는 쿼리(query) 경로의 거리로 인해 일반적인 분석에 비해 개인 맞춤형 로그 분석에서 더 높다. 따라서, 상기한 본 발명의 실시예에 따른 개인 맞춤형 로그 분석에서는 로그 데이터가 규칙 기반의 데이터 그룹화를 통해 저장됨으로써 보다 짧은 쿼리 경로의 거리를 가질 수 있게 된다.

이하, 상기한 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법의 일 예에 대해 설명한다.

예를 들어, 이메일 로그는 도 6에 도시된 바와 같은 전송 로그(Send log), 도 7에 도시된 바와 같은 응답 로그(Response log), 도 8에 도시된 바와 같은 웹 로그(Web log) 등 3가지 종류로 구분될 수 있다.

전송 로그는 예를 들어 고객에게 이메일을 전송함으로써 생성되고, 응답 로그는 고객에게 전송된 이메일에 대해 고객이 회신한 이메일을 수신함으로써 생성되며, 웹 로그는 고객의 이메일을 열거나 이메일에 포함된 광고를 클릭하는 경우에 생성된다. 따라서, 전송 로그에는 전송 시간, 고객의 이메일 주소, 전송 결과 등의 정보가 기재되고, 응답 로그에는 응답 시간, 고객의 이메일 주소, 응답 결과 등의 정보가 기재되며, 웹 로그에는 광로 링크의 클릭 여부, 광고의 클릭 시간, 이메일을 읽은 시간 등의 정보가 기재된다.

대부분의 이메일 로그 분석에서는 전체 이메일 전송 성공률, 전송 실패율, 오류 코드 등에 대해 전체 이메일 로그가 분석된다.

그러나, 개인 맞춤형 로그 분석은 일반적인 이메일 로그 분석과 전혀 다르다. 개인 맞춤형 로그 분석에서는 사업 목적에 따라 이메일 전송 성공률이나 오류 코드 등보다는 각 고객의 정보가 더 중요하다.

따라서, 개인 맞춤형 로그 분석에서는 "고객이 언제 이메일을 읽었는지?" 또는 "고객이 관심을 갖는 광고가 무엇인지?"등과 관련하여 각 고객의 이메일 로그가 분석되어야 한다.

따라서, 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법에서 사용되는 그룹화 규칙은 각 고객에게 개인 맞춤형 서비스를 제공하기 위해 고객의 이메일 주소와 고객이 클릭한 광고 링크 정보 등이 될 수 있다.

상기한 전송 로그, 응답 로그 및 웹 로그에 대해 고객의 이메일 주소(user_Email)를 그룹화 규칙으로 하여 문서 기반 DB(500)의 이메일 주소 카테고리 컬렉션에 그룹화되어 저장된 예가 도 9에 도시되어 있다.

본 발명의 실시예에 따른 고객 맞춤형 로그 분석 시스템(10)은 이러한 그룹화 규칙을 사용하여 개인 맞춤형 광고가 포함된 이메일을 제공할 수가 있게 된다.

도 10은 일반적인 저장 방법(General storing method)과 본 발명의 실시예에 따른 그룹화 방법(Attribute grouping method)에 따른 처리 시간을 나타낸 그래프이다.

도 10에서 전체 처리 시간은 저장 시간, 전처리 시간 및 분석 시간을 포함한다. 본 발명의 실시예에 따른 그룹화 방법이 모든 경우에서 높은 성능을 나타내고 있다. 8만개 이상의 로그 데이터 구간에서는, 로그 데이터가 단일 노드의 몽고 DB에서 평가된 관계로 전체 처리 시간이 두 가지 방법 모두에서 증가하고 있다. 만약 두 가지 방법이 분산 처리 방식으로 평가되었다면 전체 처리 시간이 보다 짧아질 것이다. 그러나, 본 발명의 실시예에 따른 그룹화 방법은 8만개 이상의 로그 데이터 구간에서 여전히 높은 성능을 보이고 있다.

도 11은 일반적인 저장 방법과 본 발명의 실시예에 따른 그룹화 방법에 따른 32만건의 이메일 로그에 대한 각 처리 과정의 시간을 나타낸 그래프이다. 여기서, 각 처리 과정은 전송 로그를 저장하는 과정, 웹 로그를 저장하는 과정, 전처리를 포함하는 분석 과정을 포함한다. 도 11을 참조하면, 상세한 성능 비교에서는 본 발명의 실시예에 따른 그룹화 방법이 그룹화 과정으로 인해 저장에서 조금 더 시간이 걸리는데 반해, 분석 시간은 상당히 많이 단축됨을 확인할 수 있다.

이와 같이, 관계형 데이터베이스에서 단순히 로그의 종류에 따라 분류되는 데이터간 관계를 하나의 카테고리 컬렉션에 저장하여 개인 맞춤형 분석 수행 시, 해당 카테고리 컬렉션만을 참조하여 데이터를 분석하기 때문에 상대적으로 짧은 쿼리 경로 거리로 데이터를 탐색할 수 있다. 따라서 로그 기반 빅데이터 분석에 있어 본 발명을 이용하면, 앞서 언급한 오버헤드를 줄이고 전체 분석 성능이 향상된다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

로그 분석 시스템이 규칙 기반으로 로그 데이터를 그룹화하는 방법에 있어서,
개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙과의 매칭을 위해 입력되는 로그 데이터들을 가공하고, 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 단계;
상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 단계;
상기 로그 데이터가 매칭되는 그룹화 규칙 또는 상기 생성되는 그룹화 규칙에 대해 문서 기반의 데이터베이스에서 검색하는 단계; 및
검색되는 그룹에 해당되는 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 단계
를 포함하는 로그 데이터 그룹화 방법.
제1항에 있어서,
상기 그룹화를 수행하는 단계는,
상기 로그 데이터에 대해 군집 분석을 수행하는 단계;
상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 단계;
상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 단계; 및
상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 단계
를 포함하는 로그 데이터 그룹화 방법.
제2항에 있어서,
상기 군집 분석은 평균오차제곱합(Mean Square Error:MSE) 방식을 이용하여 수행되는 것을 특징으로 하는 로그 데이터 그룹화 방법.
제2항에 있어서,
상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 저장되는 로그 데이터의 개수에 따라 전체 로그 데이터 개수 대비 상기 로그 데이터의 속성 값으로부터 추출되는 요소 개수의 비율을 설정하는 것을 특징으로 하는 로그 데이터 그룹화 방법.
수집되는 로그 데이터에 대해, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙을 사용한 규칙 기반의 그룹화를 수행하여 문서 기반의 데이터베이스에 저장하는 그룹화부;
상기 문서 기반의 데이터베이스에 그룹화되어 저장되어 있는 로그 데이터에 대해 로그 분석을 위한 데이터 마이닝(data mining) 및 워크플로우(workflow) 최적화를 수행하는 전처리부;
상기 전처리부에 의해 최적화된 워크플로우를 사용하여 각 노드의 분석 모듈에게 작업을 분산 할당하는 분산 처리 관리부; 및
상기 각 분석 모듈을 통해 분석된 결과를 통해서 분석 결과가 빅앤서(Big Answer)인지를 결정하는 빅앤서 검증부
를 포함하는 로그 분석 시스템.
제5항에 있어서,
상기 그룹화부는,
로그 데이터를 상기 그룹화 규칙과의 매칭을 위해 가공하는 파싱부;
상기 파싱부에 의해 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 규칙 매칭부;
상기 규칙 매칭부에서 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 규칙 생성부;
상기 규칙 매칭부에서 판단되는 그룹화 규칙 또는 상기 규칙 생성부에서 생성되는 그룹화 규칙에 대해 상기 문서 기반의 데이터베이스에서 검색하는 그룹 검색부; 및
상기 그룹 검색부에 의해 검색되는 그룹에 해당되는 상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 로그 데이터 저장부
를 포함하는 로그 분석 시스템.
제6항에 있어서,
상기 규칙 생성부는,
상기 로그 데이터에 대해 군집 분석을 수행하는 군집 분석기;
상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 속성 순위 결정기;
상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 요소 분석기; 및
상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 카테고리 선택기
를 포함하는 로그 분석 시스템.
제6항에 있어서,
상기 그룹화 규칙을 저장하는 그룹화 규칙 저장부를 더 포함하고,
상기 카테고리 선택기는 선택되는 카테고리 정보와 함께 상기 로그 데이터의 종류, 상기 군집 분석의 결과 및 상기 요소 분석의 결과를 새로운 그룹화 규칙으로써 상기 그룹화 규칙 저장부로 전달하여 저장되도록 하는
것을 특징으로 하는 로그 분석 시스템.
제6항에 있어서,
상기 로그 데이터가 이메일 로그인 경우 상기 이메일 로그에 대한 규칙 기반 그룹화를 수행하는데 사용되는 그룹화 규칙은 개인 이메일 주소 및 개인이 클릭한 이메일에 포함된 광고 링크 정보를 포함하는 로그 분석 시스템.
제5항 내지 제9항 중 어느 한 항에 있어서,
상기 문서 기반의 데이터베이스는 몽고(Mongo) DB이고,
상기 분산 처리 관리부는 상기 몽고 DB와 상호 연관되어 동작하는 R 프로그래밍 언어를 통해 구축되는
것을 특징으로 하는 로그 분석 시스템.