KR20160071746A - 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법 - Google Patents

규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법 Download PDF

Info

Publication number
KR20160071746A
KR20160071746A KR1020140179277A KR20140179277A KR20160071746A KR 20160071746 A KR20160071746 A KR 20160071746A KR 1020140179277 A KR1020140179277 A KR 1020140179277A KR 20140179277 A KR20140179277 A KR 20140179277A KR 20160071746 A KR20160071746 A KR 20160071746A
Authority
KR
South Korea
Prior art keywords
log data
grouping
rule
analysis
log
Prior art date
Application number
KR1020140179277A
Other languages
English (en)
Other versions
KR101679050B1 (ko
Inventor
허의남
김용현
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Priority to KR1020140179277A priority Critical patent/KR101679050B1/ko
Publication of KR20160071746A publication Critical patent/KR20160071746A/ko
Application granted granted Critical
Publication of KR101679050B1 publication Critical patent/KR101679050B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법이 개시된다.
이 방법에서, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙과의 매칭을 위해 입력되는 로그 데이터들을 가공하고, 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지가 판단된다. 그 후, 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리가 선택된다. 계속해서, 상기 로그 데이터가 매칭되는 그룹화 규칙 또는 상기 생성되는 그룹화 규칙에 대해 문서 기반의 데이터베이스에서 검색되고, 검색되는 그룹에 해당되는 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터가 저장된다.

Description

개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법{PERSONALIZED LOG ANALYSIS SYSTEM AND RULE BASED LOG DATA GROUPING METHOD IN THE SAME}
본 발명은 개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법에 관한 것이다.
대부분 IT 기업에서 로그 데이터 관리를 위해 사용하는 데이터베이스는 관계형 데이터베이스인 MySQL로 일반적인 통계 분석을 목적으로 한다.
그러나, 개인 맞춤형 분석은 일반적인 통계 분석에서 더 나아가 비즈니스 목적을 고려하는 것으로, 각 고객에게 해당되는 데이터를 분석하고 가치있는 결과를 얻을 수 있다.
또한, 기존 시스템에서는 데이터 분석가들이 주로 사용하는 SAS, R 등의 분석 전문 툴을 대부분 적용하지 않아, 데이터 분석의 정확도가 떨어지고, 맞춤형 분석을 고려하지 않은 데이터 저장 구조로 인해 데이터 전처리 과정 및 개인 맞춤형 분석에서 오버헤드가 발생할 수 있다.
데이터 전처리 기술은 데이터 마이닝의 중요한 단계로 크게 데이터 정제, 데이터 통합, 데이터 축소, 데이터 변환의 네 가지로 분류되며, 분석 시 오류를 최소화하고 분석 결과의 정확도와 분석 성능을 높일 수 있기에 데이터 분석전에 반드시 수행해야 하는 중요한 단계이다.
종래 빅데이터를 관리하기 위해 대부분의 기업에서는 관계형 데이터베이스를 이용한다. 이러한 관계형 데이터베이스는 테이블 구조로 정해진 스키마의 데이터만을 수용할 수 있다.
따라서, 종래의 분석 시스템에서는 다양한 형태로 생성되는 로그 기반 빅데이터를 수용하기 어려우며, 또한 데이터 전처리를 위해서는 전처리 대상 데이터를 메모리에 로드해야하기 때문에 상당한 오버헤드를 발생시킬 수 있다. 데이터를 전처리하고 분석하기 위해서는 분석할 데이터 전체를 탐색해야 하지만, 분석 목적에 따라 분류되지 않고, 단순히 종류에 따라 분류된 관계형 데이터베이스에서는 높은 성능을 기대하기 어렵다. 특히, 개인 맞춤형 분석에서는 저장된 데이터들로부터 각 고객에게 해당되는 데이터만을 추출하여 전처리 및 분석을 수행해야 하기 때문에, 현재의 분석 시스템에서는 쿼리를 통한 전체 데이터베이스를 탐색하는 과정에서 오버헤드가 발생할 수 있다.
본 발명이 이루고자 하는 기술적 과제는 개인 맞춤형 로그 분석시 오버헤드를 감소시킬 수 있는 개인 맞춤형 로그 분석 시스템 및 그 시스템에서의 규칙 기반 로그 데이터 그룹화 방법을 제공한다.
본 발명의 한 특징에 따른 로그 데이터 그룹화 방법은,
로그 분석 시스템이 규칙 기반으로 로그 데이터를 그룹화하는 방법으로서, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙과의 매칭을 위해 입력되는 로그 데이터들을 가공하고, 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 단계; 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 단계; 상기 로그 데이터가 매칭되는 그룹화 규칙 또는 상기 생성되는 그룹화 규칙에 대해 문서 기반의 데이터베이스에서 검색하는 단계; 및 검색되는 그룹에 해당되는 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 단계를 포함한다.
여기서, 상기 그룹화를 수행하는 단계는, 상기 로그 데이터에 대해 군집 분석을 수행하는 단계; 상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 단계; 상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 단계; 및 상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 단계를 포함한다.
또한, 상기 군집 분석은 평균오차제곱합(Mean Square Error:MSE) 방식을 이용하여 수행되는 것을 특징으로 한다.
또한, 상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 저장되는 로그 데이터의 개수에 따라 전체 로그 데이터 개수 대비 상기 로그 데이터의 속성 값으로부터 추출되는 요소 개수의 비율을 설정하는 것을 특징으로 한다.
본 발명의 다른 특징에 따른 로그 분석 시스템은,
수집되는 로그 데이터에 대해, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙을 사용한 규칙 기반의 그룹화를 수행하여 문서 기반의 데이터베이스에 저장하는 그룹화부; 상기 문서 기반의 데이터베이스에 그룹화되어 저장되어 있는 로그 데이터에 대해 로그 분석을 위한 데이터 마이닝(data mining) 및 워크플로우(workflow) 최적화를 수행하는 전처리부; 상기 전처리부에 의해 최적화된 워크플로우를 사용하여 각 노드의 분석 모듈에게 작업을 분산 할당하는 분산 처리 관리부; 및 상기 각 분석 모듈을 통해 분석된 결과를 통해서 분석 결과가 빅앤서(Big Answer)인지를 결정하는 빅앤서 검증부를 포함한다.
여기서, 상기 그룹화부는, 로그 데이터를 상기 그룹화 규칙과의 매칭을 위해 가공하는 파싱부; 상기 파싱부에 의해 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 규칙 매칭부; 상기 규칙 매칭부에서 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 규칙 생성부; 상기 규칙 매칭부에서 판단되는 그룹화 규칙 또는 상기 규칙 생성부에서 생성되는 그룹화 규칙에 대해 상기 문서 기반의 데이터베이스에서 검색하는 그룹 검색부; 및 상기 그룹 검색부에 의해 검색되는 그룹에 해당되는 상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 로그 데이터 저장부를 포함한다.
또한, 상기 규칙 생성부는, 상기 로그 데이터에 대해 군집 분석을 수행하는 군집 분석기; 상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 속성 순위 결정기; 상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 요소 분석기; 및 상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 카테고리 선택기를 포함한다.
또한, 상기 그룹화 규칙을 저장하는 그룹화 규칙 저장부를 더 포함하고, 상기 카테고리 선택기는 선택되는 카테고리 정보와 함께 상기 로그 데이터의 종류, 상기 군집 분석의 결과 및 상기 요소 분석의 결과를 새로운 그룹화 규칙으로써 상기 그룹화 규칙 저장부로 전달하여 저장되도록 하는 것을 특징으로 한다.
또한, 상기 로그 데이터가 이메일 로그인 경우 상기 이메일 로그에 대한 규칙 기반 그룹화를 수행하는데 사용되는 그룹화 규칙은 개인 이메일 주소 및 개인이 클릭한 이메일에 포함된 광고 링크 정보를 포함한다.
또한, 상기 문서 기반의 데이터베이스는 몽고(Mongo) DB이고, 상기 분산 처리 관리부는 상기 몽고 DB와 상호 연관되어 동작하는 R 프로그래밍 언어를 통해 구축되는 것을 특징으로 한다.
본 발명에 따르면, 데이터 전처리 및 개인 맞춤형 로그 분석 수행 시 사업 목적에 따라 데이터 저장 구조를 구성하여 기존 기술에서 발생할 수 있는 오버헤드를 줄일 수 있다.
따라서, 향상된 맞춤형 분석 성능으로 보다 다양한 로그 기반 빅데이터 분석을 수행하고, 사업 목적이 접목된 데이터 저장 구조를 이용한 효율적인 정보 관리가 가능하다.
도 1은 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템을 개략적으로 도시한 도면이다.
도 2는 도 1에 도시된 그룹화부의 구체적인 구성을 도시한 도면이다.
도 3은 도 2에 도시된 규칙 생성부의 구체적인 구성을 도시한 도면이다.
도 4는 도 1의 로그 분석 시스템에서 수집되는 로그 데이터의 일 예를 도시한 도면이다.
도 5는 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법의 흐름도이다.
도 6은 도 1의 로그 분석 시스템에서 수집되는 로그 데이터가 전송 로그인 경우를 나타낸 도면이다.
도 7은 도 1의 로그 분석 시스템에서 수집되는 로그 데이터가 응답 로그인 경우를 나타낸 도면이다.
도 8은 도 1의 로그 분석 시스템에서 수집되는 로그 데이터가 웹 로그인 경우를 나타낸 도면이다.
도 9는 도 1의 로그 분석 시스템이 도 6, 도 7 및 도 8에 도시된 로그 데이터에 대해 고객의 이메일 주소를 그룹화 규칙으로 하여 저장한 컬렉션의 예를 도시한 도면이다.
도 10은 일반적인 저장 방법과 본 발명의 실시예에 따른 그룹화 방법에 따른 처리 시간을 나타낸 그래프이다.
도 11은 일반적인 저장 방법과 본 발명의 실시예에 따른 그룹화 방법에 따른 32만건의 이메일 로그에 대한 각 처리 과정의 시간을 나타낸 그래프이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 도면을 참조하여 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템(10)을 개략적으로 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 로그 분석 시스템(10)은 대시보드(Dash Board)(100), 그룹화 규칙 저장부(200), 분석 규칙 저장부(300), 그룹화부(400), 문서 기반 데이터베이스((Document-based database(DB))(500), 전처리부(600), 분산 처리 관리부(700) 및 빅앤서 검증부(Big Answer Verifier)(800)를 포함한다.
대시보드(100)는 로그 분석 시스템(10)의 관리자에 대한 사용자 인터페이스 기능을 수행하며, 관리자가 그룹화 규칙 저장부(700)에 저장된 그룹화 규칙과 분석 규칙 저장부(800)에 저장된 로그 데이터 분석 규칙을 관리할 수 있는 기능을 제공한다.
또한, 대시보드(100)는 관리자가 워크플로우(workflow)를 생성할 수 있는 기능을 제공한다. 이러한 워크플로우는 분석용 로그 데이터, 로그 종류, 분석 목적, 시스템 환경 등에 따라 달라질 수 있다.
대시보드(100)를 통해 생성되는 워크플로우의 메타데이터(metadata)는 추후 전처리부(600)에서 최적화될 수 있도록 특정 메모리(도시되지 않음)에 저장될 수 있다. 이러한 워크플로우 메타데이터에는 전체 처리 시간, 분석된 로그 개수 및 할당된 노드 개수 등의 정보가 포함된다.
그룹화 규칙 저장부(200)는 로그 데이터를 그룹화하는데 사용되는 그룹화 기준 규칙을 저장한다.
분석 규칙 저장부(300)는 데이터 마이닝(data mininig)과 워크플로우의 최적화를 위해 사용되는 분석 규칙을 저장한다. 여기서, 데이터 마이닝은 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것으로 정의되며, 보다 구체적으로는, 의미 있는 패턴과 규칙을 발견하기 위해 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 것을 의미한다.
그룹화부(400)는 개임 맞춤형 로그 분석을 위해 수집된 로그 데이터에 대해 그룹화 규칙 저장부(200)에 저장된 그룹화 규칙을 사용하여 그룹화를 수행한 후 문서 기반 DB(500)에 저장한다. 이러한 그룹화부(400)에 대해서는 아래에서 보다 상세하게 설명될 것이다.
문서 기반 DB(500)는 그룹화부(400)에 의해 그룹화되는 로그 데이터들을 문서 기반으로 저장하는 데이터베이스이다. 이러한 문서 기반 DB(500)는 정형화된 데이터는 물론 비정형화된 데이터 등 다양한 데이터를 관리하는 데이터베이스인 NoSQL(Not obly Structrued Query Language) 데이터베이스 중 하나의 형태인 문서 기반 NoSQL 데이터베이스이며, 일 예로는 몽고(Mongo) DB가 사용될 수 있다. 이러한 몽고 DB는 이미 잘 알려져 있는 데이터베이스로, 컬렉션(collection)과 자유 스키마(schema-free)와 같은 특징을 가지고 있다. 여기서 컬렉션은 몽고 DB에서 사용되는 논리 단위이다. 이와 같이, 몽고 DB가 문서 기반 DB(500)로 사용되면 그룹화부(400)에서 규칙 기반 데이터 그룹화 방법으로 그룹화된 로그 데이터가 몽고 DB(500)의 컬렉션으로 그룹화되어 저장될 것이다. 이러한 몽고 DB에 대해서는 이미 잘 알려져 있으며 여기에서는 구체적인 설명을 생략한다.
전처리부(600)는 분석 규칙 저장부(300)에 저장된 분석 규칙을 사용하여 문서 기반 DB(500)에 그룹화되어 저장되어 있는 로그 데이터들을 분석용 로그 데이터들로 최적화한다. 즉, 전처리부(600)는 데이터 분석을 위한 데이터 마이닝과 워크플로우 최적화를 수행한다. 이를 위해 전처리부(600)는 데이터 정제(refinement), 데이터 통합(integration), 데이터 축소(reduction) 및 데이터 변환(transformation)라는 4가지 과정을 수행한다. 데이터 정제 과정은 결측치(missing value) 또는 잡음(noise)에 대한 처리 과정이고, 데이터 통합 과정은은 중복된 데이터의 통합 과정이며, 데이터 축소 과정은 데이터 큐브로의 통합을 통해 데이터 크기를 축소시키는 과정이고, 데이터 변환 과정은 범용의 ETL(Extraction/Transformation/Loading) 도구와 같은 노멀라이징(normalizing) 과정이다. 이러한 전처리 과정에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 내용에 대한 설명을 생략한다.
분산 처리 관리부(700)는 전처리부(600)에 의해 최적화된 워크플로우를 사용하여 각 노드의 분석 모듈(900)에게 작업을 할당한다. 즉, 분산 처리 관리부(700)는 데이터베이스 탐색 및 스케줄링을 수행한다. 이를 위해, 분산 처리 관리부(700)는 데이터베이스 목록과 통계 프로그램 언어, 예를 들어 R 프로그래밍 언어와의 연결관계와 같은 각 노드의 상태를 관리한다. 분산 처리 관리부(700)는 최적화된 워크플로우에 따라서 로그가 저장된 데이터베이스를 탐색한다. 그리고, 분산 처리 관리부(700)는 부하 균형(load balance)를 위해 워크플로우를 스케줄링한다. 여기서, R 프로그래밍 언어는 통계 계산을 위한 프로그래밍 언어이자 소프트웨어 환경을 말하며, 이에 대해서는 이미 잘 알려져 있으므로 구체적인 설명을 생략한다.
본 발명의 실시예에서는 분산 처리 관리부(700)를 구축하기 위해 몽고 DB와 R 프로그래밍 언어를 사용한다. 몽고 DB는 로그 데이터를 관리하기 위해서만 사용된다. 분산 분석은 R 프로그래밍 언어를 사용하여 수행된다. 따라서, 몽고 DB와 R 프로그래밍 언어는 각 노드에 설치되고 분산된 분석을 위해 상호 보완적으로 동작된다. 데이터베이스 탐색에 대한 오버헤드를 감소시키기 위해, 분산 처리 관리부(700)는 각 몽고 DB의 데이터베이스와 컬렉션 목록을 저장한다. 그리고, R 프로그래밍 언어는 'RServe'와 'RSclient' 패키지를 사용하여 서버-클라이언트 관계로 통신할 수 있다. 따라서, 본 발명의 실시예에서는 몽고 DB와 R 프로그래밍 언어들 사용하여 분산된 분석 환경을 구축할 수 있다.
빅앤서 검증부(800)는 각 분석 모듈(900)을 통해 분석된 결과를 통해서 분석 결과가 빅앤서인지의 여부를 결정한다. 여기서, 빅앤서는 빅데이터 분석에서 중요한 분석 결과를 의미한다.
빅앤서 검증부(800)는 본 발명의 실시예에 따른 개인 맞춤형 로그 분석 시스템(10)에서 '중요한 결과인가"에 관한 분석 결과를 결정한다.
빅앤서 검증부(800)는 분석 과정에 관한 메타데이터를 생성한다. 메타데이터에는 전체 처리 시간, 분석 환경, 분석 요청 정보 등과 같은 정보가 포함된다. 이러한 메타데이터는 개인 맞춤형 로그 분석 시스템(10)의 최적화와 빅앤서 검증부(800)에 의한 판단 결과의 정확성을 개선하기 위한 분석 히스토리로써 사용된다.
상기에서 도 1에 예시된 개인 맞춤형 로그 분석 시스템(10)의 각 구성요소(100, 200, 300, 400, 500, 600, 700, 800, 900) 또는 그 들의 부분적 결합 구성은 소프트웨어를 실행하는 하드웨어로써 구성되거나, 또는 컴퓨팅(computing) 장치에서 수행되는 하나 이상의 어플리케이션 프로그램으로써 구성될 수 있다. 물론, 하드웨어와 소프트웨어가 결합되어 구성될 수도 있다. 소프트웨어로써 구성된 경우에는, 상기 예시된 구성요소들(100, 200, 300, 400, 500, 600, 700, 800, 900)의 전부 또는 일부의 기능에 대해 구현된 어플리케이션 프로그램은, 저장매체에 기록되어 그 매체의 기록신호를 판독할 수 있는 장치에 전달될 수도 있다. 또한, 도 1에 예시된 개인 맞춤형 로그 분석 시스템(10)은 하나의 통합된 서버(server)로써 구성될 수도 있다.
다음, 도 1에 도시된 그룹화부(400)에 대해 구체적으로 설명한다.
도 2는 도 1에 도시된 그룹화부(400)의 구체적인 구성을 도시한 도면이다.
도 2에 도시된 바와 같이, 그룹화부(400)는 파싱(parsing)부(410), 규칙 매칭부(420), 그룹 검색부(430), 로그 데이터 저장부(440) 및 규칙 생성부(450)를 포함한다.
파싱부(410)는 입력되는 로그 데이터들을 그룹화 규칙 저장부(200)에 저장되어 있는 그룹화 규칙과 매칭시킬 수 있는 자료로 가공한다.
규칙 매칭부(420)는 그룹 규칙 저장부(200)에 저장되어 있는 그룹화 규칙 중에서 파싱부(410)에 의해 가공된 로그 데이터에 매칭되는 그룹화 규칙이 있는지를 판단한다.
그룹 검색부(430)는 규칙 매칭부(420)에 의해 로그 데이터에 매칭되는 그룹화 규칙이 있는 것으로 판단되는 경우 매칭되는 규칙의 그룹을 문서 기반 DB(500)에서 검색한다.
로그 데이터 저장부(440)는 그룹 검색부(430)에 의해 검색된 문서 기반 DB(500)의 그룹에 해당되는 카테고리 컬렉션에 로그 데이터를 저장한다.
규칙 생성부(450)는 규칙 매칭부(420)에 의해 로그 데이터에 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우에 동작하며, 로그 데이터 분석을 통해 로그 데이터에 해당되는 새로운 그룹화 규칙을 결정하고 결정되는 그룹화 규칙에 해당되는 카테고리로 분류하여 그룹화를 수행한다.
규칙 생성부(450)는 로그 데이터 분석에 의해 새로이 결정되는 그룹화 규칙을 그룹화 규칙 저장부(200)로 전달하여 새로운 그룹화 규칙으로 저장되도록 한다.
또한, 규칙 생성부(450)는 새로운 그룹화 규칙에 해당되는 카테고리 정보를 그룹 검색부(430)로 전달하여 이에 해당되는 카테고리 컬렉션이 문서 기반 DB(500)에 있는지를 검색하고, 해당되는 카테고리 컬렉션이 없는 경우 이러한 사실을 로그 데이터 저장부(440)로 전달한다.
로그 데이터 저장부(440)는 규칙 생성부(450)로부터 로그 데이터를 그룹화하여 저장할 카테고리에 해당되는 컬렉션이 문서 기반 DB(500)에 없는 것으로 전달받는 경우 문서 기반 DB(500)로 해당 카테고리에 해당되는 카테고리 컬렉션을 설정하도록 한 후 설정되는 카테고리 컬렉션에 로그 데이터를 저장한다.
이하, 규칙 생성부(450)가 로그 데이터를 분석하여 새로운 그룹화 규칙을 생성하는 내용에 대해 구체적으로 설명한다.
도 3은 도 2에 도시된 규칙 생성부(450)의 구체적인 구성을 도시한 도면이다.
도 3에 도시된 바와 같이, 규칙 생성부(450)는 군집 분석기(451), 속성 순위 결정기(452), 요소 분석기(453) 및 카테고리 선택기(454)를 포함한다.
군집 분석기(451)는 규칙 매칭부(420)를 통해 로그 데이터들을 입력받아서 군집 분석을 수행한다. 여기서, 군집 분석은 어떤 개체나 대상물을 유사성(similarity) 또는 거리(distance)에 의하여 비슷한 특성을 가진 개체들이 함께 그룹지어지도록 몇 개의 군집으로 집단화하는 분석 기법으로, 이렇게 집단화하는 이유는 각각의 집단의 특성을 파악하기 위함이다. 그리고, 이러한 군집 분석에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.
도 4를 참조하면, 예시로 수집된 로그 데이터들이 속성으로 A속성, B속성 및 C속성을 가지고 있는 경우 군집 분석기(451)는 속성 A, B, C에 대해서 A-B, B-C, A-C별로 군집 분석을 수행한다. 이 때, 군집 분석기(451)는 일예로 평균오차제곱합(Mean Square Error:MSE)을 이용하여 군집 분석을 수행한다.
속성 순위 결정기(452)는 군집 분석기(451)에 의해 수행되는 군집 분석 결과에 따라 로그 데이터들의 속성별 순위를 나열한다.
도 4의 예를 참조하여, 군집 분석기(451)에 의한 군집 분석 결과, A-C > A-B > B-C라는 결과가 도출되었다면, 속성 순위 결정기(452)는 속성 순위를 A-C-B 순으로 결정할 수 있다.
요소 분석기(453)는 속성 순위 결정기(452)에 의해 속성 순위로 나열되는 속성 순서에 기초하여 로그 데이터들에 대한 요소 분석을 수행한다. 이 때, 요소 분석기(453)는 로그 데이터들의 속성 값들로부터 요소를 추출하고 전체 로그 개수 대비 요소의 비율을 구한다. 이러한 요소 비율이 높을 경우 너무 많은 컬렉션이 생성되지만, 낮을 경우에는 카테고리의 개수가 적기 때문에 각 컬렉션에 저장되는 로그 데이터의 개수가 증가하게 되므로 분석 목적에 따라 2차 분석이 필요하게 된다. 따라서, 분석 목적에 따라 요소 비율을 설정하여 적절한 로그 데이터 그룹화가 수행되도록 한다.
카테고리 선택기(454)는 요소 분석기(453)에서의 요소 분석 결과에 따라 문서 기반 DB(500)에서 해당되는 카테고리를 선택하여 그 결과를 그룹 검색부(430)로 전달한다. 여기서, 카테고리 선택기(454)는 선택된 카테고리 정보와 함께 로그 데이터의 종류, 군집 분석 결과, 요소 분석 결과를 새로운 그룹화 규칙으로써 그룹화 규칙 저장부(200)로 전달하여 저장되도록 한다. 따라서, 이 후의 로그 데이터들에 대한 그룹화시에 이렇게 저장된 새로운 그룹화 규칙이 적용될 수 있다.
이하, 도면을 참조하여 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법에 대해 설명한다.
도 5는 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법의 흐름도이다.
도 5를 참조하면, 먼저, 수집된 로그 데이터가 로그 데이터 파일 등을 통해 파싱부(410)로 입력되면(S100), 파싱부(410)는 입력되는 로그 데이터들을 그룹화 규칙 저장부(200)에 저장되어 있는 그룹화 규칙과 매칭시킬 수 있는 로그 데이터로 가공하는 로그 데이터 파싱을 수행한다(S110).
그 후, 규칙 매칭부(420)는 파싱된 로그 데이터에 대해 그룹 규칙 저장부(200)에 저장되어 있는 그룹화 규칙 중에서 매칭되는 그룹화 규칙이 있는지를 판단한다(S120).
만약 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우에는 규칙 생성부(450)의 군집 분석기(451)가 로그 데이터들에 대해 평균오차제곱합 방식에 따른 군집 분석을 수행한다(S130).
이러한 군집 분석 후에 속성 순위 결정기(452)는 군집 분석에 따른 속성 순위를 결정하여 나열하고(S140), 요소 분석기(453)는 나열된 속성 순위에 기초하여 로그 데이터들에 대한 요소 분석을 수행하면(S150), 요소 분석 결과에 따라 카테고리 선택기(454)가 로그 데이터가 그룹화될 카테고리를 선택한다(S160). 이 때, 카테고리 선택기(454)는 선택된 카테고리 정보와 함께 군집 분석 결과 및 요소 분석 결과를 새로운 그룹화 규칙으로써 그룹화 규칙 저장부(200)에 저장할 수 있다.
다음, 그룹 검색부(430)는 선택된 카테고리에 해당되는 그룹을 문서 기반 DB(500)에서 검색하고(S170), 로그 데이터 저장부(440)가 검색된 카테고리의 컬렉션에 해당 로그 데이터를 저장한다(S180). 이 때, 상기 단계(S160)에서 선택된 카테고리에 해당되는 컬렉션이 문서 기반 DB(500)에 없는 경우에는 문서 기반 DB(500)가 해당되는 카테고리 컬렉션을 생성한 후에 해당 로그 데이터를 저장한다.
한편, 상기 단계(S120)에서 매칭되는 그룹화 규칙이 있는 것으로 판단되는 경우에는 바로 그룹 검색부(430)가 매칭된 그룹화 규칙에 해당되는 그룹을 문서 기반 DB(500)에서 검색하고(S170), 로그 데이터 저장부(440)가 검색된 그룹의 카테고리 컬렉션에 해당 로그 데이터를 저장하게 된다(S180).
상기한 바와 같이, 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법으로 인해 데이터 전처리시의 오버헤드가 감소될 수 있다. 이러한 오버헤드는 쿼리(query) 경로의 거리로 인해 일반적인 분석에 비해 개인 맞춤형 로그 분석에서 더 높다. 따라서, 상기한 본 발명의 실시예에 따른 개인 맞춤형 로그 분석에서는 로그 데이터가 규칙 기반의 데이터 그룹화를 통해 저장됨으로써 보다 짧은 쿼리 경로의 거리를 가질 수 있게 된다.
이하, 상기한 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법의 일 예에 대해 설명한다.
예를 들어, 이메일 로그는 도 6에 도시된 바와 같은 전송 로그(Send log), 도 7에 도시된 바와 같은 응답 로그(Response log), 도 8에 도시된 바와 같은 웹 로그(Web log) 등 3가지 종류로 구분될 수 있다.
전송 로그는 예를 들어 고객에게 이메일을 전송함으로써 생성되고, 응답 로그는 고객에게 전송된 이메일에 대해 고객이 회신한 이메일을 수신함으로써 생성되며, 웹 로그는 고객의 이메일을 열거나 이메일에 포함된 광고를 클릭하는 경우에 생성된다. 따라서, 전송 로그에는 전송 시간, 고객의 이메일 주소, 전송 결과 등의 정보가 기재되고, 응답 로그에는 응답 시간, 고객의 이메일 주소, 응답 결과 등의 정보가 기재되며, 웹 로그에는 광로 링크의 클릭 여부, 광고의 클릭 시간, 이메일을 읽은 시간 등의 정보가 기재된다.
대부분의 이메일 로그 분석에서는 전체 이메일 전송 성공률, 전송 실패율, 오류 코드 등에 대해 전체 이메일 로그가 분석된다.
그러나, 개인 맞춤형 로그 분석은 일반적인 이메일 로그 분석과 전혀 다르다. 개인 맞춤형 로그 분석에서는 사업 목적에 따라 이메일 전송 성공률이나 오류 코드 등보다는 각 고객의 정보가 더 중요하다.
따라서, 개인 맞춤형 로그 분석에서는 "고객이 언제 이메일을 읽었는지?" 또는 "고객이 관심을 갖는 광고가 무엇인지?"등과 관련하여 각 고객의 이메일 로그가 분석되어야 한다.
따라서, 본 발명의 실시예에 따른 개인 맞춤형 로그 분석을 위한 규칙 기반 로그 데이터 그룹화 방법에서 사용되는 그룹화 규칙은 각 고객에게 개인 맞춤형 서비스를 제공하기 위해 고객의 이메일 주소와 고객이 클릭한 광고 링크 정보 등이 될 수 있다.
상기한 전송 로그, 응답 로그 및 웹 로그에 대해 고객의 이메일 주소(user_Email)를 그룹화 규칙으로 하여 문서 기반 DB(500)의 이메일 주소 카테고리 컬렉션에 그룹화되어 저장된 예가 도 9에 도시되어 있다.
본 발명의 실시예에 따른 고객 맞춤형 로그 분석 시스템(10)은 이러한 그룹화 규칙을 사용하여 개인 맞춤형 광고가 포함된 이메일을 제공할 수가 있게 된다.
도 10은 일반적인 저장 방법(General storing method)과 본 발명의 실시예에 따른 그룹화 방법(Attribute grouping method)에 따른 처리 시간을 나타낸 그래프이다.
도 10에서 전체 처리 시간은 저장 시간, 전처리 시간 및 분석 시간을 포함한다. 본 발명의 실시예에 따른 그룹화 방법이 모든 경우에서 높은 성능을 나타내고 있다. 8만개 이상의 로그 데이터 구간에서는, 로그 데이터가 단일 노드의 몽고 DB에서 평가된 관계로 전체 처리 시간이 두 가지 방법 모두에서 증가하고 있다. 만약 두 가지 방법이 분산 처리 방식으로 평가되었다면 전체 처리 시간이 보다 짧아질 것이다. 그러나, 본 발명의 실시예에 따른 그룹화 방법은 8만개 이상의 로그 데이터 구간에서 여전히 높은 성능을 보이고 있다.
도 11은 일반적인 저장 방법과 본 발명의 실시예에 따른 그룹화 방법에 따른 32만건의 이메일 로그에 대한 각 처리 과정의 시간을 나타낸 그래프이다. 여기서, 각 처리 과정은 전송 로그를 저장하는 과정, 웹 로그를 저장하는 과정, 전처리를 포함하는 분석 과정을 포함한다. 도 11을 참조하면, 상세한 성능 비교에서는 본 발명의 실시예에 따른 그룹화 방법이 그룹화 과정으로 인해 저장에서 조금 더 시간이 걸리는데 반해, 분석 시간은 상당히 많이 단축됨을 확인할 수 있다.
이와 같이, 관계형 데이터베이스에서 단순히 로그의 종류에 따라 분류되는 데이터간 관계를 하나의 카테고리 컬렉션에 저장하여 개인 맞춤형 분석 수행 시, 해당 카테고리 컬렉션만을 참조하여 데이터를 분석하기 때문에 상대적으로 짧은 쿼리 경로 거리로 데이터를 탐색할 수 있다. 따라서 로그 기반 빅데이터 분석에 있어 본 발명을 이용하면, 앞서 언급한 오버헤드를 줄이고 전체 분석 성능이 향상된다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (10)

  1. 로그 분석 시스템이 규칙 기반으로 로그 데이터를 그룹화하는 방법에 있어서,
    개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙과의 매칭을 위해 입력되는 로그 데이터들을 가공하고, 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 단계;
    상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 단계;
    상기 로그 데이터가 매칭되는 그룹화 규칙 또는 상기 생성되는 그룹화 규칙에 대해 문서 기반의 데이터베이스에서 검색하는 단계; 및
    검색되는 그룹에 해당되는 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 단계
    를 포함하는 로그 데이터 그룹화 방법.
  2. 제1항에 있어서,
    상기 그룹화를 수행하는 단계는,
    상기 로그 데이터에 대해 군집 분석을 수행하는 단계;
    상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 단계;
    상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 단계; 및
    상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 단계
    를 포함하는 로그 데이터 그룹화 방법.
  3. 제2항에 있어서,
    상기 군집 분석은 평균오차제곱합(Mean Square Error:MSE) 방식을 이용하여 수행되는 것을 특징으로 하는 로그 데이터 그룹화 방법.
  4. 제2항에 있어서,
    상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 저장되는 로그 데이터의 개수에 따라 전체 로그 데이터 개수 대비 상기 로그 데이터의 속성 값으로부터 추출되는 요소 개수의 비율을 설정하는 것을 특징으로 하는 로그 데이터 그룹화 방법.
  5. 수집되는 로그 데이터에 대해, 개인 맞춤형 서비스 제공을 위한 개인 정보 및 개인 관심 정보에 기초하여 구성되는 그룹화 규칙을 사용한 규칙 기반의 그룹화를 수행하여 문서 기반의 데이터베이스에 저장하는 그룹화부;
    상기 문서 기반의 데이터베이스에 그룹화되어 저장되어 있는 로그 데이터에 대해 로그 분석을 위한 데이터 마이닝(data mining) 및 워크플로우(workflow) 최적화를 수행하는 전처리부;
    상기 전처리부에 의해 최적화된 워크플로우를 사용하여 각 노드의 분석 모듈에게 작업을 분산 할당하는 분산 처리 관리부; 및
    상기 각 분석 모듈을 통해 분석된 결과를 통해서 분석 결과가 빅앤서(Big Answer)인지를 결정하는 빅앤서 검증부
    를 포함하는 로그 분석 시스템.
  6. 제5항에 있어서,
    상기 그룹화부는,
    로그 데이터를 상기 그룹화 규칙과의 매칭을 위해 가공하는 파싱부;
    상기 파싱부에 의해 가공된 로그 데이터가 매칭되는 그룹화 규칙이 있는지를 판단하는 규칙 매칭부;
    상기 규칙 매칭부에서 상기 로그 데이터가 매칭되는 그룹화 규칙이 없는 것으로 판단되는 경우 로그 데이터 분석을 수행하여 로그 데이터에 매칭되는 그룹화 규칙을 생성하고, 생성되는 그룹화 규칙에 해당되는 카테고리를 선택하는 규칙 생성부;
    상기 규칙 매칭부에서 판단되는 그룹화 규칙 또는 상기 규칙 생성부에서 생성되는 그룹화 규칙에 대해 상기 문서 기반의 데이터베이스에서 검색하는 그룹 검색부; 및
    상기 그룹 검색부에 의해 검색되는 그룹에 해당되는 상기 문서 기반의 데이터베이스의 카테고리 컬렉션에 상기 로그 데이터를 저장하는 로그 데이터 저장부
    를 포함하는 로그 분석 시스템.
  7. 제6항에 있어서,
    상기 규칙 생성부는,
    상기 로그 데이터에 대해 군집 분석을 수행하는 군집 분석기;
    상기 군집 분석의 결과에 따라 로그 데이터의 속성별 순위를 결정하는 속성 순위 결정기;
    상기 로그 데이터의 속설별 순위에 따라 로그 데이터에 대한 요소 분석을 수행하는 요소 분석기; 및
    상기 문서 기반의 데이터베이스에서 상기 요소 분석의 결과에 따라 해당되는 카테고리를 선택하는 카테고리 선택기
    를 포함하는 로그 분석 시스템.
  8. 제6항에 있어서,
    상기 그룹화 규칙을 저장하는 그룹화 규칙 저장부를 더 포함하고,
    상기 카테고리 선택기는 선택되는 카테고리 정보와 함께 상기 로그 데이터의 종류, 상기 군집 분석의 결과 및 상기 요소 분석의 결과를 새로운 그룹화 규칙으로써 상기 그룹화 규칙 저장부로 전달하여 저장되도록 하는
    것을 특징으로 하는 로그 분석 시스템.
  9. 제6항에 있어서,
    상기 로그 데이터가 이메일 로그인 경우 상기 이메일 로그에 대한 규칙 기반 그룹화를 수행하는데 사용되는 그룹화 규칙은 개인 이메일 주소 및 개인이 클릭한 이메일에 포함된 광고 링크 정보를 포함하는 로그 분석 시스템.
  10. 제5항 내지 제9항 중 어느 한 항에 있어서,
    상기 문서 기반의 데이터베이스는 몽고(Mongo) DB이고,
    상기 분산 처리 관리부는 상기 몽고 DB와 상호 연관되어 동작하는 R 프로그래밍 언어를 통해 구축되는
    것을 특징으로 하는 로그 분석 시스템.
KR1020140179277A 2014-12-12 2014-12-12 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법 KR101679050B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140179277A KR101679050B1 (ko) 2014-12-12 2014-12-12 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140179277A KR101679050B1 (ko) 2014-12-12 2014-12-12 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20160071746A true KR20160071746A (ko) 2016-06-22
KR101679050B1 KR101679050B1 (ko) 2016-11-24

Family

ID=56364977

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140179277A KR101679050B1 (ko) 2014-12-12 2014-12-12 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101679050B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341096A (zh) * 2017-06-28 2017-11-10 百度在线网络技术(北京)有限公司 日志文件的生成方法和装置、计算机设备和存储介质
KR20190017222A (ko) * 2017-08-10 2019-02-20 주식회사 티맥스데이터 로그 데이터 분석을 이용한 데이터베이스 복구 속도 향상 기법 및 장치
KR20190077693A (ko) * 2017-12-26 2019-07-04 경희대학교 산학협력단 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법
KR102085608B1 (ko) * 2018-12-21 2020-03-06 주식회사 티맥스데이터 복구 서버 및 컴퓨터 프로그램
CN113722194A (zh) * 2021-08-02 2021-11-30 中移(杭州)信息技术有限公司 日志统计方法、装置、设备及存储介质
WO2024048908A1 (ko) * 2022-08-29 2024-03-07 네이버 주식회사 아이템 원부 플랫폼을 통해 정제된 아이템 정보를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2024048907A1 (ko) * 2022-08-29 2024-03-07 네이버 주식회사 아이템 원부 플랫폼을 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341096A (zh) * 2017-06-28 2017-11-10 百度在线网络技术(北京)有限公司 日志文件的生成方法和装置、计算机设备和存储介质
KR20190017222A (ko) * 2017-08-10 2019-02-20 주식회사 티맥스데이터 로그 데이터 분석을 이용한 데이터베이스 복구 속도 향상 기법 및 장치
KR20190077693A (ko) * 2017-12-26 2019-07-04 경희대학교 산학협력단 분산 클라우드 환경에서 실시간 데이터 처리의 지연 시간 최소화를 위한 지능적 데이터 전처리 시스템 및 방법
KR102085608B1 (ko) * 2018-12-21 2020-03-06 주식회사 티맥스데이터 복구 서버 및 컴퓨터 프로그램
CN113722194A (zh) * 2021-08-02 2021-11-30 中移(杭州)信息技术有限公司 日志统计方法、装置、设备及存储介质
CN113722194B (zh) * 2021-08-02 2024-05-24 中移(杭州)信息技术有限公司 日志统计方法、装置、设备及存储介质
WO2024048908A1 (ko) * 2022-08-29 2024-03-07 네이버 주식회사 아이템 원부 플랫폼을 통해 정제된 아이템 정보를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
WO2024048907A1 (ko) * 2022-08-29 2024-03-07 네이버 주식회사 아이템 원부 플랫폼을 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
KR101679050B1 (ko) 2016-11-24

Similar Documents

Publication Publication Date Title
KR101679050B1 (ko) 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법
US9262767B2 (en) Systems and methods for generating statistics from search engine query logs
US9626412B2 (en) Technique for recycling match weight calculations
US8812493B2 (en) Search results ranking using editing distance and document information
EP3591586A1 (en) Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
US20090281985A1 (en) Techniques for transforming and loading data into a fact table in a data warehouse
CN104424360A (zh) 用于访问源数据库中的一组数据表格的方法和系统
US20040249808A1 (en) Query expansion using query logs
EP2608074A2 (en) Systems and methods for merging source records in accordance with survivorship rules
US11442694B1 (en) Merging database tables by classifying comparison signatures
US9753977B2 (en) Method and system for managing database
US9552415B2 (en) Category classification processing device and method
CN112269816B (zh) 一种政务预约事项相关性检索方法
JP2005316999A (ja) エンハンストドキュメント取り出しのためのコンテンツ伝播
KR20090035545A (ko) 초대형 데이터베이스 상의 데이터 처리
US10171311B2 (en) Generating synthetic data
US20170147652A1 (en) Search servers, end devices, and search methods for use in a distributed network
CN103020289A (zh) 一种基于日志挖掘的搜索引擎用户个性化需求提供方法
KR100906454B1 (ko) 데이터베이스 로그 정보 관리 장치 및 방법
Azeroual et al. Combining data lake and data wrangling for ensuring data quality in CRIS
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN111125045B (zh) 一种轻量级etl处理平台
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking
JP2017537398A (ja) 一組の構造化データタームからの非構造化検索クエリの生成
US20090171921A1 (en) Accelerating Queries Based on Exact Knowledge of Specific Rows Satisfying Local Conditions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191028

Year of fee payment: 4