KR100898465B1

KR100898465B1 - 웹로그의 시계열 분석을 위한 데이터 저장 및 조회 방법그리고 상기 방법을 수행하는 시스템

Info

Publication number: KR100898465B1
Application number: KR1020070040782A
Authority: KR
Inventors: 김동욱; 박한돌; 정주원; 이윤식
Original assignee: 엔에이치엔(주)
Priority date: 2007-04-26
Filing date: 2007-04-26
Publication date: 2009-05-21
Also published as: JP2010525477A; KR20080096004A; JP5535062B2; WO2008133396A1

Abstract

본 발명은 웹로그(weblog)의 시계열 분석(time series analysis)을 위한 데이터 저장 및 조회 방법 그리고 상기 방법을 수행하는 시스템에 관한 것이다. 본 발명에 따른 웹로그 기반의 데이터 저장 및 조회 방법은, 웹로그 및 상기 웹로그의 발생시간에 기초하여 유동 필드 관계 데이터(floating field relation data)를 생성 및 유지하는 전처리 단계 및 사용자단말기를 통해 입력된 데이터 연산자(data operator)에 따라 상기 유동 필드 관계 데이터를 처리하는 단계를 포함한다.

웹로그(weblog), 데이터베이스, 시계열 분석(time series analysis), 유동 필드(floating field), 연산자

Description

웹로그의 시계열 분석을 위한 데이터 저장 및 조회 방법 그리고 상기 방법을 수행하는 시스템{DATA STORAGE AND INQUIRY METHOD FOR TIME SERIES ANALYSIS OF WEBLOG AND SYSTEM FOR EXECUTING THE METHOD}

도 1은 종래기술에 있어서, 관계형 데이터 모델을 기반으로 하는 관계형 데이터베이스의 문제점을 설명하기 위한 일례이다.

도 2는 본 발명의 제1 실시예에 있어서, 데이터 저장 및 조회 시스템의 개괄적인 모습을 도시한 일례이다.

도 3은 본 발명의 제1 실시예에 있어서, 웹로그 기반의 데이터 저장 및 조회 방법을 도시한 흐름도이다.

도 4는 본 발명에 따른, 조인 연산을 설명하기 위한 일례이다.

도 5는 본 발명에 따른, 스플릿 연산을 설명하기 위한 일례이다.

도 6은 본 발명의 제2 실시예에 있어서, 데이터 저장 및 조회 방법을 도시한 흐름도이다.

도 7은 본 발명의 제3 실시예에 있어서, 데이터 저장 및 조회 시스템의 내부 구성을 설명하기 위한 블록도이다.

<도면의 주요 부분에 대한 부호의 설명>

700: 데이터 저장 및 조회 시스템

701: 유동 필드 관계 데이터 생성부

702: 유동 필드 관계 데이터베이스

703: 데이터 연산자 처리부

본 발명은 웹로그(weblog)의 시계열 분석(time series analysis)을 위한 데이터 저장 및 조회 방법 그리고 상기 방법을 수행하는 시스템에 관한 것으로, 더욱 자세하게는 데이터 특히, 웹로그에 있어서 상기 웹로그의 시계열 분석에 적합한 데이터 저장 및 조회 방법 및 시스템에 관한 것이다.

현재 상용 데이터베이스 제품의 대다수는 관계형 데이터 모델(Relational Data Model)을 채용하고 있다. 기존의 데이터 모델로 이용되던 계층형 데이터 모델, 네트워크형 데이터 모델이 있었지만, 관계형 데이터 모델의 구조가 기존 데이터 모델에 비해 더 유연하여 실세계를 좀 더 현실감 있게 반영할 수 있었기 때문에 많은 데이터베이스 시스템에 구현되었으며, 이로 인하여 관계형 데이터 모델을 지원하는 관계형 데이터베이스 관리 시스템(RDBMS) 제품들이 데이터베이스 시장을 지배하게 되었다.

이러한 관계형 데이터 모델은 기본적으로 다음과 같이 핵심적인 3개의 구성요로 구성되어 있으며, 실세계의 모든 업무체계를 아래의 3가지로 모두 표현할 수 있다는 개념이다.

1. 개체(Entity): 시스템화하고자 하는 사건, 사물.

2. 관계(Relationship): 개체간, 속성간의 연관성.

3. 속성(Attribute): 개체, 관계성의 성질을 나타내는 더 이상 쪼갤 수 없는 정보의 단위.

그러나, 이와 같이 관계형 데이터 모델을 기반으로 개발된 관계형 데이터베이스는 필드(field)의 개수가 미리 고정된다. 따라서, 상황에 따라 표현해야 할 정보가 추가적으로 발생하는 경우, 관계형 데이터베이스에서는 이를 효과적으로 표현할 수 없다. 그렇게 때문에, 이러한 문제점을 해결하기 위해 관계형 데이터베이스에서는 여분의 필드를 미리 만들어 두고, 임시로 사용하는 등의 방법을 사용하기도 한다.

또한, 관계형 데이터베이스는 하나의 필드에 여러 개의 값이 반복되는 것을 표현하지 못한다. 예를 들어, 한 고객이 구매한 상품 목록과 같은 것은 관계형 데이터 모델에서는 직접 표현하지 못하기 때문에, 별도의 테이블로 구분한 후 조인 등의 연산을 이용하여 추후에 연결해서 정보를 사용할 수 있게 하는 것이 일반적이며, 관계형 데이터 모델에서 추천하는 방식이기도 하다.

관계형 데이터 모델은 도면부호(110)에 도시된 바와 같이 연관된 레코드마다 바인딩된 값에만 의존한다. 즉, 나열된 레코드들간의 순서에는 아무런 의미를 갖지 않는다. 즉, 동일한 사람 'Park'(111)에 대응하는 값 'b'(112) 와 'c'(113)에 대해 시계열 분석이 불가능하다. 미리 정의되고 고정된 속성의 순서를 이용하기 때문에 속성간의 관계를 효과적으로 표현하는 인덱싱 메커니즘이 존재하지 않고 따라서, 도면부호(120)와 같이 전체 레코드를 재구성하는 과정이 필요해진다.

이와 같이 관계형 데이터 모델을 이용한 개발 방법은 웹로그의 시계열 분석 등에서는 그 분석 과정을 어렵게 만드는 원인이 된다. 한 사람의 행동 패턴을 기록하려고 함에 있어, 관계형 데이터 모델에서의 한계 때문에 한 사람의 행동 패턴을 서로 다른 테이블, 서로 다른 레코드에 따로 기록을 해야 한다.

따라서, 따로 기록된 행동 패턴간의 관련성을 추적하려면, 연산 비용이 매우 비싼 조인 등과 같은 연산을 사용해야 하고, SQL(Structured Query Language)을 기술하기도 매우 어려워지며, 작성된 SQL이라 하더라도 상기 SQL을 처리하기에 매우 복잡한 구조를 가지게 되는 문제점이 있다.

본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위해, 웹로그(weblog)의 시계열 분석(time series analysis)을 위한 데이터 저장 및 조회 방법 그리고 상기 방법을 수행하는 시스템에 관한 새로운 기술을 제안한다.

본 발명은 상기 웹로그를 필드 이름 및 필드 값 쌍의 집합인 유동 필드(floating field), 상기 유동 필드의 시계열적 나열인 유동 필드 튜플(floating field tuple), 상기 유동 필드 튜플의 집합인 유동 필드 관계 데이터(floating field relation data)로 구성하여 저장 및 조회함으로써 상기 웹로그의 시계열 분석을 쉽고 간편하게 수행하는 것을 목적으로 한다.

본 발명의 다른 목적은 상기 웹로그 뿐만 아니라 시계열 분석을 요구하는 모든 데이터에 대해 상기 유동 필드 관계 데이터를 생성하여 저장 및 조회를 수행할 수 있는 데이터 모델을 제공하는 것이다.

상기의 목적을 달성하고, 상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 웹로그(weblog) 기반의 데이터 저장 및 조회 방법은, 웹로그 및 상기 웹로그의 발생시간에 기초하여 유동 필드 관계 데이터(floating field relation data)를 생성 및 유지하는 전처리 단계 및 사용자단말기를 통해 입력된 데이터 연산자(data operator)에 따라 상기 유동 필드 관계 데이터를 처리하는 단계를 포함한다.

본 발명의 일측에 따르면, 상기 전처리 단계는, 웹로그를 파싱(parsing)하여 상기 웹로그로부터 데이터를 추출하는 단계, 상기 데이터를 상기 웹로그가 포함하는 사용자 로그인 식별자에 따라 분류하는 단계 및 동일한 사용자 로그인 식별자에 대해 상기 데이터를 상기 발생시간 순서로 정렬하여 상기 유동 필드 관계 데이터를 생성하는 단계를 포함할 수 있다.

본 발명의 다른 측면에 따르면, 상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플(floating field tuple)을 포함할 수 있고, 상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드가 상기 발생시간 순서로 정렬될 수 있다. 이때, 상기 필드이름은 사용자 로그인 식별자에 대응하는 사용자의 동작 또는 상태를 정의할 수 있고, 상기 필드값은 상기 동작 또는 상기 상태에 대 응하는 실제값을 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 상기 데이터 연산자는 조인(join) 연산자, 스플릿(split) 연산자 및 선택 및 프로젝트(select-and-project) 연산자 중 적어도 하나의 연산자를 포함할 수 있고, 사용자단말기를 통해 입력된 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 처리하는 상기 단계는, (1) 상기 조인 연산자에 따라 상기 유동 필드 관계 데이터가 포함하는 유동 필드 튜플을 결합하거나, (2) 상기 스플릿 연산자에 따라 유동 필드 튜플을 복수의 유동 필드 튜플로 분리하거나 또는 (3)상기 선택 및 프로젝트 연산자에 따라 상기 유동 필드 관계 데이터에서 값을 추출하여 상기 사용자단말기로 제공할 수 있다.

본 발명의 다른 실시예에 있어서, 데이터 저장 및 조회 방법은, 데이터를 식별자별로 분류하고, 동일한 식별자에 대해 상기 데이터를 상기 데이터의 발생시간 순서로 정렬하여 유동 필드 관계 데이터를 생성하는 전처리 단계를 포함한다.

이하 첨부된 도면을 참조하여 본 발명에 따른 다양한 실시예를 상세히 설명하기로 한다.

로그 수집부(201)는 각각의 웹서버들로부터 전달된 웹로그를 수신하고, 전처리부(202)는 상기 웹로그를 통합하여 상기 웹로그로부터 데이터를 추출(parsing)한다. 이때, 전처리부(202)는 상기 데이터를 통해 적어도 하나의 유동 필드 튜플의 집합인 유동 필드 관계 데이터를 생성할 수 있다.

이러한, 도 2의 일례에서는 상기 유동 필드 관계 데이터가 분산 시스템(203)에 보관되는 경우를 도시하고 있다. 즉, 상기 유동 필드 관계 데이터는 이러한 분산 시스템(203)의 유동 필드 관계 데이터베이스에 저장될 수 있다.

이와 같이, 저장된 상기 유동 필드 관계 데이터는 사용자단말기로부터 입력된 조인 연산자, 스플릿 연산자, 선택 및 프로젝트 연산자 등의 데이터 연산자(204)를 통해 조회되고, 상기 조회의 결과는 가공 및 가시화되어(205) 상기 사용자단말기로 제공될 수 있다.

단계(S310)에서 웹로그 기반의 데이터 저장 및 조회를 수행하는 데이터 저장 및 조회 시스템은 웹로그 및 상기 웹로그의 발생시간에 기초하여 유동 필드 관계 데이터를 생성 및 유지한다. 이때, 상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플을 포함할 수 있고, 상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드가 상기 발생시간 순서로 정렬될 수 있다. 또한, 상기 필드이름은 사용자 로그인 식별자에 대응하는 사용자의 동작 또는 상태를 정의할 수 있고, 상기 필드값은 상기 동작 또는 상기 상태에 대응하는 실제값을 포함할 수 있다.

예를 들어, 상기 필드이름으로서 'id'를, 상기 필드이름에 대응하는 필드값으로서 'Kim'을 갖는 경우, 상기 데이터 저장 및 조회 시스템은 임의의 사용자의 사용자 로그인 식별자가 'Kim'임을 알 수 있다. 이러한 상기 필드이름 및 상기 필 드값의 쌍은 상기 유동 필드로서 <id=Kim>과 같이 표기될 수 있다. 상기 유동 필드의 또 다른 예로서 상기 <id=Kim>에 추가적으로 또 다른 유동 필드를 갖는 경우, 다시 말해 상기 필드이름으로서 상기 사용자가 방문한 웹페이지를 의미하는 'node'와 상기 필드값으로서 상기 웹페이지의 실제값을 의미하는 '홈'을 갖는 경우, 상기 데이터 저장 및 조회 시스템은 상기 사용자 로그인 식별자 'Kim'이 '홈'을 방문했음을 알 수 있다.

이와 같이 상기 유동 필드들은 동일한 사용자 로그인 식별자에 대해 상기 발생시간 순서로 정렬될 수 있고, 상기 정렬된 유동 필드들의 시퀀스는 상기 유동 필드 튜플로서 정의될 수 있다. 즉, 상기 유동 필드 튜플은 동일한 사용자 로그인 식별자를 갖는 사용자의 상태 또는 동작에 대한 데이터를 상기 상태 또는 상기 동작의 발생시간 순서로 포함할 수 있다.

다시 말해, 이러한 상기 유동 필드 튜플을 통해 상기 유동 필드 튜플의 집합인 상기 유동 필드 관계 데이터는 상기 웹로그가 포함하는 모든 사용자들 각각의 시간에 따른 동작 및 상태에 대한 데이터를 의미할 수 있고, 이를 통해 상기 웹로그의 시계열 분석이 가능해진다.

예를 들어, <id=Kim><node=메인홈><node=메일><node=메인홈><node=게임A>와 같은 유동 필드 튜플을 이용하면 상기 데이터 저장 및 조회 시스템에서 상기 사용자 로그인 식별자 'Kim'을 사용하는 사용자가 '메인홈'을 통해 '메일' 웹페이지로 접근하였고, 다시 '메인홈'을 통해 '게임A'에 대한 웹페이지로 접근하였음을 확인할 수 있다. 즉, '메인홈'을 통해 '메일'을 확인한 후 다시 '메인홈'을 통해 '게 임A'로 접근한 사용자를 조회하는 것이 가능해진다.

이러한, 상기 유동 필드 관계 데이터를 생성 및 유지하기 위해 상기 데이터 저장 및 조회 시스템은 단계(S310)에 도 3에 도시된 바와 같이 단계(S311) 내지 단계(S313)을 포함하여 수행할 수 있다.

단계(S311)에서 상기 데이터 저장 및 조회 시스템은 웹로그를 파싱하여 상기 웹로그로부터 데이터를 추출한다. 다시 말해, 상기 데이터 저장 및 조회 시스템은 상기 웹로그로부터 상기 유동 필드 관계 데이터를 생성하기 위해 정형화된 정보 즉, 상기 데이터를 추출한다.

단계(S312)에서 상기 데이터 저장 및 조회 시스템은 상기 데이터를 상기 웹로그가 포함하는 사용자 로그인 식별자에 따라 분류한다. 일반적으로 상기 웹로그에는 여러 사람에 의한 방문 로그가 시간순으로 적재된다. 또한, 통상적으로 복수의 웹서버를 통해 상기 방문 로그가 적재되기 때문에 동일한 사용자에 대한 기록이 서로 다른 웹서버에 분산 저장될 수 있다. 따라서, 이렇게 전체 웹서버에 분산 저장된 웹로그를 모두 합친 후에 각각의 사용자에 해당하는 상기 데이터를 모아 상기 사용자 로그인 식별자에 따라 분류하는 과정이 필요하다.

단계(S313)에서 상기 데이터 저장 및 조회 시스템은 동일한 사용자 로그인 식별자에 대해 상기 데이터를 상기 발생시간 순서로 정렬하여 상기 유동 필드 관계 데이터를 생성한다. 즉, 상기 데이터 저장 및 조회 시스템은 상기 사용자 로그인 식별자에 따라 분류된 상기 데이터를 상기 사용자 로그인 식별자에 따라 상기 발생시간 순서로 정렬함으로써 상기 유동 필드 관계 데이터를 생성할 수 있다. 이때, 상기 데이터 각각은 위에서 설명한 유동 필드 각각에 해당할 수 있다.

단계(S320)에서 상기 데이터 저장 및 조회 시스템은 사용자단말기를 통해 입력된 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 처리한다. 이때, 상기 데이터 연산자는 조인(join) 연산자, 스플릿(split) 연산자 및 선택 및 프로젝트(select-and-project) 연산자 중 적어도 하나의 연산자를 포함할 수 있다

이때, 상기 데이터 저장 및 조회 시스템은 상기 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 처리하기 위해 (1) 상기 조인 연산자에 따라 상기 유동 필드 관계 데이터가 포함하는 유동 필드 튜플을 결합하거나, (2) 상기 스플릿 연산자에 따라 유동 필드 튜플을 복수의 유동 필드 튜플로 분리하거나 또는 (3)상기 선택 및 프로젝트 연산자에 따라 상기 유동 필드 관계 데이터에서 값을 추출하여 상기 사용자단말기로 제공할 수 있다. 여기서, 상기 값은 복수의 유동 필드가 각각 포함하는 실제값들의 집합을 의미할 수 있다.

또한, 상기 데이터 연산자는 이러한 상기 조인 연산자, 상기 스플릿 연산자 및 상기 선택 및 프로젝트 연산자 중 복수개의 연산자를 포함하는 것도 가능하다. 즉, 하나의 유동 필드 튜플을 복수개의 유동 필드 튜플로 분리한 후 값을 추출하거나 또는 복수개의 유동 필드 튜플을 하나의 유동 필드 튜플로 결합한 후 값을 추출하는 것 또한 가능하다.

위에서 설명한 바와 같이 상기 유동 필드 튜플은 하나의 주체 즉, 한 명의 사용자에 해당하는 일련의 정보인 상기 유동 필드의 나열이다. 이러한 상기 유동 필드 튜플을 분석하고자 할 때, 한 사용자의 1 주일간의 행동 패턴을 분석하거나 한달 이상의 기간에 대해서 분석하고자 하는 경우가 있을 수 있다. 이러한 경우, 상기 사용자에 대해 한달 이상의 기간에 대해서 상기 유동 필드를 모아 상기 유동 필드 튜플로 생성해 두어야 하는데, 보관상 또는 기술적인 이유로 이러한 전체 상기 유동 필드를 하나의 유동 필드 튜플로 생성해 두는 것보다 임의의 기간에 대한 상기 유동 필드 튜플을 동적으로 생성하는 것이 편리하다.

즉, 한 명의 사용자에 대해 짧은 시간 단위로 복수개의 유동 필드 튜플을 생성하고, 필요에 따라 상기 조인 연산자를 이용하여 상기 유동 필드 튜플을 결합함으로써 원하는 시간 단위 동안의 상기 사용자의 행동 패턴에 대한 유동 필드 튜플을 얻을 수 있다. 예를 들어, 상기 유동 필드 튜플을 일단위로 생성하고, 1월 2일에 해당하는 유동 필드 튜플과 1월 3일에 해당하는 유동 필드 튜플을 상기 조인 연산자를 통해 결합함으로써, 1월 2일부터 1월 3일까지의 기간에 해당하는 유동 필드 튜플을 생성할 수 있다.

상기 데이터 저장 및 조회 시스템은 상기 조인 연산자가 사용자단말기를 통해 입력된 경우, 상기 조인 연산자가 포함하는 조건에 따라 조인 연산을 수행할 수 있다. 즉, 상기 조인 연산은 상기 조건에 해당하는 복수의 유동 필드 튜플을 결합하여 하나의 유동 필드 튜플을 생성하는 연산을 포함할 수 있다.

즉, 상기 데이터 저장 및 조회 시스템은 도 4에 도시된 바와 같이 제1 유동 필드 튜플(401)과 제2 유동 필드 튜플(402)에 대해 조인 연산(403)을 수행하여 제3 유동 필드 튜플(404)을 생성할 수 있다. 이때, 제3 유동 필드 튜플(404)에서 확인 할 수 있는 바와 같이 유동 필드들은 발생시간 순서로 정렬될 수 있다.

데이터 저장 및 조회 시스템은 사용자단말기를 통해 입력된 스플릿 연산자 및 상기 스플릿 연산자가 포함하는 조건에 따라 스플릿 연산을 수행할 수 있다. 이러한 상기 스플릿 연산은 도 4를 통해 설명한 조인 연산과 정반대의 연산으로서 선택된 유동 필드 튜플을 의미있는 단위의 유동 필드 튜플들로 분리하는 연산일 수 있다.

일반적으로 웹로그 분석을 할 때 의미있는 사용자의 방문은 30분 단위로 인식된다. 즉, 상기 사용자의 임의의 행위가 30분 동안 발생하지 않는 경우, 상기 사용자의 임의의 행위가 일단락 되는 것으로 분석하는 것이 일반적이다. 따라서, 하루 단위로 상기 유동 필드 튜플이 구성되어 있더라도, 30분 단위로 상기 유동 필드 튜플을 분리하는 작업이 필요할 수 있고, 이를 위해 상기 데이터 저장 및 조회 시스템은 상기 스플릿 연산을 수행할 필요가 있다.

즉, 상기 데이터 저장 및 조회 시스템은 도 5에 도시된 바와 같이 유동 필드들이 발생시간 순서로 정렬된 제1 유동 필드 튜플(501)에 대한 스플릿 연산(502)을 수행할 수 있다. 도 5의 일례는 30분 단위로 제1 유동 필드 튜플(501)을 분리한 것으로 제1 유동 필드 튜플(501)은 복수의 유동 필드 튜플들(503)로 분리된다. 이러한 시간 단위는 상기 스플릿 연산자에 상기 조건으로서 포함될 수 있다. 또한, 상기 조건은 제1 유동 필드 튜플(501)을 선택하는 내용을 포함할 수 있다.

위에서 설명한 데이터 연산자 중 마지막으로 상기 선택 및 프로젝트 연산자 는 상기 유동 필드 관계 데이터에서 특정 패턴을 찾고, 상기 특정 패턴 내에서의 값을 추출하기 위한 것으로서, 상기 선택 및 프로젝트 연산자에 대한 문법으로는 일반적인 정규식(regular expression)을 이용할 수 있다.

예를 들어, 사용자단말기를 통해 <id=Kim>(<node=(\w*)>)*와 같은 형식으로 입력된 상기 선택 및 프로젝트 연산자에 대해 상기 데이터 저장 및 조회 시스템은 사용자 로그인 식별자로서 'Kim'을 사용하는 사용자가 방문한 모든 노드를 찾아 상기 모든 노드에 해당하는 실제값을 추출하여 상기 사용자단말기로 제공할 수 있다.

또 다른 예로 <id=Lee><node=홈>(<node=(\w*)>)*와 같은 선택 및 프로젝트 연산자가 입력된 경우, 상기 데이터 저장 및 조회 시스템은 상기 사용자 로그인 식별자로서 'Lee'를 사용하는 사용자가 '홈'을 방문한 뒤 바로 방문한 모든 노드를 찾아 상기 모든 노드에 해당하는 실제값을 추출하여 제공할 수 있다. 이때, 상기 노드는 웹페이지를 의미할 수 있다.

이와 같이, 본 발명에 따르면, 상기 웹로그를 필드 이름 및 필드 값 쌍의 집합인 유동 필드, 상기 유동 필드의 시계열적 나열인 유동 필드 튜플, 상기 유동 필드 튜플의 집합인 유동 필드 관계 데이터로 구성하여 저장 및 조회함으로써 상기 웹로그의 시계열 분석을 쉽고 간편하게 수행할 수 있다.

단계(S601)에서 데이터를 저장 및 조회하는 데이터 저장 및 조회 시스템은 데이터를 식별자별로 분류하고, 동일한 식별자에 대해 상기 데이터를 상기 데이터 의 발생시간 순서로 정렬하여 유동 필드 관계 데이터를 생성한다. 이때, 상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플을 포함할 수 있고, 상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드를 상기 발생시간 순서로 정렬하여 포함할 수 있다. 이 경우, 상기 필드이름은 상기 식별자에 대응하는 사용자의 동작 또는 상태를 정의할 수 있고, 상기 필드값은 상기 동작 또는 상기 상태에 대응하는 실제값을 포함할 수 있다.

이러한 상기 데이터는 시계열 분석이 요구되는 데이터를 모두 포함할 수 있다. 즉, 시계열 분석이 필요한 데이터에 동일한 식별자를 부여하고, 동일한 식별자를 갖는 데이터는 상기 발생시간 순서로 정렬함으로써 상기 유동 필드 관계 데이터를 생성할 수 있다. 예를 들어, 상기 데이터는 웹로그를 파싱하여 생성될 수 있고, 상기 식별자는 상기 웹로그에 포함된 사용자 로그인 식별자를 포함할 수 있다. 이때, 하나의 데이터는 상기 유동 필드로서 상기 필드이름 및 상기 필드값을 갖고, 동일한 식별자를 갖는 데이터들은 상기 유동 필드 튜플로서 구성될 수 있다.

단계(S602)에서 상기 데이터 저장 및 조회 시스템은 상기 유동 필드 관계 데이터를 유동 필드 관계 데이터베이스에 저장 및 유지한다. 이러한 상기 유동 필드 관계 데이터는 이후 설명될 데이터 연산자에 따라 변경되어 다시 유동 필드 관계 데이터베이스에 저장되거나 또는 해당하는 실제값을 검색하여 추출하기 위해 이용될 수 있다.

단계(S603)에서 상기 데이터 저장 및 조회 시스템은 사용자단말기를 통해 입력된 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 변경하거나 상기 유동 필드 관계 데이터의 값을 추출한다. 여기서, 상기 값은 복수의 유동 필드가 각각 포함하는 실제값들의 집합을 의미할 수 있고, 상기 데이터 연산자는 조인 연산자, 스플릿 연산자 및 선택 및 프로젝트 연산자 중 적어도 하나를 포함할 수 있다.

이러한, 조인 연산자는 상기 유동 필드 관계 데이터를 변경하는 조인 연산에 대응할 수 있고, 상기 조인 연산은 상기 조인 연산자가 지정하는 동일한 식별자의 서로 다른 유동 필드 튜플을 결합하여 하나의 유동 필드 튜플을 생성하는 연산일 수 있다. 즉, 동일한 식별자를 포함하는 유동 필드 튜플들은 상기 조인 연산에 의해 결합될 수 있다.

또한, 상기 스플릿 연산자는 상기 유동 필드 관계 데이터를 변경하는 스플릿 연산에 대응할 수 있고, 스플릿 연산은 스플릿 연산자가 지정하는 하나의 유동 필드 튜플을 상기 스플릿 연산자가 포함하는 시간 단위에 따라 복수의 유동 필드 튜플로 분리하는 연산일 수 있다. 다시 말해, 하나의 유동 필드 튜플은 상기 시간 단위에 따라 동일한 식별자를 갖는 복수의 유동 필드 튜플로 상기 스플릿 연산에 의해 분리될 수 있다.

마지막으로, 상기 선택 및 프로젝트 연산자는 상기 유동 필드 관계 데이터의 값을 추출하는 선택 및 프로젝트 연산에 대응할 수 있고, 상기 선택 및 프로젝트 연산은 상기 유동 필드 관계 데이터베이스에서 상기 선택 및 프로젝트 연산자가 포함하는 조건에 따른 특정 패턴을 검색하여 상기 검색된 특정 패턴내의 값을 추출하는 연산일 수 있다. 이러한 상기 선택 및 프로젝트 연산자는 일반적인 정규식을 이용할 수 있다.

여기서, 상기 데이터 연산자는 이러한 상기 조인 연산자, 상기 스플릿 연산자 및 상기 선택 및 프로젝트 연산자 중 복수개의 연산자를 포함하는 것도 가능하다. 즉, 하나의 유동 필드 튜플을 복수개의 유동 필드 튜플로 분리한 후 값을 추출하거나 또는 복수개의 유동 필드 튜플을 하나의 유동 필드 튜플로 결합한 후 값을 추출하는 것 또한 가능하다.

즉, 본 발명에 따르면 웹로그를 필드 이름 및 필드 값 쌍의 집합인 유동 필드, 상기 유동 필드의 시계열적 나열인 유동 필드 튜플, 상기 유동 필드 튜플의 집합인 유동 필드 관계 데이터로 구성하여 저장 및 조회함으로써 상기 웹로그의 시계열 분석을 쉽고 간편하게 수행할 수 있을 뿐만 아니라 시계열 분석을 요구하는 모든 데이터에 대해 상기 유동 필드 관계 데이터를 생성하여 저장 및 조회를 수행할 수 있는 데이터 모델을 제공할 수 있다.

도 7은 본 발명의 제3 실시예에 있어서, 데이터 저장 및 조회 시스템의 내부 구성을 설명하기 위한 블록도이다. 도 7에 도시된 바와 같이 데이터 저장 및 조회 시스템(700)은 유동 필드 관계 데이터 생성부(701), 유동 필드 관계 데이터베이스(702) 및 데이터 연산자 처리부(703)를 포함한다.

유동 필드 관계 데이터 생성부(701)는 데이터를 식별자별로 분류하고, 동일한 식별자에 대해 상기 데이터를 상기 데이터의 발생 시간순으로 정렬하여 유동 필드 관계 데이터를 생성한다. 이때, 상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플을 포함할 수 있고, 상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드를 시간순으로 정렬하여 포함할 수 있다. 또한, 상기 필드이름은 상기 식별자에 대응하는 사용자의 동작 또는 상태를 정의할 수 있고, 상기 필드값은 상기 동작 또는 상기 상태에 대응하는 실제값을 포함할 수 있다.

유동 필드 관계 데이터베이스(702)는 상기 유동 필드 관계 데이터를 저장 및 유지한다.

데이터 연산자 처리부(703)는 사용자단말기를 통해 입력된 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 변경하거나 상기 유동 필드 관계 데이터의 값을 추출한다. 여기서, 상기 값은 복수의 유동 필드가 각각 포함하는 실제값들의 집합을 의미할 수 있고, 상기 데이터 연산자는 조인 연산자, 스플릿 연산자 및 선택 및 프로젝트 연산자 중 적어도 하나를 포함할 수 있다.

여기서, 상기 조인 연산자는 상기 유동 필드 관계 데이터를 변경하는 조인 연산에 대응할 수 있고, 상기 조인 연산은 상기 조인 연산자가 지정하는 동일한 식별자의 서로 다른 유동 필드 튜플을 결합하여 하나의 유동 필드 튜플을 생성하는 연산일 수 있다. 즉, 동일한 식별자를 포함하는 유동 필드 튜플들은 상기 조인 연산에 의해 결합될 수 있다.

또한, 상기 스플릿 연산자는 상기 유동 필드 관계 데이터를 변경하는 스플릿 연산에 대응할 수 있고, 상기 스플릿 연산은 스플릿 연산자가 지정하는 하나의 유동 필드 튜플을 상기 스플릿 연산자가 포함하는 시간 단위에 따라 복수의 유동 필드 튜플로 분리하는 연산일 수 있다. 다시 말해, 하나의 유동 필드 튜플은 상기 시간 단위에 따라 동일한 식별자를 갖는 복수의 유동 필드 튜플로 상기 스플릿 연산에 의해 분리될 수 있다.

본 발명에 따른 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(Floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

본 발명에 따르면, 웹로그를 필드 이름 및 필드 값 쌍의 집합인 유동 필드(floating field), 상기 유동 필드의 시계열적 나열인 유동 필드 튜플(floating field tuple), 상기 유동 필드 튜플의 집합인 유동 필드 관계 데이터(floating field relation data)로 구성하여 저장 및 조회함으로써 상기 웹로그의 시계열 분석을 쉽고 간편하게 수행할 수 있다.

본 발명에 따르면, 상기 웹로그 뿐만 아니라 시계열 분석을 요구하는 모든 데이터에 대해 상기 유동 필드 관계 데이터를 생성하여 저장 및 조회를 수행할 수 있는 데이터 모델을 제공할 수 있다.

Claims

웹로그(weblog) 기반의 데이터 저장 및 조회 방법에 있어서,

웹로그 및 상기 웹로그의 발생시간에 기초하여 유동 필드 관계 데이터(floating field relation data)를 생성 및 유지하는 전처리 단계; 및

사용자단말기를 통해 입력된 데이터 연산자(data operator)에 따라 상기 유동 필드 관계 데이터를 처리하는 단계

를 포함하고,

상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플(floating field tuple)을 포함하고,

상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드를 상기 발생시간 순서로 정렬하여 포함하는 데이터 저장 및 조회 방법.
제1항에 있어서,

상기 전처리 단계는,

웹로그를 파싱(parsing)하여 상기 웹로그로부터 데이터를 추출하는 단계;

상기 데이터를 상기 웹로그가 포함하는 사용자 로그인 식별자에 따라 분류하는 단계; 및

동일한 사용자 로그인 식별자에 대해 상기 데이터를 상기 발생시간 순서로 정렬하여 상기 유동 필드 관계 데이터를 생성하는 단계

를 포함하는 데이터 저장 및 조회 방법.
삭제
제1항에 있어서,

상기 필드이름은 사용자 로그인 식별자에 대응하는 사용자의 동작 또는 상태를 정의하고,

상기 필드값은 상기 동작 또는 상기 상태에 대응하는 실제값을 포함하는 데이터 저장 및 조회 방법.
제1항에 있어서,

상기 데이터 연산자는 조인(join) 연산자, 스플릿(split) 연산자 및 선택 및 프로젝트(select-and-project) 연산자 중 적어도 하나의 연산자를 포함하고,

사용자단말기를 통해 입력된 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 처리하는 상기 단계는,

(1) 상기 조인 연산자에 따라 상기 유동 필드 관계 데이터가 포함하는 유동 필드 튜플을 결합하거나, (2) 상기 스플릿 연산자에 따라 유동 필드 튜플을 복수의 유동 필드 튜플로 분리하거나 또는 (3)상기 선택 및 프로젝트 연산자에 따라 상기 유동 필드 관계 데이터에서 값을 추출하여 상기 사용자단말기로 제공하는 데이터 저장 및 조회 방법.
데이터 저장 및 조회 방법에 있어서,

데이터를 식별자별로 분류하고, 동일한 식별자에 대해 상기 데이터를 상기 데이터의 발생시간 순서로 정렬하여 유동 필드 관계 데이터를 생성하는 전처리 단계

를 포함하고,

상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플을 포함하고,

상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드를 상기 발생시간 순서로 정렬하여 포함하는 데이터 저장 및 조회 방법.
삭제
제6항에 있어서,

상기 필드이름은 상기 식별자에 대응하는 사용자의 동작 또는 상태를 정의하고,

상기 필드값은 상기 동작 또는 상기 상태에 대응하는 실제값을 포함하는 데이터 저장 및 조회 방법.
제6항에 있어서,

상기 유동 필드 관계 데이터를 유동 필드 관계 데이터베이스에 저장 및 유지 하는 단계; 및

사용자단말기를 통해 입력된 데이터 연산자에 따라 상기 유동 필드 관계 데이터를 변경하거나 상기 유동 필드 관계 데이터의 값을 추출하는 단계

를 더 포함하는 데이터 저장 및 조회 방법.
제9항에 있어서,

상기 데이터 연산자는 조인 연산자, 스플릿 연산자 및 선택 및 프로젝트 연산자 중 적어도 하나를 포함하는 데이터 저장 및 조회 방법.
제10항에 있어서,

상기 조인 연산자는 상기 유동 필드 관계 데이터를 변경하는 조인 연산에 대응하고,

상기 조인 연산은 상기 조인 연산자가 지정하는 동일한 식별자의 서로 다른 유동 필드 튜플을 결합하여 하나의 유동 필드 튜플을 생성하는 연산인 데이터 저장 및 조회 방법.
제10항에 있어서,

상기 스플릿 연산자는 상기 유동 필드 관계 데이터를 변경하는 스플릿 연산에 대응하고,

상기 스플릿 연산은 스플릿 연산자가 지정하는 하나의 유동 필드 튜플을 상 기 스플릿 연산자가 포함하는 시간 단위에 따라 복수의 유동 필드 튜플로 분리하는 연산인 데이터 저장 및 조회 방법.
제10항에 있어서,

상기 선택 및 프로젝트 연산자는 상기 유동 필드 관계 데이터의 값을 추출하는 선택 및 프로젝트 연산에 대응하고,

상기 선택 및 프로젝트 연산은 상기 유동 필드 관계 데이터베이스에서 상기 선택 및 프로젝트 연산자가 포함하는 조건에 따른 특정 패턴을 검색하여 상기 검색된 특정 패턴내의 값을 추출하는 연산인 데이터 저장 및 조회 방법.
제6항에 있어서,

상기 데이터는 웹로그를 파싱하여 생성되고,

상기 식별자는 상기 웹로그에 포함된 사용자 로그인 식별자를 포함하는 데이터 저장 및 조회 방법.
제1항, 제2항, 제4항 내지 제6항 또는 제8항 내지 제14항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
데이터 저장 및 조회 시스템에 있어서,

데이터를 식별자별로 분류하고, 동일한 식별자에 대해 상기 데이터를 상기 데이터의 발생 시간순으로 정렬하여 유동 필드 관계 데이터(floating field relation data)를 생성하는 유동 필드 관계 데이터 생성부;

상기 유동 필드 관계 데이터를 저장 및 유지하는 유동 필드 관계 데이터베이스; 및

사용자단말기를 통해 입력된 데이터 연산자(data operator)에 따라 상기 유동 필드 관계 데이터를 변경하거나 상기 유동 필드 관계 데이터의 값을 추출하는 데이터 연산자 처리부

를 포함하고,

상기 유동 필드 관계 데이터는 적어도 하나의 유동 필드 튜플을 포함하고,

상기 유동 필드 튜플은 필드이름 및 필드값의 쌍에 대한 집합인 유동 필드를 시간순으로 정렬하여 포함하는 데이터 저장 및 조회 시스템.
삭제
제16항에 있어서,

상기 필드이름은 상기 식별자에 대응하는 사용자의 동작 또는 상태를 정의하고,

상기 필드값은 상기 동작 또는 상기 상태에 대응하는 실제값을 포함하는 데이터 저장 및 조회 시스템.
제16항에 있어서,

상기 데이터 연산자는 조인 연산자, 스플릿 연산자 및 선택 및 프로젝트 연산자 중 적어도 하나를 포함하는 데이터 저장 및 조회 시스템.
제19항에 있어서,

상기 조인 연산자는 상기 유동 필드 관계 데이터를 변경하는 조인 연산에 대응하고,

상기 조인 연산은 상기 조인 연산자가 지정하는 동일한 식별자의 서로 다른 유동 필드 튜플을 결합하여 하나의 유동 필드 튜플을 생성하는 연산인 데이터 저장 및 조회 시스템.
제19항에 있어서,

상기 스플릿 연산자는 상기 유동 필드 관계 데이터를 변경하는 스플릿 연산에 대응하고,

상기 스플릿 연산은 스플릿 연산자가 지정하는 하나의 유동 필드 튜플을 상기 스플릿 연산자가 포함하는 시간 단위에 따라 복수의 유동 필드 튜플로 분리하는 연산인 데이터 저장 및 조회 시스템.
제19항에 있어서,

상기 선택 및 프로젝트 연산자는 상기 유동 필드 관계 데이터의 값을 추출하 는 선택 및 프로젝트 연산에 대응하고,

상기 선택 및 프로젝트 연산은 상기 유동 필드 관계 데이터베이스에서 상기 선택 및 프로젝트 연산자가 포함하는 조건에 따른 특정 패턴을 검색하여 상기 검색된 특정 패턴내의 값을 추출하는 데이터 저장 및 조회 시스템.