KR20110014477A - 웹 로그의 사용자 세션 정보 추출 장치 및 방법 - Google Patents

웹 로그의 사용자 세션 정보 추출 장치 및 방법 Download PDF

Info

Publication number
KR20110014477A
KR20110014477A KR1020090072166A KR20090072166A KR20110014477A KR 20110014477 A KR20110014477 A KR 20110014477A KR 1020090072166 A KR1020090072166 A KR 1020090072166A KR 20090072166 A KR20090072166 A KR 20090072166A KR 20110014477 A KR20110014477 A KR 20110014477A
Authority
KR
South Korea
Prior art keywords
session
web log
web
time
information
Prior art date
Application number
KR1020090072166A
Other languages
English (en)
Other versions
KR101126126B1 (ko
Inventor
김종성
윤규환
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020090072166A priority Critical patent/KR101126126B1/ko
Publication of KR20110014477A publication Critical patent/KR20110014477A/ko
Application granted granted Critical
Publication of KR101126126B1 publication Critical patent/KR101126126B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 발명의 실시형태에 따르면 웹 로그의 사용자 세션 정보 추출 장치 및 방법이 개시된다. 웹 로그를 수신한 후 세션 처리를 위한 웹 로그를 결정하고, 웹 로그의 로그 정보를 메모리부에 저장된 로그 정보와 비교하여 웹 로그의 세션 유형을 판단하며, 판단한 세션 유형에 따라 메모리부에 저장된 로그 정보를 업데이트하고, 세션 유형에 따라 세션 정보를 생성한다. 또한, 생성한 세션 정보를 이용하여 기준세션시간을 갱신함으로써, 다이나믹한 기준세션시간을 적용하여 보다 신뢰성있는 사용자 세션 정보를 추출한다.
웹 로그 분석, 기준세션시간, 다이나믹, 세션

Description

웹 로그의 사용자 세션 정보 추출 장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING USER SESSION INFORMATION OF WEB LOG }
본 발명의 실시형태들은 웹 로그 분석에 관한 것으로서, 보다 상세하게는 웹 로그의 사용자 세션 정보 추출 장치 및 방법에 관한 것이다.
웹 로그 분석이란, 웹 서버가 서비스를 제공하면서 생성되는 로그 파일(Log File)을 분석하여, 웹 서버의 트래픽(Traffic), 에러 상태 및 방문 경로 등에 대한 정보를 얻고, 웹 서버의 시스템적 문제 및 웹 사이트의 사용량에 대한 분석 결과 등을 도출해내는 것을 말한다.
웹 로그는 사용자가 웹 페이지에 엑세스할 때마다 웹 서버에 기록되는 것으로, 웹 로그는 사용자의 IP(Internet Protocol) 주소, 요청한 파일, 및 접속한 시간 등의 정보를 포함한다.
웹 로그 분석 항목으로는 히트, 페이지 뷰, 방문자 체류 시간, 방문자, 세션(또는 방문) 등이 있는데, 웹 로그 분석은 일정량 이상의 로그 파일 정보가 축적되어야 해당 항목에 대한 정보를 추출할 수 있다.
이 경우, 각 분석 항목의 변화에 대한 즉각적이고 신속한 대응을 할 수 없게 되므로, 실시간으로 웹 로그 분석을 수행한 후, 필요한 분석 항목에 대한 정보를 실시간으로 추출할 수 있는 방안이 요구된다.
한편, 웹 로그 분석 항목 중 세션 항목은 고정된 기준 세션 시간(예를 들어, 1800초)을 적용하여 세션 정보를 추출하였는데, 보다 정확한 세션 정보의 추출을 위해 다이나믹한 기준 세션 시간을 적용할 수 있는 방안이 요구된다.
본 발명의 실시형태들은 웹 로그를 실시간으로 분석하여 사용자 세션 정보를 실시간으로 추출하고자 한다.
본 발명의 실시형태들은 사용자 세션 정보를 추출함에 있어 기준세션시간을 갱신함으로써, 다이나믹한 기준세션시간을 적용하여 사용자 세션 정보를 추출하고자 한다.
본 발명의 실시형태들에 의한 다른 기술적 해결 과제는 하기의 설명에 의해 이해될 수 있으며, 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있다.
본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 장치는, 웹 로그를 수신한 후, 상기 수신한 웹 로그를 실시간으로 분석하여 세션 처리를 위한 웹 로그를 결정하는 실시간 웹 로그 분석부; 및 상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보와 기저장된 로그 정보를 비교하여, 해당 웹 로그의 세션 유형을 판단하고, 상기 세션 유형에 따라 세션 정보를 생성하며, 상기 생성된 세션 정보를 이용하여 기준세션시간을 갱신하는 세션 분석부;를 포함한다.
상기 실시간 웹 로그 분석부는, 상기 수신한 웹 로그의 URL(Uniform Resource Locator)을 실시간으로 분석하는 웹 로그 URL 분석부; 상기 분석된 웹 로 그가 특정 웹 페이지의 파일을 요청한 경우, 해당 웹 로그를 페이지 뷰로 결정하는 페이지 뷰 판단부; 및 상기 분석된 웹 로그가 웹 검색 엔진의 로봇이 접속한 것인지 여부를 판단하는 웹 검색 엔진 판단부를 포함하며, 상기 실시간 웹 로그 분석부는, 상기 페이지 뷰로 결정된 웹 로그 중 상기 웹 검색 엔진의 로봇이 접속한 경우를 제외한 웹 로그를 상기 세션 처리를 위한 웹 로그로 결정한다.
상기 세션 분석부는, 웹 로그들의 IP 주소 및 URL을 키(Key)로 설정하여, 각 키(Key) 및 해당 키의 키 값(Value)을 저장하는 메모리부; 상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보와 상기 메모리부에 저장된 키 및 키 값을 참조하여 상기 웹 로그의 세션 유형을 판단한 후, 상기 세션 유형에 따라 상기 메모리부의 해당 키 및 키 값을 업데이트하는 세션 유형 판단부; 상기 세션 유형에 따라 상기 웹 로그의 세션 정보를 생성하는 세션 정보 생성부; 및 상기 생성한 세션 정보를 이용하여 상기 기준세션시간을 재설정하는 기준세션시간 설정부를 포함한다.
본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 방법은, (A) 실시간 웹 로그 분석부가 웹 로그를 수신한 후, 상기 수신한 웹 로그를 실시간으로 분석하여 세션 처리를 위한 웹 로그를 결정하는 단계; (B) 세션 유형 판단부가 상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보를 참조하여 상기 웹 로그의 세션 유형을 판단하는 단계; (C) 세션 정보 생성부가 상기 웹 로그의 세션 유형에 따라, 상기 웹 로그의 세션 정보를 생성하는 단계; 및 (D) 기준세션시간 설정부가 상기 생성된 세션 정보를 이용하여 방문자별 또는 웹 페이지별 기준세션시 간을 재설정하는 단계;를 포함한다.
본 발명의 실시형태들은, 실시간으로 사용자 세션 정보를 추출하여, 사용자의 요구를 빠르게 반영할 수 있고, 사용자 세션 정보의 추출을 위해 웹 페이지 수정과 같은 별도의 작업을 수행하지 않아도 되므로, 웹 서버 운영자의 편의를 향상시킬 수 있다.
또한, 고정된 기준세션시간을 이용하는 것이 아니라, 기준세션시간의 갱신을 통해 다이나믹한 기준세션시간을 적용하여 보다 신뢰성있는 사용자 세션 정보를 추출할 수 있다.
또한, 신뢰성있는 사용자 세션 정보를 여러 종류의 웹 사이트를 분석하기 위한 KPI(Key Performance Indicator)의 기초 자료로 활용할 수 있다.
이하, 도 1 내지 도 8을 참조하여 본 발명의 웹 로그의 사용자 세션 정보 추출 장치 및 방법의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시적 실시형태에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하 여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 이하 실시되는 본 발명의 실시형태는 본 발명을 이루는 기술적 구성요소를 효율적으로 설명하기 위해 각각의 시스템 기능구성에 기 구비되어 있거나, 또는 본 발명이 속하는 기술분야에서 통상적으로 구비되는 시스템 기능 구성은 가능한 생략하고, 본 발명을 위해 추가적으로 구비되어야 하는 기능 구성을 위주로 설명한다. 만약 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 하기에 도시하지 않고 생략된 기능 구성 중에서 종래에 기 사용되고 있는 구성요소의 기능을 용이하게 이해할 수 있을 것이며, 또한 상기와 같이 생략된 구성 요소와 본 발명을 위해 추가된 구성 요소 사이의 관계도 명백하게 이해할 수 있을 것이다.
결과적으로, 본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하 실시형태는 진보적인 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
도 1은 웹 사이트 분석 항목들의 데이터 양 및 정보의 중요도 간의 상관 관계를 나타낸 도면이다. 도 1은 에릭 피터슨(Peterson, Eric T.)의 "Web Site Measurement Hacks"에서 인용한 것이다.
도 1을 참조하면, 일반적으로 널리 사용되고 있는 웹 사이트 분석 항목으로는 '히트(Hits)', '페이지 뷰(Page Views)', '방문(Visits)', '순방문자(Unique Visitors)' 등을 들 수 있다. 여기서 데이터 양이 가장 많은 '히트'는 정보 중요도가 낮은 반면, 데이터 양이 가장 적은 '순방문자'는 정보 중요도가 가장 높은 것을 알 수 있다.
이들 웹 사이트 분석 항목에 대해 상술하면, 먼저 '히트(Hits)'는 웹 사이트 분석에서 가장 많이 사용되는 용어로서, 사용자(방문자)가 웹 페이지를 보거나, 파일을 다운로드 하는 것과 같은 웹 사이트 상에서의 활동을 말한다. 여기서, 파일은 실행파일, PDF 파일, 사운드 파일, JPEG, PNG, GIF 와 같은 이미지 파일 등을 포함하며, 하나의 '페이지'는 기술적으로 수백 개의 '히트'일 수 있다.
'페이지 뷰(Page Views)'는 웹 사이트 분석의 기본 단위로서, 한 사람이 하나의 웹 페이지를 본 것을 말한다. 대개 페이지 뷰란, 웹 사이트 방문자가 요청한 문서(즉, 내용이 담긴 하나의 웹 페이지)를 성공적으로 읽어온 횟수를 말하고, 이때 전송 방법이나 컨텐츠를 요청받은 빈도와는 상관이 없다. 실제로 페이지 뷰는 특정 웹 사이트나 특정 웹 페이지의 인기를 가늠할 수 있는 손쉬운 방법 중 하나이다.
'방문(Visits)'은 세션(session) 또는 사용자 세션이라고도 하며, 웹 사이트를 돌아다닐 때의 페이지를 모은 것으로 정의할 수 있다. IAB(Internet Advertising Bureau)에서는 하나의 페이지 뷰에 해당하는 텍스트/그래픽을 다운로드하고 일정 시간(예컨대, 30분) 동안 사이트 내에서 활동이 있는 경우 하나의 세션으로 정의한다.
그러므로, 방문(세션)은 특정 방문자의 웹 상에서의 활동(여러 페이지를 클 릭해서 이동하면서 보는 것)을 하나로 간주한 것이라 할 수 있으며, 따라서 본 발명에서는 일정 시간 동안 클릭이나 다른 활동이 없는 경우 방문자가 웹 사이트를 떠난 것으로 간주하고, 이것을 하나의 방문으로 설정하여 사용자 세션 정보를 추출한다. 이 경우 방문자 한 명이 클릭하는 횟수에는 제한이 없으며, 이전 클릭과 다음 클릭 사이에 일정 시간(예컨대, 30분)이 초과하지 않은 경우 유효한 것으로 한다.
'순방문자(Unique Visitors)'는 일정 시간 동안 사이트를 방문한 실제 사람수를 의미하고, 일정 시간 이내의 클릭 및 기타 활동은 모두 한 명의 순방문자로 간주할 수 있다. 따라서 한 사람이 웹 브라우저를 이용해서 웹 사이트를 방문할 때를 하나의 순방문자로 인정하고 방문한 시간대가 달라도 한 명의 방문자로 식별할 수 있어야 하는데, 이때 사용자가 읽은 페이지 수, 클릭 수, 머문 시간 등은 고려하지 않는다.
도 2는 본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 방식을 위한 네트워크 구성도이다.
도 2를 참조하면, 본 발명의 일 실시형태에 따른 네트워크 구성은 적어도 하나의 웹 서버와 웹 로그 분석 서버를 포함한다. 웹 서버가 네트워크를 통해 웹 로그 분석 서버로 웹 로그를 전송하면, 웹 로그 분석 서버는 실시간으로 수집된 웹 로그를 분석하고, 웹 로그 분석 결과를 저장하거나 또는 외부(예를 들어, 웹 로그 통계 서버)로 전송한다.
본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 장치는 웹 로그 분석 서버의 구성요소로 구현되거나 또는 별도의 독립된 서버(예를 들어, 사용자 세션 정보 추출 서버)로 구현될 수 있다.
도 2에서는 웹 로그 분석 서버가 각각의 웹 서버로부터 웹 로그를 수집하여 이를 분석하는 구조로 구현하였지만, 실제 구현에 있어서는 각각의 웹 서버로부터 웹 로그를 수집하는 웹 로그 수집 서버와 상기 웹 로그 수집 서버에서 수집된 정보를 기초로 웹 로그를 분석하는 웹 로그 분석 서버가 별개로 구현될 수 있음은 물론이다.
도 3은 본 발명의 일 실시형태에 따른 웹 로그 분석 서버의 구성도이고, 도 4는 본 발명의 일 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 장치의 구성도이다.
도 3에서는 사용자 세션 정보 추출 장치가 웹 로그 분석 서버의 구성요소로 구현된 예를 도시하였으며, 도 4에서는 사용자 세션 정보 추출 장치가 별개의 장치 또는 서버로 구현된 예를 도시하였다. 도 3 및 도 4에서 사용자 세션 정보 추출 장치의 서로 다른 구현 형태를 도시하였지만, 이들이 포함하는 실시간 웹 로그 분석부와 세션 분석부는 실질적으로 동일하거나 유사한 기능을 수행하므로, 이하에서는 도 3의 웹 로그 분석 서버를 중심으로 본 발명의 실시형태를 설명하기로 한다.
도 3을 참조하면, 웹 로그 분석 서버(100)는 웹 로그 수집부(110), 실시간 웹 로그 분석부(120), 세션 분석부(130), 웹 로그 파일 분석부(140), 및 데이터 저장부(150)를 포함한다. 또한 도 4에 도시된 바와 같이, 개별적인 형태로 구현된 사용자 세션 정보 추출 장치(100')는 실시간 웹 로그 분석부(120) 및 세션 분석부(130)를 포함한다.
상기 웹 로그 수집부(110)는 적어도 하나의 웹 서버로부터 웹 로그를 수집한다. 구체적으로는, 각각의 웹 서버는 사용자들이 웹 사이트를 방문하여 발생하는 모든 웹 로그를 상기 웹 로그 분석 서버(100)로 전송하며, 상기 웹 로그 분석 서버(100)의 웹 로그 수집부(110)는 이들 웹 서버로부터 웹 로그를 수신하여 상기 실시간 웹 로그 분석부(120)로 전송한다.
상기 실시간 웹 로그 분석부(120)는 상기 웹 로그 수집부(110)가 수신한 웹 로그를 실시간으로 분석하여 세션 처리를 위한 웹 로그를 결정한다.
예를 들어, 상기 실시간 웹 로그 분석부(120)는 상기 수신한 웹 로그를 실시간으로 분석하여, 페이지 뷰가 아닌 히트만 발생시키는 웹 로그 또는 일반 사용자가 아닌 웹 검색 엔진의 로봇이 접속한 것으로 판단된 웹 로그는 세션 처리를 위한 웹 로그에서 제외시킨다.
다시 말하면, 상기 실시간 웹 로그 분석부(120)는 상기 수신한 웹 로그를 실시간으로 분석하여, 페이지 뷰가 아닌 히트만 발생시키는 웹 로그 또는 일반 사용자가 아닌 웹 검색 엔진의 로봇이 접속한 것으로 판단된 웹 로그를 제외한 웹 로그를 상기 세션 처리를 위한 웹 로그로 결정한다.
상기 실시간 웹 로그 분석부(120)는 세션 처리를 위한 웹 로그가 결정되면, 해당 웹 로그의 IP 주소, URL(Uniform Resource Locator), 타임스탬프(Timestamp) 등의 로그 정보를 상기 세션 분석부(130)로 전송한다.
상기 IP 주소 및 URL은 방문자를 구별하기 위한 것으로, 그 이외에 로그인한 사용자의 ID 등 다양한 정보를 이용할 수도 있다. 상기 타임스탬프는 웹 서버에서 상기 웹 로그가 발생한 시간을 예를 들어 초 단위로 변환한 것이다.
상기 세션 분석부(130)는 상기 실시간 웹 로그 분석부(120)가 전송하는 웹 로그(세션 처리를 위해 결정된 웹 로그)의 로그 정보를 이용하여 사용자 세션 정보를 추출하고 분석한다.
예를 들어, 상기 세션 분석부(130)는 상기 실시간 웹 로그 분석부(120)가 전송하는 로그 정보를 기저장된 로그 정보와 비교하여, 해당 세션의 세션 유형을 판단하고, 판단된 세션 유형에 따라 세션 정보를 생성하며, 생성된 세션 정보를 이용하여 기준세션시간을 재설정한다. 이때, 상기 세션 분석부(130)는 상기 업 데이트된 세션 정보를 상기 웹 로그 파일 분석부(140)로 전송한다. 이에 대한 자세한 설명은 후술하기로 한다.
상기 웹 로그 파일 분석부(140)는 상기 웹 로그 수집부(110)에서 수집된 웹 로그 파일에 대해 방문자 수, 방문 유형, 웹 페이지별 방문 횟수, 시간·요일·월별 접속 횟수 등을 분석한다.
상기 웹 로그 파일 분석부(140)는 상기 세션 분석부(130)에서 전송되는 세션 정보를 기초로 상기 웹 로그 파일을 분석함으로써 보다 정확한 정보를 얻을 수 있다.
상기 데이터 저장부(150)는 상기 웹 로그 수집부(110)에서 수집된 웹 로그, 상기 세션 분석부(130)에서 전송된 세션 정보, 상기 웹 로그 파일 분석부(140)에서 분석된 웹 로그 파일 분석 정보 등을 저장한다.
도 5는 본 발명의 실시형태에 따른 실시간 웹 로그 분석부의 구성을 나타낸 도면이다.
도 5를 참조하면, 실시간 웹 로그 분석부(120)는 웹 로그 수집부(110)에서 수신된 웹 로그를 실시간으로 분석하여 세션 처리를 위한 로그를 결정하는 것으로, 상기 실시간 웹 로그 분석부(120)는 웹 로그 URL 분석부(122), 페이지 뷰 판단부(124), 및 웹 검색 엔진 판단부(126)를 포함한다.
상기 웹 로그 URL 분석부(122)는 상기 웹 로그 수집부(110)에서 수집된 웹 로그를 전송받아, 상기 웹 로그의 URL(Uniform Resource Locator)을 분석한다.
상기 페이지 뷰 판단부(124)는 상기 웹 로그 URL 분석부(122)에서 분석된 웹 로그의 URL이 특정 웹 페이지를 나타내는 타입의 파일(예를 들어, HTML, JSP, ASP 등)을 요청한 것으로 판단되는 경우, 이를 하나의 '페이지 뷰'로 결정한다.
이는 웹 페이지의 경우 다수의 이미지 파일을 포함하여 많은 히트 수가 발생할 수 있으므로, 히트가 아닌 페이지 뷰를 발생시키는 웹 로그만을 세션 처리를 위한 로그로 결정하기 위함이다. 다시 말하면, 페이지 뷰가 아닌 히트만 발생시키는 웹 로그는 세션 처리를 위한 로그에서 제외시킨다.
상기 웹 검색 엔진 판단부(126)는 상기 웹 로그 중 일반 사용자가 아닌 웹 검색 엔진의 로봇이 접속한 것으로 판단되는 경우, 상기 웹 로그를 세션 처리를 위한 로그에서 제외시킨다.
이는 웹 검색 엔진의 로봇은 각 검색 엔진이 자신들의 인덱스 파일을 갱신하기 위해 사용하는 것이므로, 일반적인 사용자가 해당 웹 사이트에 접속했다고 판단하기 어렵기 때문이다.
상기 실시간 웹 로그 분석부(120)는 세션 처리를 위한 웹 로그가 결정되면, 해당 웹 로그의 IP 주소, URL, 타임스탬프 등의 로그 정보를 세션 분석부(130)로 전송한다.
도 6은 본 발명의 일 실시형태에 따른 세션 분석부의 구성을 나타낸 도면이다.
도 6을 참조하면, 상기 세션 분석부(130)는 메모리부(132), 세션 유형 판단부(134), 세션 정보 생성부(136), 및 기준세션시간 설정부(138)를 포함한다.
상기 메모리부(132)는 웹 로그의 IP 주소와 URL 및 이와 관련된 정보를 저장한다. 예를 들어, 상기 메모리부(132)는 도 7에 도시된 바와 같이, IP 주소와 URL을 짝으로 하여 'IP 주소 - URL'을 키(Key)로 설정하고, 상기 키에 따른 '세션 종료 타임스탬프 - 세션 시간 - 딜레이(Delay)'를 해당 키의 키 값(Value)으로 설정하여 저장한다.
상기 '세션 종료 타임스탬프'는 'IP 주소 - URL'의 키에 해당하는 세션이 종료한 시점을 나타내는 타임스탬프이고, 상기 딜레이(Delay)는 상기 메모리부(132) 에 저장된 세션을 일정 시간 경과 후, 삭제하기 위해 설정된 시간이다.
상기 딜레이는 상기 메모리부(132)에 저장되는 데이터가 상기 메모리부(132)의 용량을 초과하지 않도록 하기 위한 것으로, 이미 종료된 세션 내용에 대해서는 상기 메모리부(132)에서 삭제한다.
이때, 상기 딜레이는 네트워크 및 웹 로그 분석 서버의 상황을 고려하여 새로운 세션 생성 후, 기준세션시간(예, 1800초)에서 추가 시간(예, 600초)이 경과된 시간(예, 2400초)으로 설정한다.
상기 세션 유형 판단부(134)는 실시간 웹 로그 분석부(120)가 전송하는 로그 정보(예를 들어, IP 주소, URL, 타임스탬프 등)와 상기 메모리부(132)에 저장된 정보를 비교하여, 해당 웹 로그의 세션 유형을 판단하고, 판단된 세션 유형에 따라 상기 메모리부(132)의 '키(Key) - 키 값(Value)'을 업데이트한다.
구체적으로, 상기 세션 유형 판단부(134)는 상기 실시간 웹 로그 분석부(120)가 전송하는 웹 로그의 IP 주소 및 URL이 상기 메모리부(132)에 저장되어 있는지 확인한다.
상기 웹 로그의 IP 주소 및 URL이 상기 메모리부(132)에 저장되어 있는 경우(즉, 상기 메모리부(132)에 해당 웹 로그의 'IP 주소 - URL' 키가 있는 경우), 상기 세션 유형 판단부(134)는 상기 웹 로그의 타임 스탬프와 상기 메모리부(132)에 저장된 해당 웹 로그의 'IP 주소 - URL' 키의 키 값의 '세션 종료 타임스탬프'를 비교한다.
상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이가 기준세션시간(예, 1800초) 이내에 있는 경우, 상기 세션 유형 판단부(134)는 하나의 세션이 여전히 진행중인 것으로 판단한다. 이때, 상기 세션 유형 판단부(134)는 이를 '제1 세션 유형'으로 판단한다.
상기 제1 세션 유형으로 판단된 경우, 상기 세션 유형 판단부(134)는 상기 수신한 타임스탬프를 해당 키 값의 '세션 종료 타임스탬프'로 대체하여 저장하고, 상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이를 해당 키 값의 '세션 시간'에 저장한다. 구체적으로, 기존의 '세션 시간' 값에 상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이를 더하여 '세션 시간'으로 저장한다. 그리고, 딜레이는 현재부터 기준 딜레이시간(예, 2400초) 후 동작하도록 재설정한다.
상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이가 기준세션시간(예, 1800초)을 초과하는 경우, 상기 세션 유형 판단부(134)는 동일한 키를 가지고 있지만 다른 세션이 시작된 것으로 판단한다. 이때, 상기 세션 유형 판단부(134)는 이를 '제2 세션 유형'으로 판단한다.
상기 제2 세션 유형으로 판단된 경우, 상기 세션 유형 판단부(134)는 상기 수신한 타임스탬프를 해당 키 값의 '세션 종료 타임스탬프'로 대체하여 저장하고, 해당 키 값의 '세션 시간'은 0으로 설정한다. 그리고, 딜레이는 기준 딜레이시간(예, 2400초) 후 동작하도록 설정한다.
이 경우, 기존의 '키(Key) - 키 값(Value)'을 지우고 새로 입력하기보다는 기존 키의 키 값만 변경시킴으로써, 작업량을 줄이면서 새로운 세션을 입력할 수 있다.
한편, 상기 웹 로그의 IP 주소 및 URL이 상기 메모리부(132)에 저장되어 있지 않은 경우(즉, 상기 메모리부(132)에 해당 웹 로그의 'IP 주소 - URL' 키가 없는 경우), 상기 세션 유형 판단부(134)는 이를 '제3 세션 유형'으로 판단한다.
상기 제3 세션 유형으로 판단된 경우, 상기 세션 유형 판단부(134)는 새로운 세션을 상기 메모리부(132)에 입력한다. 구체적으로, 상기 수신한 웹 로그의 IP 주소 및 URL을 'IP 주소 - URL' 키로 하고, 해당 키의 키 값 중 '세션 종료 타임스탬프'는 현재 수신한 타임스탬프를 입력하며, '세션 시간'은 0으로 설정하고, '딜레이'는 기준 딜레이시간(예, 2400초) 후 동작하도록 설정한다.
상기 세션 정보 생성부(136)는 상기 세션 유형 판단부(134)가 판단한 세션 유형에 따라 세션 정보를 생성한 후, 생성된 세션 정보를 상기 기준세션시간 설정부(138) 및/또는 상기 웹 로그 파일 분석부(140)로 전달한다.
상기 세션 정보는 '세션' 및 '체류 시간'을 포함한다. 상기 세션 유형에 따른 세션 정보를 예시적으로 설명하면 다음과 같다. 여기서, '세션' 값 0은 기존 세션의 연장을 의미하고, '세션' 값 1은 새로운 세션의 생성을 의미한다.
상기 제1 세션 유형은 기존의 세션이 지속되는 경우이므로 '세션' 값을 0으로 설정한다. 또한, 상기 제1 세션 유형은 해당 세션이 종료되지 않아 사용자의 체류 시간을 아직 판단할 수 없으므로 해당 키 값에 저장된 '세션 시간'을 체류 시간으로 하지 않고, '체류 시간' 값을 0으로 설정하여 전달한다.
상기 제2 세션 유형은 기존에 저장된 키가 있지만 두 타임스탬프 간의 차이가 기준세션시간을 초과하여 새로운 세션으로 판단되는 경우이므로 '세션' 값을 1 로 설정한다. 또한, 해당 키 값의 세션 시간을 '체류 시간' 값으로 설정하여 전달한다. 예를 들어, 이전 세션에 대한 사용자의 체류 시간은 동일 사용자의 새로운 세션이 시작될 때 전달하게 된다.
상기 제3 세션 유형은 기존의 'IP 주소 - URL' 키가 없는 경우이므로 '세션' 값은 1로, '체류 시간' 값은 0으로 설정하여 전달한다. 이는 새로운 세션의 시작을 의미한다.
한편, 상기 세션 정보 생성부(136)는 딜레이(Delay)에 의해 이미 만료된 세션을 상기 메모리부(132)에서 삭제하는 경우, 상기 '세션' 및 '체류 시간' 값을 상기 상기 기준세션시간 설정부(138) 및/또는 상기 웹 로그 파일 분석부(140)로 전달할 때, 상기 만료된 세션에 저장되어 있는 '세션 시간' 값을 상기 '체류 시간' 값에 합하여 전달한다.
상기 기준세션시간 설정부(138)는 상기 세션 정보 생성부(136)가 전달하는 '체류 시간'을 방문자별(또는 웹 페이지별)로 저장한 후, 상기 저장된 체류 시간들을 이용하여 기준세션시간을 설정한다.
이때, 상기 기준세션시간 설정부(138)는 상기 체류 시간들의 평균 값을 산정하여 기준세션시간을 설정할 수 있는데, 상기 평균 값은 PERT(Program Evaluation & Review Technique) 기법을 적용하여 기준세션시간을 설정할 수 있으며, PERT 기법뿐만 아니라 다양한 기법을 적용하여 기준세션시간을 설정할 수 있다.
예를 들어, 상기 PERT 기법을 통해 기준세션시간을 구하는 공식은 다음과 같 다.
Figure 112009047985523-PAT00001
여기서, O는 체류 시간 중 가장 긴 시간, P는 체류 시간 중 가장 짧은 시간, ml은 체류 시간 중 가장 많이 나온 시간을 나타낸다.
상기 기준세션시간 설정부(138)는 상기 세션 정보 생성부(136)가 전달하는 '체류 시간' 값이 기설정된 개수(예를 들어, 100개)를 초과하면, 상기 PERT 기법 등을 통해 기준세션시간을 재설정한다. 이 경우, 방문자별 또는 웹 페이지별로 기준세션시간을 실시간으로 갱신할 수 있게 된다.
본 발명의 실시형태는 고정된 기준세션시간을 사용하는 것이 아니라, 기준세션시간을 다이나믹하게 갱신함으로써, 사용자 세션 정보를 보다 정확하게 추출할 수 있으며, 사용자 방문 변화에 보다 신속하게 대응할 수 있다.
도 8은 본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 방법을 나타낸 순서도이다.
도 8을 참조하면, 먼저 실시간 웹 로그 분석부(120)가 웹 로그 수집부(110)로부터 전송되는 웹 로그를 수신한다(S 100).
상기 실시간 웹 로그 분석부(120)가 상기 수신한 웹 로그를 분석하여 세션 처리를 위한 웹 로그를 결정한다(S 101). 이때, 상기 실시간 웹 로그 분석부(120)는 페이지 뷰가 아닌 히트만 발생시키는 웹 로그 또는 웹 검색 엔진의 로봇이 접속 한 것으로 판단된 웹 로그는 상기 세션 처리를 위한 웹 로그에서 제외시킨다.
상기 실시간 웹 로그 분석부(120)가 상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보(예를 들어, IP 주소, URL, 타임스탬프 등)를 세션 분석부(130)로 전송한다(S 102).
상기 세션 분석부(130)의 세션 유형 판단부(134)는 상기 실시간 웹 로그 분석부(120)가 전송한 웹 로그의 IP 주소 및 URL이 메모리부(132)에 존재하는지 여부를 확인한다(S 103).
상기 단계 S 103의 확인 결과, 상기 웹 로그의 IP 주소 및 URL이 메모리부(132)에 존재하는 경우, 상기 세션 유형 판단부(134)는 상기 웹 로그의 타임스탬프와 상기 메모리부(132)에 저장된 해당 웹 로그의 'IP 주소 - URL' 키의 키 값 중 '세션 종료 타임스탬프' 간의 차이가 기준세션시간 이내인지 여부를 확인한다(S 104).
상기 단계 S 104의 확인 결과, 상기 웹 로그의 타임스탬프와 상기 '세션 종료 타임스탬프' 간의 차이가 상기 기준세션시간 이내인 경우, 상기 세션 유형 판단부(134)는 이를 제1 세션 유형으로 판단한다(S 105).
상기 단계 S 104의 확인 결과, 상기 웹 로그의 타임스탬프와 상기 '세션 종료 타임스탬프' 간의 차이가 상기 기준세션시간을 초과하는 경우, 상기 세션 유형 판단부(134)는 이를 제2 세션 유형으로 판단한다(S 106).
한편, 상기 단계 S 103의 확인 결과, 상기 웹 로그의 IP 주소 및 URL이 메모리부(132)에 존재하지 않는 경우, 상기 세션 유형 판단부(134)는 이를 제3 세션 유 형으로 판단한다(S 107).
상기 세션 유형 판단부(134)는 상기 각 세션 유형에 따라, 상기 메모리부(132)의 '키(Key) - 키 값(Value)'을 업데이트한다(S 108).
구체적으로, 상기 제1 세션 유형으로 판단된 경우, 상기 세션 유형 판단부(134)는 상기 수신한 타임스탬프를 해당 키 값의 '세션 종료 타임스탬프'로 대체하여 저장하고, 상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이를 해당 키 값의 '세션 시간'에 저장하며, 딜레이는 현재부터 기준 딜레이시간(예, 2400초) 후 동작하도록 재설정한다.
상기 제2 세션 유형으로 판단된 경우, 상기 세션 유형 판단부(134)는 상기 수신한 타임스탬프를 해당 키 값의 '세션 종료 타임스탬프'로 대체하여 저장하고, 해당 키 값의 '세션 시간'은 0으로 설정하며, 딜레이는 기준 딜레이시간(예, 2400초) 후 동작하도록 설정한다.
상기 제3 세션 유형으로 판단된 경우, 상기 세션 유형 판단부(134)는 새로운 세션을 상기 메모리부(132)에 입력한다. 구체적으로, 상기 수신한 웹 로그의 IP 주소 및 URL을 'IP 주소 - URL' 키로 하고, 해당 키의 키 값 중 '세션 종료 타임스탬프'는 현재 수신한 타임스탬프를 입력하며, '세션 시간'은 0으로 설정하고, '딜레이'는 기준 딜레이시간(예, 2400초) 후 동작하도록 설정한다.
상기 세션 정보 생성부(136)는 상기 세션 유형 판단부(134)가 판단한 세션 유형에 따라 세션 정보를 생성한 후, 생성된 세션 정보를 상기 기준세션시간 설정부(138)로 전달한다(S 109).
구체적으로, 상기 세션 정보 생성부(136)는 상기 제1 세션 유형의 경우, '세션' 값과 '체류 시간' 값을 각각 0으로 설정하여 전달하고, 상기 제2 세션 유형의 경우, '세션' 값은 1로 설정하고, 해당 키 값의 세션 시간을 '체류 시간' 값으로 설정하여 전달한다. 그리고, 상기 제3 세션 유형의 경우, '세션' 값은 1로 설정하고, '체류 시간' 값은 0으로 설정하여 전달한다.
상기 기준세션시간 설정부(138)는 상기 세션 정보 생성부(136)가 전송하는 '체류 시간'을 방문자별(또는 웹 페이지별)로 저장하면서 상기 '체류 시간'의 개수가 기설정된 개수에 도달하는지를 확인한다(S 110).
상기 단계 S 110의 확인 결과, 상기 '체류 시간'의 개수가 기설정된 개수에 도달하는 경우, 상기 기준세션시간 설정부(138)는 상기 '체류 시간'을 이용하여 기준세션시간을 재설정(또는 갱신)한다(S 111).
이때, 상기 기준세션시간은 PERT 기법 등을 이용하여 구할 수 있으며, 상기 갱신된 기준세션시간은 새로운 웹 로그가 수신되는 경우, 상기 단계 S 104에 새롭게 적용된다.
본 발명의 실시형태에 의하면, 실시간으로 사용자 세션 정보를 추출하여, 사용자의 요구를 빠르게 반영할 수 있고, 사용자 세션 정보의 추출을 위해 웹 페이지 수정과 같은 별도의 작업을 수행하지 않아도 되므로, 웹 서버 운영자의 편의를 향상시킬 수 있다.
또한, 고정된 기준세션시간을 이용하는 것이 아니라, 기준세션시간의 갱신을 통해 다이나믹한 기준세션시간을 적용하여 보다 신뢰성있는 사용자 세션 정보를 추 출할 수 있다.
또한, 신뢰성있는 사용자 세션 정보를 여러 종류의 웹 사이트를 분석하기 위한 KPI(Key Performance Indicator)의 기초 자료로 활용할 수 있다.
예를 들어, 온라인 쇼핑몰 분석 시 KPI로서 방문자당 판매량, 새 방문자 비율과 재 방문자 비율, 머문 시간이 90초 미만인 경우의 비율 등의 자료를 활용할 수 있다. 그리고, 광고 및 컨텐츠 사이트 분석 시 KPI로서 방문 당 평균 페이지 뷰 횟수, 방문자당 평균 방문 횟수, 새 방문자 비율과 재 방문자 비율, 웹 사이트에서 머문 평균 시간, 머문 시간이 90초 미만인 경우의 비율 등의 자료를 활용할 수 있다.
또한, 고객지원 사이트 분석 시 KPI로서 방문 당 평균 페이지 뷰, 새 방문자 비율과 재 방문자 비율, 웹 사이트에서 머문 평균 시간 등의 자료를 활용할 수 있으며, 비즈니스 사이트 분석 시 KPI로서 방문자 당 평균 방문 횟수, 새 방문자 비율과 재 방문자 비율, 웹 사이트에서 머문 평균시간, 머문 시간이 90초 미만인 경우의 비율, 관심방문 비율(방문하는 동안 일정 수 이상의 페이지를 본 경우), 의미방문 비율(방문자가 상대적으로 많은 페이지를 보는 경우) 등의 자료를 활용할 수 있다.
한편, 본 발명에 따른 웹 로그의 사용자 세션 정보 추출 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록매체를 통하여 실시될 수 있다. 상기 컴퓨터 판독가능 기록매체는 프로그램 명 령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
지금까지 본 발명의 실시형태를 참조하여 상세히 설명하였지만, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로 이상에서 기술한 실시형태들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.
그리고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 특정되는 것이며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 웹 사이트 분석 항목들의 데이터 양 및 정보의 중요도 간의 상관 관계를 나타낸 도면.
도 2는 본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 방식을 위한 네트워크 구성도.
도 3은 본 발명의 일 실시형태에 따른 웹 로그 분석 서버의 구성도.
도 4는 본 발명의 일 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 장치의 구성도.
도 5는 본 발명의 실시형태에 따른 실시간 웹 로그 분석부의 구성을 나타낸 도면.
도 6은 본 발명의 실시형태에 따른 세션 분석부의 구성을 나타낸 도면.
도 7은 본 발명의 실시형태에 따른 메모리부에 저장된 키 및 키 값을 나타낸 도면.
도 8은 본 발명의 실시형태에 따른 웹 로그의 사용자 세션 정보 추출 방법을 나타낸 순서도.
* 도면의 주요 부분에 대한 부호의 설명 *
100 : 웹 로그 분석 서버 110 : 웹 로그 수집부
120 : 실시간 웹 로그 분석부 122 : 웹 로그 URL 분석부
124 : 페이지 뷰 판단부 126 : 웹 검색 엔진 판단부
130 : 세션 분석부 132 : 메모리부
134 : 세션 유형 판단부 136 : 세션 정보 생성부
138 : 기준세션시간 설정부 140 : 웹 로그 파일 분석부
150 : 데이터 저장부

Claims (34)

  1. 웹 로그를 수신한 후, 상기 수신한 웹 로그를 실시간으로 분석하여 세션 처리를 위한 웹 로그를 결정하는 실시간 웹 로그 분석부; 및
    상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보와 기저장된 로그 정보를 비교하여, 해당 웹 로그의 세션 유형을 판단하고, 상기 세션 유형에 따라 세션 정보를 생성하며, 상기 생성된 세션 정보를 이용하여 기준세션시간을 갱신하는 세션 분석부;를 포함하는, 웹 로그의 사용자 세션 정보 추출 장치.
  2. 제1항에 있어서,
    상기 실시간 웹 로그 분석부는,
    상기 수신한 웹 로그의 URL(Uniform Resource Locator)을 실시간으로 분석하는 웹 로그 URL 분석부;
    상기 분석된 웹 로그가 특정 웹 페이지의 파일을 요청한 경우, 해당 웹 로그를 페이지 뷰로 결정하는 페이지 뷰 판단부; 및
    상기 분석된 웹 로그가 웹 검색 엔진의 로봇이 접속한 것인지 여부를 판단하는 웹 검색 엔진 판단부를 포함하며,
    상기 실시간 웹 로그 분석부는, 상기 페이지 뷰로 결정된 웹 로그 중 상기 웹 검색 엔진의 로봇이 접속한 경우를 제외한 웹 로그를 상기 세션 처리를 위한 웹 로그로 결정하는, 웹 로그의 사용자 세션 정보 추출 장치.
  3. 제1항에 있어서,
    상기 웹 로그의 로그 정보는,
    상기 웹 로그의 IP 주소, URL, 및 타임스탬프를 포함하는, 웹 로그의 사용자 세션 정보 추출 장치.
  4. 제3항에 있어서,
    상기 세션 분석부는,
    웹 로그들의 IP 주소 및 URL을 키(Key)로 설정하여, 각 키(Key) 및 해당 키의 키 값(Value)을 저장하는 메모리부;
    상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보와 상기 메모리부에 저장된 키 및 키 값을 참조하여 상기 웹 로그의 세션 유형을 판단한 후, 상기 세션 유형에 따라 상기 메모리부의 해당 키 및 키 값을 업데이트하는 세션 유형 판단부;
    상기 세션 유형에 따라 상기 웹 로그의 세션 정보를 생성하는 세션 정보 생성부; 및
    상기 생성한 세션 정보를 이용하여 상기 기준세션시간을 재설정하는 기준세 션시간 설정부를 포함하는, 웹 로그의 사용자 세션 정보 추출 장치.
  5. 제4항에 있어서,
    상기 메모리부에 저장되는 키 값은,
    해당 웹 로그의 세션 종료 타임스탬프 및 세션 시간을 포함하는, 웹 로그의 사용자 세션 정보 추출 장치.
  6. 제5항에 있어서,
    상기 세션 정보 생성부가 생성하는 세션 정보는,
    세션 값 및 체류 시간을 포함하는, 웹 로그의 사용자 세션 정보 추출 장치.
  7. 제6항에 있어서,
    상기 세션 유형 판단부는,
    상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 IP 주소 및 URL이 상기 메모리부에 저장되어 있는 경우, 해당 웹 로그의 타임스탬프와 상기 메모리부에 저장된 세션 종료 타임스탬프의 차이가 기설정된 기준세션시간 이내인 경우, 상기 웹 로그의 세션 유형을 제1 세션 유형으로 판단하는, 웹 로그의 사용자 세션 정보 추 출 장치.
  8. 제7항에 있어서,
    상기 세션 유형 판단부는,
    상기 제1 세션 유형으로 판단된 웹 로그에 대해, 상기 타임스탬프를 해당 키 값의 세션 종료 타임스탬프로 대체하여 저장하고, 상기 타임스탬프와 세션 종료 타임스탬프의 차를 해당 키 값의 세션 시간에 저장하는, 웹 로그의 사용자 세션 정보 추출 장치.
  9. 제7항에 있어서,
    상기 세션 정보 생성부는,
    상기 제1 세션 유형으로 판단된 웹 로그에 대해, 상기 세션 값을 기존 세션의 연장에 해당하는 값으로 설정하고, 상기 체류 시간을 0으로 설정하여 세션 정보를 생성하는, 웹 로그의 사용자 세션 정보 추출 장치.
  10. 제6항에 있어서,
    상기 세션 유형 판단부는,
    상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 IP 주소 및 URL이 상기 메모리부에 저장되어 있는 경우, 해당 웹 로그의 타임스탬프와 상기 메모리부에 저장된 세션 종료 타임스탬프의 차이가 기설정된 기준세션시간을 초과하는 경우, 상기 웹 로그의 세션 유형을 제2 세션 유형으로 판단하는, 웹 로그의 사용자 세션 정보 추출 장치.
  11. 제10항에 있어서,
    상기 세션 유형 판단부는,
    상기 제2 세션 유형으로 판단된 웹 로그에 대해, 상기 타임스탬프를 해당 키 값의 세션 종료 타임스탬프로 대체하여 저장하고, 해당 키 값의 세션 시간을 0으로 설정하여 저장하는, 웹 로그의 사용자 세션 정보 추출 장치.
  12. 제10항에 있어서,
    상기 세션 정보 생성부는,
    상기 제2 세션 유형으로 판단된 웹 로그에 대해, 상기 세션 값을 새로운 세션의 생성에 해당하는 값으로 설정하고, 상기 체류 시간을 해당 키 값의 세션 시간으로 설정하여 세션 정보를 생성하는, 웹 로그의 사용자 세션 정보 추출 장치.
  13. 제6항에 있어서,
    상기 세션 유형 판단부는,
    상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 IP 주소 및 URL이 상기 메모리부에 저장되어 있지 않은 경우, 상기 웹 로그의 세션 유형을 제3 세션 유형으로 판단하는, 웹 로그의 사용자 세션 정보 추출 장치.
  14. 제13항에 있어서,
    상기 세션 유형 판단부는,
    상기 제3 세션 유형으로 판단된 웹 로그에 대해, 상기 웹 로그의 IP 주소 및 URL을 키(Key)로 설정하고, 상기 설정한 키의 키 값 중 세션 종료 타임 스탬프는 상기 웹 로그의 타임스탬프로 설정하며, 상기 키의 키 값 중 세션 시간은 0으로 설정하여 저장하는, 웹 로그의 사용자 세션 정보 추출 장치.
  15. 제13항에 있어서,
    상기 세션 정보 생성부는,
    상기 제3 세션 유형으로 판단된 웹 로그에 대해, 상기 세션 값을 새로운 세션의 생성에 해당하는 값으로 설정하고, 상기 체류 시간을 0으로 설정하여 세션 정 보를 생성하는, 웹 로그의 사용자 세션 정보 추출 장치.
  16. 제9항, 제12항 및 15항 중 어느 하나의 항에 있어서,
    상기 기준세션시간 설정부는,
    상기 세션 정보 생성부가 생성하는 세션 정보를 방문자별 또는 웹 페이지별로 저장하며, 상기 방문자별 또는 웹 페이지별 세션 정보의 저장된 개수가 기설정된 개수에 도달하는 경우, 상기 세션 정보를 이용하여 상기 기준세션시간을 재설정하는, 웹 로그의 사용자 세션 정보 추출 장치.
  17. 제16항에 있어서,
    상기 기준세션시간 설정부는,
    상기 세션 정보 중 체류 시간에 대해 평균 값을 산정하여 상기 기준세션시간을 재설정하는, 웹 로그의 사용자 세션 정보 추출 장치.
  18. 제17항에 있어서,
    상기 기준세션시간 설정부는,
    PERT(Program Evaluation & Review Technique) 기법을 통해 상기 평균 값을 산정하여 상기 기준 세션시간을 재설정하는, 웹 로그의 사용자 세션 정보 추출 장치.
  19. (A) 실시간 웹 로그 분석부가 웹 로그를 수신한 후, 상기 수신한 웹 로그를 실시간으로 분석하여 세션 처리를 위한 웹 로그를 결정하는 단계;
    (B) 세션 유형 판단부가 상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 로그 정보를 참조하여 상기 웹 로그의 세션 유형을 판단하는 단계;
    (C) 세션 정보 생성부가 상기 웹 로그의 세션 유형에 따라, 상기 웹 로그의 세션 정보를 생성하는 단계; 및
    (D) 기준세션시간 설정부가 상기 생성된 세션 정보를 이용하여 방문자별 또는 웹 페이지별 기준세션시간을 재설정하는 단계;를 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  20. 제19항에 있어서,
    상기 웹 로그의 로그 정보는,
    상기 웹 로그의 IP 주소, URL, 및 타임스탬프를 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  21. 제20항에 있어서,
    상기 (A) 단계 이전에,
    세션 분석부가 웹 로그들의 IP 주소 및 URL을 키(Key)로 설정하여, 각 키(Key) 및 해당 키의 키 값(Value)을 메모리부에 저장하는 단계를 더 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  22. 제21항에 있어서,
    상기 (B) 단계는,
    (B-1) 상기 세션 유형 판단부는 상기 세션 처리를 위한 웹 로그로 결정된 웹 로그의 IP 주소 및 URL에 해당하는 키(Key)가 상기 메모리부에 저장되어 있는지 확인하는 단계;
    (B-2) 상기 웹 로그의 IP 주소 및 URL이 메모리부에 저장되어 있는 경우, 상기 웹 로그의 타임스탬프와 상기 키의 키 값 중 세션 종료 타임스탬프의 차이를 비교하여, 상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이가 기설정된 기준세션시간 이내인지 확인하는 단계; 및
    (B-3) 상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이가 기설정된 기준세션시간 이내인 경우, 상기 세션 유형 판단부는 상기 웹 로그의 세션 유형을 제1 세션 유형으로 판단하는 단계를 더 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  23. 제22항에 있어서,
    상기 (B-2) 단계에서,
    (B-21) 상기 타임스탬프와 상기 세션 종료 타임스탬프의 차이가 기설정된 기준세션시간을 초과하는 경우, 상기 세션 유형 판단부는 상기 웹 로그의 세션 유형을 제2 유형으로 판단하는 단계를 더 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  24. 제23항에 있어서,
    상기 (B-1) 단계에서,
    (B-11) 웹 로그로 결정된 웹 로그의 IP 주소 및 URL에 해당하는 키(Key)가 상기 메모리부에 저장되어 있지 않은 경우, 상기 세션 유형 판단부는 상기 웹 로그의 세션 유형을 제3 유형으로 판단하는 단계를 더 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  25. 제22항에 있어서,
    상기 (C) 단계에 있어서,
    상기 세션 정보 생성부는, 상기 제1 세션 유형으로 판단된 웹 로그에 대해, 상기 세션 값을 기존 세션의 연장에 해당하는 값으로 설정하고, 상기 체류 시간을 0으로 설정하여 세션 정보를 생성하는, 웹 로그의 사용자 세션 정보 추출 방법.
  26. 제23항에 있어서,
    상기 (C) 단계에 있어서,
    상기 세션 정보 생성부는, 상기 제2 세션 유형으로 판단된 웹 로그에 대해, 상기 세션 값을 새로운 세션의 생성에 해당하는 값으로 설정하고, 상기 체류 시간을 해당 키 값의 세션 시간으로 설정하여 세션 정보를 생성하는, 웹 로그의 사용자 세션 정보 추출 방법.
  27. 제24항에 있어서,
    상기 (C) 단계에 있어서,
    상기 세션 정보 생성부는, 상기 제3 세션 유형으로 판단된 웹 로그에 대해, 상기 세션 값을 새로운 세션의 생성에 해당하는 값으로 설정하고, 상기 체류 시간을 0으로 설정하여 세션 정보를 생성하는, 웹 로그의 사용자 세션 정보 추출 방법.
  28. 제22항 내지 제24항 중 어느 하나의 항에 있어서,
    상기 (B) 단계 이후에,
    상기 세션 정보 생성부가 상기 판단한 세션 유형에 따라, 상기 메모리부의 키(Key) 및 해당 키의 키 값(Value)을 업데이트하는 단계를 더 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  29. 제25항 내지 제27항 중 어느 하나의 항에 있어서,
    상기 (D) 단계는,
    (D-1) 상기 기준세션시간 설정부가 상기 세션 정보 생성부가 생성하는 세션 정보를 방문자별 또는 웹 페이지별로 저장하는 단계;
    (D-2) 상기 상기 방문자별 또는 웹 페이지별 세션 정보의 저장된 개수가 기설정된 개수에 도달하는지 여부를 확인하는 단계; 및
    (D-2) 상기 세션 정보의 개수가 상기 기설정된 개수에 도달하는 경우, 상기 세션 정보 중 체류 시간에 대해 평균 값을 산정하여 상기 기준세션시간을 재설정하는 단계;를 포함하는, 웹 로그의 사용자 세션 정보 추출 방법.
  30. 제29항에 있어서,
    상기 (D-2) 단계에 있어서,
    상기 기준세션시간 설정부는, PERT(Program Evaluation & Review Technique) 기법을 통해 상기 평균 값을 산정하여 상기 기준 세션시간을 재설정하는, 웹 로그의 사용자 세션 정보 추출 방법.
  31. 제19항 내지 제27항 중 어느 하나의 항에 따른 사용자 세션 정보 추출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능 기록매체.
  32. 제28항에 있어서, 상기 사용자 세션 정보 추출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능 기록매체.
  33. 제29항에 있어서, 상기 사용자 세션 정보 추출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능 기록매체.
  34. 제30항에 있어서, 상기 사용자 세션 정보 추출 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독가능 기록매체.
KR1020090072166A 2009-08-05 2009-08-05 웹 로그의 사용자 세션 정보 추출 장치 및 방법 KR101126126B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090072166A KR101126126B1 (ko) 2009-08-05 2009-08-05 웹 로그의 사용자 세션 정보 추출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090072166A KR101126126B1 (ko) 2009-08-05 2009-08-05 웹 로그의 사용자 세션 정보 추출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110014477A true KR20110014477A (ko) 2011-02-11
KR101126126B1 KR101126126B1 (ko) 2012-04-12

Family

ID=43773667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090072166A KR101126126B1 (ko) 2009-08-05 2009-08-05 웹 로그의 사용자 세션 정보 추출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101126126B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101148002B1 (ko) * 2010-04-06 2012-05-24 국방과학연구소 웹 로봇 탐지 시스템 및 방법
CN114666391A (zh) * 2020-12-03 2022-06-24 中国移动通信集团广东有限公司 访问轨迹确定方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010097408A (ko) * 2000-04-22 2001-11-08 이태균 사용자 행동 분석 방법 및 장치
KR100868852B1 (ko) * 2001-09-29 2008-11-14 주식회사 케이티 웹로그 분석 시스템에서의 방문시간 측정 방법
KR100823075B1 (ko) * 2007-11-29 2008-04-21 방용정 웹사이트 접속자 개개인별 실시간 로그 분석 시스템 및 그방법
KR101055871B1 (ko) * 2009-04-30 2011-08-09 삼성에스디에스 주식회사 웹 로그의 실시간 분석을 통한 사용자 세션 정보 추출 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101148002B1 (ko) * 2010-04-06 2012-05-24 국방과학연구소 웹 로봇 탐지 시스템 및 방법
CN114666391A (zh) * 2020-12-03 2022-06-24 中国移动通信集团广东有限公司 访问轨迹确定方法、装置、设备及存储介质
CN114666391B (zh) * 2020-12-03 2023-09-19 中国移动通信集团广东有限公司 访问轨迹确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR101126126B1 (ko) 2012-04-12

Similar Documents

Publication Publication Date Title
US8751184B2 (en) Transaction based workload modeling for effective performance test strategies
US6691163B1 (en) Use of web usage trail data to identify related links
US20100094860A1 (en) Indexing online advertisements
US9230030B2 (en) Method and system for mining websites
US9578135B2 (en) Method of identifying remote users of websites
JP2004504649A (ja) ワールドワイドウェブのディジタルコンテントの普及を見積もるシステム及び方法
CN102546668B (zh) 一种独立访问者的统计方法、装置及系统
JP2017528782A (ja) ユーザとコンテンツデータとの対話によってデータをルーティングしてユーザを接続するシステムおよび方法
JP2010528348A (ja) ウェブサイトの接続者別に接続統計を生成する方法
Langhnoja et al. Pre-processing: procedure on web log file for web usage mining
KR101055871B1 (ko) 웹 로그의 실시간 분석을 통한 사용자 세션 정보 추출 장치 및 방법
CN105989149A (zh) 一种用户设备指纹的提取和识别方法及系统
JP2011034399A (ja) Webページの関連性抽出方法、装置、及びプログラム
Patel et al. Process of web usage mining to find interesting patterns from web usage data
CN102035905A (zh) 获取访客本地域名解析服务器的方法
KR101126126B1 (ko) 웹 로그의 사용자 세션 정보 추출 장치 및 방법
CN108416057A (zh) 一种网站行为分析系统
CN106126538B (zh) 页面的转化处理方法及装置
Shrivastava et al. Extracting knowledge from user access logs
US9787786B1 (en) Determining device counts
Shu-yue et al. The study on the preprocessing in web log mining
KR20000024517A (ko) 웹 마이닝 시스템을 위한 페이지 로깅 시스템
JP5673391B2 (ja) 情報処理装置、ログ処理方法、及びプログラム
CN106095946B (zh) 页面的处理方法及装置
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141231

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151228

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee