KR100537415B1

KR100537415B1 - 앙상블 서포트 벡터 머신을 이용한 인터넷 환경의 웹 정보예측 시스템 및 방법

Info

Publication number: KR100537415B1
Application number: KR10-2003-0045535A
Authority: KR
Inventors: 윤경배; 최준혁; 이문규
Original assignee: 윤경배; (주)넥솔위즈빌; 최준혁
Priority date: 2003-07-05
Filing date: 2003-07-05
Publication date: 2005-12-19
Also published as: KR20050005592A

Abstract

본 발명은 인터넷상에서 사용자들의 행위를 분석하여 사용자가 가장 선호한 웹 정보를 서비스하기 위한 앙상블 서포트 벡터머신(Support Vector Machine)을 이용한 희소한 웹 로그 데이터 예측 시스템 및 그 방법에 관한 것이다.

최근 인터넷 쇼핑몰과 같은 웹 사이트를 대상으로 각 사용자에게 가장 필요한 정보를 제공하기 위한 웹 정보 추천 시스템에 대한 연구는 활발히 진행되고 있지만 정보의 정확도와 신속성 측면에서는 만족할 만한 성과를 거두지 못하고 있다.

지금까지 대부분의 웹 정보 추천 시스템에서는 사용자 프로파일과 사용자로부터의 명시적 피드백에 의존하여 필요한 정보를 얻고 있는데 이를 위해서는 사용자의 보다 정확하고 다양한 사용자 프로파일 정보를 필요로 한다. 그러나 인터넷 공간에서 웹 사용자들은 자신의 정보에 대한 공개나 정확한 기재를 원하지 않기 때문에 웹 정보 예측 시스템으로부터 관련 정보를 제공받은 대부분의 사용자는 서비스 받은 정보에 대한 만족도를 명시적으로 웹 서버에 피드백하지 않는다. 따라서 기존의 웹 정보 추천 시스템으로부터 유용한 정보를 얻기란 현실적으로 매우 어려운 실정이다.

따라서, 상기한 문제점을 해결하기 위하여 본 발명은 대용량 웹 데이터로부터 사용자에게 꼭 필요하고 유용한 정보를 찾아내는 웹 정보 추천시스템에 필수적인 웹 정보 예측 시스템 및 그 방법을 제공한다.

본 발명에 따른 웹 정보 예측 시스템은 웹 서버의 로그 데이터로부터 사용자들의 클릭 스트림 정보를 얻는 웹 로그 데이터 추출부와; 초기의 로그 데이터로부터 모델을 구축하는 데 있어 필요한 정보만을 적절한 형태로 추출하는 데이터 전처리부와; 사용자에 대한 웹 페이지 선호도 예측 모형을 구축하는 예측모형 구축부; 그리고, 각 페이지에 대한 사용자의 선호도를 예측하는 예측부로 구성되며, 기존의 방법에 비하여 학습시간에 대한 비용의 증가 없이도 향상된 정확도를 가지는 우수한 특성을 갖는다.

Description

앙상블 서포트 벡터 머신을 이용한 인터넷 환경의 웹 정보 예측 시스템 및 방법 {A System of Web Information Prediction in Internet Environment Using Ensemble Support Vector Machine and A Methode Thereof}

본 발명은 인터넷상에서 사용자가 선호하는 웹 정보를 예측하는 시스템 및 방법에 관한 것으로, 보다 구체적으로는 인터넷 환경에서 사용자들의 행위를 분석하여 사용자가 가장 선호한 웹 정보를 서비스하기 위해 앙상블 Support Vector Machine(이하, “ESVM”이라 한다)을 이용하여 희소한 웹 로그데이터를 예측하는 시스템 및 방법에 관한 것이다.

최근 World Wide Web의 확장과 인터넷의 대중화에 따라 정보량이 기하급수적으로 증가하고 있고, 따라서 네티즌들은 전 세계에 분산되어 있는 수많은 정보들을 매우 적은 비용으로 손쉽게 얻을 수 있게 되었다. 뿐만 아니라 인터넷의 발전은 전반적인 사회구조까지 변화시켜 전자상거래와 같은 새로운 산업을 창출하였으며, 급기야는 인터넷을 떠나서는 살아갈 수 없을 정도로 인간 활동의 대부분은 인터넷에 의존하게 되었다.

이러한 환경 하에서 인터넷 사용자들은 대부분의 시간을 정보를 탐색하는데 소요하고 있으며, 그 외의 시간은 사용자의 관심 영역이 아닌 전혀 엉뚱한 곳에서 소비하고 있음은 주목할 만한 사실이다. 즉, Dizzy Web이라 부를 수 있을 정도로 무질서한 현 인터넷 환경에서 특정 정보를 찾고자 무작정 웹을 서핑 한다는 것은 매우 비효율적인 행위가 아닐 수 없다.

따라서 사용자로 하여금 좀더 쉽고 경제적으로 정보를 얻을 수 있는 방안에 대한 연구가 절실히 요구되고 있는데, 이러한 목적을 달성하기 위해 현재 가장 많은 관심은 가지고 있는 분야가 고객관계관리(Customer Relationship Management) 시스템이다.

인터넷 환경 하에서의 고객관계관리를 위한 분야 중 하나인 웹개인화 (personalized web)는 웹 사이트에 접속하는 모든 사용자들에게 획일적인 정보를 제공하는 것이 아니라, 각종 정보들로부터 사용자의 성향을 파악하고 이에 맞추어 웹 사이트를 구축하거나 구조를 변화시켜 서비스를 제공하기 위한 것이다.

즉, 웹 개인화는 해당 사이트로부터 좀더 쉽고 빠르게 그리고 효과적으로 사용자에게 적절한 정보를 제공하고, 사용자에게 특정 정보만을 간략하게 제공함으로써 시스템의 부하의 저감과 성능의 향상을 도모하며, 웹 사이트를 이용하는 데 있어서 사용자가 불필요한 작업을 하지 않고도 자신이 원하는 정보를 바로 서비스 받을 수 있도록 하여 웹 사용자로부터 보다 좋은 반응을 얻고자 하는 것이 궁극적인 목표라 할 수 있다.

이와 관련한 선행기술로는 Vapnik이 제안한 SVM을 이용하여 웹 정보를 예측하는 방법이 있다. 1979년 Vapnik은 연관정보를 예측하기 위한 방법으로서 주어진 데이터 (x₁, y₁₎,(x₂, y₂),(x₃, y₃), … , (x_n, y_n) 을 이분법적으로 나눌 수 있는 이상적인 선형 평면을 구하는 방법인 Support Vector Machine(이하, “SVM”이라 한다)을 제시한 바 있는데, 상기 SVM은 분류문제를 다음과 같은 함수식을 이용하여 해결하고 있다.

f(x) = sign(ω·x + b)

상기 [수학식 1]에서 x는 입력 변수이고 y(=f(x))는 출력 변수이다. 여기서 y는 +1과 -1의 두 값을 가지며, 이 값에 의해 주어진 개체들을 분류한다. sign(·) 함수는 Vapnik이 제안한 SVM에서 사용하는 커널(kernel) 함수이며, 이 함수의 역할은 주어진 학습 데이터로부터 분류를 가장 잘 하는 분류기의 형태를 결정한다. 그리고 최종적으로 f(x)의 부호에 의해 부류(class)가 결정되고, 그로부터 연관정보를 예측하게 된다.

그러나, Vapnik이 제안한 상기의 SVM은 학습시간이 빠르다는 이유로 동적인 예측 모형에서 사용되고는 있으나, 상기의 모형은 예측의 정확성에 있어서 기존의 웹 예측 시스템에서 주로 사용하고 있는 피어슨의 상관 계수 알고리즘에 비해 우수하지 못한 결과를 보이고 있는데, 그 이유는 SVM이 한 개의 커널함수만을 사용하여 모형을 만들기 때문이다. 다시 말해, SVM은 하나의 커널함수를 이용하여 모형을 만들고, 이를 예측에 적용하게 되는데 최종 모형에 대한 성능이 떨어지는 경우에는 다른 커널함수를 사용하여 또다시 학습을 해야 하는 문제가 발생하게 되는 것이다.

따라서 본 발명에서는 상기와 같은 문제점을 해결하기 위한 방안으로서 복수개의 커널함수를 적용하고, 상기 함수들 중에서 주어진 학습 데이터를 가장 잘 모형화하는 한 개의 커널함수를 찾아내는 앙상블 전략을 SVM에 적용한 웹 정보 예측 시스템 및 방법을 제안한다.

본 발명은 인터넷 환경에서 사용자들의 행위를 분석하여 가장 적절한 웹 정보를 서비스하기 위한 웹 정보 예측 시스템 및 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 어느 웹 사이트에서나 손쉽게 얻을 수 있는 웹 로그 데이터를 기반으로 한 연속성 피드백 정보를 이용하고, SVM에 앙상블(ensemble) 기법을 결합한 앙상블 SVM을 설계함으로써 빠른 속도와 높은 정확성으로 웹 로그 데이터의 희소성 문제를 해결할 수 있는 시스템 및 방법을 제공하는 것을 목적으로 한다.

이하, 도면을 참조하여 본 발명에서 제안하는 ESVM을 이용한 인터넷 환경의 웹 정보 예측 시스템 및 방법에 대하여 보다 구체적으로 설명한다.

도 1은 본 발명에 따른 ESVM을 이용한 웹 정보 예측 시스템의 구성을 나타낸 것이다.

도 1에 나타낸 바와 같이 본 발명에 따른 예측 시스템은 웹 서버의 로그 데이터로부터 사용자들의 클릭 스트림 정보를 얻는 웹 로그 데이터 추출부(10)와, 초기의 로그 데이터로부터 모델을 구축하는 데 있어 필요한 정보만을 적절한 형태로 추출하는 데이터 전처리부(20)와, 전처리된 데이터를 일정 조건에 맞도록 분류하고 서포트 벡터(Support Vector; 이하 “SV"라 한다)를 구하여 사용자에 대한 웹 페이지 선호도 예측 모형을 구축하는 예측모형 구축부(40), 그리고 각 페이지에 대한 사용자의 선호도를 예측하는 선호도 예측부(70)로 구성된다.

또한, 상기 예측모형 구축부(40)는 붓스트래핑부(Bootstrapping; 미도시)와, 커널결정부(Kernel Voting; 미도시)로 구성되는데, 여기에서 붓스트래핑부(Bootstrapping)는 모형의 학습시간을 단축시키기 위하여 전체 데이터에서 표본을 재추출하는 역할을 하며, 커널결정부(Kernel Voting)는 최적의 커널(Kernel)함수를 결정하는 역할을 한다.

상기의 구성을 도 2를 참조하여 보다 구체적으로 설명하면 다음과 같다.

먼저, 웹로그 데이터 추출부(10)는 웹 서버의 로그 데이터로부터 정보 예측에 필요한 사용자들의 클릭 스트림 정보를 얻는다(S100). 그런데 일반적으로 웹 로그 데이터는 로그를 생성하는 서버의 종류와 웹 사이트의 성격, 그리고 사이트를 제공하는 주체의 성격에 따라 다양한 형태를 나타낸다. 따라서, 초기의 로그 데이터는 데이터 전처리부(20)에서 웹 로그 파일의 데이터에 대해 정제 및 필터링을 실시한다(S110). 전처리 과정에서는 일반적으로 사용자는 자신의 관심이 높은 페이지에 대해서는 더 많은 시간동안 동일한 페이지에 머문다는 사실과, 페이지에 머문 시간과 페이지에 대한 선호도는 비례한다는 사실에 기초하여 로그의 많은 항목 가운데 사용자의 쿠키 아이디(cookie ID), 요청 페이지(request page), 요청 날짜(request date), 요청 시간(request time) 등을 선택하여 도 3과 같이 모델을 구축하는 데 있어 필요한 정보만을 적절한 형태로 가공한다. 이렇게 정제된 로그 정보(30)는 사용자가 방문한 페이지와 페이지에 머문 시간을 모아서 하나의 인스턴스(instance)로 이용하고, 여기서 적절한 수의 인스턴스를 다시 추출하여 학습 데이터로 사용함으로서 예측모형 구축부(40)에 의해 사용자에 대한 웹 페이지 선호도 예측 모형을 만든다. 그리고 상기 예측모형을 이용하여 전처리 데이터를 일정 조건에 맞도록 분류하고, 그로부터 SV를 구하게 된다(S120). 여기서, SV는 실제 문제공간에서 이상평면과 방정식의 관계를 나타낸 도 4의 x₁, x₂ 와 같은 점들을 말한다.

본 발명에서는 이러한 모형 구축을 위하여 ESVM을 제안하여 사용하는데 ESVM을 사용한 이유는 웹 로그 데이터의 희소성 문제를 해결하고 학습 시간의 단축을 위해서이다. 왜냐하면 웹 로그 데이터의 클릭 스트림 정보는 도 3에 나타낸 바와 같이 매우 희소한 특성을 가지고 있기 때문이다. 여기서 데이터가 희소하다는 것은 일반적으로 웹 서버에 존재하는 수많은 웹 페이지 중에서 한번의 접속으로 보는 웹 페이지의 수는 상대적으로 매우 적어 개개의 사용자에 대한 인스턴스는 매우 많은 셀에서 결측치(missing data; 80)로 남는 것을 의미한다.

한편, 선호도 예측부(70)는 테스트 데이터(60)를 이용하여 얻은 정보를 전체 웹 페이지의 ESVM 모형에 적용시켜 각 페이지에 대한 사용자의 선호도를 예측부(70)에서 예측한다(S130). 이 때의 테스트 데이터는 정제된 로그파일에서 학습 데이터에 포함되지 않은 데이터들 중에 무작위로 추출한 것으로 성능 평가에 사용된다.

계속해서 앞의 각 과정들을 통해 얻은 각 페이지들에 대한 예측 값에 각 사용자의 평균 관심도와 각 페이지의 평균 관심도를 고려하여 선호도를 계산한다(S140). 이 과정을 통해 희소한 웹 데이터는 결측 셀이 모두 채워지는 완전한 데이터 구조를 이루게 되고(S150), 그 중 선호도가 가장 큰 값을 가진 페이지가 필요시 사용자에게 추천된다(S160).

이하에서는 ESVM을 이용한 웹 정보 예측방법에 대하여 보다 구체적으로 설명한다.

본 발명에 따른 ESVM은 정보를 예측하기 위하여 분류에 대한 학습전략을 사용하는데, 여기서 분류(classification)란 집단간의 차이를 식별하는데 사용되는 여러 개의 서로 상관된 변수들과 사전에 정의된 하나의 목표 변수(target variable)를 갖는 다변량(multivariate) 데이터를 분석 대상으로 집단간의 분리 정도에 관한 해석과 각 개체를 특정 집단에 분류하는데 필요한 적정 분류 기준을 구하는 것이고, 또한 예측(prediction)은 주어진 데이터로부터 학습 모형을 만들어 아직 관측되지 않은 입력 변수들의 값에 대한 목표 변수의 값을 추정(estimation)하는 것이다. 따라서 분류에 대한 학습 전략은 예측에 대한 전략과 동일하다고 할 수 있다.

본 발명에서는 분류문제에 있어서 두 개의 부류(class)에 대하여 주어진 데이터에 대해서 정보의 손실을 최소로 하면서 각 부류에 속하게 되는 개체들을 분류해 내는 알고리즘을 변형하여 예측문제에 적용한다. 다시 말해, 주어진 개체들이 특정 부류에 속하는지의 여부를 판단하는 이진분류(binary classification) 문제를 해결할 수 있는 함수를 분류문제에서 도출하고, 여기에서 도출된 함수의 목표변수를 연속형 데이터에 적용하여 연속 추정값(continuous estimate value)을 예측해 내는 모형을 구축한다.

또한, SVM은 이상평면 방정식의 해를 구한다는 특징과 함께 커널(Kernel)함수를 이용하여 주어진 데이터를 다른 dot product 공간으로 표현하는 특징을 가지고 있다. 다시 말해, 도 5는 매핑(mapping)을 통한 문제 공간의 변환 예시도를 나타낸 것인데, 도 5로부터 알 수 있듯이 하나의 입력공간(Input Space)은 소정의 비선형 사상함수(PH: R ^N → F)를 사용하여 특징공간(Feature Space)로 사상(mapping)될 수 있다. 즉, [수학식 2]와 같이 사상 함수들의 dot product로 나타낼 수 있다.

K(x, y): = (Φ(x)·φ(y))

이 때, 차원이 커질 경우 [수학식 2]의 계산 양은 매우 커질 수가 있지만, 몇 가지 알려진 커널함수들을 이용하면 간단하게 계산될 수 있는데, 이와 같은 대표적인 커널함수로는 다음의 식들로 나타낸 4가지의 경우를 들 수 있다.

여기에서, [수학식 3]은 다항(polonimial) 커널함수를 나타내고, [수학식 4]는 가우시안 RBF(radial basis function) 커널함수를 나타낸다. 또한, [수학식 5]는 지수(exponential) RBF 커널함수를 나타내며, [수학식 6]은 시그모이드 (sigmoid) 커널함수를 나타낸다.

상기와 같은 함수들을 통하여 문제를 선형분리가 가능하도록 유도한 후, 두 부류의 개체들을 가장 잘 분류하는 평면인 이상평면 방정식을 도출함으로서 SVM은 비선형 분류기로서의 기능을 수행하게 된다. 그런데 본 발명에서는 이러한 커널함수들 중에서 주어진 학습 데이터를 가장 잘 모형화하는 함수를 구하기 위하여 앙상블(ensemble) 전략을 제공한다.

앙상블이란 원래 신경망 모형에서 사용되는 용어로서 서로 다른 네트워크 군집에서 학습을 통하여 가장 우수한 신경망 모형을 찾아내는 기법인데, 이때 가장 우수한 신경망 모형은 주어진 데이터의 학습을 통하여 가장 작은 목적 함수(본원의 경우는 에러 함수)를 갖는 신경망 구조를 가장 우수한 모형으로 결정한다. 이와 같은 결정방법을 ‘보우팅(voting)' 이라고 하는데, 본 발명에서는 상기의 앙상블 기법을 최적 SVM 모형 결정에 적용한다. 즉, 각기 다른 커널 함수를 갖는 다수의 SVM 중에서 목적 함수(본 발명의 경우에는 최소 제곱 오차, Mean Squared Error(MSE))가 가장 작은 SVM을 결정하여 웹 페이지의 예측 모형으로 결정한다.

한편, SVM은 손실 함수(loss function)를 이상평면 방정식에 포함시킴으로서 예측의 회귀(regression) 문제에 적용시킬 수 있다. 여기에서, 손실함수란 예측값과 실제값의 오차가 있을 경우에 어떻게 이것을 구하고자 하는 함수식에 반영시킬 것인가 하는 방법을 제시해 주는 함수이다.

일반적으로 대표적인 손실함수로는 도 6에 보인 바와 같이 (a)2차 다항(quadratic) 손실함수, (b)라플라시안(Laplacian) 손실함수, (c)허버(Huber)의 견실(robust) 손실함수, 그리고, (d)ε-인센서티브(ε-insensitive) 손실함수 4가지가 있는데, 본원 발명에서는 웹 로그로부터의 학습 데이터가 매우 높은 희소성을 보인다는 점을 감안하여 희소 데이터(sparse data)들에 대해서 최적의 성능을 보이는 ε-인센서티브 손실함수를 이용한다.

도 7과 알고리즘 1은 본 발명에서 제안하는 앙상블 모형의 초기화 과정을 나타낸 것이다.

[알고리즘 1]

Algorithm: Initialize_ESVM (Parameter[j]) // ESVM의 초기화

Set parameters; nsv, beta, bias, X, Y, ker, C, loss, e

// X-학습 데이터, Y-목표값, ker-커널 함수

// C-상한, loss-손실 함수, e-ε insensitivity, bias-편이

// nsv-support vector의 개수, beta-라그랑지 곱차분

// 매개변수의 초기값 조사

if ( margin < 3 | margin > 6) // 매개 변수의 정확한 개수 조사

else n = size (X ,1) // 입력 데이터 크기 확인

if ( nargin <5) loss = eInsensitive

// 초기 손실함수를 -Insensitive로 결정

if ( nargin <4) C= Inf // 학습 모형의 모수 추정의 상한 결정

if ( nargin <3) ker = linear // 초기 커널 함수를 linear로 결정

end

// 커널 함수의 결정

Set H = zeros (n,n) // 커널 함수 배열을 0으로 초기화

for (i =1; i<=n; i++)

for (j =1; j<=n; j++)

H(i, j) = kernel (ker, X(i), X(j))

// 다양한 커널함수의 적용

end

상기 알고리즘에서 X는 입력 변수, Y는 목표 변수, ker은 커널 함수, C는 상한(upper bound), loss는 손실 함수, e는 둔감도(insensitivity), nsv는 서포트 벡터(support vector)의 개수, beta는 라그랑지 곱 차분, 그리고 bias는 바이어스 항을 나타낸다.

도 7에 나타낸 바와 같이 ESVM의 초기화는 먼저, 사용되는 파라미터를 정의하고(S200), 매개변수의 정확한 갯수를 조사한다(S210). 그런 다음 매개변수의 갯수가 소정의 조건을 만족하지 않으면 입력 데이터를 확인하고, 소정의 조건을 만족하면서, 예를 들어, 갯수가 5 미만이면 손실함수를 ε-인센서티브로 결정하고, 갯수가 4 미만이면 학습모형의 모수추정의 상한을 결정하며, 갯수가 3 미만이면 초기 커널함수를 리니어(linear)로 결정한다.

다음으로 상기의 과정이 끝나면 커널함수 배열을 0으로 초기화한 후(S120) 정해진 횟수만큼 반복하면서 여러 개의 커널 함수를 적용하여 계산하고, 각각의 결과 값을 종합하여 배열에 추가한다.(S130).

상기와 같은 앙상블 모형의 초기화 과정이 끝나면 다음은 ESVM을 통한 예측 과정을 실행하게 된다.

앞에서도 언급한 바와 같이, ESVM은 기존의 SVM을 개선한 예측방법이다. 보다 구체적으로 설명하면, 기존의 SVM 모형은 한 개의 커널함수 즉, sign(·) 를 사용한 것에 반해, 본원 발명의 웹 데이터 분석을 위한 ESVM 모형은 다수의 커널 함수 즉, spline(·), sign(·), smother(·) 등을 사용하여 가장 좋은 성능을 나타내는 함수를 보우팅(voting)하여 적용하는 앙상블 기법을 결합하여 최적의 모형을 구할 수 있는 모형이다.

그런데, 앙상블 모형을 수행하는데 있어서는 앙상블을 사용하지 않는 모형에 비하여 더 많은 양의 학습을 하게 되므로 학습시간에 대한 비용이 증가하게 된다. 그러나 이와 같은 앙상블 모형의 문제점은 도 8에 나타낸 것과 같은 구조를 갖는 붓스트래핑(Bootstrapping) 기법을 사용함으로써 해결할 수 있는데, 상기의 방법은 모형의 학습을 위하여 전체 데이터를 사용하지 않고 반복이 있는(with replacement) 임의 추출 방법인 재표본(resampling) 기법을 사용한 것이다. 즉, 데이터의 크기가 N인 전체 데이터의 각 개체(point)는 모두 같은 확률(1/N)로서 추출되어 M개의 크기를 갖는 표본이 만들어지고, 이 표본을 통하여 앙상블 학습이 이루어진다. 이때 앙상블 학습에 사용되는 표본의 크기인 M은 전체 데이터의 크기 N에 비해서 매우 작도록 하는 것이 바람직하다.

도 9와 [알고리즘 2]는 상기의 최적 커널함수 결정을 위한 앙상블 기법과 붓스트랩 재표본 절차를 나타낸 것이다.

[알고리즘 2]

[ Algorithm: Voting_Kernel(Sel_ker[k]) ]

// 다수의 커널 함수를 사용하여 최적의 모수를 결정

Choose optimal kernel K^* such that min ∥ω∥

// 1-scatter smoothing, 2-bin, 3-running mean, 4-kernel smoother

// 5-equivalent kernel, 6-regression spline, 7-cubic smoothing spline

// 붓스트랩 샘플링

for (i=1; i=<N; i++)

if random_number < 0.1

re_sampling // 붓스트래핑의 재 표본 기법 적용

end

// 최적 커널 함수의 결정

for (k=1; k=<7; k++)

MSE[k]=risk(Sel_ker[k]) // 위험함수 값의 최소 제곱 오차 계산

if mse[k]=min;

voting // 최소 제곱 오차 값이 가장 작은 커널함수를 선택

end

도 8에서 알 수 있는 바와 같이, 본 발명은 모형 구축 전략인 앙상블 기법을 사용하기 위하여 커널함수를 다양하게 변형한다(S300). 본 발명에서 사용되는 커널함수는 주로 간단한 스캐터 스무더(scatter smoothing) 함수부터 빈(bin)함수, 이동평균(running-mean) 함수, 커널 스무더(kernel smoothers) 함수, 등가 커널(equivalent kernels) 함수, 회귀 스플라인(regression spline) 함수, 그리고 큐빅 스무딩 스플라인(cubic smoothing splines) 함수가 사용된다. 여기에는 또한 연속형 데이터에 대한 커널함수로서 사용할 수 있는 스플라인(spline) 계열의 가법(additive) 함수가 사용될 수도 있다.

도 9에 기재된 다수의 커널함수를 사용하여 최적의 모수를 결정하는 과정은 먼저 학습시간을 단축하기 위하여 붓스트랩 재표본 과정을 거치게 된다(S310). 그리고 각 위험함수 값의 최소제곱오차를 계산한 후(S320) 상기 최소제곱오차 값이 가장 작은 커널함수를 ESVM에 적용할 함수로서 선택하게 된다(S330).

도 10과 [알고리즘 3]은 커널함수에 대한 앙상블 적용과 최적의 이상평면을 구하는 과정을 설명한 것이다.

[알고리즘 3]

[ Algorithm: Find_Hyperplane (Input[i]) ]

// 입력 데이터를 이용하여 이상 평면을 구축하는 알고리즘

Choose(1) an origin point <ω, x ₁ > + b = +1, <ω, x ₁ > + b = -1

Choose(2) initial ω₀ such that y _i <ω, x _i > + b ≥ 1, for all i

// 최적 이상 평면 발견

Calculate Support Vector through {x|<ω, x ₁ > + b = 0}

Selection if minimize subject to y _i <ω, x _i > + b ≥ 1, for all i

then 'best hyper-plane found'

else choose optimization problem

determine the ω^* with minimal margin

if (y^*>0) then ξ_i = (X^-+X^*)/2 else ξ_i ^* = (X⁺+X^*)/2

ω_h = ω_k-1 - Δω and ω_k'= ω_k/∥ω_k∥

if [y^*f(x^*)]<0 after update then go to Choose(1)

Repeat Calculate and Selection maximally min{N, l} times.

// 근사적인 초평면(hyper-plane) 발견

Go to Choose(1), or if maximal trials is attained,

'approximative hyper-plane found'

도 10에서는 먼저, 기준점을 선정하고(S400), 모든 개체에 대하여 다음의 [수학식 7]을 만족하도록 집단의 간격을 나타내는 가중치 모수의 초기값 ω0 를 선정한 후(S410), 최적이상평면을 찾기 위하여 다음의 [수학식 8]을 만족하는 SV를 구한다(S420).

y _i <ω, x _i > + b ≥ 1, for all i

{x|<ω, x ₁ > + b = 0}

그리고, 모든 개체에 대해 다음의 [수학식 9]로 나타낸 우수한 이상평면 조건을 만족하면서 최소의 마진(margin)을 가지는 평면을 최적의 이상평면으로 간주한다(S430).

y _i <ω, x _i > + b ≥ 1, for all i

그러나 만약 그렇지 않으면 다음의 [수학식 10]에 나타낸 것과 같이 최적화 문제를 선택하여 최소의 마진(margin)을 갖는 ω^*를 정한다(S440).

, 여기서 Q는 합계(∑)을 의미한다.

그리고 y^* 값의 크기에 따라 소정의 계산식을 수행하거나 또는 데이터를 갱신하고 다시 단계 1을 실행한다(S450). 이와 같은 과정을 N과 l 중 작은 수에 해당한 만큼 반복한다. 그런 후에도 최적 이상평면이 발견되지 않으면 가장 근접한 근사 초평면을 선정한다(S460).

상기와 같은 절차에 의해 하나의 커널 함수에 대한 ESVM의 최적의 모형이 결정되는데, 이 절차에서는 라그랑지 전개에 의해 최적 방정식의 해가 결정된다. 그리고 이와 같은 과정을 반복하여 최종 ESVM 모형에 의해 계산되어지는 SV를 구하고(S470), 이를 통해 사용자에 대한 웹 페이지의 방문 시간을 예측할 수가 있다(S480).

도 11은 페이지 예측 모형의 구조를 시각적으로 나타낸 것이다. 도 11에서 예측하려는 웹 페이지는 k이고, 이 페이지가 목표 변수에 대한 설명 변수로서의 역할을 수행하는 웹 페이지가 페이지 i와 페이지 j인 2개 페이지에 대한 단순 구조를 나타내고 있다. 도 11의 각 점은 한 명의 사용자를 나타내며 평면에 있는 축들은 이미 사용자가 지나온 페이지 브라우징 시간, 세로축은 해당 페이지에 대한 브라우징 시간을 나타낸다. 따라서 그림은 해당 페이지를 제외한 다른 페이지의 시간에 따라 해당 사용자의 해당 페이지에 관한 브라우징 시간을 예측하게 된다.

도 12는 상기의 예측 과정을 거쳐 희소성이 제거된 웹 로그 데이터의 예를 보인 것이다. 예를 들어 도 11의 희소한 웹 페이지 데이터 구조에서 i 번째 페이지에 대한 선호도 예측 모형은 다음 수학식과 같이 나타낼 수 있다.

선호도_{page i} = f(page ₁ , …, page _i-1 , page _i+1 , …, page _M )

[수학식 11]을 통해 i 번째 페이지에 대한 선호도를 예측할 수 있다. 즉, 특정 사용자에 대한 접속 정보가 없어 해당 셀이 비어있는 웹 페이지에 대한 선호도를 상기 수식에 의해 계산하여 도 13에 나타낸 바와 같이 선호도가 가장 큰 값을 갖는 웹 페이지를 사용자에게 추천하게 된다. [수학식 11]에서 함수 f(·)는 앙상블 기법을 적용하여 얻은 커널함수가 된다.

본 발명에서 도시되고 설명된 방법들은 단지 하나의 실시예를 보인 것으로, 다양한 변화들이 본 발명의 범위와 정신을 벗어남이 없이 당업자에 의해 용이하게 구현될 수 있을 것이다.

이상에서와 같이 본 발명에서는 어느 웹 사이트에서나 손쉽게 얻을 수 있는 웹 로그 데이터를 기반으로 한 연속성 피드백 정보를 이용하고, 빠른 속도와 높은 정확성의 특성을 갖는 ESVM을 제안하였다.

본 발명에서 제안한 방법은 인터넷상의 웹 로그 데이터의 희소성 문제를 효과적으로 해결할 수 있을 뿐만 아니라 피어슨의 상관계수 알고리즘과 비교할 때 예측의 정확도 매우 향상되었을 뿐만 아니라 학습 시간도 단축할 수 있다.

도 1은 본 발명에 따른 웹 정보 예측시스템 구성도

도 2는 본 발명에 따른 웹 정보 예측시스템의 동작 설명도

도 3은 희소성을 갖는 웹 로그 데이터 구조

도 4는 서포트 벡터(Support Vector) 및 이상 분할 평면

도 5는 매핑(mapping)을 통한 문제 공간의 변환 예시도

도 6은 대표적인 손실함수

도 7은 앙상블 서포트 벡터 회귀의 초기화 흐름도

도 8은 붓스트랩핑의 예시도

도 9는 최적 커널함수 결정을 위한 앙상블 기법의 흐름도

도 10은 ESVM의 최적 이상평면 결정과정 흐름도

도 11은 동적 웹 정보 예측 사용자 모델링

도 12는 희소성이 제거된 웹 로그 데이터 구조

* 도면의 주요부분에 대한 부호의 설명*

10: 웹 로그 데이터 추출부 20: 데이터 전처리부

30: 정제 데이터 40: 예측모형 구축부

60: 테스트 데이터 70: 선호도 예측부

80: 결측치 데이터

Claims

인터넷 환경에서 사용자에게 웹 정보를 제공하는 시스템에 있어서:

웹 서버의 로그 데이터로부터 사용자들의 클릭 스트림 정보를 얻는 웹 로그 데이터 추출부(10);

추출된 상기의 로그 데이터를 정제하고 필터링하여 모델 구축에 필요한 정보만을 적절한 형태로 추출하는 데이터 전처리부(20);

상기 전처리부에서 추출된 데이터를 학습 데이터로 사용하고 다수의 커널함수를 적용한 앙상블 서포트 벡터머신(ESVM)을 이용하여 사용자에 대한 웹 페이지 선호도 예측 모형을 만드는 예측모형 구축부(40); 및

정제된 로그파일에서 학습 데이터에 포함되지 않은 데이터들 중에 무작위로 추출한 테스트 데이터를 이용하여 얻은 로그 정보를 전체 웹 페이지의 앙상블 서포트 벡터머신(ESVM)을 이용한 모델에 적용시켜 각 페이지에 대한 사용자의 선호도를 예측하는 선호도 예측부(70);로 구성된 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측 시스템.
청구항 제1항에 있어서, 상기 예측모형 구축부는,

모형의 학습시간을 단축시키기 위하여 전체 데이터에서 표본을 재추출하는 역할을 하는 붓스트래핑부; 및 최적의 커널(Kernel)함수를 결정하는 커널결정부;로 이루어진 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측 시스템.
인터넷 환경에서 사용자에게 웹 정보를 제공하는 방법에 있어서:

웹로그 데이터 추출부가 웹 서버의 로그 데이터로부터 사용자들의 클릭 스트림 정보를 얻는 단계(S100);

추출된 상기의 로그 데이터를 전처리부에서 정제하고 필터링하여 모델 구축에 필요한 정보만을 적절한 형태로 추출하는 단계(S110);

상기 정제된 로그 정보를 사용자가 방문한 페이지와 페이지에 머문 시간을 모아서 하나의 인스턴스로 이용하고, 여기에 적절한 수의 인스턴스를 다시 추출하여 학습 데이터로 사용함으로서 예측모형 구축부에 의해 사용자에 대한 웹 페이지 선호도 예측 모형을 만드는 단계(S120);

정제된 로그파일에서 학습 데이터에 포함되지 않은 데이터들 중에 무작위로 추출한 테스트 데이터를 이용하여 얻은 로그 정보를 전체 웹 페이지의 앙상블 서포트 벡터머신(ESVM) 모델에 적용시켜 각 페이지에 대한 사용자의 선호도를 예측부에서 예측해 내는 단계(S130);

상기의 과정들을 통해 얻은 각 페이지들에 대한 예측 값에 각 사용자의 평균 관심도와 각 페이지의 평균 관심도를 고려하여 선호도를 계산하는 단계(S140); 및

희소한 웹 데이터의 결측치를 완성하여 완전한 데이터 구조를 만드는 단계(S150);로 이루어진 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측방법.
청구항 제3항에 있어서, 상기 선호도를 예측하는 단계는,

매개변수를 초기화 하는 단계;

커널함수를 결정하는 단계;

최적의 모수를 결정하는 단계;

모형 학습시간의 단축을 위하여 붓스트래핑 기법을 사용하여 데이터의 각 개체를 샘플링하는 단계;

최적의 커널함수를 결정하는 단계;

최적의 이상평면을 결정하는 단계; 및

사용자에 대한 접속 정보가 없는 희소한 웹페이지 데이터를 구축하는 단계;로 이루어지고, 상기 최적의 커널함수를 결정하는 단계는 복수개의 커널함수 중 오차를 최소로 하는 하나의 함수를 선택하는 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측방법.
청구항 제4항에 있어서, 상기 복수개의 커널함수는,

스캐터 스무딩(scatter smoothing) 함수, 바이너리(binary) 함수, 이동평균(running mean) 함수, 커널 스무더(kernel smoother) 함수, 등가 커널(equivalent kernel) 함수, 회귀 스플라인(regression spline) 함수 또는 큐빅 스무딩 스플라인(cubic smoothing spline) 함수인 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측방법.
청구항 제4항에 있어서, 상기 최적의 이상평면 결정 단계는,

기준점을 선정하는 단계;

모든 개체에 대하여 집단의 간격을 나타내는 가중치 모수의 초기값을 초기화하는 단계;

상기 모든 개체의 서포트 벡터(Support Vector)를 계산하는 단계; 및

상기 모든 개체에 대해 소정의 이상평면 조건을 만족하면서 최소의 마진을 가지는 평면을 최적의 이상평면으로 간주하여 이상평면을 선정하는 단계;로 이루어진 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측방법.
청구항 제6항에 있어서, 상기 최적의 이상평면 선정 단계에서,

최적 이상평면이 발견되지 않으면, 갱신된 서포트 벡터(Support Vector)를 이용하여 모수를 추정한 후 데이터를 갱신하여 기준점을 선정하는 단계부터 재수행하는 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측방법.
청구항 제6항 또는 제7항에 있어서,

상기 최적의 이상평면 선정 단계에서 최후까지 최적 이상평면이 발견되지 않으면 가장 근접한 근사 초평면을 이상평면으로 선정하는 것을 특징으로 하는 앙상블 서포트 벡터머신을 이용한 웹 정보 예측방법.