KR20040077398A - 통계적 학습 이론을 이용한 동적 추천 시스템 - Google Patents

통계적 학습 이론을 이용한 동적 추천 시스템 Download PDF

Info

Publication number
KR20040077398A
KR20040077398A KR1020030012937A KR20030012937A KR20040077398A KR 20040077398 A KR20040077398 A KR 20040077398A KR 1020030012937 A KR1020030012937 A KR 1020030012937A KR 20030012937 A KR20030012937 A KR 20030012937A KR 20040077398 A KR20040077398 A KR 20040077398A
Authority
KR
South Korea
Prior art keywords
equation
statistical learning
learning theory
recommendation system
information
Prior art date
Application number
KR1020030012937A
Other languages
English (en)
Inventor
최준혁
전성해
Original Assignee
최준혁
전성해
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최준혁, 전성해 filed Critical 최준혁
Priority to KR1020030012937A priority Critical patent/KR20040077398A/ko
Publication of KR20040077398A publication Critical patent/KR20040077398A/ko

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 웹 사이트에 접속되는 고객들의 거래동향을 분석하고, 추천모형을 동적으로 만들어 접속자에게 효율적인 추천서비스를 제공하는 통계적 학습 이론을 이용한 동적 추천 시스템을 제공한다.
상기 목적을 위하여 본 발명은
웹 사이트에 접속된 사용자들에게 정보를 추천하기 위한 통계적 학습 이론을 이용한 동적 추천 시스템에 있어서,
상기 사용자들의 웹사이트에 접속되어 이루어진 접속정보를 저장하는 웹로그파일;
상기 웹사이트에 접속된 사용자들의 반응과 성향이 분류되어 저장되는 데이터 베이스;
상기 웹로그 파일로부터 새로운 사용자가 접속되는 경우에 상기 새로운 사용자의 특정 정보에 대한 반응을 추출하고, 상기 새로운 사용자의 반응으로부터 성향을 파악하고 상기 데이터 베이스부터 상기 새로운 사용자의 성향과 부합되는 집단의 반응을 근거로 통계적 학습이론에 의하여 모델화하고, 추천정보를 생성하여 추천하는 추천수단을 포함하는 것이다.

Description

통계적 학습 이론을 이용한 동적 추천 시스템 {Dynamic Recommendation System Using Statistical Learning Theory}
본 발명은 웹 사용자들의 거래 패턴을 스스로 감지할 수 있는 서버 컴퓨터가 고객의 행동을 실시간으로 분석하여 각 고객이 필요로 하는 최적의 컨텐츠를 동적으로 추천할 수 있는 시스템에 관한 것으로, 더욱 상세하게는 웹 사이트에 접속되는 고객들의 거래동향을 분석하고, 추천모형을 동적으로 만들어 접속자에게 효율적인 추천서비스를 제공하는 통계적 학습 이론을 이용한 동적 추천 시스템에 관한 것이다.
인터넷 사용자들은 웹 사이트의 구조가 적절치 못하기 때문에 자신이 원하는 콘텐츠에 신속히 접근하지 못하고 불필요한 시간을 많이 낭비하고 있다. 이와 같이 비효율적인 인터넷 사용을 개선하기 위하여 웹 개인화(Personalized Web)가 도입되게 되었다. 웹 개인화는 각종 정보로부터 사용자의 성향을 파악하고 이를 기반으로 웹사이트에 용이하게 적응되도록 서비스를 제공하는 방법이다. 즉, 이에 대한 연구는 해당 사이트로부터 효과적으로 사용자에게 적절한 정보를 제공함과 동시에 사용자에게 특정 정보만을 추려서 제공함으로써 시스템의 부하를 줄이고 성능 향상을 추구하는 것이다.
웹 개인화를 위해서는 웹 사이트를 찾아온 사용자가 어떤 부류에 속하고 이용 패턴 및 전반적인 성향은 어떤지를 구체화하여 이를 시스템에서 이용할 수 있는 형태로 모델링하여야 하며, 이 모델을 근거로 사용자에게 최적의 추천을 제시할 수 있는 추천 시스템을 구축하여야 한다.
현재 인터넷 환경에서 많은 수의 기업들이 사용자에 대한 추천 시스템을 구축하고 있다. 이들 웹 사이트들에서 이용되는 추천 시스템은 정적인 구조를 가지고 있다. 즉 웹 사이트의 서버에 저장된 과거의 웹 사용자들의 거래 데이터와 프로파일을 이용하여 추천 모델을 만들고 이 고정된 모델을 이용하여 현재의 사용자에 대한 추천 서비스를 하게 된다. 이러한 추천 시스템은 현재 사용자의 거래 행위에 대한 고려는 불가능하게 된다. 하지만 현재 웹 사이트에 접속한 사용자의 거래 패턴이 현재 사용자에 대한 추천 시스템에 가장 큰 영향을 미치게 되기 때문에 이러한 기존의 방법으로는 효율적인 추천 서비스를 제공하기가 사실상 어렵다.
또한, 기존의 추천서비스는 특정 사용자의 특정 콘텐츠에 대한 유용성과 선호도를 예측함에 있어 사용자들의 컨텐츠에 대한 평가정보를 기반으로 하고 있어 결여 데이터들이 발생되는 문제점을 앉고 있어 전체 콘텐츠에 대한 정확한 추천서비스를 제시하지 못하였다.
따라서, 본 발명은 이와 같은 문제점들을 해결하기 위한 것으로서, 본 발명의 목적은 현재 웹사이트에 접속한 사용자의 거래 패턴의 정보를 기반으로 사용자에 대한 동적인 추천을 하도록 함으로써 사용자가 가장 최신의 정보에 의한 효율적인 추천서비스를 받도록 함으로써 자신이 원하는 정보에 가장 효율적으로 접근할 수 있도록 하는 통계적 학습 이론을 이용한 동적 추천 시스템을 제공하기 위한 것이다.
도 1은 본 발명의 일실시예에 대한 설명을 하기 위한 블록도이다.
도 2는 본 발명의 수학식1의 실제 문제공간에서의 적용예를 설명하기 위한 그래프이다.
도 3은 본 발명에서 주어진 데이터를 커널함수를 이용하여 다른 돗트 프로덕트공간으로 표현하는 것을 나타내기 위한 그래프이다.
도 4는 본 발명의 일실시예에 적용되는 손실함수의 그래프이다.
이와 같은 목적들을 달성하기 위한 본 발명의 특징은,
웹 사이트에 접속된 사용자들에게 정보를 추천하기 위한 통계적 학습 이론을 이용한 동적 추천 시스템에 있어서,
상기 사용자들의 웹사이트에 접속되어 이루어진 접속정보를 저장하는 웹로그파일;
상기 웹사이트에 접속된 사용자들의 반응과 성향이 분류되어 저장되는 데이터 베이스:
상기 웹로그 파일로부터 새로운 사용자가 접속되는 경우에 상기 새로운 사용자의 특정 정보에 대한 반응을 추출하고, 상기 새로운 사용자의 반응으로부터 성향을 파악하고 상기 데이터 베이스부터 상기 새로운 사용자의 성향과 부합되는 집단의 반응을 근거로 통계적 학습이론에 의하여 모델화하고, 추천정보를 생성하여 추천하는 추천수단을 포함하는 것이다.
또한, 본 발명에서 상기 추천수단은 각 인스턴트들을 SVM(Support Vector Machine)에 의하여 분류하여 모델화하는 분류기와 상기 분류기에 의하여 생성된 모델을 SVR(Support Vector Regression)에 의하여 예측하는 예측기를 포함하는 것이 바람직하다.
또한, 본 발명에서 상기 SVM은
다음의 수학식1로 표현되는 최적 평면 방정식에서
[수학식1]
다음의 수학식2, 수학식 3을 만족하며, 점과 평면 사이의 간격(margin)을 최대화하는 w, b를 구해지는 최적 평면식으로 이루어지는 모델인 것이 바람직하다.
[수학식 2]
[수학식 3]
또한, 본 발명에서 상기 SVR은 상기 SVM의 최적 평면식에 손실함수를 포함한수학식인 것이 바람직하다.
또한, 본 발명에서 상기 손실함수는 epsilon-insentive 손실함수인 것이 바람직하다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 일실시예에 대한 설명을 하기 위한 블록도이다.
웹 서버내의 웹 로그 파일(web log file)에는 접속자들의 다양한 웹 사이트 접속정보가 저장된다. 이들 웹 사이트 접속정보중에서 전처리과정(preprocessing)을 거쳐 분석대상인 접속자의 클릭 스트림 데이터(click stream data)만을 추출하여 임시 데이터 저장수단(Data Repository)과 데이터 베이스(Data Base)에 저장한다.
추천시스템(Recomendation System)은 새로운 접속자(user)가 접속될 때마다 임시 데이터 저장수단으로부터 새로운 접속자의 클릭 스트림 데이터를 독출하여 새로운 접속자의 접속반응을 분석하고, 데이터 베이스로부터 새로운 접속자의 동일 분류의 기존 접속된자들의 접속반응들을 독출하여, 이를 모델링하고 이 모델에 부합되는 추천정보를 새로운 접속자에게 추천한다.
또한, 새로운 접속자의 반응정보와 추천정보는 데이터 베이스에 분류되어 거장되고, 차 새로운 접속자가 발생하는 경우에 동일한 과정을 거치면서 동적인 추천정보를 추천하게 된다.
추천시스템은 통계적 학습 모형(Statistical Learning Model: SLT)인분류(Classification)에 사용되는 SVM 분류기 (Support Vector Machine Classifier)와 예측에 사용되는 SVR 예측기( Support Vector Regression Predictor)로 이루어진다.
SVM 분류기는 주어진 데이터들을 이분법적으로 나눌수 있는 최적적인 선형평면을 구하는 방법을 제시하며 이러한 평면방정식이 주어졌을 때 분류문제를 해결하는 함수식은 다음의 수학식과 같다.
[수학식 1]
즉 이 함수식의 부호에 의해 패턴 레이블이 결정된다.
도 2는 본 발명의 수학식1의 실제문제공간에서의 적용예를 설명하기 위한 그래프이다.
도 2에서 보여주고 있듯이 중앙의 굵은 직선을 구해내는 것이 SVM의 궁극적 목표이며, 이러한 최적 평면(optimal hyperplane)은 각 개체들과의 폭을 최대로 하는 분류기로서의 조건들을 만족한다. 따라서 주어진 개체들로부터 간격(margin) 폭을 최대화하고 몇 가지 조건식을 만족하는 평면의 방정식을 구해내고자 하는 것이다. 우선 최적평면은 다음의 식을 만족해야 한다.
[수학식 2]
한편 점 x와 평면과의 거리는 다음의 식과 같이 구해진다.
[수학식 3]
결국 최적 평면(optimal hyperplane)은 위의 수학식 2를 만족하고, 점과 평면과의 간격(margin)인 수학식 3을 최대화 하는 w와 b를 갖는다. 간격은 다시 다음의 식으로 표현할 수 있다.
[수학식 4]
즉, 정리해 보면 다음과 같은 수학식 표현의 문제 정의가 가능하다.
[수학식 5]
이 식을 풀기위하여 위 식을 다음의 Lagrange함수로 표현한다.
[수학식 6]
결국 간격 폭의 최대화 문제는 위의 Lagrange함수의 변곡점을 찾는 문제로 바뀌어진다. 따라서 위 식(6)을 w와 에 대하여 편미분하면,
[수학식7]
따라서 이를 다시 위 수학식6에 대입하면, 다음의 수학식을 얻을 수 있다.
[수학식8]
따라서 다음의 수학식에 의하여 결국 이차 최적화 문제를 나타내는 식의 최적화 계수 α*를 찾는 문제로 표현 가능하다.
[수학식 9]
그러나 문제는 절편 b의 값이 위 식에서는 등장하지 않으므로 위의 식으로부터 w*를 구하고, 이를 다시 앞서 수학식2에 대입하여 b*를 도출하면 다음의 수학식으로 된다.
[수학식 10]
또한, 도 2에서와 같이 x1과 x2 와 같은 점들에 의해서만 최적해는 결정된다. 이러한 점들을 support vector라 부르고, 이 점에 대해서만 α*의 원소가 0이 아닌 값을 갖게 된다. 그 외의 점에 해당하는 α*의 원소들은 모두 0값을 갖게 된다. 따라서 다음의 전개가 가능하다. 다음 식에서 f는 최적 평면을 나타내는 이중표현(dual representation)이다.
[수학식 11]
한편 karush-kuhn-Tucker(KKT) complementarity 조건은 위에서 구해진 최적화 해들 α*,(w*,b*)이 다음의 식을 만족함을 증명하였다.
[수학식 12]
위 두 조건, SV에 대한 α*의 특성과 KKT 조건으로부터 다음의 식을 도출할 수 있고,
[수학식 13]
이를 위 수학식9에 대입하면 다음의 수학식을 얻을 수 있다.
[수학식 14]
이렇게 하여 최적의 평면 방정식을 support vector를 이용하여 구해 낼 수가 있겠다. 물론 이는 노이즈나 학습데이터의 오차를 전혀 고려치 않았으나, 이를 고려하였을 경우도 모두 이러한 과정을 토대로 오차에 대한 비용함수를 추가하여 최적화된 평면의 방정식을 구해낼 수 있다.
SVM은 최적평면 방정식의 해를 찾는다는 특징과 함께 커널 함수를 이용하여 주어진 데이터를 다른 dot product 공간으로 표현하는 특징을 포함하고 있다. 도 3은 이를 도식화하여 표현한 것이다.
도 3에서 도시된 바와 같이 입력 공간(Input Space)은 비선형 맵핑 함수
[수학식 15]
를 사용하여 특징 공간(Feature space)로 전사(mapping) 될 수 있다. 즉, 다음 식에서 보여지는 것과 같이 맵핑 함수들의 dot product로 나타낼 수 있다.
[수학식 16]
그러나 차원이 커질 경우 위 식의 계산양은 매우 커질 수가 있으나, 몇 가지 알려진 커널 함수들은 간단히 계산되어지는 경우가 있다. 대표적인 커널함수로는 다음의 네가지 함수가 있다.
이 함수들을 통하여 문제를 선형분리가 가능하도록 유도한 후 앞서 기술하였던 최적평면방정식을 도출함으로서 결국 SVM 은 비선형 분류기의 기능을 수행하게 되는 것이다.
또한, SVM 은 손실 함수(Loss function)을 최적 평면 방정식에 포함시킴으로서 회귀 문제에 적용될 수 있다. 손실함수란 기대 값과 측정 값에 오차가 있을 경우, 오차를 어떻게 구하고자 하는 함수식에 반영시킬 것인가 하는 정책을 제시해 주는 함수 이다. 일반적으로 손실 함수는 도 4에 도시된 바와 같은 4가지로 대표될 수 있다.
(a) 전통적인 least square error방식에 대응되는 2차 다항(quadratic) 손실함수
(b) quadratic 함수보다 다소 덜 민감한 Laplacian 손실 함수
(c) Huber는 (a)과 (b)를 결합한 형태인 주어진 데이터의 분포가 알려지지 않았을 때 좋은 성능을 보이는 robust 손실 함수
(d) 위의 세가지 손실 함수는 희소데이터(sparse data)에 대해서는 적당치 않다. 그러나 epsilon-Insensitive 손실 함수는 희소데이터 분포를 지닌 데이터들에 대해서 적당한 성능을 보인다. 앞의 3 종류의 손실함수는 희소데이터(sparse data)에 대해서는 적당치 않다. 반면 (d)에서 제시되는 epsilon-Insensitive 손실 함수는 희소데이터 분포를 지닌 데이터들에 대해서 적당한 성능을 보인다. 본 발명에 인스턴트는 비교적 높은 희소성을 가지므로, (d)의 손실함수를 이용하였다.
한편 다음과 같은 수학식으로 표현 되는 데이터들
[수학식 17]
를 다음의 직선식
[수학식18]
로 ε-근사(approximating)하는 최선의 회귀 함수는 SVM과 유사하게 다음의 수학식의 문제로 표현할 수 있다.
[수학식 19]
이를 다시 구간 변수(slack variable) 를 고려한 최적화 문제로 다음의 수학식과 같이 나타낼 수 있다.
[수학식 20]
여기서 다음의 수학식 ε-insensitive 손실함수
[수학식 21]
을 적용하여 수학식20을 SVM에서와 같이 Lagrange 함수로 바꾸어보면, 다음의 수학식의 해가 구해진다.
[수학식 22]
이로부터 수학식18의 해는 다음의 수학식으로 된다.
[수학식 23]
이와 같은 유도는 ε-insensitive 손실함수 뿐 아니라, 나머지 손실함수에도 적용할 수 있다. 본 발명에서는 회귀모델을 구축하는 데 있어서 데이터가 희소성(sparsity)를 보이므로 위에서 전개한 ε-insensitive 함수를 사용하는 것이 유리하다.
이와 같이, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범주에서 벗어나지 않는 한도내에서 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
상기의 목적과 구성을 갖는 본 발명에 따르면 웹사이트에 접속된 사용자들의 거래정보를 기반으로 새로운 사용자들에게 실시간으로 추천정보를 갱신하여 추천하는 동적추천을 하도록 함으로써 사용자는 가장 최신의 정보인 현재 접속자의 정보에 근거한 추천정보를 추천받을 수 있는 효과가 있다.

Claims (5)

  1. 웹 사이트에 접속된 사용자들에게 정보를 추천하기 위한 통계적 학습 이론을 이용한 동적 추천 시스템에 있어서,
    상기 사용자들의 웹사이트에 접속되어 이루어진 접속정보를 저장하는 웹로그파일;
    상기 웹사이트에 접속된 사용자들의 반응과 성향이 분류되어 저장되는 데이터 베이스;
    상기 웹로그 파일로부터 새로운 사용자가 접속되는 경우에 상기 새로운 사용자의 특정 정보에 대한 반응을 추출하고, 상기 새로운 사용자의 반응으로부터 성향을 파악하고 상기 데이터 베이스부터 상기 새로운 사용자의 성향과 부합되는 집단의 반응을 근거로 통계적 학습이론에 의하여 모델화하고, 추천정보를 생성하여 추천하는 추천수단을 포함하는 것을 특징으로 통계적 학습 이론을 이용한 동적 추천 시스템.
  2. 제 1 항에 있어서, 상기 추천수단은 각 인스턴트들을 SVM(Support Vector Machine)에 의하여 분류하여 모델화하는 분류기와 상기 분류기에 의하여 생성된 모델을 SVR(Support Vector Regression)에 의하여 예측하는 예측기를 포함하는 것을 특징으로 통계적 학습 이론을 이용한 동적 추천 시스템.
  3. 제 2 항에 있어서, 상기 SVM은
    다음의 수학식24로 표현되는 최적방정식에서
    [수학식 24]
    다음의 수학식25, 수학식26을 만족하며, 점과 평면 사이의 간격(margin)을 최대화하는 w, b를 구해지는 최적평면식으로 이루어지는 모델인 것을 특징으로 통계적 학습 이론을 이용한 동적 추천 시스템.
    [수학식 25]
    [수학식 26]
  4. 제 2 항 또는 제 3 항에 있어서, 상기 SVR은 상기 SVM의 최적 평면식에 손실함수를 포함한 수학식인 것을 특징으로 통계적 학습 이론을 이용한 동적 추천 시스템.
  5. 제 4 항에 있어서, 상기 손실함수는 epsilon-insentive 손실함수인 것을 특징으로 통계적 학습 이론을 이용한 동적 추천 시스템.
KR1020030012937A 2003-02-28 2003-02-28 통계적 학습 이론을 이용한 동적 추천 시스템 KR20040077398A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030012937A KR20040077398A (ko) 2003-02-28 2003-02-28 통계적 학습 이론을 이용한 동적 추천 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030012937A KR20040077398A (ko) 2003-02-28 2003-02-28 통계적 학습 이론을 이용한 동적 추천 시스템

Publications (1)

Publication Number Publication Date
KR20040077398A true KR20040077398A (ko) 2004-09-04

Family

ID=37363314

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030012937A KR20040077398A (ko) 2003-02-28 2003-02-28 통계적 학습 이론을 이용한 동적 추천 시스템

Country Status (1)

Country Link
KR (1) KR20040077398A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100607586B1 (ko) * 2004-12-16 2006-08-02 인하대학교 산학협력단 컨커런트 서포트 벡터 머신 프로세서
WO2006098541A1 (en) * 2005-03-16 2006-09-21 Lg Chem, Ltd. Apparatus and method for estimating battery state of charge
US8449998B2 (en) 2011-04-25 2013-05-28 Lg Chem, Ltd. Battery system and method for increasing an operational life of a battery cell
WO2020076386A1 (en) * 2018-10-09 2020-04-16 Ebay Inc. User engagement based on user session analysis

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100607586B1 (ko) * 2004-12-16 2006-08-02 인하대학교 산학협력단 컨커런트 서포트 벡터 머신 프로세서
WO2006098541A1 (en) * 2005-03-16 2006-09-21 Lg Chem, Ltd. Apparatus and method for estimating battery state of charge
US8449998B2 (en) 2011-04-25 2013-05-28 Lg Chem, Ltd. Battery system and method for increasing an operational life of a battery cell
WO2020076386A1 (en) * 2018-10-09 2020-04-16 Ebay Inc. User engagement based on user session analysis
US11494635B2 (en) 2018-10-09 2022-11-08 Ebay, Inc. System and method for improving user engagement based on user session analysis

Similar Documents

Publication Publication Date Title
Kohavi et al. Emerging trends in business analytics
Cooper Market-share models
Hagerty Improving the predictive power of conjoint analysis: The use of factor analysis and cluster analysis
Kleijnen et al. Application-driven sequential designs for simulation experiments: Kriging metamodelling
CN110111139B (zh) 行为预估模型生成方法、装置、电子设备及可读介质
US6820089B2 (en) Method and system for simplifying the use of data mining in domain-specific analytic applications by packaging predefined data mining models
Huang et al. A case study of applying data mining techniques in an outfitter’s customer value analysis
US20040019574A1 (en) Processing mixed numeric and/or non-numeric data
CN111401777A (zh) 企业风险的评估方法、装置、终端设备及存储介质
US20210142384A1 (en) Prospect recommendation
CN111275492A (zh) 用户画像生成方法、装置、存储介质及设备
CN110009432A (zh) 一种个人消费行为预测方法
Radhakrishnan et al. Application of data mining in marketing
Chopoorian et al. Mind your business by mining your data
CN111191825A (zh) 用户违约预测方法、装置及电子设备
Maheswari et al. Missing data handling by mean imputation method and statistical analysis of classification algorithm
KR20040077398A (ko) 통계적 학습 이론을 이용한 동적 추천 시스템
Ardyanta et al. A prediction of stock price movements using support vector machines in Indonesia
Liço et al. Predicting customer behavior using prophet algorithm in A real time series Dataset
CN110008974A (zh) 行为数据预测方法、装置、电子设备及计算机存储介质
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
Wendler et al. Imbalanced data and resampling techniques
Kang et al. Global trade of South Korea in competitive products and their impact on regional dependence
US9009174B1 (en) Consumer action mining
Yoshii et al. Development of marketing flexibility for e-Commerce by assessing impact of mobile devices on sales with multiple classes of customers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application