KR101658714B1 - 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템 - Google Patents

온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템 Download PDF

Info

Publication number
KR101658714B1
KR101658714B1 KR1020140186411A KR20140186411A KR101658714B1 KR 101658714 B1 KR101658714 B1 KR 101658714B1 KR 1020140186411 A KR1020140186411 A KR 1020140186411A KR 20140186411 A KR20140186411 A KR 20140186411A KR 101658714 B1 KR101658714 B1 KR 101658714B1
Authority
KR
South Korea
Prior art keywords
information
search range
information search
behavior
value
Prior art date
Application number
KR1020140186411A
Other languages
English (en)
Other versions
KR20160076330A (ko
Inventor
임일
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020140186411A priority Critical patent/KR101658714B1/ko
Publication of KR20160076330A publication Critical patent/KR20160076330A/ko
Application granted granted Critical
Publication of KR101658714B1 publication Critical patent/KR101658714B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따른 컴퓨터를 이용하여 사용자의 온라인 행동을 예측하는 방법은, 컴퓨터가, 사용자들의 온라인 활동 정보를 수집하는 단계, 수집된 온라인 활동 정보를 기초로 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를 단위 시간에 따라 저장하는 단계, 각 사용자의 정보 탐색 범위 계량치들로부터 복수의 비교 데이터셋들을 생성하는 단계, 목표 사용자에 관하여 패턴 데이터셋을 생성하는 단계 및 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 행동 예측치를 산출하는 단계를 포함할 수 있다.

Description

온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템{METHOD AND SYSTEM FOR PREDICTING ONLINE CUSTOMER ACTION BASED ON ONLINE ACTIVITY HISTORY}
본 발명은 온라인 활동 예측 기술에 관한 것으로, 더욱 상세하게는, 온라인 활동 예측 기술에 관한 것이다.
온라인을 통해 정보를 수집하고 제품을 구매하며 서비스를 이용하는 것이 점점 편리해짐에 따라 온라인 활동은 현대인의 일상 생활의 큰 부분을 차지하게 되고 있다. 제품을 구매하거나 서비스를 이용하기 전에 소비자가 보이는 활동 패턴은 문제 인식, 정보 탐색, 대안 평가, 최종 구매의 순서로 정리되는데, 온라인에서도 이러한 활동 패턴이 발견된다.
온라인 기술은 소비자가 좀더 다양한 제품들에 대해 좀더 쉽게 접근할 수 있도록 함으로써 소비자의 선택권을 늘려 주었지만, 다양성이 어떤 한계를 넘어 복잡성의 수준까지 증가함에 따라, 소비자는 오히려 선택을 하기가 더 어려워진 상황, 즉 선택의 패러독스에 빠지게 되었다.
이에 따라, 소비자들은 구매 결정을 유보하고 선택을 뒤로 미루는 경향을 보이기 시작했는데, 이러한 경향을 구매 지연(decision delay), 선택 연기(choice deferral)라는 용어로 불린다. 많은 연구자들이 지연의 이유에 따라 소요 시간이 다르다고 보았지만, 결국 구매 지연을 거쳐 구매 결정에 이르는 패턴을 찾아낼 수 있다고 생각하고 있다.
또한, 소비자가 정보 탐색과 대안 평가 단계에서 초기에 정보 탐색 범위를 점점 넓히다가 어느 정도 정보가 조사되면 정보 탐색 범위를 줄이는 일정한 패턴이 있다는 연구(Neveen F. Awad, 2006)도 있다.
이러한 연구 결과들에 따라, 소비자의 온라인 활동을 추적하고 수집된 온라인 활동 데이터를 기초로 소비자가 특정한 온라인 활동, 특히 구매 행위를 할 것인지 예측하려는 시도들이 있어왔다.
통상적으로 온라인 활동 데이터는 클릭스트림(clickstream)의 형태로 수집된다. 클릭스트림은 사용자가 방문하는 URL(Uniform Resource Locator)들을 나열한 데이터이다. 종래의 예측 기법들은 예를 들어, 어떤 패턴의 클릭을 하는 소비자의 다음 클릭을 예측하는 식이다. 이에 따르면, 어떤 소비자가 홈 페이지와 상품 소개 페이지를 거쳐 구매 페이지를 클릭하면 그 제품을 구매할 확률이 몇 %이다는 식의 예측이 가능하다는 것이다.
하지만, 제품의 종류나 가격대 등의 속성과 소비자 성향과 같이 예측에 영향을 주는 인자들이 많고, 나아가 시간 변수를 반영하기 어렵기 때문에 예측의 정확도는 실용적인 수준에 이르지 못하고 있는 실정이다.
"온라인 추천 서비스를 위한 클릭스트림 데이터를 활용한 구매확률 예측 방안" 김종우, 한송이, 이홍주, 오재훈, 한국전자거래학회 2011 춘계학술대회 2011.4, pp. 149-153
본 발명이 해결하고자 하는 과제는 온라인 활동 이력에 기초한 사용자의 온라인 행동 예측 방법 및 시스템을 제공하는 데에 있다.
본 발명이 해결하고자 하는 과제는 제품의 종류나 가격대 등의 속성들이 다양함에도 불구하고 적용할 수 있는 사용자의 온라인 행동 예측 방법 및 시스템을 제공하는 데에 있다.
본 발명이 해결하고자 하는 과제는 사용자 성향이 다양함에도 불구하고 적용할 수 있는 사용자의 온라인 행동 예측 방법 및 시스템을 제공하는 데에 있다.
본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확히 이해될 수 있을 것이다.
본 발명의 일 측면에 따른 컴퓨터를 이용하여 사용자의 온라인 행동을 예측하는 방법은, 컴퓨터가,
사용자들의 온라인 활동(online activity) 정보를 수집하는 단계;
수집된 온라인 활동 정보를 기초로 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를 단위 시간에 따라 저장하는 단계;
각 사용자의 정보 탐색 범위 계량치들 중에서 추출된 연속하는 N 개(N은 2 이상의 정수)의 정보 탐색 범위 계량치들과, N 번째 정보 탐색 범위 계량치에 상응하는 시점 이후에 관측되는 행동(online action) 정보를 결합하여 비교 데이터셋을 각각 생성함으로써, 복수의 비교 데이터셋들을 생성하는 단계;
목표 사용자에 관하여 예측 시점 이전의 연속하는 N 개의 정보 탐색 범위 계량치들에 의해 패턴 데이터셋을 생성하는 단계; 및
패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 행동 예측치를 산출하는 단계를 포함할 수 있다.
일 실시예에 따라, 사용자들의 온라인 활동 정보는 클릭스트림 데이터(clickstream)이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 평균일 수 있다.
일 실시예에 따라, 사용자들의 온라인 활동 정보는 클릭스트림 데이터이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 엔트로피일 수 있다.
일 실시예에 따라, 비교 데이터셋은,
각 정보 탐색 범위 계량치마다, 해당 정보 탐색 범위 계량치에 상응하는 단위 시간 이후의 후속하는 N-1 차례의 단위 시간들로 구성되는 분할 구간에 속하는 N 개의 연속하는 정보 탐색 범위 계량치들과,
분할 구간의 직후에 관측되는 사용자의 행동 정보를 결합함으로써 생성될 수 있다.
일 실시예에 따라, 목표 사용자의 행동 예측치를 산출하는 단계는,
패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하는 단계;
산출된 유사도에 따라 패턴 데이터셋과 유사한 비교 데이터셋들을 선정하는 단계; 및
선정된 비교 데이터셋들에 결합된 행동 정보 중에 특정 행동에 관련된 행동 정보의 비중 또는 가중 비중에 기초하여 목표 사용자의 행동 예측치를 산출하는 단계를 포함할 수 있다.
일 실시예에 따라, 목표 사용자의 행동 예측치를 산출하는 단계는,
패턴 데이터셋과 복수의 비교 데이터셋들 각각을 가상의 기존 사용자들로 간주하고 또한 각각의 결합된 행동 정보를 가상의 기존 사용자의 선호도로 간주하는 협업 필터링을 수행하여, 패턴 데이터셋의 선호도를 산출하는 단계; 및
산출된 패턴 데이터셋의 선호도에 기초하여 목표 사용자의 행동 예측치를 산출하는 단계를 포함할 수 있다.
일 실시예에 따라, 행동 정보는, N 번째 정보 탐색 범위 계량치에 상응하는 시점 직후의 단위 시간에 특정 행동이 관측되는 경우를 1로, 그렇지 않은 경우를 0으로 표시하는 이진 정보일 수 있다.
일 실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치가 문턱값 이상이면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보일 수 있다.
일 실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치를 표현하는 정보일 수 있다.
일 실시예에 따라, 행동 정보는, 관측된 행동들을 구별할 수 있는 식별 코드일 수 있다.
일 실시예에 따라, 정보 탐색 범위 계량치를 산출하는 단계는
정보 탐색 범위 계량치 순시값에서 개별 사용자에 관하여 정기적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출하는 단계를 포함할 수 있다.
일 실시예에 따라, 정보 탐색 범위 계량치를 산출하는 단계는
정보 탐색 범위 계량치 순시값에서 일시적 이벤트 구간 동안에 복수 사용자들에 관하여 공통적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출하는 단계를 포함할 수 있다.
일 실시예에 따라, 정보 탐색 범위 계량치를 산출하는 단계는
정보 탐색 범위 계량치 순시값들을 평활화 필터링하여 정보 탐색 범위 계량치를 산출하는 단계를 포함할 수 있다.
본 발명의 다른 측면에 따른 컴퓨터 프로그램은 컴퓨터에서 본 발명의 실시예들에 따른 사용자의 온라인 행동 예측 방법의 각 단계들을 구현하도록 작성되어 컴퓨터에서 독출가능한 기록 매체에 기록된 컴퓨터 프로그램일 수 있다.
본 발명의 다른 측면에 따른 사용자의 온라인 행동 예측 시스템은,
사용자들의 온라인 활동 정보를 수집하여 저장하는 온라인 활동 정보 DB;
수집된 온라인 활동 정보를 기초로 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를 단위 시간에 따라 저장하는 정보 탐색 범위 계량화부;
각 사용자의 정보 탐색 범위 계량치들 중에서 추출된 연속하는 N 개(N은 2 이상의 정수)의 정보 탐색 범위 계량치들과, N 번째 정보 탐색 범위 계량치에 상응하는 시점 이후에 관측되는 행동 정보를 결합하여 비교 데이터셋을 각각 생성함으로써, 복수의 비교 데이터셋들을 생성하고, 목표 사용자에 관하여 예측 시점 이전의 연속하는 N 개의 정보 탐색 범위 계량치들에 의해 패턴 데이터셋을 생성하는 데이터셋 생성부; 및
패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 행동 예측치를 산출하는 행동 예측치 산출부를 포함할 수 있다.
일 실시예에 따라, 사용자들의 온라인 활동 정보는 클릭스트림 데이터이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 평균일 수 있다.
일 실시예에 따라, 사용자들의 온라인 활동 정보는 클릭스트림 데이터이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 엔트로피일 수 있다.
일 실시예에 따라, 비교 데이터셋은,
각 정보 탐색 범위 계량치마다, 해당 정보 탐색 범위 계량치에 상응하는 단위 시간 이후의 후속하는 N-1 차례의 단위 시간들로 구성되는 분할 구간에 속하는 N 개의 연속하는 정보 탐색 범위 계량치들과,
분할 구간의 직후에 관측되는 사용자의 행동 정보를 결합함으로써 생성될 수 있다.
일 실시예에 따라, 행동 예측치 산출부는,
패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고,
산출된 유사도에 따라 패턴 데이터셋과 유사한 비교 데이터셋들을 선정하며,
선정된 비교 데이터셋들에 결합된 행동 정보 중에 특정 행동에 관련된 행동 정보의 비중 또는 가중 비중에 기초하여, 목표 사용자의 행동 예측치를 산출하도록 동작할 수 있다.
일 실시예에 따라, 행동 예측치 산출부는,
패턴 데이터셋과 복수의 비교 데이터셋들 각각을 가상의 기존 사용자들로 간주하고 또한 각각의 결합된 행동 정보를 가상의 기존 사용자의 선호도로 간주하는 협업 필터링을 수행하여, 패턴 데이터셋의 선호도를 산출하고,
산출된 패턴 데이터셋의 선호도에 기초하여, 목표 사용자 행동 예측치를 산출하도록 동작할 수 있다.
일 실시예에 따라, 행동 정보는, N 번째 정보 탐색 범위 계량치에 상응하는 시점 직후의 단위 시간에 특정 행동이 관측되는 경우를 1로, 그렇지 않은 경우를 0으로 표시하는 이진 정보일 수 있다.
일 실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치가 문턱값 이상이면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보일 수 있다.
일 실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치를 표현하는 정보일 수 있다.
일 실시예에 따라, 행동 정보는, 관측된 행동들을 구별할 수 있는 식별 코드일 수 있다.
일 실시예에 따라, 정보 탐색 범위 계량화부는
정보 탐색 범위 계량치 순시값에서 개별 사용자에 관하여 정기적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출하도록 동작할 수 있다.
일 실시예에 따라, 정보 탐색 범위 계량치를 산출하는 단계는
정보 탐색 범위 계량치 순시값에서 일시적 이벤트 구간 동안에 복수 사용자들에 관하여 공통적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출하도록 동작할 수 있다.
일 실시예에 따라, 정보 탐색 범위 계량화부는
정보 탐색 범위 계량치 순시값들을 평활화 필터링하여 정보 탐색 범위 계량치로 산출하도록 동작할 수 있다.
본 발명의 사용자의 온라인 행동 예측 방법 및 시스템에 따르면, 온라인 활동 이력에 기초하여 근시일 내의 사용자의 온라인 활동을 예측할 수 있다.
본 발명의 사용자의 온라인 행동 예측 방법 및 시스템에 따르면, 제품의 종류나 가격대 등의 속성들이 다양함에도 불구하고 사용자의 온라인 활동을 예측할 수 있다.
본 발명의 사용자의 온라인 행동 예측 방법 및 시스템에 따르면, 사용자 성향이 다양함에도 불구하고 사용자의 온라인 활동을 예측할 수 있다.
본 발명의 사용자의 온라인 행동 예측 방법 및 시스템에 따르면, 구매 뿐 아니라 특정한 링크 클릭과 같은 세부적인 온라인 활동들을 예측할 수 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법을 예시한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 정보 탐색 범위 계량화 단계에서 추출되는 정보 탐색 패턴을 예시한 그래프이다.
도 3은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 데이터 분할 단계에서 생성되는 데이터셋들을 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 예측 단계의 세부 절차를 예시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 예측 단계의 세부 절차를 다르게 예시한 순서도이다.
도 6은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 예측 단계에서 데이터셋들과 사용자의 패턴을 이용하여 사용자가 특정 온라인 활동을 할 확률을 도출하는 절차를 예시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 시스템을 예시한 블록도이다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
아래에서 "온라인 활동(online activity)" 용어는 사용자가 온라인 사이트를 방문하고 게시물을 읽거나 쓰고 링크를 클릭하는 전반적인 온라인 상의 행위들을 통칭한다.
한편, 본 발명에서 예측할 수 있는 사용자의 행동은 온라인 상의 활동에 한정되지 않으므로, "온라인 활동" 용어와 구별되는 용어로서 "행동(action)" 용어는 예측의 대상이 되는 사용자의 구체적인 온라인 상의 또는 오프라인 상의 행동, 예를 들어 온라인 상에서 광고 링크를 클릭하는 행위, SNS에 링크를 올리는 행위나, 오프라인에서 구매 행위나, 서비스 회원 가입 행위 등을 가리킨다.
도 1은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법을 예시한 순서도이다.
도 1을 참조하면, 본 발명의 실시예들에 따른 컴퓨터를 이용한 사용자의 온라인 행동 예측 방법은 단계(S11)에서, 컴퓨터가 사용자들의 온라인 활동 정보를 수집하는 단계로부터 시작할 수 있다.
온라인 활동 정보는 클릭스트림(clickstream)의 형태로 수집된다. 클릭스트림은 사용자가 웹 브라우징을 하거나 소프트웨어를 이용할 때에 사용자가 수행하는 일련의 클릭 동작들과 URL 링크들을 기록한 데이터를 통칭하는 용어이다. 클릭스트림은 기본적으로 가치 중립적이며, 어떻게 분석하느냐에 따라 클릭스트림으로부터 다양한 결과를 얻을 수 있다.
다음으로 단계(S12)에서, 컴퓨터가, 수집된 온라인 활동 정보를 기초로, 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를 단위 시간에 따라 저장할 수 있다.
수집된 온라인 활동 정보는 클릭스트림의 형태이므로, 매 클릭마다 사용자 ID, 활동 시각, 방문한 URL 주소 등으로 이루어진다. 소비자로서 사용자는 물건이나 서비스를 구매하기 위해 관련된 제품들에 대해 검색하거나, 정보와 리뷰, 가격 등의 조건을 탐색하고, 구매할 제품이나 서비스, 구매 경로를 결정한다. 클릭스트림에는 URL이 포함되므로, 사용자가 어떤 특정 종류의 물건이나 서비스에 관한 정보를 보유한 URL들에 얼마나 자주, 어떻게 방문하는지 분석될 수 있다.
기존의 연구(Neveen Awad, 2006)에 따르면, 소비자가 구매를 위해 정보를 탐색하는 범위, 즉 정보 탐색 범위는 일정한 패턴이 있는데, 초기에는 소비자가 제품이나 서비스에 대해 다양한 정보를 습득하여야 할 것이므로 정보 탐색 범위가 점점 넓어지지만, 어느 정도 정보가 누적된 후에는 소수의 구매 후보들을 특정하고 특정된 소수의 구매 후보들을 집중적으로 파악할 것이므로 정보 탐색 범위가 축소되는 식의 패턴이 있다고 한다.
예를 들어, 어떤 사용자가 하나의 물건이나 서비스에 관하여 정보를 탐색하기 위해 방문하는 URL들이 많을수록 사용자는 해당 종류의 물건이나 서비스에 대해 많은 정보가 필요한 상태이고 아직 구매를 결심할 상태가 아님을 추정할 수 있다. 이러한 상태에 있는 사용자의 정보 탐색 범위는 넓다고 표현되고, URL들의 개수가 많으면서 각 URL들은 비슷한 비중으로 방문될 것이다.
반면에, 사용자가 정보를 충분히 축적하였다면 방문하는 URL의 수가 줄어들고 특히 소수의 URL에 집중하여 방문할 것임을 추정할 수 있다. 이러한 상태에 있는 사용자의 정보 탐색 범위는 좁다고 표현되고, URL들의 개수가 적으면서 특정 URL들의 방문 비중이 높을 것이다.
이러한 정보 탐색 범위의 패턴 추출 및 수식적 처리를 위해서, 본 발명은 정보 탐색 범위를 계량화하며, 계량화된 정보 탐색 범위로서 정보 탐색 범위 계량치를 정의한다.
정보 탐색 범위 계량치는 단위 시간, 예를 들어, 1 시간, 1일, 1주일 등의 적절한 시간마다 사용자들마다 기록된 클릭스트림 내의 URL들의 방문 비중에 기초하여 계량화될 수 있다. 이때, 방문 비중은 URL별 방문 회수를 전체 URL 수로 나눈 값으로 정의될 수 있다.
실시예에 따라, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 평균일 수 있다.
만약 정보 탐색 범위가 넓으면 URL 개수가 크고 URL별 방문 횟수는 비슷할 것이므로 정보 탐색 범위 계량치, 즉 방문 비중 평균은 작아질 것이다. 반면에 정보 탐색 범위가 좁아지면 URL 개수는 작아지고 일부 URL들에 대한 URL별 방문 횟수가 커질 것이므로 정보 탐색 범위 계량치는 커질 것이다.
다른 실시예에서, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 엔트로피일 수 있다.
여기서 엔트로피는 샤논(Shannon)의 정보 이론에서 말하는 불확실성의 크기로서의 엔트로피이고, 다음 수학식 1과 같이 표현된다.
Figure 112014124608572-pat00001
여기서, p i 는 i 번째 URL의 방문 비중, 즉 사용자가 i 번째 URL을 방문할 확률이고, 그러한 방문 비중 값들로부터 엔트로피 E(p)가 산출된다.
만약 정보 탐색 범위가 넓으면 URL 개수, 즉 n이 크고 URL별 방문 횟수는 비슷할 것이므로 정보 탐색 범위 계량치, 즉 엔트로피는 커질 것이다. 반면에 정보 탐색 범위가 좁아지면 URL 개수는 작아지고 일부 URL들에 대한 URL별 방문 횟수가 커질 것이므로 정보 탐색 범위 계량치는 작아질 것이다.
이러한 정보 탐색 범위 계량치들의 시간에 따른 변화, 즉 패턴을 예시하기 위해 도 2를 참조하면, 도 2는 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 정보 탐색 범위 계량화 단계에서 추출되는 정보 탐색 패턴을 예시한 그래프이다.
도 2에서 예시된 엔트로피는, 평활화 필터링을 거쳐 노이즈를 제거한 상태로서, 정보 탐색 초기에는 많은 URL들을 방문하기 때문에 크지만, 사용자가 정보를 접함에 따라 점점 줄어든다. 평활화 필터링은 예를 들어 이동평균 평활화 등의 주지의 기법들을 이용하여 수행될 수 있다. 평활화 필터링의 종류에 따라 예측 성능이 달라질 수 있는데, 적절한 평활화 필터링 기법이 경험적으로 선택될 수 있다.
특이하게도, 엔트로피가 가장 낮아진 시점에 사용자가 구매를 하는 것이 아니라, 구매 전에 다시 엔트로피가 올라가는 패턴이 관찰된다. 이러한 패턴은, 사람이 구매할 제품을 거의 결정했더라도 다시 한번 구매 결정의 타당성을 재확인하기 위해 다른 후보 제품들의 정보를 찾아보는 심리적 현상을 반영한다고 볼 수 있다.
이에 따라 엔트로피가 다시 증가하는 모습을 보이는데, 엔트로피가 증가하는 도중에 구매 행위가 일어날 수 있다.
한편, 정보 탐색 범위를 계량화하기 위해 클릭스트림을 이용하는 방법은 상품이나 서비스에 관한 정보가 아닌 뉴스와 같은 일상적인 정보 또는 특별한 사회적 이벤트에 관한 정보의 탐색도 함께 계량화될 수 있다는 문제를 가질 수 있다.
따라서 이러한 사용자 개인의 일상적인 정보 탐색 또는 사회적 이슈가 되는 일시적인 이벤트 정보 탐색의 영향을 최소화할 필요가 있다.
먼저 사용자 개인의 일상적인 정보 탐색의 영향을 보상하기 위해, 본 발명의 실시예들에 따른 사용자의 온라인 행동 예측 방법은 단계(S12)에서 정보 탐색 범위를 계량화하는 데에 있어서, 정보 탐색 범위 계량치 순시값에서 개별 사용자에 관하여 정기적이고 일상적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출할 수 있다.
구체적으로, 정보 탐색 범위 계량치 기저값은 예를 들어 단위 시간이 1 일이면 요일별 평균 또는 월별 평균일 수 있다.
예를 들어 단위 시간이 1 시간이면 정보 탐색 범위 계량치 기저값은 시간별 평균 또는 요일 및 시간별 평균일 수 있다.
또한 일시적인 이벤트 정보 탐색의 영향을 보상하기 위해, 본 발명의 실시예들에 따른 사용자의 온라인 행동 예측 방법은 단계(S12)에서 정보 탐색 범위를 계량화하는 데에 있어서, 정보 탐색 범위 계량치 순시값에서 다수 사용자들에 관하여 일시적 이벤트 구간 동안에 공통적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출할 수 있다.
구체적으로, 정보 탐색 범위 계량치 기저값은, 예를 들어 월드컵과 같은 대형 이벤트가 2 주간 계속된다면, 해당 이벤트 구간과 동기, 예를 들어 이전 1 년 간의 매월 같은 날짜들로 이루어진 과거 구간들의 정보 탐색 범위 계량치 평균일 수 있다.
한편, 노이즈를 제거하기 위해, 단계(S12)에서 정보 탐색 범위를 계량화하는 데에 있어서, 정보 탐색 범위 계량치 순시값들을 평활화 필터링하여 정보 탐색 범위 계량치를 산출할 수 있다.
다시 도 1로 돌아가서, 단계(S13)에서, 컴퓨터가, 각 사용자의 정보 탐색 범위 계량치들 중에서 추출된 연속하는 N 개(N은 2 이상의 정수)의 정보 탐색 범위 계량치들과, N 번째 정보 탐색 범위 계량치에 상응하는 시점 직후에 관측되는 행동 정보를 결합하여 비교 데이터셋을 각각 생성함으로써, 복수의 비교 데이터셋들을 생성할 수 있다.
이때, 사용자의 관측된 행동 정보는 클릭스트림의 형태로 나타나는 온라인 상의 활동 정보에 한정되지 않으며, 클릭스트림이 아닌 다른 형태로 식별되는 구매 행위나 서비스 가입과 같은 오프라인 행위일 수도 있다.
실시예에 따라, 비교 데이터셋은, 각 정보 탐색 범위 계량치마다, 해당 정보 탐색 범위 계량치에 상응하는 단위 시간 이후의 후속하는 N-1 차례의 단위 시간들로 구성되는 분할 구간에 속하는 N 개의 연속하는 정보 탐색 범위 계량치들과, 분할 구간의 직후에 관측되는 사용자의 행동 정보를 결합함으로써 생성될 수 있다.
다시 말해, 예를 들어, 분할 구간이 5 개 단위 시간에 해당하는 구간이라고 한다면, 첫 번째 단위 시간부터 5 번째 단위 시간까지의 5 개의 정보 탐색 범위 계량치들과 6 번째 단위 시간 시점의 행동 정보를 결합하여 첫 번째 비교 데이터셋이 생성된다. 또한 두 번째 단위 시간부터 6 번째 단위 시간까지의 5 개의 정보 탐색 범위 계량치들과 7 번째 단위 시간 시점의 행동 정보를 결합하여 두 번째 비교 데이터셋이 생성된다.
이러한 방식으로 k 번째 단위 시간부터 k+N-1 번째 단위 시간까지의 N 개의 정보 탐색 범위 계량치들과 k+N 번째 단위 시간 시점의 행동 정보를 결합하여 k 번째 비교 데이터셋이 생성된다. 만약 특정 시점의 행동 정보가 없으면 공란으로 두어도 무방하다.
만약 특정 사용자에 관하여 100 단위 시간에 해당하는 구간에 걸쳐 100 개의 정보 탐색 범위 계량치들이 누적되었다면, 96 개의 비교 데이터셋들이 생성될 수 있다.
실시예에 따라, 단위 시간은 현실 세계의 시간 단위일 수 있다. 다시 말해, 단위 시간은 1분, 1시간, 1일과 같은 현실 시간 단위일 수 있다.
실시예에 따라, 단위 시간은 클릭 단위일 수도 있다. 예를 들어, 각 단위 시간은 100 회 클릭들로 이루어질 수도 있다. 사용자의 성격이나 제품의 특성에 따라서, 짧은 시간 예를 들어 1 시간 내에 충분한 모든 정보들이 탐색되고 구매까지 끝날 수도 있는데, 이러한 경우에는 현실 세계의 시간에 따라 정보 탐색 범위를 계량화하는 것보다는 클릭 분량에 기반하여 정보 탐색 범위를 계량화하는 것이 더 유리할 수 있다.
실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동이 관측되면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보일 수 있다. 예를 들어, 행동 정보는 관심 제품의 구매 행위가 있을 경우에만 "1"의 값, 관심 상품 외의 구매 행위 이거나 관심 제품에 관한 다른 행위가 있을 경우에 "0"의 값을 가질 수 있다.
실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치가 문턱값 이상이면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보일 수 있다. 예를 들어, 행동 정보는 특정 웹 사이트에 10 분을 초과하여 머무르면 "1"의 값, 10 분 내에 이탈하면 "0"의 값을 가질 수 있다.
실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치를 표현하는 정보일 수 있다. 예를 들어, 행동 정보는 특정 웹 사이트에 머무르는 시간을 분의 단위로 측정한 값을 가질 수 있다.
실시예에 따라, 행동 정보는, 관측된 행동들을 구별할 수 있는 식별 코드일 수 있다. 예를 들어, 관측된 행동이 웹 사이트에 가입하고 이탈하면 A1, 가입 후 가입 인사 게시물까지 남기면 A2, 웹 사이트에 가입하지 않고 이탈하면 B1 등으로 구별하는 식별 코드일 수 있다. 다만, 행동 정보가 식별 코드일 경우에, 아래에 설명될 협업 필터링 기법에는 숫자가 아닌 코드를 적용하기 어려우므로, 행동 정보의 예측에 디시전 트리(Decision Tree) 알고리즘 또는 랜덤 포레스트(Random Forest) 알고리즘이 이용될 수 있다.
이어서, 단계(S14)에서, 컴퓨터가 목표 사용자에 관하여 예측 시점 이전의 연속하는 N 개의 정보 탐색 범위 계량치들에 의해 패턴 데이터셋을 생성할 수 있다.
패턴 데이터셋도 비교 데이터셋과 거의 유사하게 N 개의 최근 정보 탐색 범위 계량치들로 구성되는데, 행동 정보는 결합되지 않는다. 이는 목표 사용자에게는 아직 예측 시점이 도래하지 않아 관찰된 행동 정보가 없고 오히려 행동 정보를 예측하는 것이 본 발명의 목표이기 때문이다.
비교 데이터셋들과 패턴 데이터셋을 예시하기 위해 도 3을 참조하면, 도 3은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 데이터 분할 단계에서 생성되는 데이터셋들을 예시한 도면이다.
도 3에서, 기존 사용자들의 클릭스트림으로부터 7 일 간의 정보 탐색 범위 계량치들이 예시되어 있다. 기존 사용자 1은 7 일차에 구매를 하였고, 기존 사용자 2는 6 일차에 구매를 하였다.
단위 시간은 1 일이고, 분할 구간은 4 일, 즉 4 단위 시간이다. 비교 데이터셋들은 기존 사용자 1의 정보 탐색 범위 계량치들을 첫 정보 탐색 범위 계량치부터 4 일 분량씩 분할한 네 개의 정보 탐색 범위 계량치들과 5 일째에 관찰된 행동 정보가 결합되어 생성된다.
즉, 비교 데이터셋 1은 기존 사용자 1의 1 일차부터 4 일차까지의 정보 탐색 범위 계량치들과 5 일차의 행동 정보 즉 "구매 행위가 없음"을 뜻하는 "0"이 결합된 데이터셋이다.
예를 들어, 비교 데이터셋 3은 기존 사용자 1의 3 일차부터 6 일차까지의 정보 탐색 범위 계량치들과 7 일차의 행동 정보 즉 "구매 행위가 있음"을 뜻하는 "1"이 결합된 데이터셋이다.
목표 사용자의 패턴 데이터셋은 예측 시점 직전의 4 일 분량의 정보 탐색 범위 계량치들로 이루어진다.
다시 도 1로 돌아가서, 단계(S15)에서, 컴퓨터가 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 특정 행동 예측치, 예를 들어 목표 사용자가 예측 시점에 특정 행동을 수행할 확률을 산출할 수 있다.`
실시예에 따라, 단계(S15)는, 도 4에서 예시되는 바와 같이, 컴퓨터가 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하는 단계(S151), 산출된 유사도에 따라 패턴 데이터셋과 유사한 비교 데이터셋들을 선정하는 단계(S152) 및 선정된 비교 데이터셋들에 결합된 행동 정보들 중에 예측하고자 하는 특정 행동에 관련된 행동 정보들의 비중 또는 가중 비중에 기초하여, 목표 사용자의 특정 행동 예측치, 예를 들어 목표 사용자가 예측 시점에 특정 행동을 할 확률을 산출하는 단계(S153)를 포함할 수 있다.
다시 말해, 목표 사용자의 패턴 데이터셋에 대해 산출된 유사도 값이 소정의 문턱값보다 높은 비교 데이터셋들에 결합된 행동 정보들은 목표 사용자의 패턴 데이터셋에 의해 목표 사용자가 예측 시점에 수행할 행동 정보와도 유사할 가능성이 높다. 따라서, 예를 들어, 유사도가 높다고 판정된 100 개의 비교 데이터셋들 중에 행동 정보가 "X"인 비교 데이터셋들이 60 개라면, 단순히 비중에 기초하여, 목표 사용자의 행동 예측치는, 예측 시점에 행동 정보가 "X"인 행위를 할 확률로서, 0.6라고 산출될 수 있다. 실시예에 따라 행동 예측치는 각각의 유사도를 가중치로 이용하는 가중 비중에 기초하여 산출될 수 있다.
실시예에 따라, 단계(S15)는, 도 5에서 예시되는 바와 같이, 컴퓨터가 패턴 데이터셋과 복수의 비교 데이터셋들 각각을 가상의 기존 사용자들로 간주하고 또한 각각의 결합된 행동 정보를 가상의 기존 사용자의 선호도로 간주하는 협업 필터링(Collaborative Filtering)을 수행하여, 패턴 데이터셋의 선호도를 산출하는 단계(S154) 및 산출된 패턴 데이터셋의 선호도에 기초하여, 목표 사용자의 특정 행동 예측치, 예를 들어 목표 사용자가 예측 시점에 특정 행동을 할 확률을 산출하는 단계(S155)를 포함할 수 있다.
일반적으로 협업 필터링은 상품 추천 기법으로서, 기존 사용자들과 신규 사용자의 유사도 및 기존 사용자들의 아이템들에 대한 선호도 점수들을 이용하여 신규 사용자에게 아이템을 추천하는 기법 또는 기존 아이템들과 신규 아이템 사이의 유사도 및 기존 사용자의 아이템들에 대한 선호도 점수들을 이용하여 기존 사용자에게 신규 아이템을 추천하는 기법이다.
통상적으로, 협업 필터링 기법에서 선호도 점수들은 시간의 개념이 제거되어 있고, 도출되는 결과가 상품의 추천이기 때문에, 협업 필터링 기법은 시간의 흐름을 기반으로 하는 정보 탐색 범위의 패턴을 이용하여 사용자의 행동을 예측하는 연구와 결합되기 어려웠다.
하지만 본 발명은 단계(S154)와 같은 절차에 의해, 성능과 유용성이 증명되어 온 협업 필터링 기법과 정보 탐색 범위의 시간 상의 패턴을 이용하는 예측 기법을 성공적으로 결합할 수 있다.
예시적으로 설명하기 위해 도 6을 참조하면, 도 6은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 방법 중 예측 단계에서 데이터셋들과 사용자의 패턴을 이용하여 사용자가 특정 행동을 할 확률을 도출하는 절차를 예시한 도면이다.
본 발명의 일 실시예는 기존 사용자들과 목표 사용자 사이의 유사도 및 기존 사용자들의 특정 아이템에 대한 선호도 점수들을 이용하여 목표 사용자에게 특정한 아이템을 추천하는 협업 필터링 기법을 응용한다. 협업 필터링 기법을 통해 산출되는 목표 사용자의 특정 아이템에 대한 선호도 점수는, 목표 사용자와 기존 사용자들의 유사도들을 가중치로 하여, 기존 사용자들이 부여한 선호도 점수들을 가중 합산함으로써 산출될 수 있다.
이에 따라, 비교 데이터셋은 선호도 점수가 알려져 있는 "기존 사용자"에, 패턴 데이터셋은 "목표 사용자"에, 또한 행동 정보는 "선호도 점수"에 각각 비유될 수 있다.
이러한 경우에, 행동 예측치는, 비교 데이터셋들과 패턴 데이터셋 사이에 산출되는 유사도 값들을 가중치로 하여, 비교 데이터셋들의 행동 정보들을 가중 합산함으로써 추정될 수 있다.
예를 들어, 목표 사용자의 패턴 데이터셋에 대해 협력 필터링 기법에 의해 선정된 기존 사용자들의 비교 데이터셋들이 3 개이고 이들의 행동 정보가 "1", "0", "1"일 경우에, 비교 데이터셋들의 유사도가 각각 1.0, 0.7, 0.8이었다면, 행동 예측치는 (1.0×1 + 0.7×0 + 0.8×1)/3 = 0.6과 같이 산출될 것이다. 이렇게 산출된 행동 예측치 값은, 지난 며칠 간 특정 제품에 관하여 특정한 패턴의 정보 탐색 범위를 보이는 목표 사용자가 내일 구매 행위를 할 확률이 60%이라는 식으로 해석될 수 있다. 이러한 해석은, 빅데이터 기술과 함께 사용되어, 예를 들어 며칠 내에 특정 제품에 관하여 정보 탐색이 늘어나고 구매 행위를 할 확률이 높은 사용자들의 수가 많아지면 미리 제품의 재고를 늘린다거나 광고에 활용할 수 있다.
한편, 가상의 사용자들 사이의 유사도 산출은 예를 들어 코사인 유사도 기법을 통해 산출될 수 있다.
도 7은 본 발명의 일 실시예에 따른 사용자의 온라인 행동 예측 시스템을 예시한 블록도이다.
도 7을 참조하면, 사용자의 온라인 행동 예측 시스템(70)은 온라인 활동 정보 DB(71), 정보 탐색 범위 계량화부(72), 데이터셋 생성부(73) 및 행동 예측치 산출부(74)를 포함할 수 있다.
구체적으로, 온라인 활동 정보 DB(71)는 사용자들의 온라인 활동 정보를 예를 들어 클릭스트림의 형태로 수집하여 저장한다.
정보 탐색 범위 계량화부(72)는 온라인 활동 정보 DB(71)에 수집된 온라인 활동 정보를 기초로 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를, 데이터베이스에 저장하기에 적합하도록, 예를 들어 단위 시간에 따라 구조화하여 온라인 활동 정보 DB(71)에 저장할 수 있다.
실시예에 따라, 정보 탐색 범위 계량화부(72)는 일련의 URL들을 포함하는 클릭스트림의 형태로 수집된 온라인 활동 정보로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 평균을 단위 시간마다 산출함으로써 정보 탐색 범위를 계량화할 수 있다.
실시예에 따라, 정보 탐색 범위 계량화부(72)는 일련의 URL들을 포함하는 클릭스트림의 형태로 수집된 온라인 활동 정보로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 엔트로피를 단위 시간마다 산출함으로써 정보 탐색 범위를 계량화할 수 있다.
실시예에 따라, 정보 탐색 범위 계량화부(72)는, 사용자 개인의 일상적인 정보 탐색의 영향을 보상하기 위해, 정보 탐색 범위 계량치 순시값에서 개별 사용자에 관하여 정기적이고 일상적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출할 수 있다.
구체적으로, 정보 탐색 범위 계량치 기저값은 예를 들어 단위 시간이 1 일이면 요일별 평균 또는 월별 평균일 수 있다.
예를 들어 단위 시간이 1 시간이면 정보 탐색 범위 계량치 기저값은 시간별 평균 또는 요일 및 시간별 평균일 수 있다.
실시예에 따라, 정보 탐색 범위 계량화부(72)는 일시적인 이벤트 정보 탐색의 영향을 보상하기 위해, 정보 탐색 범위 계량치 순시값에서 다수 사용자들에 관하여 일시적 이벤트 구간 동안에 공통적으로 나타나는 정보 탐색 범위 계량치 기저값을 뺀 값을 정보 탐색 범위 계량치로 산출할 수 있다.
실시예에 따라, 정보 탐색 범위 계량화부(72)는 정보 탐색 범위 계량치 순시값들을 소정의 평활화 필터링하여 정보 탐색 범위 계량치로 산출할 수 있다.
데이터셋 생성부(73)는 비교 데이터셋과 패턴 데이터셋을 생성할 수 있다.
구체적으로, 데이터셋 생성부(73)는 각 사용자의 정보 탐색 범위 계량치들 중에서 추출된 연속하는 N 개(N은 2 이상의 정수)의 정보 탐색 범위 계량치들과, N 번째 정보 탐색 범위 계량치에 상응하는 시점 이후에 관측되는 행동 정보를 결합하여 비교 데이터셋을 각각 생성함으로써, 복수의 비교 데이터셋들을 생성할 수 있다.
좀더 구체적으로, 데이터셋 생성부(73)는 각 정보 탐색 범위 계량치마다, 해당 정보 탐색 범위 계량치에 상응하는 단위 시간 이후의 후속하는 N-1 차례의 단위 시간들로 구성되는 분할 구간에 속하는 N 개의 연속하는 정보 탐색 범위 계량치들과, 분할 구간의 직후에 관측되는 사용자의 행동 정보를 결합함으로써 비교 데이터셋을 생성할 수 있다.
이때, 행동 정보는, N 번째 정보 탐색 범위 계량치에 상응하는 시점 직후의 단위 시간에 특정 행동이 관측되는 경우를 1로, 그렇지 않은 경우를 0으로 표시하는 이진 정보일 수 있다.
실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치가 문턱값 이상이면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보일 수 있다.
실시예에 따라, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치를 표현하는 정보일 수 있다.
실시예에 따라, 행동 정보는, 관측된 행동들을 구별할 수 있는 식별 코드일 수 있다.
또한 데이터셋 생성부(73)는 목표 사용자에 관하여 예측 시점 이전의 연속하는 N 개의 정보 탐색 범위 계량치들에 의해 패턴 데이터셋을 생성할 수 있다.
마지막으로, 행동 예측치 산출부(74)는 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 특정 행동 예측치, 예를 들어 목표 사용자가 예측 시점에 특정 행동을 수행할 확률을 산출할 수 있다.
실시예에 따라, 행동 예측치 산출부(74)는 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도에 따라 패턴 데이터셋과 유사한 비교 데이터셋들을 선정하며, 선정된 비교 데이터셋들에 결합된 행동 정보 중에 특정 행동에 관련된 행동 정보의 비중 또는 가중 비중에 기초하여, 목표 사용자의 특정 행동 예측치, 예를 들어 목표 사용자가 예측 시점에 특정 행동을 수행할 확률을 산출할 수 있다.
실시예에 따라, 행동 예측치 산출부(74)는, 협업 필터링 기법을 이용하여, 패턴 데이터셋과 복수의 비교 데이터셋들 각각을 가상의 기존 사용자들로 간주하고 또한 각각의 결합된 행동 정보를 가상의 기존 사용자의 선호도로 간주하는 협업 필터링을 수행하여, 패턴 데이터셋의 선호도를 산출하고, 산출된 패턴 데이터셋의 선호도로서, 목표 사용자의 특정 행동 예측치, 예를 들어 목표 사용자가 예측 시점에 특정 행동을 수행할 확률을 산출할 수 있다.
본 실시예 및 본 명세서에 첨부된 도면은 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형예와 구체적인 실시예는 모두 본 발명의 권리범위에 포함되는 것이 자명하다고 할 것이다.
또한, 본 발명에 따른 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽힐 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, 광학 디스크, 자기 테이프, 플로피 디스크, 하드 디스크, 비휘발성 메모리 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
70 온라인 행동 예측 시스템
71 온라인 활동 정보 DB
72 정보 탐색 범위 계량화부
73 데이터셋 생성부
74 행동 예측치 산출부

Claims (27)

  1. 컴퓨터를 이용하여 사용자의 온라인 행동을 예측하는 방법으로서,
    상기 컴퓨터가, 사용자들의 온라인 활동(online activity) 정보를 수집하는 단계; 수집된 온라인 활동 정보를 기초로 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를 단위 시간에 따라 저장하는 단계; 각 사용자의 정보 탐색 범위 계량치들 중에서 추출된 연속하는 N 개(N은 2 이상의 정수)의 정보 탐색 범위 계량치들과, N 번째 정보 탐색 범위 계량치에 상응하는 시점 이후에 관측되는 행동(online action) 정보를 결합하여 비교 데이터셋을 각각 생성함으로써, 복수의 비교 데이터셋들을 생성하는 단계; 목표 사용자에 관하여 예측 시점 이전의 연속하는 N 개의 정보 탐색 범위 계량치들에 의해 패턴 데이터셋을 생성하는 단계; 및 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 행동 예측치를 산출하는 단계를 포함하며,
    정보 탐색 범위 계량치를 산출하는 단계는 정보 탐색 범위 계량치 순시값에서 개별 사용자에 관하여 정기적으로 나타나는 정보 탐색 범위 계량치 기저값을 빼고 정보 탐색 범위 계량치를 산출하는 단계 또는 정보 탐색 범위 계량치 순시값에서 일시적 이벤트 구간 동안에 복수 사용자들에 관하여 공통적으로 나타나는 정보 탐색 범위 계량치 기저값을 빼고 정보 탐색 범위 계량치를 산출하는 단계 중 적어도 하나의 단계를 포함하는 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  2. 청구항 1에 있어서, 사용자들의 온라인 활동 정보는 클릭스트림 데이터(clickstream)이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 평균인 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  3. 청구항 1에 있어서, 사용자들의 온라인 활동 정보는 클릭스트림 데이터이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 엔트로피인 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  4. 청구항 1에 있어서, 비교 데이터셋은,
    각 정보 탐색 범위 계량치마다, 해당 정보 탐색 범위 계량치에 상응하는 단위 시간 이후의 후속하는 N-1 차례의 단위 시간들로 구성되는 분할 구간에 속하는 N 개의 연속하는 정보 탐색 범위 계량치들과,
    분할 구간의 직후에 관측되는 사용자의 행동 정보를 결합함으로써 생성되는 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  5. 청구항 1에 있어서, 목표 사용자의 행동 예측치를 산출하는 단계는,
    패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하는 단계;
    산출된 유사도에 따라 패턴 데이터셋과 유사한 비교 데이터셋들을 선정하는 단계; 및
    선정된 비교 데이터셋들에 결합된 행동 정보 중에 특정 행동에 관련된 행동 정보의 비중 또는 가중 비중에 기초하여, 목표 사용의 행동 예측치를 산출하는 단계를 포함하는 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  6. 청구항 1에 있어서, 목표 사용자의 행동 예측치를 산출하는 단계는,
    패턴 데이터셋과 복수의 비교 데이터셋들 각각을 가상의 기존 사용자들로 간주하고 또한 각각의 결합된 행동 정보를 가상의 기존 사용자의 선호도로 간주하는 협업 필터링을 수행하여, 패턴 데이터셋의 선호도를 산출하는 단계; 및
    산출된 패턴 데이터셋의 선호도에 기초하여, 목표 사용자의 행동 예측치를 산출하는 단계를 포함하는 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  7. 청구항 1에 있어서, 행동 정보는, N 번째 정보 탐색 범위 계량치에 상응하는 시점 직후의 단위 시간에 특정 행동이 관측되는 경우를 1로, 그렇지 않은 경우를 0으로 표시하는 이진 정보인 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  8. 청구항 1에 있어서, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치가 문턱값 이상이면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보인 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  9. 청구항 1에 있어서, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치를 표현하는 정보인 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  10. 청구항 1에 있어서, 행동 정보는, 관측된 행동들을 구별할 수 있는 식별 코드인 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  11. 삭제
  12. 삭제
  13. 청구항 1에 있어서, 정보 탐색 범위 계량치를 산출하는 단계는
    정보 탐색 범위 계량치 순시값들을 평활화 필터링하여 정보 탐색 범위 계량치를 산출하는 단계를 포함하는 것을 특징으로 하는 사용자의 온라인 행동 예측 방법.
  14. 컴퓨터에서 청구항 1 내지 청구항 10 및 청구항 13 중 어느 한 청구항에 따른 사용자의 온라인 행동 예측 방법의 각 단계들을 구현하도록 작성되어 컴퓨터에서 독출가능한 기록 매체에 기록된 컴퓨터 프로그램.
  15. 사용자들의 온라인 활동 정보를 수집하여 저장하는 온라인 활동 정보 DB;
    수집된 온라인 활동 정보를 기초로 사용자의 정보 탐색 범위를 단위 시간마다 계량화한 정보 탐색 범위 계량치를 산출하고, 산출된 정보 탐색 범위 계량치를 단위 시간에 따라 저장하는 정보 탐색 범위 계량화부; 각 사용자의 정보 탐색 범위 계량치들 중에서 추출된 연속하는 N 개(N은 2 이상의 정수)의 정보 탐색 범위 계량치들과, N 번째 정보 탐색 범위 계량치에 상응하는 시점 이후에 관측되는 행동 정보를 결합하여 비교 데이터셋을 각각 생성함으로써, 복수의 비교 데이터셋들을 생성하고, 목표 사용자에 관하여 예측 시점 이전의 연속하는 N 개의 정보 탐색 범위 계량치들에 의해 패턴 데이터셋을 생성하는 데이터셋 생성부; 및 패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고, 산출된 유사도와 각 비교 데이터셋들에 포함되는 행동 정보에 기초하여, 목표 사용자의 행동 예측치를 산출하는 행동 예측치 산출부를 포함하며,
    상기 정보 탐색 범위 계량화부는 정보 탐색 범위 계량치 순시값에서 개별 사용자에 관하여 정기적으로 나타나는 정보 탐색 범위 계량치 기저값을 빼고 정보 탐색 범위 계량치를 산출하는 동작 또는 정보 탐색 범위 계량치 순시값에서 일시적 이벤트 구간 동안에 복수 사용자들에 관하여 공통적으로 나타나는 정보 탐색 범위 계량치 기저값을 빼고 정보 탐색 범위 계량치를 산출하는 동작 중 적어도 하나의 동작을 하는 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  16. 청구항 15에 있어서, 사용자들의 온라인 활동 정보는 클릭스트림 데이터이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 평균인 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  17. 청구항 15에 있어서, 사용자들의 온라인 활동 정보는 클릭스트림 데이터이고, 정보 탐색 범위 계량치는 클릭스트림으로부터 각 URL별 방문횟수를 전체 URL 수로 나누어 얻은 각 URL별 방문 비중 값들의 엔트로피인 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  18. 청구항 15에 있어서, 비교 데이터셋은,
    각 정보 탐색 범위 계량치마다, 해당 정보 탐색 범위 계량치에 상응하는 단위 시간 이후의 후속하는 N-1 차례의 단위 시간들로 구성되는 분할 구간에 속하는 N 개의 연속하는 정보 탐색 범위 계량치들과,
    분할 구간의 직후에 관측되는 사용자의 행동 정보를 결합함으로써 생성되는 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  19. 청구항 15에 있어서, 행동 예측치 산출부는,
    패턴 데이터셋과 복수의 비교 데이터셋들 각각의 유사도를 산출하고,
    산출된 유사도에 따라 패턴 데이터셋과 유사한 비교 데이터셋들을 선정하며,
    선정된 비교 데이터셋들에 결합된 행동 정보 중에 특정 행동에 관련된 행동 정보의 비중 또는 가중 비중에 기초하여, 목표 사용자의 행동 예측치를 산출하도록 동작하는 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  20. 청구항 15에 있어서, 행동 예측치 산출부는,
    패턴 데이터셋과 복수의 비교 데이터셋들 각각을 가상의 기존 사용자들로 간주하고 또한 각각의 결합된 행동 정보를 가상의 기존 사용자의 선호도로 간주하는 협업 필터링을 수행하여, 패턴 데이터셋의 선호도를 산출하고,
    산출된 패턴 데이터셋의 선호도에 기초하여, 목표 사용자의 행동 예측치를 산출하도록 동작하는 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  21. 청구항 15에 있어서, 행동 정보는, N 번째 정보 탐색 범위 계량치에 상응하는 시점 직후의 단위 시간에 특정 행동이 관측되는 경우를 1로, 그렇지 않은 경우를 0으로 표시하는 이진 정보인 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  22. 청구항 15에 있어서, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치가 문턱값 이상이면 "1"로 표현하고 그렇지 않으면 "0"으로 표시하는 이전 정보인 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  23. 청구항 15에 있어서, 행동 정보는, 예측하고자 하는 특정한 행동의 평가치를 표현하는 정보인 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  24. 청구항 15에 있어서, 행동 정보는, 관측된 행동들을 구별할 수 있는 식별 코드인 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
  25. 삭제
  26. 삭제
  27. 청구항 15에 있어서, 정보 탐색 범위 계량화부는
    정보 탐색 범위 계량치 순시값들을 평활화 필터링하여 정보 탐색 범위 계량치로 산출하도록 동작하는 것을 특징으로 하는 사용자의 온라인 행동 예측 시스템.
KR1020140186411A 2014-12-22 2014-12-22 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템 KR101658714B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140186411A KR101658714B1 (ko) 2014-12-22 2014-12-22 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140186411A KR101658714B1 (ko) 2014-12-22 2014-12-22 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20160076330A KR20160076330A (ko) 2016-06-30
KR101658714B1 true KR101658714B1 (ko) 2016-09-21

Family

ID=56352791

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140186411A KR101658714B1 (ko) 2014-12-22 2014-12-22 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101658714B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210038263A (ko) 2019-09-30 2021-04-07 주식회사 니블스카이 Hmm 기반의 클릭스트림 데이터를 이용한 구매 여부 예측 시스템 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106530010B (zh) * 2016-11-15 2017-12-12 平安科技(深圳)有限公司 融合时间因素的协同过滤方法和装置
KR102408476B1 (ko) * 2017-07-10 2022-06-14 십일번가 주식회사 사용자 행동 순서에 기반한 구매 확률 예측 방법 및 이를 위한 장치
KR102625509B1 (ko) * 2021-07-23 2024-01-23 송경준 키오스크 기반의 서비스 제공 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534340A (ja) 2010-08-03 2013-09-02 アリババ・グループ・ホールディング・リミテッド 商品推薦システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080085100A (ko) * 2007-01-16 2008-09-23 엔에이치엔(주) 부정클릭 감시 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534340A (ja) 2010-08-03 2013-09-02 アリババ・グループ・ホールディング・リミテッド 商品推薦システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
[논문]한국전자거래학회 춘계학술대회/2011.04/온라인 추천 서비스를 위한 클릭스트림 데이터를 활용한 구매확률 예측 방안
[논문]한양대학교 학위논문(석사)/2013.08/온라인 상점의 클릭스트림 데이터 분석을 통한 구매 의도 예측 기법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210038263A (ko) 2019-09-30 2021-04-07 주식회사 니블스카이 Hmm 기반의 클릭스트림 데이터를 이용한 구매 여부 예측 시스템 및 방법

Also Published As

Publication number Publication date
KR20160076330A (ko) 2016-06-30

Similar Documents

Publication Publication Date Title
AU2006332522B2 (en) Using estimated ad qualities for ad filtering, ranking and promotion
KR102474747B1 (ko) 사용자 행동 패턴에 기초하여 상품을 추천하고 추천 상품에 대한 사용자의 선호도 예측 장치 및 방법
US8260921B2 (en) Demand forecasting system for data center, demand forecasting method and recording medium with a demand forecasting program recorded thereon
CA2825498C (en) Hybrid recommendation system
US20150220972A1 (en) Management Of The Display Of Online Ad Content Consistent With One Or More Performance Objectives For A Webpage And/Or Website
KR101658714B1 (ko) 온라인 활동 이력에 기초한 사용자의 온라인 활동 예측 방법 및 시스템
EP1969550A2 (en) Predicting ad quality
US20150161517A1 (en) Device and method for predicting popularity of social data
CN103383702A (zh) 一种基于用户投票排名的个性化新闻推荐的方法及系统
JP2015076076A (ja) 顧客データ解析システム
US10255300B1 (en) Automatically extracting profile feature attribute data from event data
CN108830689A (zh) 物品推荐方法、装置、服务器和存储介质
US20080103853A1 (en) Time factor feature generation system, time factor feature generation method and time factor feature generation program
KR101435096B1 (ko) 소셜 네트워크 서비스 데이터에 기반한 상품 수요 예측 장치 및 방법
CN111352976B (zh) 一种针对购物节的搜索广告转化率预测方法及装置
CN107644047B (zh) 标签预测生成方法及装置
US10795956B1 (en) System and method for identifying potential clients from aggregate sources
Pleños Time series forecasting using holt-winters exponential smoothing: application to abaca fiber data
CN117745349A (zh) 一种基于用户特征的个性化推券方法及系统
CN112541806A (zh) 一种基于异质信息网络的推荐方法及装置
Alagarsamy et al. Predictive analytics for black friday sales using machine learning technique
EP3493082A1 (en) A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
Bugaychenko et al. Musical recommendations and personalization in a social network
CN111190938B (zh) 数据分析方法、装置、存储介质及处理器
Aras et al. Forecasting Hotel Room Sales within Online Travel Agencies by Combining Multiple Feature Sets.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant