KR101813805B1 - Method and Apparatus for purchase probability prediction of user using machine learning - Google Patents

Method and Apparatus for purchase probability prediction of user using machine learning Download PDF

Info

Publication number
KR101813805B1
KR101813805B1 KR1020160124802A KR20160124802A KR101813805B1 KR 101813805 B1 KR101813805 B1 KR 101813805B1 KR 1020160124802 A KR1020160124802 A KR 1020160124802A KR 20160124802 A KR20160124802 A KR 20160124802A KR 101813805 B1 KR101813805 B1 KR 101813805B1
Authority
KR
South Korea
Prior art keywords
data
user
vector
learning
web pages
Prior art date
Application number
KR1020160124802A
Other languages
Korean (ko)
Inventor
김종우
김기태
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020160124802A priority Critical patent/KR101813805B1/en
Application granted granted Critical
Publication of KR101813805B1 publication Critical patent/KR101813805B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06N99/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Abstract

Disclosed are a method and an apparatus to predict purchase probability of a user using machine learning. According to the present invention, the method, which is performed in a device including a process and predicts a purchase probability of a user accessing an online store formed with a plurality of webpages, comprises the following steps: converting raw data of a plurality of previous users to generate a plurality of pieces of learning data, wherein the raw data includes webpage navigation path information and purchase information for the online store of the previous users; learning the plurality of pieces of learning data through a machine learning algorithm to generate a purchase probability model; converting the webpage navigation path for the online store with respect to the user to generate at least one piece of input data; and inputting the at least one piece of input data to the machine learning algorithm to predict the purchase probability with respect to the user.

Description

머신 러닝을 이용한 사용자의 구매 확률 예측 방법 및 장치{Method and Apparatus for purchase probability prediction of user using machine learning} TECHNICAL FIELD The present invention relates to a method and apparatus for predicting a purchase probability of a user using machine learning,

본 발명의 실시예들은 머신 러닝을 이용하여 온라인 스토어에 접속한 사용자의 구매 확률을 예측하는 방법 및 장치에 관한 것이다. Embodiments of the present invention relate to a method and apparatus for predicting a purchase probability of a user accessing an online store using machine learning.

빅 데이터(big data)는 디지털 환경에서 생성되는 데이터로서, 그 규모가 방대하고 생성 주기도 짧고 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 빅 데이터 환경은 과거에 비해 데이터의 양이 폭증했다는 점과 함께 데이터의 종류도 다양해져 사람들의 행동은 물론 위치정보와 SNS를 통해 생각과 의견까지 분석하고 예측할 수 있다. 빅 데이터를 분석하면 다양한 분야에서 유용하게 활용할 수 있다는 사례들이 널리 알려지게 되면서, 빅 데이터를 분석하는 기술들에 대하여 많은 연구들이 이루어지고 있다.Big data refers to large-scale data that is generated in a digital environment and is large in size, short in generation period, and includes not only numeric data but also text and image data. Big data environment has more data than previous ones, and it can analyze and predict opinions and opinions through SNS as well as people's behaviors. As big data analysis is widely used in various fields, many researches have been made on techniques for analyzing big data.

이 중에서 최근 주목을 받고 있는 방법으로 머신 러닝(machine learning)을 이용한 분석 기법이 있다. 머신 러닝은 인공지능의 연구 분야 중 하나로, 사람의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기법을 의미한다. Among them, there is an analysis technique using machine learning as a method that has recently attracted attention. Machine learning is one of the research fields of artificial intelligence, which means a technique for realizing functions such as human learning ability on a computer.

머신 러닝의 한 종류로 딥 러닝 기법이 있다. 딥 러닝은 컴퓨터가 여러 데이터를 이용해 마치 사람처럼 스스로 학습할 수 있게 하기 위해 인공 신경망(ANN: Artificial Neural Network)을 기반으로 한 기계 학습 기법이다.  딥 러닝은 인간의 두뇌가 수많은 데이터 속에서 패턴을 발견한 뒤 사물을 구분하는 정보 처리 방식을 모방해 컴퓨터가 사물을 분별하도록 기계를 학습시킨다. 딥 러닝 기법을 적용하면 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지, 추론, 판단할 수 있게 된다. One type of machine running is the deep running technique. Deep learning is a machine learning technique based on Artificial Neural Network (ANN) to enable a computer to learn by itself using multiple data. Deep Learning is a machine in which a human brain finds patterns in a large number of data and then implements the information processing method of distinguishing objects so that the computer can distinguish objects. By applying the deep learning technique, the computer can recognize, deduce, and judge itself without having to set all criteria.

한편, 온라인 스토어(일례로, 인터넷 상점)에서 고객이 어떠한 웹 페이지를 방문하였는지를 기록한 데이터를 통해 고객의 웹 페이지의 방문 패턴을 추출하고, 이를 활용하여 접속한 고객들의 구매 확률을 예측하려는 연구들이 있었다. On the other hand, there have been studies for extracting a visit pattern of a customer's web page through data recorded on a web page of a customer in an online store (for example, an internet store) and predicting the purchase probability of the connected customers by utilizing the visit pattern .

다시 말해, 종래의 웹 페이지 방문 기록을 이용한 고객 구매 예측 기법들은 각 고객의 웹 페이지 방문 기록 데이터에서 웹 페이지들을 유형별로 변환한 뒤, 고객들이 어느 유형에서 어느 유형으로 이동하였는지 각각의 이동 경로들을 구한다. 이후 고객이 각각의 이동 경로들에서 얼마나 많이 출현하였는지 그 출현 확률 값을 산출하고, 이 확률 값들을 분석하여 상품/서비스를 구매할 확률이 얼마나 있는지를 예측한다.In other words, the customer purchase prediction techniques using the conventional web page visit records convert the web pages into the types in the web page visit record data of each customer, and obtain the respective travel routes of the customers from which type to which type . Then, the appearance probability value of how many customers appeared on each movement route is calculated and the probability values are analyzed to estimate the probability of purchasing goods / services.

그러나 기존의 방법들은 통계적 확률 계산을 중점으로 하여 관리자가 직접 규칙을 찾아야 한다는 한계가 존재하였다. 이는 관리자가 스스로 어떠한 요인이 구매에 영향을 미칠지를 직접 선정해야 하는 문제점을 가지고 있다. However, the existing methods have a limitation that the administrator must directly find the rule by focusing on the statistical probability calculation. This has the problem that the manager must directly select what factors will affect the purchase.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 실시예들은 머신 러닝을 이용하여 온라인 스토어에 접속한 사용자의 구매 확률을 예측하는 방법 및 장치를 제안하고자 한다. In order to solve the problems of the prior art as described above, embodiments of the present invention propose a method and apparatus for predicting a purchase probability of a user connected to an online store using machine learning.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.Other objects of the invention will be apparent to those skilled in the art from the following examples.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 프로세서가 포함된 장치에서 수행되며, 복수의 웹 페이지로 구성된 온라인 스토어에 접속한 사용자의 구매 확률 예측 방법에 있어서, 다수의 이전 사용자의 로우 데이터를 변환하여 다수의 학습 데이터를 생성하는 단계 - 상기 로우 데이터는 상기 이전 사용자의 상기 온라인 스토어의 웹 페이지 이동 경로 정보 및 구매 여부 정보를 포함함 -; 상기 다수의 학습 데이터를 머신 러닝 알고리즘을 통해 학습하여 구매 확률 모델을 생성하는 단계; 상기 사용자에 대한 상기 온라인 스토어의 웹 페이지 이동 경로를 변환하여 적어도 하나의 입력 데이터를 생성하는 단계; 및 상기 적어도 하나의 입력 데이터를 상기 머신 러닝 알고리즘에 입력하여 상기 사용자에 대한 구매 확률을 예측하는 단계;를 포함하는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 방법이 개시된다. To achieve the above object, according to a preferred embodiment of the present invention, there is provided a method for predicting a purchase probability of a user connected to an online store, which is performed in an apparatus including a processor and composed of a plurality of web pages, Converting the low data of the online store to generate a plurality of learning data, wherein the low data includes webpage movement path information and purchase information of the online store of the previous user; Learning the plurality of learning data through a machine learning algorithm to generate a purchase probability model; Generating at least one input data by converting a web page movement path of the online store for the user; And inputting the at least one input data to the machine learning algorithm to predict a purchase probability for the user.

상기 학습 데이터는 N1(1 이상의 정수) 차원을 가지는 제1 벡터 및 상기 이전 사용자의 구매 여부 정보와 대응되는 구매 비트값을 포함하되, 상기 제1 벡터를 구성하는 원소 각각은 상기 이전 사용자에 대한 상기 다수의 웹 페이지 중 N1개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응될 수 있다. Wherein the learning data includes a first vector having N 1 (an integer of 1 or more) and a purchase bit value corresponding to purchase information of the previous user, each of the elements constituting the first vector includes It is possible to correspond to a visit or sequential movement of N 1 web pages among the plurality of web pages.

상기 제1 벡터를 구성하는 원소 각각은, 상기 이전 사용자가 상기 N1개의 웹 페이지를 방문하거나 순차적으로 이동하는 경우 하나의 비트값을 가지고, 상기 이전 사용자가 상기 N1개의 웹 페이지를 방문하지 않거나 순차적으로 이동하지 않는 경우 다른 하나의 비트값을 가질 수 있다. Wherein each of the elements constituting the first vector has a bit value when the previous user visits the N 1 web pages or moves sequentially and the previous user does not visit the N 1 web pages If it does not move sequentially, it can have another bit value.

상기 로우 데이터에서 적어도 하나의 학습 데이터가 생성되고, 상기 적어도 하나의 학습 데이터가 2 이상인 경우, 상기 적어도 하나의 학습 데이터 중 i번째 학습 데이터의 제1 벡터의 원소는 하나의 원소를 제외하고 상기 적어도 하나의 학습 데이터 중 i-1번째 학습 데이터의 제1 벡터의 원소와 동일하되, 상기 하나의 원소는 상기 복수의 웹 페이지 중 다음 번에 방문할 웹 페이지 또는 상기 웹 페이지 이동 경로 중에서 다음 번에 이동할 웹 페이지와 대응될 수 있다. Wherein at least one learning data is generated from the row data, and when the at least one learning data is two or more, the elements of the first vector of the i-th learning data among the at least one learning data are at least The first element is the same as the element of the first vector of the (i-1) th learning data of one learning data, and the one element moves to the next webpage among the plurality of webpages or the webpage And may correspond to a web page.

상기 입력 데이터는 N2(1 이상의 정수) 차원을 가지는 제2 벡터를 포함하되, 상기 제2 벡터를 구성하는 원소 각각은 상기 사용자에 대한 상기 다수의 웹 페이지 중 N2개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응될 수 있다. Wherein the input data comprises a second vector having a dimension of N 2 (an integer equal to or greater than 1), each of the elements comprising the second vector being visited by N 2 web pages of the plurality of web pages for the user, Can be corresponded to whether or not it is moving.

상기 제2 벡터를 구성하는 원소 각각은, 상기 사용자가 상기 원소 각각과 대응되는 N2개의 웹 페이지를 방문하거나 순차적으로 이동하는 경우 하나의 비트값을 가지고, 상기 사용자가 상기 원소 각각과 대응되는 N2개의 웹 페이지를 방문하지 않거나 순차적으로 이동하지 않는 경우 다른 하나의 비트값을 가질 수 있다. Wherein each of the elements constituting the second vector has a bit value when the user visits N 2 web pages corresponding to each of the elements or sequentially moves, If you do not visit two web pages or do not move sequentially, you can have another bit value.

상기 사용자에 대한 상기 온라인 스토어의 웹 페이지 이동 경로에서 적어도 하나의 입력 데이터가 생성되고, 상기 적어도 하나의 입력 데이터가 2 이상인 경우, 상기 적어도 하나의 입력 데이터 중 i번째 입력 데이터의 제2 벡터의 원소는 하나의 원소를 제외하고 상기 적어도 하나의 입력 데이터 중 i-1번째 입력 데이터의 제2 벡터의 원소와 동일하되, 상기 하나의 원소는, 상기 복수의 웹 페이지 중 다음 번에 방문할 웹 페이지 또는 상기 웹 페이지 이동 경로 중에서 다음 번에 이동할 웹 페이지와 대응될 수 있다. At least one input data is generated in a web page movement path of the online store for the user, and when the at least one input data is two or more, an element of a second vector of the i-th input data of the at least one input data Is the same as the element of the second vector of the (i-1) th input data of the at least one input data except for one element, and the one element is a web page to be visited next time among the plurality of web pages And may correspond to a web page to be moved next in the web page movement path.

또한, 본 발명의 다른 실시예에 따르면, 복수의 웹 페이지로 구성된 온라인 스토어에 접속한 사용자의 구매 확률 예측 방법에 있어서, 다수의 이전 사용자의 로우 데이터를 변환하여 다수의 학습 데이터를 생성하는 데이터 생성부 - 상기 로우 데이터는 상기 이전 사용자의 상기 온라인 스토어의 웹 페이지 이동 경로 정보 및 구매 여부 정보를 포함함 -; 및 상기 다수의 학습 데이터를 머신 러닝 알고리즘을 통해 학습하여 구매 확률 모델을 생성하는 머신 러닝부;를 포함하되, 상기 데이터 생성부는 상기 사용자에 대한 상기 온라인 스토어의 웹 페이지 이동 경로를 변환하여 적어도 하나의 입력 데이터를 생성하고, 상기 머신 러닝부는 상기 적어도 하나의 입력 데이터를 상기 머신 러닝 알고리즘에 입력하여 상기 사용자에 대한 구매 확률을 예측할 수 있다. According to another embodiment of the present invention, there is provided a method of predicting purchase probability of a user accessing an online store composed of a plurality of web pages, the method comprising: generating data for generating a plurality of learning data by converting row data of a plurality of previous users; - the row data includes webpage travel path information and purchase information of the online store of the previous user; And a machine learning unit for learning the plurality of learning data through a machine learning algorithm to generate a purchase probability model, wherein the data generation unit converts the web page movement path of the online store to the user, And the machine learning unit inputs the at least one input data to the machine learning algorithm to estimate a purchase probability for the user.

본 발명에 따르면, 관리자가 개입하지 않고 머신 러닝을 이용하여 온라인 스토어에 접속한 사용자의 구매 확률을 예측하는 장점이 있다. According to the present invention, there is an advantage that the purchasing probability of a user who accesses the online store using machine learning without an administrator intervention is predicted.

도 1은 본 발명의 일 실시예에 따른 사용자의 구매 확률 예측 장치의 개략적인 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자의 구매 확률 예측 방법의 흐름도를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 온라인 스토어에 포함되는 복수의 웹 페이지의 개념을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 로우 데이터의 일례를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 학습 데이터의 일례를 도시한 도면이다.
도 6 및 도 7은 본 발명의 일 실시예에 따라서 로우 데이터에서 생성되는 적어도 하나의 학습 데이터의 개념을 도시한 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에서 사용되는 딥 볼츠만 머신 알고리즘을 설명하기 위한 도면이다.
1 is a diagram showing a schematic configuration of a purchase probability prediction apparatus of a user according to an embodiment of the present invention.
2 is a flowchart illustrating a method of predicting a purchase probability of a user according to an embodiment of the present invention.
3 is a view for explaining the concept of a plurality of web pages included in an online store according to an embodiment of the present invention.
4 is a diagram illustrating an example of row data according to an embodiment of the present invention.
5 is a diagram showing an example of learning data according to an embodiment of the present invention.
6 and 7 are diagrams showing the concept of at least one learning data generated in raw data according to an embodiment of the present invention.
FIGS. 8 and 9 are diagrams for explaining a DIP processing machine algorithm used in an embodiment of the present invention.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.As used herein, the singular forms "a", "an" and "the" include plural referents unless the context clearly dictates otherwise. In this specification, the terms "comprising ", or" comprising "and the like should not be construed as necessarily including the various elements or steps described in the specification, Or may be further comprised of additional components or steps. Also, the terms "part," " module, "and the like described in the specification mean units for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software .

이하, 본 발명의 다양한 실시예들을 첨부된 도면을 참조하여 상술한다.
Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 사용자의 구매 확률 예측 장치의 개략적인 구성을 도시한 도면이다. 1 is a diagram showing a schematic configuration of a purchase probability prediction apparatus of a user according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 구매 확률 예측 장치(100)는 프로세서가 포함된 장치로서, 데이터 생성부(110) 및 머신 러닝부(120)를 포함한다. Referring to FIG. 1, a purchase probability prediction apparatus 100 according to an embodiment of the present invention includes a processor, and includes a data generation unit 110 and a machine learning unit 120.

그리고, 도 2는 본 발명의 일 실시예에 따른 구매 확률 예측 장치(100)의 동작 과정 즉, 사용자의 구매 확률 예측 방법의 흐름도를 도시한 도면이다. 2 is a flowchart illustrating an operation procedure of the purchase probability prediction apparatus 100 according to an embodiment of the present invention, that is, a method of predicting a purchase probability of a user.

여기서, 본 발명의 일 실시예에 따른 구매 확률 예측 장치(100) 및 방법은 복수의 웹 페이지로 구성된 온라인 스토어에 접속한 사용자의 구매 확률을 예측한다. 일례로, 온라인 스토어에 포함되는 복수의 웹 페이지는 도 3에 도시된 바와 같을 수 있다. Here, the purchase probability prediction apparatus 100 and method according to an embodiment of the present invention predict a purchase probability of a user connected to an online store composed of a plurality of web pages. For example, a plurality of web pages included in the online store may be as shown in FIG.

이하, 각 구성 요소 별 기능 및 각 단계 별로 수행되는 과정을 설명하기로 한다. Hereinafter, the function of each component and the process performed for each step will be described.

먼저, 단계(210)에서, 데이터 생성부(110)는 다수의 이전 사용자의 로우 데이터(raw data)를 변환하여 다수의 학습 데이터를 생성한다. 이에 대해 보다 상세하게 설명하면 다음과 같다. First, in step 210, the data generation unit 110 generates a plurality of training data by converting raw data of a plurality of previous users. This will be described in more detail as follows.

로우 데이터는 이전 사용자 각각에 대한 텍스트 형태의 정보로서, 이전 사용자의 식별번호, 온라인 스토어의 웹 페이지 이동 경로 정보 및 구매 여부 정보를 포함한다. The row data includes textual information for each of the previous users, including the identification number of the previous user, webpage movement path information of the online store, and purchase information.

도 4의 (a)에서는 하나의 로우 데이터의 일례를 도시하고 있고, 도 4의 (b)에서는 15개의 로우 데이터의 일례를 도시하고 있다. Fig. 4 (a) shows one example of one row data, and Fig. 4 (b) shows one example of fifteen rows.

도 4를 참조하면, 각각의 로우 데이터는 임의의 길이를 가진다. 그리고, '세션 ID(SESSION_ID)'는 이전 사용자의 식별번호와 대응되고, '구매여부(PURCHASE)'에는 이전 사용자의 구매 여부 정보로서 YES 또는 NO의 정보가 표시되며, '웹 페이지 이동 경로 정보(PAGE)'는 이전 사용자가 방문한 웹 페이지의 이동 순서에 따라서 웹 페이지가 배치될 수 있다. 따라서, 도 4의 (a)의 경우, "상품 페이지(PT) → 홈 페이지(HO) → 분류 페이지(CA)"로 웹 페이지의 이동 경로가 저장된다. Referring to FIG. 4, each row data has an arbitrary length. The 'session ID (SESSION_ID)' corresponds to the identification number of the previous user. 'YES' or 'NO' is displayed as 'purchase information of the previous user' in the 'PURCHASE' PAGE ') can be arranged according to the order of movement of the web page visited by the previous user. Therefore, in the case of FIG. 4A, the movement path of the web page is stored in the "product page (PT) → home page (HO) → classification page (CA)".

그리고, 학습 데이터는 아래에서 설명하는 머신 러닝부(120)에서 학습될 데이터이며, 텍스트 형태의 로우 데이터에서 변환되는 비트 형태의 정보로서, N1(1 이상의 정수) 차원을 가지는 제1 벡터 및 이전 사용자의 구매 여부 정보와 대응되는 구매 비트값을 포함한다. The learning data is data to be learned by the machine learning unit 120 described below, and is a bit-type information to be converted from raw data in a text form. The first vector having N 1 (an integer of 1 or more) And a purchase bit value corresponding to the purchase information of the user.

이 때, 제1 벡터를 구성하는 원소 각각은 비트값을 가지며, 이전 사용자의 N1개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응될 수 있다. 즉, 제1 벡터를 구성하는 원소 각각은, 이전 사용자가 N1개의 웹 페이지를 방문하거나 순차적으로 이동하는 경우 하나의 비트값(일례로, 1의 비트값)을 가지고, 이전 사용자가 N1개의 웹 페이지를 방문하지 않거나 순차적으로 이동하지 않는 경우 다른 하나의 비트값(일례로, 0의 비트값)을 가질 수 있다. At this time, each element constituting the first vector has a bit value, and can correspond to a visit or sequential movement of N 1 web pages of the previous user. That is, each of the elements constituting the first vector has a bit value (for example, a bit value of 1) when the previous user visits N 1 web pages or moves sequentially, and the previous user has N 1 And may have another bit value (e.g., a bit value of 0) if the web page is not visited or does not move sequentially.

도 5에서는 본 발명의 일 실시예에 따른 학습 데이터의 일례를 도시하고 있다. FIG. 5 shows an example of learning data according to an embodiment of the present invention.

도 5의 (a)에서는 1차원의 제1 벡터의 일례를 도시하고 있다. 도 5의 (a)를 참조하면, 제1 벡터의 원소들은 "이전 사용자의 하나의 웹 페이지의 방문"과 대응되며, 방문을 한 경우 '1'의 비트값이 표시되고 방문하지 않는 경우 '0'의 비트값이 표시된다. 따라서, 도 5의 (a)의 학습 데이터는 "이전 사용자(2052)가 상품 페이지(PT)에 방문했으며 상품은 구매하지 않았던" 것을 의미한다. Fig. 5 (a) shows an example of a one-dimensional first vector. Referring to FIG. 5A, the elements of the first vector correspond to "visiting one web page of the previous user ", and a bit value of '1' is displayed when visited, 'Is displayed. Therefore, the learning data in FIG. 5A means that "the previous user 2052 visited the product page (PT), and the product was not purchased".

도 5의 (b)에서는 2차원의 제1 벡터의 일례를 도시하고 있다. 도 5의 (b)를 참조하면, 제1 벡터의 원소(a1, a2)은 "출발 페이지에서 도착 페이지로의 이동"과 대응된다. 즉, 순차적으로 2개의 웹 페이지를 이동하는 경우 '1'의 비트값이 표시되고 그렇지 않는 경우 '0'의 비트값이 표시된다. 이 때, 가로축 방향의 값(a1)은 "출발 페이지"와 대응되고, 세로축 방향의 값(a2)은 "도착 페이지"와 대응된다. 따라서, 도 5의 (b)의 학습 데이터는 "이전 사용자(2052)가 홈 페이지(HO)에서 검색 페이지(SE)로 이동했던" 것을 의미한다. 한편, 도 5의 (b)에서는 세션 ID 및 구매 비트값은 편의상 도시하지 않았다. FIG. 5B shows an example of a two-dimensional first vector. Referring to FIG. 5B, the elements a 1 and a 2 of the first vector correspond to "movement from the departure page to the destination page ". That is, when two web pages are sequentially moved, a bit value of '1' is displayed and a bit value of '0' is displayed otherwise. At this time, the value a 1 in the horizontal axis direction corresponds to the "start page " and the value a 2 in the vertical axis direction corresponds to the" arrival page ". Therefore, the learning data in Fig. 5B means "the previous user 2052 has moved from the home page HO to the search page SE ". 5 (b), the session ID and the purchase bit value are not shown for the sake of convenience.

그리고, 도면에서는 도시하지 않았지만, 3차원의 제1 벡터의 경우, 제1 벡터의 원소(a1, a2, a3)은 "출발 페이지에서 중간 웹 페이지를 거쳐 도착 페이지로의 이동"과 대응되며, 3개의 웹 페이지를 순차적으로 이동하는 경우 '1'의 비트값이 표시되고 그렇지 않는 경우 '0'의 비트값이 표시된다. 이 때, a1값은 "출발 페이지"와 대응되고, a2값은 "중간 페이지"와 대응되고, a3값은 "도착 페이지"와 대응된다. 이러한 내용은 4차원 이상의 제1 벡터에 동일하게 적용될 수 있다. Although not shown in the figure, in the case of a three-dimensional first vector, the elements (a 1 , a 2 , a 3 ) of the first vector correspond to the "movement from the departure page to the destination page via the intermediate web page" , And when the three web pages are sequentially moved, the bit value of '1' is displayed and the bit value of '0' is displayed otherwise. At this time, the value a 1 corresponds to the "start page", the value a 2 corresponds to the "intermediate page", and the value a 3 corresponds to the "destination page". This content can be equally applied to the first vector of four or more dimensions.

한편, 로우 데이터에서 적어도 하나의 학습 데이터가 생성될 수 있으며, 이는 머신 러닝부(120)에 순차적으로 입력될 수 있다. 이 때, 적어도 하나의 학습 데이터가 2 이상인 경우, i번째 학습 데이터의 제1 벡터의 원소는 하나의 원소를 제외하고 i-1번째 학습 데이터의 제1 벡터의 원소와 동일할 수 있으며, 하나의 원소는 복수의 웹 페이지 중 다음 번에 방문할 웹 페이지 또는 웹 페이지 이동 경로 중에서 다음 번에 이동할 웹 페이지와 대응될 수 있다.On the other hand, at least one learning data may be generated in the row data, and the learning data may be sequentially input to the machine learning unit 120. In this case, when at least one learning data is two or more, the elements of the first vector of the i-th learning data may be the same as the elements of the first vector of the (i-1) th learning data except for one element, Element may correspond to a next web page to be visited in the next web page or web page movement path among the plurality of web pages.

도 6 및 도 7에서는 로우 데이터에서 생성되는 적어도 하나의 학습 데이터의 개념을 도시하고 있다. 6 and 7 show the concept of at least one learning data generated in the row data.

도 6을 참조하면, 하나의 로우 데이터(도 6의 (a))에서 3개의 1차원 벡터인 학습 데이터(도 6의 (b), (c), (d))가 변환된다. 이 때, 2번째 학습 데이터(도 6의 (c))는 1번째 학습 데이터(도 6의 (b))의 원소값(비트값)을 기준으로, 다음 번에 방문할 웹 페이지인 "홈 페이지(HO)"에 대한 비트값이 바뀐다(비트값 0 → 비트값 1). 마찬가지로, 3번째 학습 데이터(도 6의 (d))는 2번째 학습 데이터의 원소값(비트값)을 기준으로 다음 번에 방문할 웹 페이지인 "분류 페이지(CA)"에 대한 비트값이 바뀐다(비트값 0 → 비트값 1).Referring to Fig. 6, three one-dimensional vectors of learning data ((b), (c), and (d) in Fig. 6) are converted in one row data (Fig. 6A). 6 (c)), based on the element value (bit value) of the first learning data (Fig. 6 (b)), the second learning data (Bit value 0? Bit value 1). Similarly, in the third learning data (Fig. 6 (d)), the bit value for the "classification page CA" as the web page to be visited next is changed based on the element value (bit value) of the second learning data (Bit value 0? Bit value 1).

그리고, 도 7을 참조하면, 하나의 로우 데이터(도 7의 (a))에서 2개의 2차원 벡터인 학습 데이터가 변환된다. 이 때, 1번째 학습 데이터(도 7의 (a))에서는 "홈 페이지(HO)에서 검색 페이지(SE)의 이동"과 대응되는 원소값이 비트값 1로 표시되고, 2번째 학습 데이터(도 7의 (c))에서는 1번째 학습 데이터(도 7의 (b))의 원소값(비트값)을 기준으로 다음 번의 이동과 대응되는 "검색 페이지(SE)에서 홈 페이지(HO)로의 이동"에 대한 원소값이 비트값 1로 표시된다. 7, learning data which is two two-dimensional vectors in one row data (Fig. 7 (a)) is converted. At this time, in the first learning data (Fig. 7A), the element value corresponding to "movement of the search page SE in the home page HO" is represented by the bit value 1, 7 (c)), the "movement from the search page SE to the home page HO" corresponding to the next movement based on the element value (bit value) of the first learning data Is represented by a bit value 1.

한편, 도면에서는 도시하지 않았지만, 로우 데이터에 포함된 웹 페이지의 이동 경로가 "홈 페이지(HO) → 검색 페이지(SE) → 홈 페이지(HO) → 분류 페이지(CA)"인 경우, 2개의 3차원 벡터인 학습 데이터가 변환된다. 이 때, 1번째 학습 데이터에는 "홈 페이지(HO) → 검색 페이지(SE) → 홈 페이지(HO)"과 대응되는 원소값이 비트값 1로 표시되고, 2번째 학습 데이터에서는 1번째 학습 데이터의 원소값(비트값)을 기준으로 다음 번의 이동인 "검색 페이지(SE) → 홈 페이지(HO) → 분류 페이지(CA)"과 대응되는 원소값이 비트값 1로 바뀐다. On the other hand, although not shown in the drawing, when the moving path of the web page included in the row data is "home page (HO) search page SE home page HO page classification page CA" The learning data which is a dimension vector is transformed. At this time, an element value corresponding to "home page (HO)? Search page (SE)? Home page (HO)" is displayed as the bit value 1 in the first learning data, The element value corresponding to the next movement "search page (SE) → homepage (HO) → classification page (CA)" is changed to bit value 1 based on the element value (bit value).

다음으로, 단계(220)에서, 머신 러닝부(120)는 다수의 학습 데이터를 머신 러닝 알고리즘을 통해 학습하여 구매 확률 모델을 생성한다. 머신 러닝부(120)에 대한 설명은 아래에서 보다 상세하게 설명하기로 한다. Next, in step 220, the machine learning unit 120 learns a plurality of learning data through a machine learning algorithm to generate a purchase probability model. The description of the machine learning unit 120 will be described in more detail below.

계속하여, 단계(230)에서, 데이터 생성부(110)는 구매 확률을 예측하고자 하는 사용자(이하, "해당 사용자"라고 함)에 대한 온라인 스토어의 웹 페이지 이동 경로를 변환하여 적어도 하나의 입력 데이터를 생성한다. Subsequently, in step 230, the data generating unit 110 converts the web page movement path of the online store to a user who intends to predict the purchase probability (hereinafter referred to as "corresponding user "), .

본 발명의 일 실시예에 따르면, 입력 데이터는 N2(1 이상의 정수) 차원을 가지는 제2 벡터를 포함하되, 제2 벡터를 구성하는 원소 각각은 해당 사용자에 대한 다수의 웹 페이지 중 N2개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응될 수 있다. According to an embodiment of the present invention, the input data includes a second vector having a dimension of N 2 (an integer of 1 or more), and each of the elements constituting the second vector includes N 2 It can be corresponded to whether the web page is visited or sequentially moved.

이 때, 제2 벡터를 구성하는 원소 각각은, 해당 사용자가 원소 각각과 대응되는 N2개의 웹 페이지를 방문하거나 순차적으로 이동하는 경우 하나의 비트값(일례로, 1의 비트값)을 가지고, 해당 사용자가 원소 각각과 대응되는 N2개의 웹 페이지를 방문하지 않거나 순차적으로 이동하지 않는 경우 다른 하나의 비트값(일례로, 0의 비트값)을 가질 수 있다. In this case, each of the elements constituting the second vector has one bit value (for example, a bit value of 1) when the user visits N 2 web pages corresponding to the respective elements or sequentially moves, (For example, a bit value of 0) if the user does not visit the N 2 web pages corresponding to the respective elements or does not move sequentially.

또한, 해당 사용자에 대한 온라인 스토어의 웹 페이지 이동 경로에서 적어도 하나의 입력 데이터가 생성될 수 있으며, 이는 머신 러닝부(120)에 순차적으로 입력될 수 있다. 이 때, 적어도 하나의 입력 데이터가 2 이상인 경우, i번째 입력 데이터의 제2 벡터의 원소는 하나의 원소를 제외하고 i-1번째 입력 데이터의 제2 벡터의 원소와 동일할 수 있으며, 하나의 원소는, 복수의 웹 페이지 중 다음 번에 방문할 웹 페이지 또는 웹 페이지 이동 경로 중에서 다음 번에 이동할 웹 페이지와 대응될 수 있다. Also, at least one input data may be generated in the web page movement path of the online store for the user, and the input data may be sequentially input to the machine learning unit 120. In this case, when at least one input data is two or more, the elements of the second vector of the i-th input data may be the same as the elements of the second vector of the (i-1) th input data except for one element, Element may correspond to a next web page to be visited from among a plurality of web pages to be visited next or a web page movement path.

상기와 같은 제2 벡터에 따른 입력 데이터는 상기에서 설명한 제1 벡터에 따른 학습 데이터의 내용과 유사하므로, 보다 상세한 설명은 생략하기로 한다. Since the input data according to the second vector is similar to the contents of the learning data according to the first vector described above, a detailed description thereof will be omitted.

마지막으로, 단계(240)에서, 머신 러닝부(120)는 적어도 하나의 입력 데이터를 머신 러닝 알고리즘에 입력하여 해당 사용자에 대한 구매 확률을 예측한다. 이하, 단계(220) 및 단계(240)에서의 머신 러닝부(120)에 대해 보다 상세하게 설명하면 다음과 같다. Finally, in step 240, the machine learning unit 120 inputs at least one input data to the machine learning algorithm to predict a purchase probability for the user. Hereinafter, the machine learning unit 120 in steps 220 and 240 will be described in more detail as follows.

본 발명의 일 실시예에 따르면, 머신 러닝 알고리즘은 베르누이 나이브 베이즈(Bernoulli Naive Bayes) 알고리즘일 수 있다. According to one embodiment of the present invention, the machine learning algorithm may be the Bernoulli Naive Bayes algorithm.

보다 상세하게, 학습 데이터가 1차원의 제1 벡터인 경우, 이전 세션(이전 사용자)이 방문한 웹 페이지 변수(일례로, 'HO', 'AC', 'SE' 등)와 이들의 집합 {x1, x2, x3, …, xn} 및 변수 X을 정의하고, 구매 여부 변수의 상태들을 Yk로 정의하고, Yk의 상태에 따라 각각의 웹 페이지의 방문 변수들이 각각 1을 가질 확률을 pki로 정의하는 경우, 베르누이 나이브 베이즈에서의 우도(Likelihood)는 아래의 수학식 1과 같이 표현될 수 있다.
More specifically, when the learning data is the one-dimensional first vector, the web page variables (e.g., 'HO', 'AC', 'SE', etc.) visited by the previous session 1 , x 2 , x 3, ... , x n }, and variable X, defines the states of purchase variables as Y k, and defines the probability that each visit variable of each web page has 1 in accordance with the state of Y k as p ki , Likelihood in the Bernoulli Naive Bay can be expressed as Equation 1 below.

Figure 112016094125406-pat00001
Figure 112016094125406-pat00001

이 때, 어떠한 세션도 방문하지 않은 웹 페이지가 존재할 경우 pki의 값이 0이 되므로, 추후 해당 웹 페이지를 방문하는 등 다소 예외적인 사례가 발생하면 확률 값이 0으로 처리되어 버리는 문제가 발생할 수 있다. 이러한 문제점을 방지하기 위해 변수의 확률 값이 0이 되지 않도록 각 빈도수에 특정값만큼을 더해주는 smoothing 기법을 사용할 수 있는데, 본 발명의 경우 1을 더해주었다.At this time, when there is a web page which does not visit any session, the value of p ki becomes 0. Therefore, if a case of exceptional case such as visiting the web page is generated in the future, the probability value may be processed as 0 have. In order to prevent such a problem, a smoothing technique may be used in which a certain value is added to each frequency so that the probability value of the variable does not become zero. In the present invention, 1 is added.

이 사후확률을 바탕으로 해당 세션이 현재까지 방문한 웹 페이지들의 값들을 예측 모형에 입력함으로써 머신 러닝부(120)는 해당 사용자의 구매 확률을 예측한다. 이 때, 두 확률 중 보다 높은 확률을 보인 상태 k를 골라 해당 사용자가 구매를 할지 안 할지를 예측할 수 있다. 여기서, Y의 예측 값을 y로 정의하면 y는 아래의 수학식 2과 같이 표현될 수 있다.
Based on the posterior probability, the machine learning unit 120 predicts the purchase probability of the user by inputting the values of the web pages visited by the session in the prediction model. At this time, it is possible to predict whether or not the corresponding user will purchase by selecting a state k showing a higher probability of the two probabilities. Here, if the predictive value of Y is defined as y, y can be expressed by the following equation (2).

Figure 112016094125406-pat00002
Figure 112016094125406-pat00002

또한, 학습 데이터가 2차원의 제1 벡터이거나 3차원의 제1 벡터인 경우, 머신 러닝부(120)는 상기의 수학식 1에서의 1차원의 제1 벡터의 데이터가 들어갔던 집합 {x1, x2, x3, … ,xn}, 변수 X 및 변수 Yk에 따라 각 변수들이 1일 확률을 나타낸 pki에 2차원의 제1 벡터 또는 3차원의 제1 벡터의 데이터를 적용시켜 예측 모델을 산출한다. When the learning data is a first vector of two dimensions or a first vector of three dimensions, the machine learning unit 120 determines that the set {x 1 , x 2 , x 3 , ... , x n }, the variable X, and the variable Y k , the predictive model is calculated by applying the data of the two-dimensional first vector or the first vector of three dimensions to the p ki indicating the probability of one day.

또한, 본 발명의 다른 실시예에 따르면, 머신 러닝 알고리즘은 딥 러닝(Deep Learning) 기법 중 하나인 딥 볼츠만 머신(DBM: Deep Boltzmann Machine) 알고리즘일 수 있다. According to another embodiment of the present invention, the machine learning algorithm may be a Deep Boltzmann Machine (DBM) algorithm, which is one of the Deep Learning techniques.

보다 상세하게, 본 발명의 경우 도 8에 도시된 바와 같은 4개의 층을 가지는 DBM 모형을 이용한다. 1층인 가시층의 경우 바이너리 노드로 구성되어 있으며 세션의 학습 데이터를 입력받는 기능을 수행한다. 이 때, 2차원의 제1 벡터의 데이터와 3차원의 제1 벡터의 데이터를 사용하는 경우, 한 번에 입력하는 데이터의 수가 다르기 때문에, 입력받는 데이터의 종류에 따라 노드의 수를 다르게 설정한다. 그리고, 2층과 3층인 은닉층들은 각 100개와 50개의 바이너리 노드로 구성하였으며, 이는 데이터의 특징들을 학습하는 역할을 맡는다. 마지막으로 4층인 출력층은 3층의 상태를 바탕으로 입력받은 데이터가 구매자 세션인지 비구매자 세션인지 그 확률을 계산해주는 Softmax 노드 두 개로 이루어져 있다. 여기에서 더 높은 확률 값을 가지는 노드를 골라주는 분류기를 사용해 해당 사용자의 입력 데이터를 통해 해당 사용자의 구매 확률을 예측할 수 있다. More specifically, in the case of the present invention, a DBM model having four layers as shown in FIG. 8 is used. In the case of the visible layer, which is one layer, it is composed of binary nodes and receives learning data of the session. In this case, when the data of the first vector of two dimensions and the data of the first vector of three dimensions are used, since the number of data to be input at one time is different, the number of nodes is set differently according to the type of data to be input . The hidden layers of the second and third layers consist of 100 and 50 binary nodes, respectively, and play a role of learning the characteristics of the data. Finally, the output layer, which is the fourth layer, consists of two Softmax nodes that calculate the probability that the input data is a buyer session or a non-buyer session based on the state of the third layer. Here, using the classifier that selects a node having a higher probability value, the purchase probability of the user can be predicted through the input data of the user.

즉, DBM 알고리즘에 학습 데이터를 입력하여 학습을 수행할 때, 첫번째 은닉층에서는 학습 데이터들의 미시적인 특징을, 두번째 은닉층에서는 첫번째 은닉층이 학습한 미시적 특징들을 조합하여 보다 거시적인 특징들을 노드별 가중치로 학습하게 된다. 이 가중치들을 살펴보면 DBM 알고리즘에 따른 구매 확률 모델이 어떠한 특징들을 바탕으로 예측을 하고 있는지를 파악할 수 있다. That is, when learning is performed by inputting learning data into the DBM algorithm, the micro characteristics of the learning data in the first hidden layer are combined with the microscopic features learned in the first hidden layer in the second hidden layer, . If we look at these weights, we can understand which characteristics of the purchase probability model based on the DBM algorithm are predicting.

일례로서, 2차원의 제1 벡터에 따른 학습 데이터를 이용하는 경우에 있어, 첫번째 은닉층이 학습한 가중치 중 일부를 시각화하여 나타내면 도 9과 같을 수 있다. As an example, in the case of using the learning data according to the two-dimensional first vector, a portion of the weight values learned by the first hidden layer may be visualized to be as shown in FIG.

도 9에서는 121개의 점으로 구성된 6개의 박스들을 보여주고 있는데, 하나의 점들은 입력받은 학습 데이터 내의 변수들을 의미하며, 하나의 박스는 하나의 노드를 의미한다. 그리고, 백색의 점은 해당 노드가 활성화 되는데 영향을 주는 양(positive)의 데이터를 의미하고, 흑색의 점은 음(negative)의 영향을 주는 데이터를 의미한다. 여기서, 가장 첫번째인 좌측 상단의 박스의 경우, 7번째 점이 강한 백색을 보이고 있는데, 이는 앞서 학습 데이터를 변환할 때, 홈 페이지(HO)에서 판촉 페이지(PR)로의 이동 경로를 나타내는 변수를 의미한다. 즉, 학습한 가중치들을 조합한 후에 도 9와 같이 시각화하면, 이전 사용자들이 주로 어느 웹 페이지에서 어느 웹 페이지로 이동하였는지는 확인할 수 있다. In FIG. 9, six boxes of 121 points are shown. One point represents variables in the input learning data, and one box represents one node. A white dot means positive data that affects the node activation, and a black dot means data that has a negative effect. Here, in the case of the first left upper box, the seventh point shows a strong white color, which means a variable indicating the movement path from the home page (HO) to the promotion page (PR) . That is, if the learned weights are combined and then visualized as shown in FIG. 9, it is possible to confirm from which web page the previous users have moved to which web page.

요컨대, 본 발명에 따른 온라인 스토어에서의 사용자의 구매 확률 예측 장치(100) 및 방법은 머신 러닝 알고리즘을 이용하여 기계가 스스로 데이터를 학습하며, 이에 따라 정확한 구매 확률 예측이 가능하다. 이 때, 머신 러닝 알고리즘을 사용하기 위해서는 임의의 크기를 가지는 텍스트 형태의 로우 데이터를 고정된 일정한 비트 형태의 데이터로 변환시켜야 한다. 이를 위해, 본 발명의 데이터 생성부(110)는 상기에서 설명한 바와 같이 데이터를 변환시킬 수 있다. 특히, 웹 페이지 방문 또는 이동 경로 데이터의 특성상 길이가 불규칙하여 기계 학습에 적용하기 어렵다는 점을 해결하기 위해, 본 발명의 경우 순차적인 데이터 누적 방식을 사용한다. In short, the apparatus 100 for predicting the purchase probability of a user in the online store according to the present invention and the method can accurately predict the purchase probability by the machine learning data by using the machine learning algorithm. At this time, in order to use the machine learning algorithm, it is necessary to convert raw data of a text size having an arbitrary size into fixed bit-type data. To this end, the data generator 110 of the present invention can convert data as described above. Particularly, in order to solve the problem that it is difficult to apply to machine learning due to the irregular length of characteristic of web page visit or route data, a sequential data accumulation method is used in the present invention.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, the above-described technical features may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다. As described above, the present invention has been described with reference to particular embodiments, such as specific elements, and limited embodiments and drawings. However, it should be understood that the present invention is not limited to the above- Various modifications and variations may be made thereto by those skilled in the art to which the present invention pertains. Accordingly, the spirit of the present invention should not be construed as being limited to the embodiments described, and all of the equivalents or equivalents of the claims, as well as the following claims, belong to the scope of the present invention .

Claims (11)

프로세서가 포함된 장치에서 수행되며, 복수의 웹 페이지로 구성된 온라인 스토어에 접속한 사용자의 구매 확률 예측 방법에 있어서,
다수의 이전 사용자의 텍스트 형태의 로우 데이터를 변환하여 비트값 형태의 다수의 학습 데이터를 생성하는 단계 - 상기 로우 데이터는 상기 이전 사용자의 상기 온라인 스토어의 웹 페이지 이동 경로 정보 및 구매 여부 정보를 포함함 -;
상기 다수의 학습 데이터를 머신 러닝 알고리즘을 통해 학습하여 구매 확률 모델을 생성하는 단계;
상기 사용자에 대한 텍스트 형태의 상기 온라인 스토어의 웹 페이지 이동 경로를 변환하여 비트값 형태의 적어도 하나의 입력 데이터를 생성하는 단계; 및
상기 적어도 하나의 입력 데이터를 상기 머신 러닝 알고리즘에 입력하여 상기 사용자에 대한 구매 확률을 예측하는 단계;를 포함하되,
상기 머신 러닝 알고리즘은 비트값을 가지는 N(1 이상의 정수) 차원의 벡터를 입력받아 학습 및 구매 확률의 예측을 수행하는 알고리즘이고,
상기 학습 데이터 각각은, 비트값을 가지는 N1(1 이상의 정수)개의 원소로 구성된 N1 차원의 제1 벡터 및 상기 이전 사용자의 구매 여부 정보와 대응되는 구매 비트값을 포함하되, 상기 제1 벡터의 원소 각각은 상기 이전 사용자에 대한 상기 다수의 웹 페이지 중 N1개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응되고,
상기 입력 데이터 각각은 N2(1 이상의 정수)개의 원소로 구성된 N2 차원을 가지는 제2 벡터를 포함하되, 상기 제2 벡터의 원소 각각은 상기 사용자에 대한 상기 다수의 웹 페이지 중 N2개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응되는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 방법.
A method for predicting a purchase probability of a user who is connected to an online store, which is performed in a device including a processor and is configured with a plurality of web pages,
Converting the raw data of a text form of a plurality of previous users into a plurality of learning data in the form of a bit value, wherein the row data includes webpage movement path information and purchase information of the online store of the previous user -;
Learning the plurality of learning data through a machine learning algorithm to generate a purchase probability model;
Converting at least one web page movement path of the online store in text form for the user to generate at least one input data in the form of a bit value; And
And inputting the at least one input data to the machine learning algorithm to predict a purchase probability for the user,
The machine learning algorithm is an algorithm for performing prediction of a learning and purchase probability by receiving a vector of N (1 or more integer) dimensions having bit values,
Wherein each of the learning data includes an N1-dimensional first vector composed of N1 (one or more integer) elements having bit values and a purchase bit value corresponding to purchase information of the previous user, Each corresponding to a visit or sequential movement of N1 web pages among the plurality of web pages for the previous user,
Wherein each of the input data includes a second vector having an N2 dimension composed of N2 (an integer of 1 or more) elements, each of the elements of the second vector includes N2 web pages visited Or whether or not the mobile terminal is sequentially moved.
삭제delete 제1항에 있어서,
상기 제1 벡터를 구성하는 원소 각각은, 상기 이전 사용자가 상기 N1개의 웹 페이지를 방문하거나 순차적으로 이동하는 경우 하나의 비트값을 가지고, 상기 이전 사용자가 상기 N1개의 웹 페이지를 방문하지 않거나 순차적으로 이동하지 않는 경우 다른 하나의 비트값을 가지는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 방법.
The method according to claim 1,
Wherein each of the elements constituting the first vector has a bit value when the previous user visits the N 1 web pages or moves sequentially and the previous user does not visit the N 1 web pages And if the mobile terminal does not move sequentially, the mobile terminal has another bit value.
제3항에 있어서,
상기 로우 데이터에서 적어도 하나의 학습 데이터가 생성되고,
상기 적어도 하나의 학습 데이터가 2 이상인 경우, 상기 적어도 하나의 학습 데이터 중 i번째 학습 데이터의 제1 벡터의 원소는 하나의 원소를 제외하고 상기 적어도 하나의 학습 데이터 중 i-1번째 학습 데이터의 제1 벡터의 원소와 동일하되, 상기 하나의 원소는 상기 복수의 웹 페이지 중 다음 번에 방문할 웹 페이지 또는 상기 웹 페이지 이동 경로 중에서 다음 번에 이동할 웹 페이지와 대응되는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 방법.
The method of claim 3,
At least one learning data is generated from the row data,
Wherein when the at least one learning data is two or more, an element of the first vector of the i-th learning data among the at least one learning data is an element of the i-th learning data among the at least one learning data 1 vector, wherein the one element corresponds to a web page to be visited next time or a web page to be moved next in the web page movement path among the plurality of web pages. Probability prediction method.
삭제delete 제1항에 있어서,
상기 제2 벡터를 구성하는 원소 각각은, 상기 사용자가 상기 원소 각각과 대응되는 N2개의 웹 페이지를 방문하거나 순차적으로 이동하는 경우 하나의 비트값을 가지고, 상기 사용자가 상기 원소 각각과 대응되는 N2개의 웹 페이지를 방문하지 않거나 순차적으로 이동하지 않는 경우 다른 하나의 비트값을 가지는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 방법.
The method according to claim 1,
Wherein each of the elements constituting the second vector has a bit value when the user visits N 2 web pages corresponding to each of the elements or sequentially moves, And if the two web pages are not visited or sequentially moved, the other one bit value is used.
제6항에 있어서,
상기 사용자에 대한 상기 온라인 스토어의 웹 페이지 이동 경로에서 적어도 하나의 입력 데이터가 생성되고,
상기 적어도 하나의 입력 데이터가 2 이상인 경우, 상기 적어도 하나의 입력 데이터 중 i번째 입력 데이터의 제2 벡터의 원소는 하나의 원소를 제외하고 상기 적어도 하나의 입력 데이터 중 i-1번째 입력 데이터의 제2 벡터의 원소와 동일하되, 상기 하나의 원소는, 상기 복수의 웹 페이지 중 다음 번에 방문할 웹 페이지 또는 상기 웹 페이지 이동 경로 중에서 다음 번에 이동할 웹 페이지와 대응되는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 방법.
The method according to claim 6,
At least one input data is generated in a web page movement path of the online store for the user,
Wherein when the at least one input data is two or more, an element of a second vector of the i-th input data among the at least one input data is an element of the i-1th input data of the at least one input data, 2 vector, wherein the one element corresponds to a next web page to be visited or a web page to be moved next in the web page movement path of the plurality of web pages. Purchase probability prediction method.
제1항, 제3항, 제4항, 제6항 및 제7항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.A computer-readable recording medium recording a program for performing the method of any one of claims 1, 3, 4, 6, and 7. 복수의 웹 페이지로 구성된 온라인 스토어에 접속한 사용자의 구매 확률 예측 방법에 있어서,
다수의 이전 사용자의 텍스트 형태의 로우 데이터를 변환하여 비트값 형태의 다수의 학습 데이터를 생성하는 데이터 생성부 - 상기 로우 데이터는 상기 이전 사용자의 상기 온라인 스토어의 웹 페이지 이동 경로 정보 및 구매 여부 정보를 포함함 -; 및
상기 다수의 학습 데이터를 머신 러닝 알고리즘을 통해 학습하여 구매 확률 모델을 생성하는 머신 러닝부;를 포함하되,
상기 데이터 생성부는 상기 사용자에 대한 텍스트 형태의 상기 온라인 스토어의 웹 페이지 이동 경로를 변환하여 비트값 형태의 적어도 하나의 입력 데이터를 생성하고,
상기 머신 러닝부는 상기 적어도 하나의 입력 데이터를 상기 머신 러닝 알고리즘에 입력하여 상기 사용자에 대한 구매 확률을 예측하되,
상기 머신 러닝 알고리즘은 비트값을 가지는 N(1 이상의 정수) 차원의 벡터를 입력받아 학습 및 구매 확률의 예측을 수행하는 알고리즘이고,
상기 학습 데이터 각각은, 비트값을 가지는 N1(1 이상의 정수)개의 원소로 구성된 N1 차원의 제1 벡터 및 상기 이전 사용자의 구매 여부 정보와 대응되는 구매 비트값을 포함하되, 상기 제1 벡터의 원소 각각은 상기 이전 사용자에 대한 상기 다수의 웹 페이지 중 N1개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응되고,
상기 입력 데이터 각각은 N2(1 이상의 정수)개의 원소로 구성된 N2 차원을 가지는 제2 벡터를 포함하되, 상기 제2 벡터의 원소 각각은 상기 사용자에 대한 상기 다수의 웹 페이지 중 N2개의 웹 페이지의 방문 또는 순차적인 이동 여부와 대응되는 것을 특징으로 하는 온라인 스토어의 구매 확률 예측 장치.
A method for predicting a purchase probability of a user connected to an online store comprising a plurality of web pages,
A data generating unit for generating a plurality of learning data in the form of a bit value by converting row data of a text form of a plurality of previous users, the low data being information indicating webpage movement path information and purchase information of the online store of the previous user Included -; And
And a machine learning unit for learning the plurality of learning data through a machine learning algorithm to generate a purchase probability model,
The data generator converts at least one input data of a bit value type by converting a web page movement path of the online store in text form for the user,
Wherein the machine learning unit inputs the at least one input data to the machine learning algorithm to predict a purchase probability for the user,
The machine learning algorithm is an algorithm for performing prediction of a learning and purchase probability by receiving a vector of N (1 or more integer) dimensions having bit values,
Wherein each of the learning data includes an N1-dimensional first vector composed of N1 (one or more integer) elements having bit values and a purchase bit value corresponding to purchase information of the previous user, Each corresponding to a visit or sequential movement of N1 web pages among the plurality of web pages for the previous user,
Wherein each of the input data includes a second vector having an N2 dimension composed of N2 (an integer of 1 or more) elements, each of the elements of the second vector includes N2 web pages visited Or whether or not the mobile terminal is sequentially moved.
삭제delete 삭제delete
KR1020160124802A 2016-09-28 2016-09-28 Method and Apparatus for purchase probability prediction of user using machine learning KR101813805B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160124802A KR101813805B1 (en) 2016-09-28 2016-09-28 Method and Apparatus for purchase probability prediction of user using machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160124802A KR101813805B1 (en) 2016-09-28 2016-09-28 Method and Apparatus for purchase probability prediction of user using machine learning

Publications (1)

Publication Number Publication Date
KR101813805B1 true KR101813805B1 (en) 2017-12-29

Family

ID=60939214

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160124802A KR101813805B1 (en) 2016-09-28 2016-09-28 Method and Apparatus for purchase probability prediction of user using machine learning

Country Status (1)

Country Link
KR (1) KR101813805B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020118359A1 (en) * 2018-12-10 2020-06-18 Domino's Pizza Enterprises Limited Predictive ordering system
CN112214675A (en) * 2020-10-19 2021-01-12 中国移动通信集团江苏有限公司 Method, device and equipment for determining user machine purchasing and computer storage medium
KR20210038263A (en) * 2019-09-30 2021-04-07 주식회사 니블스카이 System and method for consumer’s purchase prediction using HMM-based clickstream data
WO2021189922A1 (en) * 2020-10-19 2021-09-30 平安科技(深圳)有限公司 Method and apparatus for generating user portrait, and device and medium
CN117217852A (en) * 2023-08-03 2023-12-12 广州兴趣岛信息科技有限公司 Behavior recognition-based purchase willingness prediction method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061456A (en) * 2008-09-04 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for predicting purchase and recording medium

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010061456A (en) * 2008-09-04 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for predicting purchase and recording medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
논문(한국전자거래학회 2011년 춘계 학술대회, 2011. 04)
논문(한국지능정보시스템학회 2013년 춘계학술대회, 2013. 06)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020118359A1 (en) * 2018-12-10 2020-06-18 Domino's Pizza Enterprises Limited Predictive ordering system
KR20210038263A (en) * 2019-09-30 2021-04-07 주식회사 니블스카이 System and method for consumer’s purchase prediction using HMM-based clickstream data
KR102302780B1 (en) * 2019-09-30 2021-09-15 주식회사 니블스카이 System and method for consumer’s purchase prediction using HMM-based clickstream data
CN112214675A (en) * 2020-10-19 2021-01-12 中国移动通信集团江苏有限公司 Method, device and equipment for determining user machine purchasing and computer storage medium
WO2021189922A1 (en) * 2020-10-19 2021-09-30 平安科技(深圳)有限公司 Method and apparatus for generating user portrait, and device and medium
CN112214675B (en) * 2020-10-19 2024-04-09 中国移动通信集团江苏有限公司 Method, device, equipment and computer storage medium for determining user purchasing machine
CN117217852A (en) * 2023-08-03 2023-12-12 广州兴趣岛信息科技有限公司 Behavior recognition-based purchase willingness prediction method and device
CN117217852B (en) * 2023-08-03 2024-02-27 广州兴趣岛信息科技有限公司 Behavior recognition-based purchase willingness prediction method and device

Similar Documents

Publication Publication Date Title
KR101813805B1 (en) Method and Apparatus for purchase probability prediction of user using machine learning
CN111339415B (en) Click rate prediction method and device based on multi-interactive attention network
Liang et al. Interpretable structure-evolving LSTM
US20150325046A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
KR102468827B1 (en) Method, device and system for sourcing products based on artificial intelligence and providing category-customized review analysis service
Zhong et al. Learning behavior patterns from video for agent-based crowd modeling and simulation
CN109313720A (en) The strength neural network of external memory with sparse access
CN110245984B (en) Online shopping behavior analysis method and system based on causal inference
Bokhari et al. Long-term activity forecasting using first-person vision
JP7428927B2 (en) Node information estimation method, node information estimation program, and information processing device
Arora et al. Data augmentation using Gaussian mixture model on CSV files
Khan et al. Comparative analysis on Facebook post interaction using DNN, ELM and LSTM
Pughazendi et al. Graph Sample and Aggregate Attention Network optimized with Barnacles Mating Algorithm based Sentiment Analysis for Online Product Recommendation
Tan et al. A data-driven path planning model for crowd capacity analysis
Pandey et al. Correlation analysis of big data to support machine learning
Julka et al. Conditional generative adversarial networks for speed control in trajectory simulation
Behera et al. Software reliability prediction with ensemble method and virtual data point incorporation
CN108629062A (en) Methods, devices and systems for optimization of fixing a price
Biswas et al. Soft intelligence approaches for selecting products in online market
Leung et al. Theoretical and practical data science and analytics: challenges and solutions
Cerqueira et al. Constructive aggregation and its application to forecasting with dynamic ensembles
Tarabishy et al. Artificial Intelligence for the Built Environment
Cheriyan et al. Web page prediction using Markov model and Bayesian statistics
Bisagno et al. Virtual crowds: An LSTM-based framework for crowd simulation
Kim et al. COVID-19 outbreak prediction using Seq2Seq+ Attention and Word2Vec keyword time series data

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant