KR20190140701A - 계층적 카테고리 군집 기반 장바구니 상품 추천 방법 - Google Patents

계층적 카테고리 군집 기반 장바구니 상품 추천 방법 Download PDF

Info

Publication number
KR20190140701A
KR20190140701A KR1020180067523A KR20180067523A KR20190140701A KR 20190140701 A KR20190140701 A KR 20190140701A KR 1020180067523 A KR1020180067523 A KR 1020180067523A KR 20180067523 A KR20180067523 A KR 20180067523A KR 20190140701 A KR20190140701 A KR 20190140701A
Authority
KR
South Korea
Prior art keywords
category
product
products
hierarchy
hierarchical
Prior art date
Application number
KR1020180067523A
Other languages
English (en)
Other versions
KR102142126B1 (ko
Inventor
이형우
황수민
전연빈
이재규
Original Assignee
한신대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한신대학교 산학협력단 filed Critical 한신대학교 산학협력단
Priority to KR1020180067523A priority Critical patent/KR102142126B1/ko
Publication of KR20190140701A publication Critical patent/KR20190140701A/ko
Application granted granted Critical
Publication of KR102142126B1 publication Critical patent/KR102142126B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 계층적 카테고리 군집 기반 장바구니 상품 추천방법에 관한 것으로서, 계층적 카테고리 군집의 각 계층별로 각 계층 카테고리에 속하는 상품의 개수를 측정하고, 측정된 상품 개수가 미리 설정된 기준값 이상인 카테고리 계층을 결정하는 단계, 결정된 각 카테고리 계층별로 기계학습 방법을 적용하여 각 카테고리 계층에 속하는 상품들의 지지도와 신뢰도를 산출하는 단계 및 상기 산출된 지지도와 신뢰도 정보에 기초하여 상호 구매관련성이 높은 상품 쌍들을 결정하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 의하면 판매자의 상품등록 편의성, 구매자의 상품구매 편의성뿐만 아니라 상품 거래 쇼핑몰의 매출 증대까지 기대할 수 있어 전자상거래 산업의 활성화 및 발전에 기여할 수 있을 것으로 기대된다.

Description

계층적 카테고리 군집 기반 장바구니 상품 추천 방법{Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method}
본 발명은 상품을 판매하고자 하는 판매자의 상품들을 계층적 카테고리내에서 최적의 카테고리로 분류할 수 있도록 유도함과 아울러 이러한 계층적 카테고리를 기반으로 사용자가 장바구니에 담아둔 상품과 함께 구매할 가능성이 높은 상품을 효율적으로 추천할 수 있도록 하는 방법에 관한 것이다.
인터넷 및 모바일 통신의 발전에 따라 B2B 거래 및 B2C 거래 양자 모두 온라인 쇼핑몰에 대한 이용도가 갈수록 높아지고 있는 추세이다.
온라인 쇼핑몰은 수많은 상품을 취급하므로 이들 상품들을 계층적 카테고리화하여 사용자들이 카테고리를 기반으로 상품의 등록 및 상품 검색을 하도록 되어 있다.
우선, 상품 판매자 관점에서 보면, 상품을 판매하고자 하는 판매자는 온라인 쇼핑몰 사이트에 접속하여 자신이 판매하고자 하는 상품의 카테고리를 수동적으로 등록하거나 온라인 쇼핑몰 사이트의 카테고리 분류기준을 참고하여 적합한 카테고리를 찾아 등록하는 형태를 띄고 있다. 그러나, 판매자들이 카테고리 분류 체계를 잘 이해하지 못하는 경우 상품 카테고리가 잘못 등록되거나 기등록된 카테고리와 다른 카테고리로 중복등록되는 경우가 빈번하게 발생한다.
그리고 상품 구매자 관점에서 보면, 쇼핑몰에서 여러 가지 상품을 구매할 때 장바구니에 원하는 상품들을 담아둔 후 한꺼번에 결제를 하는 것이 편리하므로 장바구니 기능을 많이 사용하고 있다.
마지막으로 쇼핑몰 사이트 관점에서 보면, 고객에서 최적의 구매 의사결정환경으로 제공하여 사용자에게 편의성을 제공함과 동시에 매출을 증대시키기 위해 상품 추천 서비스를 제공하고 있다. 이러한 상품 추천 서비스는 주로 고객이 특정 상품을 구매하거나 장바구니에 담아두는 경우 해당 상품과 관련하여 고객에게 적합한 추가 구매 상품을 추천하여 고객이 추천 물품을 구매하도록 유도하는 서비스이다.
이러한 상품 추천 서비스는 일반적으로 특정 상품을 구매한 이용자가 동시에 많이 구매하는 상품을 추천하는 방법으로 많은 쇼핑몰이나 상품 거래 사이트에서 가장 많이 사용되고 있다.
그러나, 종래 상품 추천 서비스는 상품 대 상품의 관점에서 즉, 개별 상품 단위로 상품을 추천하므로 상품의 판매 수량에 따라 확률의 차이가 크므로 해당 상품의 판매량에 따라 추천 정확도의 차이가 많이 발생할 수 있는 단점이 발생한다.
특히, 다양한 제품군을 취급하는 쇼핑몰의 경우 다수의 상품들을 효과적으로 분류하기 위해 계층적 카테고리 구조를 갖고 있는데 종래 상품 추천 서비스는 계층적 카테고리의 특성을 전혀 반영하지 못하고 있다.
이에 판매자가 자신의 상품의 카테고리를 쉽게 인식하여 등록할 수 있고, 계층적 카테고리의 특성을 이용하여 상품 추천의 성공률을 높일 수 있는 방법에 대한 제시가 요구되고 있다.
1. 한국등록특허 제0801662호 (발명의 명칭: 상품 추천 관리시스템 및 그 추천 방법) 2. 한국공개특허 제2017-0119653호 (발명의 명칭 : 상품 구매 추천 방법)
이에, 본 발명은 상기한 사정을 감안하여 창출된 것으로, 본 발명의 주된 목적은 기계학습 기반으로 특정상품에 대한 계층적 카테고리를 효과적으로 분류하여 상품의 카테고리 분류 정확도를 높임과 아울러, 카테고리를 기반으로 상품의 추천 서비스를 제공함으로써 구매자에게 보다 적합한 상품을 추천하여 구매자의 상품 구매 편의성과 쇼핑몰 업체의 매출 향상을 동시에 얻을 수 있도록 하는 것이다.
상기 목적을 달성하기 위한 본 발명의 일측면에 의하면, 판매자 단말기와 구매자 단말기에 네트워크를 통해 연결되어 상품거래를 중개하는 상품거래서버에서 계층적 카테고리 군집 기반 장바구니 상품 추천 서비스를 제공하는 방법에 있어서,
계층적 카테고리 군집의 각 계층별로 각 계층 카테고리에 속하는 상품의 개수를 측정하고, 측정된 상품 개수가 미리 설정된 기준값 이상인 카테고리 계층을 결정하는 단계, 결정된 각 카테고리 계층별로 기계학습 방법을 적용하여 각 카테고리 계층에 속하는 상품들의 지지도와 신뢰도를 산출하는 단계, 상기 산출된 지지도와 신뢰도 정보에 기초하여 상호 구매관련성이 높은 상품 쌍들을 결정하는 단계를 포함하는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법이 제공된다.
여기서, 상기 신뢰도는 A 카테고리 계층의 제품을 구매한 경우 B 카테고리 계층의 제품을 동시에 구매할 확률값이고, 상기 상호 구매관련성은 구매자가 특정 제품을 장바구니에 담은 경우 다른 특정 제품을 구매할 확률로서, 상기 지지도와 신뢰도에 의해 결정될 수 있다.
그리고, 상호 구매관련성이 높은 상품 쌍들은 서로 다른 카테고리에 속하는 상품 중에서 결정되는 것이 바람직하다.
또한, 상기 판매자 단말기로부터 등록하고자 하는 상품의 상품명 텍스트 정보를 수신하는 단계, 입력된 상품명 텍스트의 형태소를 분석하여 상품명 텍스트 중에서 명사와 영단어를 추출하는 단계, 기계학습 기반의 카테고리 예측모델을 구동하여 추출된 명사와 영단어와 연관성이 높은 카테고리 정보를 추출하는 단계 및 상기 추출된 카테고리 정보를 판매자 단말기로 전송하는 단계를 더 포함하는 것이 바람직하다.
또한, 상기 기계학습 기반의 카테고리 예측모델은 판매자가 상품거래서버에서 상품을 등록하는 과정에서 입력된 상품명 텍스트 데이터를 수치화하고, 기계 학습 과정에서 나온 각 단어들에 대하여 해당 카테고리, 출현 회수 및 점수정보가 예측모델 정보로서 저장된 것일 수 있다.
본 발명에 의하면 판매자의 상품등록 편의성, 구매자의 상품구매 편의성뿐만 아니라 상품 거래 쇼핑몰의 매출 증대까지 기대할 수 있어 전자상거래 산업의 활성화 및 발전에 기여할 수 있을 것으로 기대된다.
도1은 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템의 전체 구성도이다.
도 2는 도 1의 상품 거래 서버의 세부 구성을 도시한 블록도이다.
도 3은 한글 문장의 형태소 분석 방법의 예를 나타낸 것이다.
도 4는 계층적 카테고리 군집 기반 상품 카테고리 분류 및 추천 방법이 수행되는 과정을 도시한 흐름도이다.
도 5는 트랜잭션 기반 지지도 계산 결과를 나타낸 표이다.
도 6은 카테고리별 아이템 개수를 나타낸 표이다.
도 7은 연관 분석 방법에서 데이터 훈련 및 분석이 이루어지는 흐름도이다.
도 8은 실제 데이터를 대상으로 시험한 테스트 데이터 비교 결과를 나타낸 표이다.
도 9는 아이템 개수를 500개, 지지도를 0.005로 설정한 경우에서 장바구니 상품 추천 결과를 나타낸 것이다.
도 10은 아이템 개수를 100개, 지지도를 0.01로 설정한 경우에서 장바구니 상품 추천 결과를 나타낸 것이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템 및 방법을 설명한다.
도1은 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템의 전체 구성도이고, 도 2는 도 1의 상품 거래 서버의 세부 구성을 도시한 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템은 판매자 단말기(10)와, 구매자 단말기(20) 및 상품거래서버(30)를 포함하여 구성된다.
판매자 단말기(10)는 상품거래서버(30)를 통해 상품을 판매하고자 하는 판매회사에 구비된 단말기로서 상품거래서버(30)에 접속하여 자사에서 판매하고자 하는 상품들을 등록한다.
구매자 단말기(30)는 상품거래서버(30)를 통해 상품을 구매하고자 하는 구매자가 이용하는 단말기로서 PC, 노트북, 태블릿 PC, 스마트폰 등의 통신이 가능한 각종 단말기를 포함한다.
상품거래서버(30)는 유무선 네트워크를 통해 다수의 판매자 단말기(10) 및 구매자 단말기(30)와 연결되어 상품 거래를 중개하는 업체에 구비된 컴퓨터이다. 상품거래서버(30)는 도 2에 도시된 바와 같이, 크게 카테고리 분류기(100), 장바구니 상품 추천기(200), 데이터베이스부(300) 및 통신부(400)을 포함할 수 있다. 도 2의 블록도에는 본 발명과 관련된 주요 구성만이 개시되어 있다.
통신부(400)는 다수의 판매자 단말기(10) 및 구매자 단말기(20)와 네트워크를 통해 연결되어 데이터를 주고받기 위한 구성이다.
카테고리 분류기(100)는 텍스트 전처리기(110)와 학습기반 카테고리 예측기(120)를 포함한다.
텍스트 전처리기(110)는 통신부(400)를 통해 구매자 단말기(30)로부터 입력된 상품명을 자연어처리(NLP : Natural Language Processing)하여 의미있는 정보를 분석 및 추출하는 것으로서 형태소 분석모듈(111)과 필터링 모듈(112)을 포함한다.
형태소 분석모듈(111)은 품사별 형태소 분석을 통하여 자연어 처리를 수행하는 것이다. 텍스트에서 분석을 위해서는 뜻을 가지는 최소 단위인 형태소의 형태로 나누어서 분석을 한다. 영어 같은 경우 공백을 기준으로 형태소가 나누어지고 Can't, Didn't 등과 같은 몇 가지 경우만 예외처리를 해주면 쉽게 분석이 가능하지만 한국어와 같은 경우 조사, 어미 등이 붙기 때문에 영어 문장 분석보다 어려움이 있다.
한국어 정보처리를 위한 Python 패키지 모음으로서 KoNLPy가 있다. KoNLPy는 오픈소스 소프트웨어로 내부에 다양한 분석기(Hannanum, Kkma, Komoran, Mecab, Twitter)를 포함하고 있다. 따라서 입력값을 특성에 따라 해당 분석기를 적용하면 보다 정확한 형태소 분석결과를 얻을 수 있다.
이 중 Twitter 분석기는 품사 구별이 쉽고 용이하기 때문에 Twitter를 이용할 수 있다. 일반적으로 온라인 쇼핑몰에 등록되는 상품정보는 상품에 대한 설명이 부가적으로 기입되는 특성이 있으므로 Twitter 분석기를 사용하여 명사와 영어를 제외한 나머지 품사들을 제거하여 상품명에 있어 핵심이 되는 명사를 추출한다.
도 3은 한글 문장의 형태소 분석 방법의 예를 나타낸 것이다. 도 3에 도시된 바와 같이, "나는 지금 밥을 먹는다"라는 텍스트는 여러개의 품사들로 이루어져있는데, Twitter 분석기를 사용하면 도 3에 도시된 것과 같이 각 품사별로 분류할 수 있다.
필터링 모듈(112)은 텍스트 전처리 과정에서 상품 카테고리 분류에 있어 의마가 없는 단어들을 학습 이전에 미리 제거하기 위한 것이다. 이는 의미가 없는 단어들을 미리 제거하여 카테고리 추천의 정확도를 높이기 위한 목적에서 구현되는 것이다.
학습기반 카테고리 예측기(120)는 지도 학습 모델을 이용한 기계학습 기법을 통해 상품 카테고리 분류를 예측하는 것이다. 기계학습은 크게 지도학습(Supervised Learning) 모델과 비지도 학습(Unsupervised Learning)모델 그리고 강화 학습(Reinforcement Leaning)모델로 나누어진다. 온라인 쇼핑몰에서 판매되는 대단위 물품에 대한 카테고리 정보에 대한 자동 추천에 기계학습 기법을 적용하기 위해서는 지도 학습 모델이 적합하다. 지도 학습 모델은 기계학습 알고리즘을 이용하여 학습 데이터들을 학습하고, 이를 기반으로 새로운 데이터에 대해서 예측을 하는 방법이다.
본 발명에서는 기계학습 분류 알고리즘의 하나로서 스팸 필터링이나 키워드 검색을 활용한 문서 분류 등에 사용되는 나이브 베이즈 분류기를 사용하였다. 나이브 베이즈 분류기는 조건부 확률에 베이즈 정리(Bayes Theorem)을 적용하고, 문서나 데이터를 구성하는 각각의 요소들이 등장할 확률에 대한 독립성을 가정하여 입력 데이터를 분류하는 확률적 분류방법이다.
카테고리 분류기(100)를 이용하여 계층적 카테고리 군집 기반 상품 카테고리 분류 및 추천 방법이 수행되는 과정을 도 4를 통해 설명하면 다음과 같다.
판매자가 판매자 단말기(10)를 통해 상품거래서버(30)에 접속하여 판매하고자 하는 상품명을 입력한다(S400). 예를 들어, 판매자가 등록할 상품명에 "밀리터리 백팩 군인가방 여행용 가방 등산가방"이라고 입력할 수 있다. 이와 같이 여러개의 상품명을 도시에 입력하거나 이외에 상품명에 색상이나 재질 등의 부가 설명을 포함하는 형태 등의 다양한 상품명 입력 형태가 있을 수 있다.
판매자가 판매자 단말기(10)를 통해 상품명을 입력하면, 입력 데이터가 네트워크를 통해 상품거래 서버(30)의 통신부(500)에서 수신되고, 이 데이터가 형태소 분석모듈(111)로 전달된다. 형태소 분석모듈(111)은 상품명 데이터에 대해 형태소 분석을 수행한다(S410), 입력된 텍스트에서 명사와 영어 단어만이 추출된다(S420). 상기 입력예에서 형태소 분석을 통해 명사나 영어만을 추출하면 "밀리터리", "백팩", "군인", "가방", "여행", "등산" 등의 단어가 추출될 것이다.
그 다음, 필터링 모듈(112)에서 상품명과 관련하여 의미없는 단어가 있는지 판단하여 의미없는 단어가 있는 경우 이를 필터링(제거)한다(S430). 상기 입력에에서는 상품분류와 관련하여 모두 의미있는 단어들이므로 단어 제거과정없이 다음 단계로 넘어간다.
명사 단어들이 추출되면, 카테고리 예측 모델이 구동된다(S440). 카테고리 예측 모델은 예측모델 DB(320)에 저장된 예측모델 정보를 기초로 수행된다. 기존에 저장된 카테고리별 상품명을 이용하여 학습 데이터로 이용하며, 이때 판매자가 온라인 쇼핑몰에 자신이 판매하고자 하는 상품을 입력/등록하는 과정에서 입력된 상품명(텍스트 정보) 데이터를 수치화한다. 학습이 완료되면, 예측모델 DB(320)에 카테고리, 단어, 출현 회수 및 점수가 예측모델 정보로서 저장된다.
최종적으로, 카테고리 예측모델을 통해 연관성 높은 카테고리들이 추출되며, 이 중 상위 3개의 카테고리가 추천 카테고리로서 판매자 단말기로 제공된다(S450). 판매자는 판매자 단말기(10)에 표시된 3개의 추천 카테고리 중에서 하나를 선택하면, 상품명과 그에 해당하는 카테고리 정보가 카테고리 분류 DB(310) 등록된다. 이를 통해, 종래와 같이 상품 카테고리를 찾는 과정이 생략될 수 있고, 보다 정확한 카테고리 분류가 가능한 장점이 있다.
이어 도 2에서 장바구니 상품 추천기(200)를 상세하게 설명하기로 한다. 장바구니 상품 추천기(200)의 상세 구성 및 작용을 설명하기에 앞서, 지지도와 신뢰도의 개념에 대하여 먼저 설명하기로 한다.
지지도(support)는 특정 상품이 전체 거래 건수에서 등장하는 비율을 나타내는 것으로서 (특정 아이템 등장 건수)/(전체 거래 건수)의 형태로 계산되며, 지지도를 통해 구매자들이 많이 구매한 아이템이 무엇인지를 파악할 수 있다. 도 5는 트랜잭션 기반 지지도 계산 결과를 나타낸 표로서, 전체 거래 건수는 총 9회이고, 이 중 I1 상품(아이템)의 등장 건수가 6회이므로 I1 상품의 지지도는 6/9 = 66.66%임을 알 수 있다.
신뢰도(confidence)는 본 발명에서 특정 부분 집합 A를 구매했을 때 특정 부분 B를 구매할 확률 즉 조건부 확률로 정의된다. 도 5에서 9건의 전체거래에서 I1 상품을 구매한 거래는 총 6건이며(t100, t400, t500, t600, t800, t900), 이 6건의 거래중 I5 상품을 구매한 거래는 t100과 t800의 2건이므로 신뢰도는 2/6 = 1/3 =33%로 계산된다.
장바구니 상품 추천기(200)는 카테고리 전처리기(210)와 연관 분석기(220)를 포함하여 구성된다.
카테고리 전처리기(210)는 연관 분석기(220)에서 분석할 대상 카테고리 계층 수준을 결정하기 위한 것이다.
온라인 쇼핑몰에 저장된 방대한 물품을 대상으로 장바구니 추천 기능을 제공하기 위해서 물품에 대한 카테고리 분류없이 바로 연관분석을 실시하는 것은 효율적이지 못한데, 그 이유는 결과값 도출에 많은 시간이 소요된다는 것과 개별 상품에 대해 연관 분석을 하는 것이 오히려 유의미성이 떨어진다는 것이다. 따라서, 본 발명에서는 카테고리 군집 정보를 활용하여 컨텐츠 기반 추천방식(Contents-based Recommendation)을 적용하였다.
이때, 모든 카테고리에 대하여 분석을 하는 것은 효율적이지 못하므로 온라인 쇼핑몰에 등록되어 있는 상품의 개수를 측정하고 일정 개수 이상의 카테고리를 대상으로 분석을 하는 것이 바람직하다. 이는 기계학습 과정에서 작은 크기의 카테고리 군집으로부터는 유효한 데이터를 추출하지 못할 수 있기 때문이다.
카테고리별 아이템 개수를 나타낸 도 6을 참조하면, 6단계 카테고리 구조 중 최상위인 1레벨 분류가 01에 속하는 카테고리의 일부가 예시되어 있다. 1레벨 분류가 01에 속하는 카테고리 전체의 상품 개수는 3326개이며, 그 하위 카테고리 군집으로서 2레벨 분류가 01에 속하는 카테고리의 상품 개수는 1676개이며, 그 하위 카테고리 군집으로서 3레벨 분류가 01에 속하는 카테고리의 상품 개수는 408개임을 알 수 있다.
만일, 분석 대상 카테고리의 상품수를 500으로 결정하는 경우, 상품수가 500개 이상인 카테고리는 최상위인 1레벨 분류가 01에 속하는 카테고리(01_00_00_00_00_00)와 그 하위 카테고리(01_01_00_00_00_00)이므로 2개의 카테고리 군집에 대하여 분석이 이루어진다.
연관 분석기(220)는 카테고리 전처리기(210)에 의해 결정된 카테고리 군집에 대하여 기계학습을 이용하여 구매자가 장바구니에 담은 상품과 연관된 상품으로서 구매자가 구매할 가능성이 높은 상품을 추천한다.
본 발명에서 연관 분석을 위한 기계학습 방법으로는 Spark 기반 기계학습 방법이 사용될 수 있다. 스파크는 인메모리 시스템으로서 빅데이터에 대한 빠른 처리 및 연산 속도를 제공하며, R, Python, Java, Scala 언어 등을 지원하고 높은 확장성을 갖는 장점이 있다.
그리고, 본 발명에서는 스파크를 기반으로 장바구니 상품 추천을 구현하기 위해 빈도 패턴 마이닝 기법 중 하나인 FP-growth 알고리즘이 사용되었다. FP-growth 알고리즘은 데이터 스캔을 2회만 수행하므로 속도가 빠르다는 장점이 있어 이 알고리즘을 이용하여 각 상품에 대한 지지도와 신뢰도를 계산하였다. FP-growth 알고리즘은 전체 스캔을 1회 하는 동안 빈발도를 계산하고, 계산된 빈발도를 기반으로 지지도를 구하여 이를 이용하여 각 거래에 대해서 지지도 순으로 내림차순 정렬을 한 후, 정렬된 거래를이용하여 트리를 생성한다. 생성된 트리를 따라 내려오면서 각 노드에 카운트값을 기록하고, 모든 거래에 대하여 카운트가 완료되면 다시 역으로 올라오면서 패턴을 추출한다. 이를 통해 각 상품의 지지도와 신뢰도를 계산할 수 있다.
도 7은 연관 분석 방법에서 데이터 훈련 및 분석이 이루어지는 흐름도이다.먼저, 카테고리별 주문 기록 개수를 측정한다(S700). 그리고 기본적인 데이터 필터링 과정을 수행한다. 이는 일정기간 또는 날짜를 기준으로 필요한 데이터만을 추출하거나 특정한 카테고리만을 추출하는 기능을 수행하는 것일 수 있다.
효율적인 분석을 위해서 상한선과 하한선을 설정하여 카테고리 분석을 깊이를 결정할 수 있다. 예를 들어 6단계로 이루어진 카테고리 트리에서 상한선과 하한선을 각각 2단계와 4단계로 설정하면 이에 해당하는 카테고리만을 대상으로 분석을 수행할 수 있다.
그 다음, 각 카테고리 계층으로 순차적으로 진입하고(S710), 각 카테고리 계층에서의 상품 개수를 산출하여 기준값을 만족하는 카테고리 계층을 결정한다(S720). 위의 예에서 기준값으로 500을 예시하였으며, 이는 시뮬레이션을 통해 적절한 값으로 결정될 수 있다.
분석대상 카테고리 계층들이 결정되면 카테고리 계층별로 연관분석이 이루어지고 분석 결과를 저장한다(S730). 연관분석은 FP-growth 알고리즘을 이용하여 각 상품에 대한 지지도와 신뢰도를 계산한다. 여기서, 지지도는 상술한 바와 같이 전체거래건수 대비 각 상품의 등장 건수로 계산되며, 신뢰도는 분석대상 카테고리 계층별로 A 카테고리 계층 제품을 구매했을 때 B 카테고리 계층 제품을 구매할 확률로 계산할 수 있다.
이하에서는 도 8 내지 도 10을 참조하여 연관 분석 실험 결과에 대해 설명하기로 한다.
도 8은 실제 데이터를 대상으로 시험한 테스트 데이터 비교 결과를 나타낸 표이다. 본 실험은 B2B 쇼핑몰 운영회사인 G사를 대상으로 한 것으로서, G사로부터 카테고리 4,142개, 상품개수 6,394개, 주문 기록이 15,721개 정보를 제공받아 지지도값과 분석대상 결정을 위한 상품수에 대한 기준값을 변경하면서 장바구니 상품 연관 분석을 수행하였다.
도 8을 참조하면 총 3회의 실험을 수행하였는데, 1회는 상품개수 500개 이상, 지지도 0.01 이상인 조건에서 총 338개의 추천상품 쌍이 산출되었으며, 2개의 상품이 다른 카테고리에 속한 경우가 338개 중 216개임을 알 수 있었다.
2회차 실험에서는 지지도를 0.005로 낮추어 실험한 결과 추천상품 쌍이 412개로 증가하였고, 1회의 실험에 비해 53개의 카테고리가 증가하였다. 그리고, 2개의 상품이 다른 카테고리에 속한 경우가 412개 중 252개임을 알 수 있었다. 2회차 실험에서 장바구니 상품 추천 결과가 도 9에 도시되어 있다.
3회차 실험에서는 상품개수를 100개 이상으로 낮추어 실험한 결과 추천상품 쌍이 1108개로 증가하였고, 1회의 실험에 비해 761개의 카테고리가 증가하였다. 그리고, 2개의 상품이 다른 카테고리에 속한 경우가 1108개 중 556개임을 알 수 있었다. 본 실험에서 신뢰도는 0.01이상인 경우로 통일하였다. 3회차 실험에서 장바구니 상품 추천 결과가 도 10에 도시되어 있다.
구매자가 상품을 구매할 때 하나의 상품을 구매하면 해당 상품의 보완재에 속하는 상품을 같이 구매할 가능성이 높다는 점을 감안하면 상기에서 2개의 상품이 서로 다른 카테고리에 속한 경우만을 추천 대상으로 결정하는 것도 가능하다.
10 : 판매자 단말기 20 : 구매자 단말기
30 : 상품거래서버 100 : 카테고리 분류기
110 : 텍스트 전처리기 111 : 형태소 분석모듈
112 : 필터링 모듈 120 : 학습기반 카테고리 예측기
200 : 장바구니 상품 추천기 210 : 카테고리 전처리기
220 : 연관 분석기 300 : 데이터베이스부
310 : 카테고리 분류 DB 320 : 예측모델 DB
330 : 사용자 정보 DB

Claims (5)

  1. 판매자 단말기와 구매자 단말기에 네트워크를 통해 연결되어 상품거래를 중개하는 상품거래서버에서 계층적 카테고리 군집 기반 장바구니 상품 추천 서비스를 제공하는 방법에 있어서,
    계층적 카테고리 군집의 각 계층별로 각 계층 카테고리에 속하는 상품의 개수를 측정하고, 측정된 상품 개수가 미리 설정된 기준값 이상인 카테고리 계층을 결정하는 단계;
    결정된 각 카테고리 계층별로 기계학습 방법을 적용하여 각 카테고리 계층에 속하는 상품들의 지지도와 신뢰도를 산출하는 단계;
    상기 산출된 지지도와 신뢰도 정보에 기초하여 상호 구매관련성이 높은 상품 쌍들을 결정하는 단계를 포함하는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
  2. 제1항에 있어서,
    상기 신뢰도는 A 카테고리 계층의 제품을 구매한 경우 B 카테고리 계층의 제품을 동시에 구매할 확률값이고,
    상기 상호 구매관련성은 구매자가 특정 제품을 장바구니에 담은 경우 다른 특정 제품을 구매할 확률로서, 상기 지지도와 신뢰도에 의해 결정되는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
  3. 제2항에 있어서,
    상호 구매관련성이 높은 상품 쌍들은 서로 다른 카테고리에 속하는 상품 중에서 결정되는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
  4. 제1항에 있어서,
    상기 판매자 단말기로부터 등록하고자 하는 상품의 상품명 텍스트 정보를 수신하는 단계;
    입력된 상품명 텍스트의 형태소를 분석하여 상품명 텍스트 중에서 명사와 영단어를 추출하는 단계;
    기계학습 기반의 카테고리 예측모델을 구동하여 추출된 명사와 영단어와 연관성이 높은 카테고리 정보를 추출하는 단계; 및
    상기 추출된 카테고리 정보를 판매자 단말기로 전송하는 단계를 더 포함하는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
  5. 제1항에 있어서,
    상기 기계학습 기반의 카테고리 예측모델은 판매자가 상품거래서버에서 상품을 등록하는 과정에서 입력된 상품명 텍스트 데이터를 수치화하고, 기계 학습 과정에서 나온 각 단어들에 대하여 해당 카테고리, 출현 회수 및 점수정보가 예측모델 정보로서 저장된 것임을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
KR1020180067523A 2018-06-12 2018-06-12 계층적 카테고리 군집 기반 장바구니 상품 추천 방법 KR102142126B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180067523A KR102142126B1 (ko) 2018-06-12 2018-06-12 계층적 카테고리 군집 기반 장바구니 상품 추천 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180067523A KR102142126B1 (ko) 2018-06-12 2018-06-12 계층적 카테고리 군집 기반 장바구니 상품 추천 방법

Publications (2)

Publication Number Publication Date
KR20190140701A true KR20190140701A (ko) 2019-12-20
KR102142126B1 KR102142126B1 (ko) 2020-08-14

Family

ID=69062994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180067523A KR102142126B1 (ko) 2018-06-12 2018-06-12 계층적 카테고리 군집 기반 장바구니 상품 추천 방법

Country Status (1)

Country Link
KR (1) KR102142126B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210088949A (ko) * 2020-01-07 2021-07-15 (주)레드테이블 상품 정보태그 생성 장치
WO2021159151A1 (en) * 2020-02-06 2021-08-12 Etsy, Inc. Evolving multi-objective ranking models for gross merchandise value optimization in e-commerce
KR20230009237A (ko) * 2021-07-08 2023-01-17 홈플러스 주식회사 매출 데이터 분석 장치의 매출 데이터 분석 방법
CN116362797A (zh) * 2023-05-31 2023-06-30 湖南易邦新材料有限公司 基于大数据的贸易订单分析预测方法、系统及计算机设备
CN117725276A (zh) * 2023-09-26 2024-03-19 书行科技(北京)有限公司 资源推荐方法、装置、电子设备、介质及产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11501340B2 (en) * 2019-08-29 2022-11-15 Oracle International Corporation Enriching taxonomy for audience targeting and active modelling
KR102396323B1 (ko) 2021-03-05 2022-05-10 쿠팡 주식회사 전자 장치 및 그의 정보 제공 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100801662B1 (ko) 2006-08-31 2008-02-05 에스케이 텔레콤주식회사 상품 추천 관리시스템 및 그 추천 방법
KR20160020654A (ko) * 2014-08-13 2016-02-24 주식회사 포워드벤처스 구매 정보를 이용하는 상품 추천 시스템, 방법 및 기록 매체
KR101596632B1 (ko) * 2015-04-24 2016-03-07 경희대학교 산학협력단 빅데이터 이미지를 이용한 상품 추천 방법
US20170119653A1 (en) 2015-10-28 2017-05-04 Henkel Ag & Co. Kgaa Antiperspirant oil-in-water emulsions having cross-linked silicone polymers
KR20170076099A (ko) * 2015-12-24 2017-07-04 주식회사 죠셉데일컴퍼니 온라인 쇼핑을 위한 정보 제공방법 및 이를 위한 통합 서버
KR101806169B1 (ko) * 2016-07-25 2017-12-07 오드컨셉 주식회사 쇼핑 정보를 제공하는 방법, 장치, 시스템 및 컴퓨터 프로그램
KR20180049642A (ko) * 2016-11-03 2018-05-11 네모커머스(주) 이종 데이터를 활용하여 상품을 자동으로 분류하는 상품분류시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100801662B1 (ko) 2006-08-31 2008-02-05 에스케이 텔레콤주식회사 상품 추천 관리시스템 및 그 추천 방법
KR20160020654A (ko) * 2014-08-13 2016-02-24 주식회사 포워드벤처스 구매 정보를 이용하는 상품 추천 시스템, 방법 및 기록 매체
KR101596632B1 (ko) * 2015-04-24 2016-03-07 경희대학교 산학협력단 빅데이터 이미지를 이용한 상품 추천 방법
US20170119653A1 (en) 2015-10-28 2017-05-04 Henkel Ag & Co. Kgaa Antiperspirant oil-in-water emulsions having cross-linked silicone polymers
KR20170076099A (ko) * 2015-12-24 2017-07-04 주식회사 죠셉데일컴퍼니 온라인 쇼핑을 위한 정보 제공방법 및 이를 위한 통합 서버
KR101806169B1 (ko) * 2016-07-25 2017-12-07 오드컨셉 주식회사 쇼핑 정보를 제공하는 방법, 장치, 시스템 및 컴퓨터 프로그램
KR20180049642A (ko) * 2016-11-03 2018-05-11 네모커머스(주) 이종 데이터를 활용하여 상품을 자동으로 분류하는 상품분류시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210088949A (ko) * 2020-01-07 2021-07-15 (주)레드테이블 상품 정보태그 생성 장치
WO2021159151A1 (en) * 2020-02-06 2021-08-12 Etsy, Inc. Evolving multi-objective ranking models for gross merchandise value optimization in e-commerce
KR20230009237A (ko) * 2021-07-08 2023-01-17 홈플러스 주식회사 매출 데이터 분석 장치의 매출 데이터 분석 방법
CN116362797A (zh) * 2023-05-31 2023-06-30 湖南易邦新材料有限公司 基于大数据的贸易订单分析预测方法、系统及计算机设备
CN117725276A (zh) * 2023-09-26 2024-03-19 书行科技(北京)有限公司 资源推荐方法、装置、电子设备、介质及产品

Also Published As

Publication number Publication date
KR102142126B1 (ko) 2020-08-14

Similar Documents

Publication Publication Date Title
KR102142126B1 (ko) 계층적 카테고리 군집 기반 장바구니 상품 추천 방법
US20190139058A1 (en) Analyzing sentiment in product reviews
CN107391493B (zh) 一种舆情信息提取方法、装置、终端设备及存储介质
KR102278085B1 (ko) 인플루언서 영향력 분석 및 관리가 가능한 마케팅 솔루션 제공 시스템 및 방법
CN107077486A (zh) 情感评价系统和方法
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
KR102282599B1 (ko) 온라인 빅데이터를 활용한 소비자 분석 시스템 및 방법
KR20180052489A (ko) 사용자 경험분석 및 환경요인에 기초한 크로스보더 전자상거래 상품 추천 방법
CN111695023A (zh) 信息推荐方法、装置、存储介质及设备
CN111666757A (zh) 商品评论情感倾向分析方法、装置、设备和可读存储介质
CN110992141A (zh) 基于识别商品图像推荐商品的方法、装置和电子设备
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
KR20220086932A (ko) 소비자의 비정형 평가 정보를 이용한 소비자 니즈 분석 방법 및 장치
CN111654714A (zh) 信息处理方法、装置、电子设备和存储介质
CN116542738A (zh) 一种基于电子商务大数据的信息推送方法
KR20190055963A (ko) 키워드검색 분석을 통한 온라인 쇼핑몰의 상품 노출 시스템 및 그 운영방법
Rana et al. Classifying customers’ journey from online reviews of Amazon fresh via sentiment analysis and topic modelling
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Lee Development of supervised machine learning based catalog entry classification and recommendation system
CN113127597A (zh) 搜索信息的处理方法、装置及电子设备
Kamaruddin Comparative Study on Sentiment Analysis Approach for Online Shopping Review
CN114429384B (zh) 基于电商平台的产品智能推荐方法及系统
Kotsokechagia Predictive model for customer satisfaction in e-commerce
Putri et al. Product review sentiment analysis at online store jiniso official shop using Naive Bayes Classifier (NBC) method
CN112989020A (zh) 信息处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right