KR102142126B1 - Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method - Google Patents

Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method Download PDF

Info

Publication number
KR102142126B1
KR102142126B1 KR1020180067523A KR20180067523A KR102142126B1 KR 102142126 B1 KR102142126 B1 KR 102142126B1 KR 1020180067523 A KR1020180067523 A KR 1020180067523A KR 20180067523 A KR20180067523 A KR 20180067523A KR 102142126 B1 KR102142126 B1 KR 102142126B1
Authority
KR
South Korea
Prior art keywords
product
category
shopping cart
products
hierarchical
Prior art date
Application number
KR1020180067523A
Other languages
Korean (ko)
Other versions
KR20190140701A (en
Inventor
이형우
황수민
전연빈
이재규
Original Assignee
한신대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한신대학교 산학협력단 filed Critical 한신대학교 산학협력단
Priority to KR1020180067523A priority Critical patent/KR102142126B1/en
Publication of KR20190140701A publication Critical patent/KR20190140701A/en
Application granted granted Critical
Publication of KR102142126B1 publication Critical patent/KR102142126B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 계층적 카테고리 군집 기반 장바구니 상품 추천방법에 관한 것으로서, 계층적 카테고리 군집의 각 계층별로 각 계층 카테고리에 속하는 상품의 개수를 측정하고, 측정된 상품 개수가 미리 설정된 기준값 이상인 카테고리 계층을 결정하는 단계, 결정된 각 카테고리 계층별로 기계학습 방법을 적용하여 각 카테고리 계층에 속하는 상품들의 지지도와 신뢰도를 산출하는 단계 및 상기 산출된 지지도와 신뢰도 정보에 기초하여 상호 구매관련성이 높은 상품 쌍들을 결정하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 의하면 판매자의 상품등록 편의성, 구매자의 상품구매 편의성뿐만 아니라 상품 거래 쇼핑몰의 매출 증대까지 기대할 수 있어 전자상거래 산업의 활성화 및 발전에 기여할 수 있을 것으로 기대된다.
The present invention relates to a shopping cart product recommendation method based on a hierarchical category cluster, wherein the number of products belonging to each hierarchical category for each hierarchical category cluster is measured, and a category hierarchy in which the measured number of products is equal to or greater than a preset reference value is determined. Steps, applying a machine learning method for each determined category hierarchy, calculating support and reliability of products belonging to each category hierarchy, and determining product pairs having a high mutual purchase relationship based on the calculated support and reliability information It characterized in that it includes.
According to the present invention, it is expected that not only the convenience of product registration by the seller, the convenience of purchasing the product by the buyer, but also the increase in sales of the product trading shopping mall can be expected, thereby contributing to the activation and development of the e-commerce industry.

Figure R1020180067523
Figure R1020180067523

Description

계층적 카테고리 군집 기반 장바구니 상품 추천 방법{Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method} Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method

본 발명은 상품을 판매하고자 하는 판매자의 상품들을 계층적 카테고리내에서 최적의 카테고리로 분류할 수 있도록 유도함과 아울러 이러한 계층적 카테고리를 기반으로 사용자가 장바구니에 담아둔 상품과 함께 구매할 가능성이 높은 상품을 효율적으로 추천할 수 있도록 하는 방법에 관한 것이다. The present invention induces to classify the products of sellers who want to sell products into the optimal category within the hierarchical category, and based on this hierarchical category, the products with high possibility of purchase together with the products in the shopping cart by the user are selected. It's about how to make recommendations efficiently.

인터넷 및 모바일 통신의 발전에 따라 B2B 거래 및 B2C 거래 양자 모두 온라인 쇼핑몰에 대한 이용도가 갈수록 높아지고 있는 추세이다. With the development of the Internet and mobile communication, both B2B and B2C transactions are increasingly being used for online shopping malls.

온라인 쇼핑몰은 수많은 상품을 취급하므로 이들 상품들을 계층적 카테고리화하여 사용자들이 카테고리를 기반으로 상품의 등록 및 상품 검색을 하도록 되어 있다. Since online shopping malls handle a large number of products, these products are classified into hierarchical categories so that users can register products and search for products based on categories.

우선, 상품 판매자 관점에서 보면, 상품을 판매하고자 하는 판매자는 온라인 쇼핑몰 사이트에 접속하여 자신이 판매하고자 하는 상품의 카테고리를 수동적으로 등록하거나 온라인 쇼핑몰 사이트의 카테고리 분류기준을 참고하여 적합한 카테고리를 찾아 등록하는 형태를 띄고 있다. 그러나, 판매자들이 카테고리 분류 체계를 잘 이해하지 못하는 경우 상품 카테고리가 잘못 등록되거나 기등록된 카테고리와 다른 카테고리로 중복등록되는 경우가 빈번하게 발생한다. First of all, from a product seller's point of view, a seller who wants to sell a product accesses the online shopping mall site and manually registers the category of the product he wants to sell, or finds and registers a suitable category by referring to the category classification criteria of the online shopping mall site. It has a shape. However, when sellers do not understand the category classification system well, product categories are frequently registered incorrectly or overlapped with a category different from a previously registered category.

그리고 상품 구매자 관점에서 보면, 쇼핑몰에서 여러 가지 상품을 구매할 때 장바구니에 원하는 상품들을 담아둔 후 한꺼번에 결제를 하는 것이 편리하므로 장바구니 기능을 많이 사용하고 있다. In addition, from the viewpoint of product buyers, when purchasing various products in a shopping mall, it is convenient to put the desired products in the shopping cart and then make payments at once, so the shopping cart function is frequently used.

마지막으로 쇼핑몰 사이트 관점에서 보면, 고객에서 최적의 구매 의사결정환경으로 제공하여 사용자에게 편의성을 제공함과 동시에 매출을 증대시키기 위해 상품 추천 서비스를 제공하고 있다. 이러한 상품 추천 서비스는 주로 고객이 특정 상품을 구매하거나 장바구니에 담아두는 경우 해당 상품과 관련하여 고객에게 적합한 추가 구매 상품을 추천하여 고객이 추천 물품을 구매하도록 유도하는 서비스이다.Finally, from the viewpoint of a shopping mall site, a product recommendation service is provided to increase sales while providing convenience to users by providing an optimal purchasing decision environment for customers. Such a product recommendation service is a service that encourages the customer to purchase a recommended product by recommending an additional purchase product suitable for the customer in relation to the product when a customer purchases a specific product or puts it in a shopping cart.

이러한 상품 추천 서비스는 일반적으로 특정 상품을 구매한 이용자가 동시에 많이 구매하는 상품을 추천하는 방법으로 많은 쇼핑몰이나 상품 거래 사이트에서 가장 많이 사용되고 있다.In general, such a product recommendation service is a method of recommending products that a user who purchases a specific product a lot at the same time, and is most often used in many shopping malls or product transaction sites.

그러나, 종래 상품 추천 서비스는 상품 대 상품의 관점에서 즉, 개별 상품 단위로 상품을 추천하므로 상품의 판매 수량에 따라 확률의 차이가 크므로 해당 상품의 판매량에 따라 추천 정확도의 차이가 많이 발생할 수 있는 단점이 발생한다.However, the conventional product recommendation service recommends products in terms of product versus product, that is, in units of individual products, so the difference in probability is large depending on the sales quantity of the product. Disadvantages arise.

특히, 다양한 제품군을 취급하는 쇼핑몰의 경우 다수의 상품들을 효과적으로 분류하기 위해 계층적 카테고리 구조를 갖고 있는데 종래 상품 추천 서비스는 계층적 카테고리의 특성을 전혀 반영하지 못하고 있다.In particular, a shopping mall that handles various product lines has a hierarchical category structure in order to effectively classify a number of products, but the conventional product recommendation service does not reflect the characteristics of the hierarchical category at all.

이에 판매자가 자신의 상품의 카테고리를 쉽게 인식하여 등록할 수 있고, 계층적 카테고리의 특성을 이용하여 상품 추천의 성공률을 높일 수 있는 방법에 대한 제시가 요구되고 있다. Accordingly, there is a demand for a method of enabling sellers to easily recognize and register their own product categories and to increase the success rate of product recommendation by using the characteristics of hierarchical categories.

1. 한국등록특허 제0801662호 (발명의 명칭: 상품 추천 관리시스템 및 그 추천 방법)1. Korean Patent Registration No. 00801662 (Name of invention: Product recommendation management system and its recommendation method) 2. 한국공개특허 제2017-0119653호 (발명의 명칭 : 상품 구매 추천 방법)2. Korean Patent Publication No. 2017-0119653 (Name of invention: Product purchase recommendation method)

이에, 본 발명은 상기한 사정을 감안하여 창출된 것으로, 본 발명의 주된 목적은 기계학습 기반으로 특정상품에 대한 계층적 카테고리를 효과적으로 분류하여 상품의 카테고리 분류 정확도를 높임과 아울러, 카테고리를 기반으로 상품의 추천 서비스를 제공함으로써 구매자에게 보다 적합한 상품을 추천하여 구매자의 상품 구매 편의성과 쇼핑몰 업체의 매출 향상을 동시에 얻을 수 있도록 하는 것이다.Accordingly, the present invention was created in view of the above circumstances, and the main object of the present invention is to improve the accuracy of product category classification by effectively classifying hierarchical categories for specific products based on machine learning, and By providing a product recommendation service, a more suitable product is recommended to the buyer, so that the convenience of purchasing the product and the sales improvement of the shopping mall company can be obtained at the same time.

상기 목적을 달성하기 위한 본 발명의 일측면에 의하면, 판매자 단말기와 구매자 단말기에 네트워크를 통해 연결되어 상품거래를 중개하는 상품거래서버에서 계층적 카테고리 군집 기반 장바구니 상품 추천 서비스를 제공하는 방법에 있어서, 상품거래서버에서 판매자 단말기로부터 등록 요구되는 상품에 대한 카테고리 등록처리를 수행하는 상품 등록단계와, 상품거래서버에서 기등록된 상품에 대해 카테고리 정보를 이용하여 구매자 단말에 대한 장바구니 추천 상품을 결정하는 상품 추천 단계를 포함하여 구성되고, 상기 상품 등록단계는 상품거래서버에서 상기 판매자 단말기로부터 등록하고자 하는 상품의 상품명 텍스트 정보를 수신하는 제1 단계와, 입력된 상품명 텍스트의 형태소를 분석하여 상품명 텍스트 중에서 명사와 영단어를 추출하는 제2 단계, 기계학습 기반의 카테고리 예측모델을 구동하여 추출된 명사와 영단어와 연관성이 높은 카테고리 정보를 추출하는 제3 단계, 상기 추출된 카테고리 정보를 판매자 단말기로 전송하는 단계 및, 판매자 단말기를 통해 선택된 카테고리 정보를 해당 상품의 카테고리로 결정하는 제4 단계를 포함하여 구성되며, 상기 상품 추천 단계는 상품거래서버에서 계층적 카테고리 군집의 각 계층별로 각 계층 카테고리에 속하는 상품의 개수를 측정하고, 측정된 상품 개수가 미리 설정된 기준값 이상인 카테고리 계층을 결정하는 제11 단계와, 결정된 각 카테고리 계층별로 기계학습 방법을 적용하여 각 카테고리 계층에 속하는 상품들의 지지도와 신뢰도를 산출하는 제 12단계 및, 구매자가 특정 제품을 장바구니에 담은 경우 상기 산출된 지지도와 신뢰도 정보에 기초하여 장바구니에 담긴 상품과 함께 구매할 확률이 높은 추천 상품을 결정하되, 추천 상품은 장바구니에 담긴 상품과 서로 다른 카테고리에 속하는 상품으로 결정되는 제 13단계를 포함하는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법이 제공된다.According to an aspect of the present invention for achieving the above object, in a method for providing a shopping cart product recommendation service based on a hierarchical category cluster in a product transaction server that is connected to a seller terminal and a buyer terminal through a network to mediate product transactions, A product registration step in which a product registration process is performed for a product that is requested to be registered from a seller terminal in the product transaction server, and a product for determining a shopping cart recommended product for the purchaser terminal using category information for the product previously registered in the product transaction server And a recommendation step, and the product registration step includes a first step of receiving product name text information of a product to be registered from the seller terminal in a product transaction server, and a noun among product name texts by analyzing the morpheme of the input product name text. And a second step of extracting English words, a third step of extracting category information having high correlation with the extracted nouns and English words by driving a machine learning-based category prediction model, transmitting the extracted category information to a seller terminal, and And a fourth step of determining the category information selected through the seller terminal as the category of the product, and the product recommendation step is the number of products belonging to each hierarchical category for each hierarchical category cluster in the product transaction server. The eleventh step of measuring a category hierarchy in which the measured number of products is greater than or equal to a preset reference value, and a twelfth step of calculating the support and reliability of products belonging to each category hierarchy by applying a machine learning method for each determined category hierarchy. And, when a buyer puts a specific product in the shopping cart, based on the calculated support and reliability information, a recommended product with a high probability of purchasing the product in the shopping cart is determined, but the recommended product belongs to a different category from the product in the shopping cart. There is provided a shopping cart product recommendation method based on a hierarchical category cluster, comprising: a thirteenth step of determining a product.

삭제delete

삭제delete

삭제delete

삭제delete

또한, 상기 기계학습 기반의 카테고리 예측모델은 판매자가 상품거래서버에서 상품을 등록하는 과정에서 입력된 상품명 텍스트 데이터를 수치화하고, 기계 학습 과정에서 나온 각 단어들에 대하여 해당 카테고리, 출현 회수 및 점수정보가 예측모델 정보로서 저장된 것일 수 있다.In addition, the machine learning-based category prediction model quantifies product name text data input in the process of registering a product in a product transaction server by a seller, and information on the category, number of occurrences, and score for each word from the machine learning process. May be stored as predictive model information.

본 발명에 의하면 판매자의 상품등록 편의성, 구매자의 상품구매 편의성뿐만 아니라 상품 거래 쇼핑몰의 매출 증대까지 기대할 수 있어 전자상거래 산업의 활성화 및 발전에 기여할 수 있을 것으로 기대된다.According to the present invention, it is expected that not only the convenience of product registration by the seller, the convenience of product purchase by the buyer, but also the increase in sales of the product trading shopping mall can be expected, thereby contributing to the activation and development of the e-commerce industry.

도1은 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템의 전체 구성도이다.
도 2는 도 1의 상품 거래 서버의 세부 구성을 도시한 블록도이다.
도 3은 한글 문장의 형태소 분석 방법의 예를 나타낸 것이다.
도 4는 계층적 카테고리 군집 기반 상품 카테고리 분류 및 추천 방법이 수행되는 과정을 도시한 흐름도이다.
도 5는 트랜잭션 기반 지지도 계산 결과를 나타낸 표이다.
도 6은 카테고리별 아이템 개수를 나타낸 표이다.
도 7은 연관 분석 방법에서 데이터 훈련 및 분석이 이루어지는 흐름도이다.
도 8은 실제 데이터를 대상으로 시험한 테스트 데이터 비교 결과를 나타낸 표이다.
도 9는 아이템 개수를 500개, 지지도를 0.005로 설정한 경우에서 장바구니 상품 추천 결과를 나타낸 것이다.
도 10은 아이템 개수를 100개, 지지도를 0.01로 설정한 경우에서 장바구니 상품 추천 결과를 나타낸 것이다.
1 is an overall configuration diagram of a shopping cart product recommendation system based on a hierarchical category cluster.
2 is a block diagram showing a detailed configuration of the product transaction server of FIG. 1.
3 shows an example of a method for analyzing a morpheme of a Korean sentence.
4 is a flowchart illustrating a process of performing a method for classifying and recommending product categories based on a hierarchical category cluster.
5 is a table showing the result of calculating transaction-based support.
6 is a table showing the number of items by category.
7 is a flowchart in which data training and analysis are performed in an association analysis method.
8 is a table showing test data comparison results tested on actual data.
9 shows a shopping cart product recommendation result when the number of items is set to 500 and the support level is set to 0.005.
10 shows the result of recommending shopping cart products when the number of items is set to 100 and the support level is set to 0.01.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.Since the description of the present invention is merely an embodiment for structural or functional description, the scope of the present invention should not be construed as being limited by the embodiments described in the text. That is, since the embodiments can be variously changed and have various forms, the scope of the present invention should be understood to include equivalents capable of realizing the technical idea. In addition, since the object or effect presented in the present invention does not mean that a specific embodiment should include all or only such effects, the scope of the present invention should not be understood as being limited thereby.

이하 첨부된 도면을 참조하여 본 발명에 따른 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템 및 방법을 설명한다. Hereinafter, a system and method for recommending shopping cart products based on a hierarchical category cluster according to the present invention will be described with reference to the accompanying drawings.

도1은 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템의 전체 구성도이고, 도 2는 도 1의 상품 거래 서버의 세부 구성을 도시한 블록도이다.1 is an overall configuration diagram of a shopping cart product recommendation system based on a hierarchical category cluster, and FIG. 2 is a block diagram showing a detailed configuration of the product transaction server of FIG. 1.

도 1에 도시된 바와 같이, 본 발명에 따른 계층적 카테고리 군집 기반 장바구니 상품 추천 시스템은 판매자 단말기(10)와, 구매자 단말기(20) 및 상품거래서버(30)를 포함하여 구성된다.As shown in FIG. 1, a shopping cart product recommendation system based on a hierarchical category cluster according to the present invention includes a seller terminal 10, a buyer terminal 20, and a product transaction server 30.

판매자 단말기(10)는 상품거래서버(30)를 통해 상품을 판매하고자 하는 판매회사에 구비된 단말기로서 상품거래서버(30)에 접속하여 자사에서 판매하고자 하는 상품들을 등록한다.The seller terminal 10 is a terminal provided in a sales company that wants to sell products through the product transaction server 30, and connects to the product transaction server 30 to register products to be sold by the company.

구매자 단말기(30)는 상품거래서버(30)를 통해 상품을 구매하고자 하는 구매자가 이용하는 단말기로서 PC, 노트북, 태블릿 PC, 스마트폰 등의 통신이 가능한 각종 단말기를 포함한다.The purchaser terminal 30 is a terminal used by a purchaser who wants to purchase a product through the product transaction server 30 and includes various terminals capable of communication such as a PC, a laptop computer, a tablet PC, and a smartphone.

상품거래서버(30)는 유무선 네트워크를 통해 다수의 판매자 단말기(10) 및 구매자 단말기(30)와 연결되어 상품 거래를 중개하는 업체에 구비된 컴퓨터이다. 상품거래서버(30)는 도 2에 도시된 바와 같이, 크게 카테고리 분류기(100), 장바구니 상품 추천기(200), 데이터베이스부(300) 및 통신부(400)을 포함할 수 있다. 도 2의 블록도에는 본 발명과 관련된 주요 구성만이 개시되어 있다.The product transaction server 30 is a computer provided in a company that is connected to a plurality of seller terminals 10 and buyer terminals 30 through a wired or wireless network to mediate product transactions. As shown in FIG. 2, the product transaction server 30 may largely include a category classifier 100, a shopping cart product recommender 200, a database unit 300, and a communication unit 400. In the block diagram of FIG. 2, only the main configurations related to the present invention are disclosed.

통신부(400)는 다수의 판매자 단말기(10) 및 구매자 단말기(20)와 네트워크를 통해 연결되어 데이터를 주고받기 위한 구성이다.The communication unit 400 is connected to a plurality of seller terminals 10 and buyer terminals 20 through a network to exchange data.

카테고리 분류기(100)는 텍스트 전처리기(110)와 학습기반 카테고리 예측기(120)를 포함한다. The category classifier 100 includes a text preprocessor 110 and a learning-based category predictor 120.

텍스트 전처리기(110)는 통신부(400)를 통해 구매자 단말기(30)로부터 입력된 상품명을 자연어처리(NLP : Natural Language Processing)하여 의미있는 정보를 분석 및 추출하는 것으로서 형태소 분석모듈(111)과 필터링 모듈(112)을 포함한다. The text preprocessor 110 analyzes and extracts meaningful information by processing the product name input from the purchaser terminal 30 through the communication unit 400, and filtering with the morpheme analysis module 111 Includes module 112.

형태소 분석모듈(111)은 품사별 형태소 분석을 통하여 자연어 처리를 수행하는 것이다. 텍스트에서 분석을 위해서는 뜻을 가지는 최소 단위인 형태소의 형태로 나누어서 분석을 한다. 영어 같은 경우 공백을 기준으로 형태소가 나누어지고 Can't, Didn't 등과 같은 몇 가지 경우만 예외처리를 해주면 쉽게 분석이 가능하지만 한국어와 같은 경우 조사, 어미 등이 붙기 때문에 영어 문장 분석보다 어려움이 있다.The morpheme analysis module 111 performs natural language processing through morpheme analysis for each part of speech. For analysis in text, analyze it by dividing it into a form of morpheme, which is the smallest unit that has meaning. In the case of English, morphemes are divided based on white space, and if exceptions are handled in only a few cases such as Can't, Didn't, etc., it is easy to analyze, but in the case of Korean, it is more difficult than English sentence analysis because investigations and endings are attached. have.

한국어 정보처리를 위한 Python 패키지 모음으로서 KoNLPy가 있다. KoNLPy는 오픈소스 소프트웨어로 내부에 다양한 분석기(Hannanum, Kkma, Komoran, Mecab, Twitter)를 포함하고 있다. 따라서 입력값을 특성에 따라 해당 분석기를 적용하면 보다 정확한 형태소 분석결과를 얻을 수 있다.KoNLPy is a collection of Python packages for Korean information processing. KoNLPy is an open source software and includes various analyzers (Hannanum, Kkma, Komoran, Mecab, Twitter) inside. Therefore, more accurate morpheme analysis results can be obtained by applying the corresponding analyzer according to the characteristics of the input value.

이 중 Twitter 분석기는 품사 구별이 쉽고 용이하기 때문에 Twitter를 이용할 수 있다. 일반적으로 온라인 쇼핑몰에 등록되는 상품정보는 상품에 대한 설명이 부가적으로 기입되는 특성이 있으므로 Twitter 분석기를 사용하여 명사와 영어를 제외한 나머지 품사들을 제거하여 상품명에 있어 핵심이 되는 명사를 추출한다.Among these, Twitter analyzer can use Twitter because it is easy and easy to distinguish parts of speech. In general, product information registered in online shopping malls has the characteristic of additionally writing product descriptions, so a Twitter analyzer is used to remove the nouns and other parts of speech except English to extract the key nouns in the product name.

도 3은 한글 문장의 형태소 분석 방법의 예를 나타낸 것이다. 도 3에 도시된 바와 같이, "나는 지금 밥을 먹는다"라는 텍스트는 여러개의 품사들로 이루어져있는데, Twitter 분석기를 사용하면 도 3에 도시된 것과 같이 각 품사별로 분류할 수 있다. 3 shows an example of a method for analyzing a morpheme of a Korean sentence. As shown in FIG. 3, the text "I am eating rice now" consists of several parts of speech. If a Twitter analyzer is used, each part of speech can be classified as shown in FIG. 3.

필터링 모듈(112)은 텍스트 전처리 과정에서 상품 카테고리 분류에 있어 의마가 없는 단어들을 학습 이전에 미리 제거하기 위한 것이다. 이는 의미가 없는 단어들을 미리 제거하여 카테고리 추천의 정확도를 높이기 위한 목적에서 구현되는 것이다.The filtering module 112 is for removing words without meaning in product category classification in the text preprocessing process before learning. This is implemented for the purpose of improving the accuracy of category recommendation by removing meaningless words in advance.

학습기반 카테고리 예측기(120)는 지도 학습 모델을 이용한 기계학습 기법을 통해 상품 카테고리 분류를 예측하는 것이다. 기계학습은 크게 지도학습(Supervised Learning) 모델과 비지도 학습(Unsupervised Learning)모델 그리고 강화 학습(Reinforcement Leaning)모델로 나누어진다. 온라인 쇼핑몰에서 판매되는 대단위 물품에 대한 카테고리 정보에 대한 자동 추천에 기계학습 기법을 적용하기 위해서는 지도 학습 모델이 적합하다. 지도 학습 모델은 기계학습 알고리즘을 이용하여 학습 데이터들을 학습하고, 이를 기반으로 새로운 데이터에 대해서 예측을 하는 방법이다.The learning-based category predictor 120 predicts product category classification through a machine learning technique using a supervised learning model. Machine learning is largely divided into a supervised learning model, an unsupervised learning model, and a reinforcement learning model. A supervised learning model is suitable to apply a machine learning technique to automatic recommendation of category information for large-scale products sold in online shopping malls. The supervised learning model is a method of learning learning data using a machine learning algorithm and making predictions on new data based on this.

본 발명에서는 기계학습 분류 알고리즘의 하나로서 스팸 필터링이나 키워드 검색을 활용한 문서 분류 등에 사용되는 나이브 베이즈 분류기를 사용하였다. 나이브 베이즈 분류기는 조건부 확률에 베이즈 정리(Bayes Theorem)을 적용하고, 문서나 데이터를 구성하는 각각의 요소들이 등장할 확률에 대한 독립성을 가정하여 입력 데이터를 분류하는 확률적 분류방법이다. In the present invention, as one of the machine learning classification algorithms, a naive Bayes classifier used for spam filtering or document classification using keyword search is used. The Naive Bayes classifier is a probabilistic classification method that applies Bayes Theorem to conditional probabilities and classifies input data by assuming independence of the probability that each element constituting a document or data appears.

카테고리 분류기(100)를 이용하여 계층적 카테고리 군집 기반 상품 카테고리 분류 및 추천 방법이 수행되는 과정을 도 4를 통해 설명하면 다음과 같다.A process of classifying and recommending product categories based on hierarchical category clusters using the category classifier 100 will be described with reference to FIG. 4 as follows.

판매자가 판매자 단말기(10)를 통해 상품거래서버(30)에 접속하여 판매하고자 하는 상품명을 입력한다(S400). 예를 들어, 판매자가 등록할 상품명에 "밀리터리 백팩 군인가방 여행용 가방 등산가방"이라고 입력할 수 있다. 이와 같이 여러개의 상품명을 도시에 입력하거나 이외에 상품명에 색상이나 재질 등의 부가 설명을 포함하는 형태 등의 다양한 상품명 입력 형태가 있을 수 있다. The seller accesses the product transaction server 30 through the seller terminal 10 and inputs a product name to be sold (S400). For example, a seller may enter "military backpack soldier bag travel bag mountaineering bag" as a product name to be registered. As described above, there may be various types of product name input, such as inputting multiple product names into the city or including additional descriptions such as color or material in the product name.

판매자가 판매자 단말기(10)를 통해 상품명을 입력하면, 입력 데이터가 네트워크를 통해 상품거래 서버(30)의 통신부(500)에서 수신되고, 이 데이터가 형태소 분석모듈(111)로 전달된다. 형태소 분석모듈(111)은 상품명 데이터에 대해 형태소 분석을 수행한다(S410), 입력된 텍스트에서 명사와 영어 단어만이 추출된다(S420). 상기 입력예에서 형태소 분석을 통해 명사나 영어만을 추출하면 "밀리터리", "백팩", "군인", "가방", "여행", "등산" 등의 단어가 추출될 것이다.When a seller inputs a product name through the seller terminal 10, the input data is received by the communication unit 500 of the product transaction server 30 through a network, and this data is transmitted to the morpheme analysis module 111. The morpheme analysis module 111 performs morpheme analysis on the product name data (S410), and only nouns and English words are extracted from the input text (S420). In the above input example, when only nouns or English are extracted through morpheme analysis, words such as "military", "backpack", "military", "bag", "travel", and "climbing" will be extracted.

그 다음, 필터링 모듈(112)에서 상품명과 관련하여 의미없는 단어가 있는지 판단하여 의미없는 단어가 있는 경우 이를 필터링(제거)한다(S430). 상기 입력에에서는 상품분류와 관련하여 모두 의미있는 단어들이므로 단어 제거과정없이 다음 단계로 넘어간다. Thereafter, the filtering module 112 determines whether there is a meaningless word in relation to the product name, and if there is a meaningless word, it filters (removes) it (S430). In the above input, all words are meaningful in relation to product classification, so the process goes to the next step without removing words.

명사 단어들이 추출되면, 카테고리 예측 모델이 구동된다(S440). 카테고리 예측 모델은 예측모델 DB(320)에 저장된 예측모델 정보를 기초로 수행된다. 기존에 저장된 카테고리별 상품명을 이용하여 학습 데이터로 이용하며, 이때 판매자가 온라인 쇼핑몰에 자신이 판매하고자 하는 상품을 입력/등록하는 과정에서 입력된 상품명(텍스트 정보) 데이터를 수치화한다. 학습이 완료되면, 예측모델 DB(320)에 카테고리, 단어, 출현 회수 및 점수가 예측모델 정보로서 저장된다. When the noun words are extracted, the category prediction model is driven (S440). The category prediction model is performed based on the prediction model information stored in the prediction model DB 320. The previously stored product names for each category are used as learning data, and at this time, the product name (text information) data input in the process of inputting/registering the product that the seller wants to sell in the online shopping mall is converted into a number. When learning is completed, categories, words, number of occurrences, and scores are stored as predictive model information in the predictive model DB 320.

최종적으로, 카테고리 예측모델을 통해 연관성 높은 카테고리들이 추출되며, 이 중 상위 3개의 카테고리가 추천 카테고리로서 판매자 단말기로 제공된다(S450). 판매자는 판매자 단말기(10)에 표시된 3개의 추천 카테고리 중에서 하나를 선택하면, 상품명과 그에 해당하는 카테고리 정보가 카테고리 분류 DB(310) 등록된다. 이를 통해, 종래와 같이 상품 카테고리를 찾는 과정이 생략될 수 있고, 보다 정확한 카테고리 분류가 가능한 장점이 있다. Finally, categories with high relevance are extracted through the category prediction model, and the top three categories are provided to the seller terminal as recommended categories (S450). When the seller selects one of the three recommended categories displayed on the seller terminal 10, the product name and category information corresponding thereto are registered in the category classification DB 310. Through this, there is an advantage in that a process of finding a product category as in the prior art can be omitted, and more accurate category classification is possible.

이어 도 2에서 장바구니 상품 추천기(200)를 상세하게 설명하기로 한다. 장바구니 상품 추천기(200)의 상세 구성 및 작용을 설명하기에 앞서, 지지도와 신뢰도의 개념에 대하여 먼저 설명하기로 한다.Next, in FIG. 2, the shopping cart product recommender 200 will be described in detail. Prior to describing the detailed configuration and operation of the shopping cart product recommender 200, the concepts of support and reliability will be first described.

지지도(support)는 특정 상품이 전체 거래 건수에서 등장하는 비율을 나타내는 것으로서 (특정 아이템 등장 건수)/(전체 거래 건수)의 형태로 계산되며, 지지도를 통해 구매자들이 많이 구매한 아이템이 무엇인지를 파악할 수 있다. 도 5는 트랜잭션 기반 지지도 계산 결과를 나타낸 표로서, 전체 거래 건수는 총 9회이고, 이 중 I1 상품(아이템)의 등장 건수가 6회이므로 I1 상품의 지지도는 6/9 = 66.66%임을 알 수 있다.Support is the ratio of a specific product appearing in the total number of transactions, and is calculated in the form of (number of specific items)/(number of total transactions). I can. 5 is a table showing the result of calculating the transaction-based support rating, and the total number of transactions is 9, of which, since the number of I1 products (items) appeared 6 times, the support of the I1 product was 6/9 = 66.66%. have.

신뢰도(confidence)는 본 발명에서 특정 부분 집합 A를 구매했을 때 특정 부분 B를 구매할 확률 즉 조건부 확률로 정의된다. 도 5에서 9건의 전체거래에서 I1 상품을 구매한 거래는 총 6건이며(t100, t400, t500, t600, t800, t900), 이 6건의 거래중 I5 상품을 구매한 거래는 t100과 t800의 2건이므로 신뢰도는 2/6 = 1/3 =33%로 계산된다. Confidence is defined in the present invention as a probability of purchasing a specific portion B when purchasing a specific subset A, that is, a conditional probability. In Figure 5, the total number of transactions for purchasing I1 products in 9 total transactions is 6 (t100, t400, t500, t600, t800, t900), and among these 6 transactions, transactions for purchasing I5 products are 2 of t100 and t800. Since it is a case, the reliability is calculated as 2/6 = 1/3 = 33%.

장바구니 상품 추천기(200)는 카테고리 전처리기(210)와 연관 분석기(220)를 포함하여 구성된다.The shopping cart product recommender 200 includes a category preprocessor 210 and an association analyzer 220.

카테고리 전처리기(210)는 연관 분석기(220)에서 분석할 대상 카테고리 계층 수준을 결정하기 위한 것이다.The category preprocessor 210 is for determining a category hierarchy level to be analyzed by the association analyzer 220.

온라인 쇼핑몰에 저장된 방대한 물품을 대상으로 장바구니 추천 기능을 제공하기 위해서 물품에 대한 카테고리 분류없이 바로 연관분석을 실시하는 것은 효율적이지 못한데, 그 이유는 결과값 도출에 많은 시간이 소요된다는 것과 개별 상품에 대해 연관 분석을 하는 것이 오히려 유의미성이 떨어진다는 것이다. 따라서, 본 발명에서는 카테고리 군집 정보를 활용하여 컨텐츠 기반 추천방식(Contents-based Recommendation)을 적용하였다.In order to provide a shopping cart recommendation function for a large number of items stored in online shopping malls, it is not efficient to perform a correlation analysis without category classification for items. The reason is that it takes a lot of time to derive the result value and for individual products. Rather, it is less meaningful to do association analysis. Therefore, in the present invention, a content-based recommendation method is applied by using category cluster information.

이때, 모든 카테고리에 대하여 분석을 하는 것은 효율적이지 못하므로 온라인 쇼핑몰에 등록되어 있는 상품의 개수를 측정하고 일정 개수 이상의 카테고리를 대상으로 분석을 하는 것이 바람직하다. 이는 기계학습 과정에서 작은 크기의 카테고리 군집으로부터는 유효한 데이터를 추출하지 못할 수 있기 때문이다. At this time, since it is not efficient to analyze all categories, it is desirable to measure the number of products registered in the online shopping mall and perform analysis on a certain number of categories or more. This is because valid data may not be extracted from a small category cluster during the machine learning process.

카테고리별 아이템 개수를 나타낸 도 6을 참조하면, 6단계 카테고리 구조 중 최상위인 1레벨 분류가 01에 속하는 카테고리의 일부가 예시되어 있다. 1레벨 분류가 01에 속하는 카테고리 전체의 상품 개수는 3326개이며, 그 하위 카테고리 군집으로서 2레벨 분류가 01에 속하는 카테고리의 상품 개수는 1676개이며, 그 하위 카테고리 군집으로서 3레벨 분류가 01에 속하는 카테고리의 상품 개수는 408개임을 알 수 있다. Referring to FIG. 6 showing the number of items for each category, some of the categories in which the first level classification, which is the highest level, belongs to 01 in the six-level category structure is illustrated. The total number of products in the category in which the first-level classification belongs to 01 is 3326, and the number of products in the category in which the second-level classification belongs to 01 as a sub-category cluster is 1676, and as the sub-category cluster, the third-level classification belongs to 01. It can be seen that the number of products in the category is 408.

만일, 분석 대상 카테고리의 상품수를 500으로 결정하는 경우, 상품수가 500개 이상인 카테고리는 최상위인 1레벨 분류가 01에 속하는 카테고리(01_00_00_00_00_00)와 그 하위 카테고리(01_01_00_00_00_00)이므로 2개의 카테고리 군집에 대하여 분석이 이루어진다.If the number of products in the category to be analyzed is determined to be 500, the category with the highest number of products of 500 or more is a category (01_00_00_00_00_00) and its subcategory (01_01_00_00_00_00) with the highest level 1 category belonging to 01. Done.

연관 분석기(220)는 카테고리 전처리기(210)에 의해 결정된 카테고리 군집에 대하여 기계학습을 이용하여 구매자가 장바구니에 담은 상품과 연관된 상품으로서 구매자가 구매할 가능성이 높은 상품을 추천한다.The association analyzer 220 recommends a product that is highly likely to be purchased by the purchaser as a product related to the product in the shopping cart by the purchaser using machine learning for the category cluster determined by the category preprocessor 210.

본 발명에서 연관 분석을 위한 기계학습 방법으로는 Spark 기반 기계학습 방법이 사용될 수 있다. 스파크는 인메모리 시스템으로서 빅데이터에 대한 빠른 처리 및 연산 속도를 제공하며, R, Python, Java, Scala 언어 등을 지원하고 높은 확장성을 갖는 장점이 있다. In the present invention, as a machine learning method for association analysis, a Spark-based machine learning method may be used. As an in-memory system, Spark provides fast processing and operation speed for big data, supports R, Python, Java, and Scala languages, and has the advantage of having high scalability.

그리고, 본 발명에서는 스파크를 기반으로 장바구니 상품 추천을 구현하기 위해 빈도 패턴 마이닝 기법 중 하나인 FP-growth 알고리즘이 사용되었다. FP-growth 알고리즘은 데이터 스캔을 2회만 수행하므로 속도가 빠르다는 장점이 있어 이 알고리즘을 이용하여 각 상품에 대한 지지도와 신뢰도를 계산하였다. FP-growth 알고리즘은 전체 스캔을 1회 하는 동안 빈발도를 계산하고, 계산된 빈발도를 기반으로 지지도를 구하여 이를 이용하여 각 거래에 대해서 지지도 순으로 내림차순 정렬을 한 후, 정렬된 거래를이용하여 트리를 생성한다. 생성된 트리를 따라 내려오면서 각 노드에 카운트값을 기록하고, 모든 거래에 대하여 카운트가 완료되면 다시 역으로 올라오면서 패턴을 추출한다. 이를 통해 각 상품의 지지도와 신뢰도를 계산할 수 있다.In addition, in the present invention, the FP-growth algorithm, which is one of the frequency pattern mining techniques, is used to implement shopping cart product recommendation based on spark. The FP-growth algorithm has the advantage of being fast because it scans the data only twice, so the support and reliability of each product were calculated using this algorithm. The FP-growth algorithm calculates the frequency of the whole scan during one scan, calculates the support level based on the calculated frequency, and uses it to sort in descending order of support for each transaction, and then uses the sorted transaction. Create a tree. As it descends along the created tree, the count value is recorded in each node, and when the count is completed for all transactions, the pattern is extracted by going back up again. Through this, the support and reliability of each product can be calculated.

도 7은 연관 분석 방법에서 데이터 훈련 및 분석이 이루어지는 흐름도이다.먼저, 카테고리별 주문 기록 개수를 측정한다(S700). 그리고 기본적인 데이터 필터링 과정을 수행한다. 이는 일정기간 또는 날짜를 기준으로 필요한 데이터만을 추출하거나 특정한 카테고리만을 추출하는 기능을 수행하는 것일 수 있다.7 is a flowchart illustrating data training and analysis in the association analysis method. First, the number of order records per category is measured (S700). And it performs the basic data filtering process. This may be performing a function of extracting only necessary data or only a specific category based on a certain period or date.

효율적인 분석을 위해서 상한선과 하한선을 설정하여 카테고리 분석을 깊이를 결정할 수 있다. 예를 들어 6단계로 이루어진 카테고리 트리에서 상한선과 하한선을 각각 2단계와 4단계로 설정하면 이에 해당하는 카테고리만을 대상으로 분석을 수행할 수 있다.For efficient analysis, the depth of category analysis can be determined by setting the upper and lower limits. For example, if the upper limit line and the lower limit line are set to step 2 and step 4, respectively, in a category tree consisting of six steps, analysis can be performed on only the corresponding categories.

그 다음, 각 카테고리 계층으로 순차적으로 진입하고(S710), 각 카테고리 계층에서의 상품 개수를 산출하여 기준값을 만족하는 카테고리 계층을 결정한다(S720). 위의 예에서 기준값으로 500을 예시하였으며, 이는 시뮬레이션을 통해 적절한 값으로 결정될 수 있다.Then, each category layer is sequentially entered (S710), and the number of products in each category layer is calculated to determine a category layer satisfying the reference value (S720). In the above example, 500 is illustrated as a reference value, which can be determined as an appropriate value through simulation.

분석대상 카테고리 계층들이 결정되면 카테고리 계층별로 연관분석이 이루어지고 분석 결과를 저장한다(S730). 연관분석은 FP-growth 알고리즘을 이용하여 각 상품에 대한 지지도와 신뢰도를 계산한다. 여기서, 지지도는 상술한 바와 같이 전체거래건수 대비 각 상품의 등장 건수로 계산되며, 신뢰도는 분석대상 카테고리 계층별로 A 카테고리 계층 제품을 구매했을 때 B 카테고리 계층 제품을 구매할 확률로 계산할 수 있다. When the analysis target category hierarchies are determined, association analysis is performed for each category hierarchy, and the analysis result is stored (S730). The association analysis calculates the support and reliability for each product using the FP-growth algorithm. Here, the support level is calculated as the number of appearances of each product relative to the total number of transactions, as described above, and the reliability may be calculated as a probability of purchasing a category B product when purchasing a category A product for each category to be analyzed.

이하에서는 도 8 내지 도 10을 참조하여 연관 분석 실험 결과에 대해 설명하기로 한다.Hereinafter, the results of a correlation analysis experiment will be described with reference to FIGS. 8 to 10.

도 8은 실제 데이터를 대상으로 시험한 테스트 데이터 비교 결과를 나타낸 표이다. 본 실험은 B2B 쇼핑몰 운영회사인 G사를 대상으로 한 것으로서, G사로부터 카테고리 4,142개, 상품개수 6,394개, 주문 기록이 15,721개 정보를 제공받아 지지도값과 분석대상 결정을 위한 상품수에 대한 기준값을 변경하면서 장바구니 상품 연관 분석을 수행하였다. 8 is a table showing test data comparison results tested on actual data. This experiment was targeted at Company G, a B2B shopping mall operating company, and received information about 4,142 categories, 6,394 products, and 15,721 order records from Company G to provide support values and reference values for the number of products to determine the analysis target. While making the change, a shopping cart product association analysis was performed.

도 8을 참조하면 총 3회의 실험을 수행하였는데, 1회는 상품개수 500개 이상, 지지도 0.01 이상인 조건에서 총 338개의 추천상품 쌍이 산출되었으며, 2개의 상품이 다른 카테고리에 속한 경우가 338개 중 216개임을 알 수 있었다. Referring to FIG. 8, a total of 3 experiments were performed. In one case, a total of 338 pairs of recommended products were calculated under the condition that the number of products was 500 or more and the support rating was 0.01 or more, and 216 out of 338 cases where two products belonged to different categories. I could see it was a dog.

2회차 실험에서는 지지도를 0.005로 낮추어 실험한 결과 추천상품 쌍이 412개로 증가하였고, 1회의 실험에 비해 53개의 카테고리가 증가하였다. 그리고, 2개의 상품이 다른 카테고리에 속한 경우가 412개 중 252개임을 알 수 있었다. 2회차 실험에서 장바구니 상품 추천 결과가 도 9에 도시되어 있다.In the second experiment, as a result of the experiment by lowering the support rating to 0.005, the number of recommended product pairs increased to 412, and 53 categories increased compared to the first experiment. In addition, it was found that 252 out of 412 products belonged to different categories. The result of recommending shopping cart products in the second experiment is shown in FIG. 9.

3회차 실험에서는 상품개수를 100개 이상으로 낮추어 실험한 결과 추천상품 쌍이 1108개로 증가하였고, 1회의 실험에 비해 761개의 카테고리가 증가하였다. 그리고, 2개의 상품이 다른 카테고리에 속한 경우가 1108개 중 556개임을 알 수 있었다. 본 실험에서 신뢰도는 0.01이상인 경우로 통일하였다. 3회차 실험에서 장바구니 상품 추천 결과가 도 10에 도시되어 있다.In the third experiment, as a result of lowering the number of products to more than 100, the number of recommended product pairs increased to 1108, and 761 categories increased compared to the first experiment. In addition, it was found that 556 out of 1108 cases where two products belong to different categories. In this experiment, the reliability was unified as 0.01 or higher. The result of recommending shopping cart products in the third experiment is shown in FIG. 10.

구매자가 상품을 구매할 때 하나의 상품을 구매하면 해당 상품의 보완재에 속하는 상품을 같이 구매할 가능성이 높다는 점을 감안하면 상기에서 2개의 상품이 서로 다른 카테고리에 속한 경우만을 추천 대상으로 결정하는 것도 가능하다.Considering that when a buyer purchases a product, there is a high possibility that the product belonging to the complementary product of the product is likely to be purchased at the same time when the buyer purchases a product, it is also possible to determine the recommendation target only when the two products belong to different categories. .

10 : 판매자 단말기 20 : 구매자 단말기
30 : 상품거래서버 100 : 카테고리 분류기
110 : 텍스트 전처리기 111 : 형태소 분석모듈
112 : 필터링 모듈 120 : 학습기반 카테고리 예측기
200 : 장바구니 상품 추천기 210 : 카테고리 전처리기
220 : 연관 분석기 300 : 데이터베이스부
310 : 카테고리 분류 DB 320 : 예측모델 DB
330 : 사용자 정보 DB
10: seller terminal 20: buyer terminal
30: product transaction server 100: category classifier
110: text preprocessor 111: morpheme analysis module
112: filtering module 120: learning-based category predictor
200: Cart product recommender 210: Category preprocessor
220: related analyzer 300: database unit
310: Category classification DB 320: Prediction model DB
330: User information DB

Claims (5)

판매자 단말기와 구매자 단말기에 네트워크를 통해 연결되어 상품거래를 중개하는 상품거래서버에서 계층적 카테고리 군집 기반 장바구니 상품 추천 서비스를 제공하는 방법에 있어서,
상품거래서버에서 판매자 단말기로부터 등록 요구되는 상품에 대한 카테고리 등록처리를 수행하는 상품 등록단계와,
상품거래서버에서 기등록된 상품에 대해 카테고리 정보를 이용하여 구매자 단말에 대한 장바구니 추천 상품을 결정하는 상품 추천 단계를 포함하여 구성되고,
상기 상품 등록단계는 상품거래서버에서 상기 판매자 단말기로부터 등록하고자 하는 상품의 상품명 텍스트 정보를 수신하는 제1 단계와, 입력된 상품명 텍스트의 형태소를 분석하여 상품명 텍스트 중에서 명사와 영단어를 추출하는 제2 단계, 기계학습 기반의 카테고리 예측모델을 구동하여 추출된 명사와 영단어와 연관성이 높은 카테고리 정보를 추출하는 제3 단계, 상기 추출된 카테고리 정보를 판매자 단말기로 전송하는 단계 및, 판매자 단말기를 통해 선택된 카테고리 정보를 해당 상품의 카테고리로 결정하는 제4 단계를 포함하여 구성되며,
상기 상품 추천 단계는 상품거래서버에서 계층적 카테고리 군집의 각 계층별로 각 계층 카테고리에 속하는 상품의 개수를 측정하고, 측정된 상품 개수가 미리 설정된 기준값 이상인 카테고리 계층을 결정하는 제11 단계와, 결정된 각 카테고리 계층별로 기계학습 방법을 적용하여 각 카테고리 계층에 속하는 상품들의 지지도와 신뢰도를 산출하는 제 12단계 및, 구매자가 특정 제품을 장바구니에 담은 경우 상기 산출된 지지도와 신뢰도 정보에 기초하여 장바구니에 담긴 상품과 함께 구매할 확률이 높은 추천 상품을 결정하되, 추천 상품은 장바구니에 담긴 상품과 서로 다른 카테고리에 속하는 상품으로 결정되는 제 13단계를 포함하는 것을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
In a method for providing a shopping cart product recommendation service based on a hierarchical category cluster in a product transaction server that is connected to a seller terminal and a buyer terminal through a network to mediate product transactions,
A product registration step of performing a category registration process for a product required for registration from a seller terminal in the product transaction server,
And a product recommendation step of determining a shopping cart recommended product for the purchaser terminal by using category information for the product previously registered in the product transaction server,
In the product registration step, a first step of receiving product name text information of a product to be registered from the seller terminal in a product transaction server, and a second step of extracting nouns and English words from the product name text by analyzing the morpheme of the input product name text. , A third step of extracting category information that is highly correlated with the extracted nouns and English words by driving a machine learning-based category prediction model, transmitting the extracted category information to a seller terminal, and category information selected through the seller terminal It is configured including a fourth step of determining as the category of the product,
The product recommendation step includes an eleventh step of measuring the number of products belonging to each hierarchical category in each hierarchical category cluster in a product transaction server, and determining a category hierarchy in which the measured number of products is equal to or greater than a preset reference value; and The 12th step of calculating the support and reliability of products belonging to each category by applying a machine learning method for each category hierarchy, and the product in the shopping cart based on the calculated support and reliability information when a buyer puts a specific product in the shopping cart A method for recommending shopping cart products based on hierarchical category clusters, characterized in that the method of recommending shopping cart products based on hierarchical category clusters, characterized in that the method of recommending shopping cart products based on hierarchical category clusters, characterized in that it comprises a thirteenth step of determining a recommended product having a high probability of purchasing together with, but determining the recommended product as a product belonging to a different category from the product in the shopping cart.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 기계학습 기반의 카테고리 예측모델은 판매자가 상품거래서버에서 상품을 등록하는 과정에서 입력된 상품명 텍스트 데이터를 수치화하고, 기계 학습 과정에서 나온 각 단어들에 대하여 해당 카테고리, 출현 회수 및 점수정보가 예측모델 정보로서 저장된 것임을 특징으로 하는 계층적 카테고리 군집 기반 장바구니 상품 추천방법.
The method of claim 1,
The machine learning-based category prediction model quantifies product name text data input in the process of registering a product in a product transaction server by a seller, and predicts the category, number of occurrences, and score information for each word from the machine learning process. A method for recommending shopping cart products based on hierarchical category clusters, characterized in that they are stored as model information.
KR1020180067523A 2018-06-12 2018-06-12 Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method KR102142126B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180067523A KR102142126B1 (en) 2018-06-12 2018-06-12 Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180067523A KR102142126B1 (en) 2018-06-12 2018-06-12 Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method

Publications (2)

Publication Number Publication Date
KR20190140701A KR20190140701A (en) 2019-12-20
KR102142126B1 true KR102142126B1 (en) 2020-08-14

Family

ID=69062994

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180067523A KR102142126B1 (en) 2018-06-12 2018-06-12 Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method

Country Status (1)

Country Link
KR (1) KR102142126B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065247A1 (en) * 2019-08-29 2021-03-04 Oracle International Corporation Enriching taxonomy for audience targeting and active modelling
US11379900B1 (en) 2021-03-05 2022-07-05 Coupang Corp. Electronic apparatus, manufacture, and information providing method thereof

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102346613B1 (en) * 2020-01-07 2022-01-03 (주)레드테이블 Apparatus for generating information tag of goods
WO2021159151A1 (en) * 2020-02-06 2021-08-12 Etsy, Inc. Evolving multi-objective ranking models for gross merchandise value optimization in e-commerce
KR102608508B1 (en) * 2021-07-08 2023-12-01 홈플러스 주식회사 Sales data analysis method of sales data analysis device
CN116362797A (en) * 2023-05-31 2023-06-30 湖南易邦新材料有限公司 Trade order analysis and prediction method, system and computer equipment based on big data
CN117725276A (en) * 2023-09-26 2024-03-19 书行科技(北京)有限公司 Resource recommendation method and device, electronic equipment, medium and product

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101596632B1 (en) * 2015-04-24 2016-03-07 경희대학교 산학협력단 Method for recommanding product using big data image
KR101806169B1 (en) * 2016-07-25 2017-12-07 오드컨셉 주식회사 Method, apparatus, system and computer program for offering a shopping information

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100801662B1 (en) 2006-08-31 2008-02-05 에스케이 텔레콤주식회사 Management system for recommending a goods and recommend method thereof
KR20160020654A (en) * 2014-08-13 2016-02-24 주식회사 포워드벤처스 Goods Recommending System, Method and Readable Recoding Medium Using Purchasing Information
DE102015221058A1 (en) 2015-10-28 2017-05-04 Henkel Ag & Co. Kgaa "Antiperspirant O / W Emulsions with Crosslinked Silicone Polymers"
KR102006900B1 (en) * 2015-12-24 2019-08-02 네이버 주식회사 Method for providing information method for online shopping and the intergration server thereof
KR101851675B1 (en) * 2016-11-03 2018-05-17 네모커머스(주) System for automatic goods classification using heterogeneous data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101596632B1 (en) * 2015-04-24 2016-03-07 경희대학교 산학협력단 Method for recommanding product using big data image
KR101806169B1 (en) * 2016-07-25 2017-12-07 오드컨셉 주식회사 Method, apparatus, system and computer program for offering a shopping information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065247A1 (en) * 2019-08-29 2021-03-04 Oracle International Corporation Enriching taxonomy for audience targeting and active modelling
US11501340B2 (en) * 2019-08-29 2022-11-15 Oracle International Corporation Enriching taxonomy for audience targeting and active modelling
US11379900B1 (en) 2021-03-05 2022-07-05 Coupang Corp. Electronic apparatus, manufacture, and information providing method thereof

Also Published As

Publication number Publication date
KR20190140701A (en) 2019-12-20

Similar Documents

Publication Publication Date Title
KR102142126B1 (en) Hierarchical Category Cluster Based Shopping Basket Associated Recommendation Method
Riaz et al. Opinion mining on large scale data using sentiment analysis and k-means clustering
Chehal et al. Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations
KR102214015B1 (en) Smart Match Auto Completion System
WO2016101777A1 (en) Analysis and collection system for user interest data and method therefor
CN107077486A (en) Affective Evaluation system and method
US11416565B2 (en) Techniques to leverage machine learning for search engine optimization
CN106708821A (en) User personalized shopping behavior-based commodity recommendation method
CN111444304B (en) Search ordering method and device
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
CN111966886A (en) Object recommendation method, object recommendation device, electronic equipment and storage medium
CN111666757A (en) Commodity comment emotional tendency analysis method, device and equipment and readable storage medium
CN116542738A (en) Information pushing method based on electronic commerce big data
CN115760295A (en) Commodity recommendation method based on neighbor users and comment information
CN111523315B (en) Data processing method, text recognition device and computer equipment
KR20190055963A (en) Goods exposure system in online shopping mall with keyword analyzing
CN115168700A (en) Information flow recommendation method, system and medium based on pre-training algorithm
Wu et al. Product ranking through fusing the wisdom of consumers extracted from online reviews on multiple platforms
CN113722487A (en) User emotion analysis method, device and equipment and storage medium
Hoiriyah et al. Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs
Akre et al. Sentiment Analysis using Opinion Mining on Customer Review
Kamaruddin Comparative Study on Sentiment Analysis Approach for Online Shopping Review
CN113127597A (en) Processing method and device for search information and electronic equipment
CN114429384B (en) Intelligent product recommendation method and system based on e-commerce platform
KR101498944B1 (en) Method and apparatus for deciding product seller related document

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right