KR102351879B1 - 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스 - Google Patents

상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스 Download PDF

Info

Publication number
KR102351879B1
KR102351879B1 KR1020190146080A KR20190146080A KR102351879B1 KR 102351879 B1 KR102351879 B1 KR 102351879B1 KR 1020190146080 A KR1020190146080 A KR 1020190146080A KR 20190146080 A KR20190146080 A KR 20190146080A KR 102351879 B1 KR102351879 B1 KR 102351879B1
Authority
KR
South Korea
Prior art keywords
item data
data
classification
item
atypical
Prior art date
Application number
KR1020190146080A
Other languages
English (en)
Other versions
KR20210058525A (ko
Inventor
김하민
Original Assignee
비씨카드(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비씨카드(주) filed Critical 비씨카드(주)
Priority to KR1020190146080A priority Critical patent/KR102351879B1/ko
Publication of KR20210058525A publication Critical patent/KR20210058525A/ko
Application granted granted Critical
Publication of KR102351879B1 publication Critical patent/KR102351879B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/02Payment architectures, schemes or protocols involving a neutral party, e.g. certification authority, notary or trusted third party [TTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/20Point-of-sale [POS] network systems
    • G06Q20/209Specified transaction journal output feature, e.g. printed receipt or voice output

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Security & Cryptography (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

일 실시 예에 따라, 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법에 있어서, (i) 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 상기 품목데이터에 대한 분류 카테고리 정보가 크롤링을 통해 획득되고, (ii) 상기 품목데이터에 포함된 하나 이상의 형태소가 분석되어 단어의 빈도수에 기반하여 벡터값이 결정된 후, (iii) 상기 결정된 벡터값 및 상기 분류 카테고리 정보에 기초하여 지도학습이 수행됨으로써 분류기(classifier)가 구성되면, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득하는 단계, 및 상기 획득된 품목데이터를 상기 분류기를 통해 분류하거나 분류하도록 지원하는 단계를 포함하는, 방법이 개시된다.

Description

상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스{METHOD AND DEVICE FOR CLASSIFYING UNSTRUCTURED ITEM DATA AUTOMATICALLY FOR GOODS OR SERVICES}
본 발명은 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스에 대한 것이다.
종래의 품목명을 활용하여 상품 카테고리를 분류 기술은 분류나 속성에 대한 표준화된 정의 없이 담당자의 관점에 따라 주관적으로 특정 키워드를 정의하여 분석하는 방식으로 진행되어 왔다. 예를 들면, '어버이날', '선물' 등의 키워드에 한정하여 어버이날 선물 품목 정의하는 방식을 들 수 있다.
이러한 종래의 방식은 매 작업마다 요건을 새롭게 정의해야 하며, 전체적인 관점의 접근이 아닌 핀셋 방식으로만 접근이 가능하기 때문에 표준화, 지속 가능성, 대상 모수 확보 측면에서 한계가 있다. 또한, 신규 사업 런칭 등의 이유로 품목명 외 품목에 대한 부가적인 정보가 없는 업체의 경우 품목에 대한 부가정보의 개발이 어렵다는 단점이 있다.
본 개시는 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스를 제공할 수 있다. 구체적으로는 크롤링, 형태소 분석 및 벡터값에 기반하여 지도학습을 통해 분류기가 구성되면 새롭게 획득되는 비정형의 품목데이터를 분류기를 통해 분류하거나 분류하도록 지원하는 방법 및 디바이스가 개시된다.
본 개시는 품목명 외 품목에 대한 부가적인 정보가 없는 업체에서도 품목에 대한 부가정보를 개발하고 데이터 사업 및 분석/활용 역량을 강화할 수 있도록 지원할 수 있는 방법 및 디바이스를 제공하고자 한다.
본 개시는 키워드를 기반으로 일일이 값을 지정하지 않아도 분류 모델 기반으로 품목데이터를 자동으로 분류하여 작업 효율을 높일 수 있는 방법 및 디바이스를 제공하고자 한다.
해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 통상의 기술자에게 자명한 범위 내에서 다양한 기술적 과제들이 더 포함될 수 있다.
본 개시의 제 1 측면에 따른, 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법은, (i) 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 상기 품목데이터에 대한 분류 카테고리 정보가 크롤링을 통해 획득되고, (ii) 상기 품목데이터에 포함된 하나 이상의 형태소가 분석되어 단어의 빈도수에 기반하여 벡터값이 결정된 후, (iii) 상기 결정된 벡터값 및 상기 분류 카테고리 정보에 기초하여 지도학습이 수행됨으로써 분류기(classifier)가 구성되면, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득하는 단계, 및 상기 획득된 품목데이터를 상기 분류기를 통해 분류하거나 분류하도록 지원하는 단계를 포함할 수 있다.
또한, 상기 분류기는, 상기 지도학습의 결과로써 획득된 분류 모듈이 소정의 카테고리로 분류하지 못한 상품 또는 서비스에 대한 비정형의 품목데이터에 대해서 소정의 룰(rule)을 기반으로 특정 카테고리로 분류를 할 수 있는 룰 분류 모듈을 더 포함할 수 있다.
또한, 상기 룰 분류 모듈은, 상품 또는 서비스에 대한 비정형의 품목데이터를 (a) 가맹점 특성에 따라서 정해진 카테고리로 분류하거나, (b) 비정형의 품목데이터 내에 단어 패턴에 기초하여 소정의 카테고리로 분류하거나, (c) 비정형의 품목데이터 길이가 소정 길이 이하인 경우 경험 데이터에 기반하여 분류할 수 있다.
또한, 상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터는, 가맹점 단말, PG 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버로부터 획득될 수 있다.
또한, 상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터가 환경부에서 지정한 친환경 상품데이터 또는 바우처사업 대상 품목데이터를 포함하는 경우, 상기 비정형의 품목데이터는, 결제 승인 요청 전문으로부터 획득될 수 있다.
또한, 상기 (iii)은, 상기 결정된 벡터값 및 상기 분류 카테고리 정보가 학습됨으로써 부트스트랩(Bootstrap)으로 앙상블 의사결정트리 분류기가 구성되는 것을 특징으로 할 수 있다.
또한, 상기 방법은 상기 획득된 품목데이터를 룰 기반으로 마케팅 속성에 따라 분류하는 단계를 더 포함하고, 상기 마케팅 속성은, 프로모션/이벤트 대상, 가격할인 대상, 프리미엄, 부가혜택, 소량소비, 대량소비, 해외쇼핑, 착한소비, 트랜드 소비 및 편의제공 중 적어도 일부일 수 있다.
또한, 상기 품목데이터는, 품목텍스트데이터, 품목이미지 및 상품/서비스 리뷰 데이터 중 적어도 일부일 수 있다.
본 개시의 제 2 측면에 따른, 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 디바이스는, (i) 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 상기 품목데이터에 대한 분류 카테고리 정보가 크롤링을 통해 획득되고, (ii) 상기 품목데이터에 포함된 하나 이상의 형태소가 분석되어 단어의 빈도수에 기반하여 벡터값이 결정된 후, (iii) 상기 결정된 벡터값 및 상기 분류 카테고리 정보에 기초하여 지도학습이 수행됨으로써 분류기(classifier)가 구성되면, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득하는 수신부, 및 상기 획득된 품목데이터를 상기 분류기를 통해 분류하거나 분류하도록 지원하는 프로세서를 포함할 수 있다.
또한, 상기 디바이스는 상기 분류기를 더 포함하고, 상기 분류기는 상기 지도학습의 결과로써 획득된 분류 모듈이 소정의 카테고리로 분류하지 못한 상품 또는 서비스에 대한 비정형의 품목데이터에 대해서 소정의 룰(rule)을 기반으로 특정 카테고리로 분류를 할 수 있는 룰 분류 모듈을 더 포함할 수 있다.
또한, 상기 룰 분류 모듈은, 상품 또는 서비스에 대한 비정형의 품목데이터를 (a) 가맹점 특성에 따라서 정해진 카테고리로 분류하거나, (b) 비정형의 품목데이터 내에 단어 패턴에 기초하여 소정의 카테고리로 분류하거나, (c) 비정형의 품목데이터 길이가 소정 길이 이하인 경우 경험 데이터에 기반하여 분류할 수 있다.
또한, 상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터는, 가맹점 단말, PG 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버로부터 획득될 수 있다.
또한, 상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터가 환경부에서 지정한 친환경 상품데이터 또는 바우처사업 대상 품목데이터를 포함하는 경우, 상기 비정형의 품목데이터는, 결제 승인 요청 전문으로부터 획득될 수 있다.
또한, 상기 (iii)은, 상기 결정된 벡터값 및 상기 분류 카테고리 정보가 학습됨으로써 부트스트랩(Bootstrap)으로 앙상블 의사결정트리 분류기가 구성되는 것을 특징으로 할 수 있다.
또한, 상기 분류기는 상기 획득된 품목데이터를 룰 기반으로 마케팅 속성에 따라 분류하고, 상기 마케팅 속성은, 프로모션/이벤트 대상, 가격할인 대상, 프리미엄, 부가혜택, 소량소비, 대량소비, 해외쇼핑, 착한소비, 트랜드 소비 및 편의제공 중 적어도 일부일 수 있다.
또한, 상기 품목데이터는, 품목텍스트데이터, 품목이미지 및 상품/서비스 리뷰 데이터 중 적어도 일부일 수 있다.
도 1은 일 실시 예에 따른 비정형 품목데이터 분류 시스템의 구성의 일 예를 나타내는 블록도이다.
도 2는 도 1에 있는 디바이스의 구성의 일 예를 나타내는 개략적인 블록도이다.
도 3은 도 2에 있는 디바이스가 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법의 일 예를 설명하기 위한 흐름도이다.
도 4는 도 2에 있는 디바이스가 비정형의 품목데이터 분류를 위한 분류기를 구성하는 방법의 일 예를 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 비정형 품목데이터 분류 시스템에서 분류기가 지속적으로 개선되는 과정을 설명하기 위한 도면이다.
도 6은 도 2에 있는 디바이스가 분류기를 통해 상품 또는 서비스에 대한 비정형의 품목데이터를 분류하는 방법의 다른 일 예를 설명하기 위한 흐름도이다.
실시 예들에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 “…부”, “…모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
이하에서는 도면을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
도 1은 일 실시 예에 따른 비정형 품목데이터 분류 시스템(100)의 구성의 일 예를 나타내는 블록도이다.
도 1을 참조하면, 일 실시 예에 따른 비정형 품목데이터 분류 시스템(100)은 디바이스(110) 및 외부 디바이스(120)를 포함할 수 있다.
일 실시 예에 따른 디바이스(110)는 상품 또는 서비스에 대한 비정형의 품목데이터에 대한 분류(classify)를 수행할 수 있는 컴퓨팅 장치로서, 일 실시 예에서, 하나 이상의 서버 또는 단말로 구현될 수 있다. 예를 들면, 디바이스(110)는 단말 또는 서버로 구현될 수 있고, 대용량 서버에 의해 분류기(classifier)가 구성되면 대용량 서버로부터 제공된 분류기를 탑재하여 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 분류기를 통해 소정의 카테고리로 분류할 수 있다. 다른 예를 들면, 디바이스(110)는 분류기를 구성하는 서버로 구현되어 다른 단말 또는 서버가 분류기를 통해 비정형의 품목데이터를 소정의 카테고리로 분류하도록 지원할 수 있다. 이에 관한 내용은 이하에서 도 2를 참조하며 보다 상세히 후술하도록 한다.
일 실시 예에 따른 디바이스(110)는 서버로 구현되는 경우, 분류기 구성을 위한 데이터를 저장하는 데이터베이스를 포함하여 구현될 수 있고, 네트워크를 통해 외부 서버와 연결될 수 있는 모든 종류의 유무선 통신 장치를 포함할 수 있다.
일 실시 예에 따른 디바이스(110)는 단말로 구현되는 경우, 휴대폰, 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿 PC 등으로 구현되어 무선 통신망을 통해 외부 서버와 연결될 수 있는 모든 종류의 무선 통신 장치를 포함하거나, 데스크탑 PC, 태블릿 PC, 랩탑 PC 등으로 구현되어 네트워크를 통해 외부 서버와 연결될 수 있는 통신 장치를 포함할 수 있다.
일 실시 예에 따른 디바이스(110)는 가맹점 POS(point of sales), 키오스크, 디지털 사이니지(digital signage), 디지털 컨시어지(digital concierge), STM(Smart Teller Machine), 미디어보드 등 가맹점이나 몰(mall)에서 이용 가능한 가맹점 단말로 구현되어 유선 또는 무선 통신망을 통해 외부 서버와 연결될 수 있는 모든 종류의 유무선 통신 장치를 포함할 수도 있다.
일 실시 예에 따른 디바이스(110)는 물리적 또는 기능적 측면에서 복수의 서버로 분산되어 구현될 수 있고, 하나 이상의 단말 및 서버로 분리되어 구현될 수도 있으며, 하나로 통합되어 구현될 수도 있다. 예를 들면, 디바이스(110)는 크롤링을 통해 정보를 수집하는 복수의 분산형 서버, 수집된 정보를 분석하여 분류기를 구성하는 대용량 분석 서버 및 구성된 분류기를 이용하여 품목데이터에 대한 분류 서비스를 제공하는 서비스 서버를 통해 분산되어 구현될 수 있다. 이처럼, 디바이스(110)는 다양한 실시 예로 구현될 수 있으며, 어느 하나에 제한되지 않음을 알 수 있다.
일 실시 예에 따른 디바이스(110)는 네트워크를 통해 하나 이상의 컴퓨팅 장치(미도시)와 통신할 수 있고, 예를 들면, 웹페이지 상에 전자상거래와 연계된 상품 또는 서비스에 대한 정형 또는 비정형의 다양한 데이터를 제공하는 수많은 불특정 e-커머스 서버들과 네트워크를 통해 연결될 수 있고, 이들이 제공하는 웹페이지를 크롤링(crawling)하여 비정형의 데이터(예: 품목데이터)를 획득할 수 있다. 여기에서, 네트워크는 유선 및 무선 등과 같은 다양한 통신망을 통해 구성될 수 있고, 예를 들면, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.
일 실시 예에 따른 디바이스(110)는 네트워크를 통해 하나 이상의 외부 디바이스(120)와 통신하여 외부 디바이스(120)로부터 상품 또는 서비스에 대한 비정형의 품목데이터를 획득할 수 있다. 예를 들면, 디바이스(110)는 분류기가 구성되면, 외부 디바이스(120)로부터 상품 또는 서비스에 대한 비정형의 품목데이터를 새롭게 획득하고, 분류기를 이용하여 획득된 품목데이터를 소정의 카테고리로 분류할 수 있다. 이에 관한 내용 또한 이하에서 도 2를 참조하며 보다 상세히 후술하도록 한다.
일 실시 예에서, 외부 디바이스(120)는 가맹점 단말, 전자지불 서비스 서버(예: PG(Payment Gateway) 서버), VAN(Value-Added Network) 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버에 해당할 수 있으나, 이에 제한되지 않다. 예를 들면, 외부 디바이스(120)는 ISP 기기 정보, POS 정보, 가맹점 정보, 결제 정보 및 전자 영수증 정보 중 하나 이상을 제공하는 단말 또는 서버를 포함할 수 있다.
도 2는 도 1에 있는 디바이스(110)의 구성의 일 예를 나타내는 개략적인 블록도이다.
도 2를 참조하면, 일 실시 예에 따른 디바이스(110)는 프로세서(210), 수신부(220) 및 저장부(230)를 포함할 수 있다.
일 실시 예에 따른 프로세서(210)는 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 품목데이터에 대한 분류 카테고리 정보를 크롤링(crawling)을 통해 획득할 수 있다. 일 실시 예에서, 프로세서(210)는 기저장된 크롤링 알고리즘을 기반으로 상품 또는 서비스에 관한 정보가 게시된 복수의 웹페이지를 크롤링하여 e-커머스와 연관된 웹페이지로부터 상품명을 나타내는 비정형의 품목텍스트데이터(예: 치앙마이 5박여행)와 해당 상품의 종류를 나타내는 분류 카테고리 정보(예: 해외여행)를 수집하여 데이터베이스로 구현된 저장부(230)에 저장할 수 있다. 예를 들면, 프로세서(210)는 인코딩 환경을 'utf-8'로 표준화하여 목적지 (referrer 대상 html)에서 requests(requests.get(url, headers=header))를 통하여 url, 헤더 ("PROD_NM,CODE_NO" + "\n") 를 담아 카테고리와 상품명을 호출하는 방식으로 크롤링을 수행할 수 있다.
일 실시 예에서, 품목데이터는 품목텍스트데이터, 품목이미지 및 상품/서비스 리뷰 데이터 중 적어도 일부일 수 있다. 예를 들면, 품목데이터는 텍스트로 구성된 상품명, 이미지로 구성된 상품 사진 및 텍스트와 이미지(예: 사진, 아이콘 등)로 구성된 상품 리뷰 중 하나 이상을 포함할 수 있다. 또한, 일 실시 예에서, 품목데이터에 대한 분류 카테고리 정보는 품목종류, 품목판매유형 및 전자상거래 분류체계에 따른 분류정보 중 하나 이상을 포함할 수 있다.
일 실시 예에 따른 프로세서(210)는 품목데이터에 포함된 하나 이상의 형태소를 분석하여 단어의 빈도수에 기반하여 벡터값을 결정할 수 있다. 일 실시 예에서, 프로세서(210)는 품목명 텍스트에 포함된 하나 이상의 형태소에 대한 분석을 통해 형태소의 조합 또는 빈도에 따라 복수개의 숫자로 표시되는 벡터값을 결정할 수 있으며, 예를 들면, 빈도가 상대적으로 높을수록 벡터값을 더 높은 또는 낮은 값으로 결정하거나, 벡터값을 표현하는 비트들 중 하나 이상에 더 높은 또는 낮은 값을 할당할 수 있다.
예를 들면, 프로세서(210)는 일반적으로 영어-한글-숫자가 혼용되어 있고 띄어쓰기가 일정하지 않은 경향이 있는 쇼핑 용어의 특수성을 고려하여, Mecab(m=Mecab())을 이용하여 듀플 형식 (TaggedDocument = namedtuple ('TaggedDocument', 'words tags'))으로 품목명 형태소를 분리할 수 있으며, 임베딩을 통해 Tfidf 방식 (TfidfVectorizer (tokenizer=m_pos, min_df=1, lowercase=True))으로 자주 등장하는 특정 단어에 가중치를 부여하여 벡터화를 할 수 있다.
일 실시 예에 따른 프로세서(210)는 결정된 벡터값 및 분류 카테고리 정보에 기초하여 지도학습을 수행함으로써 분류기(classifier)를 구성할 수 있다. 예를 들면, 프로세서(210)는 지도학습 기반의 분류기를 정의하고, 수집된 품목데이터와 분류 카테고리 정보 및 결정된 벡터값 중 적어고 일부를 샘플로 입력하고 랜덤한 특징들을 선택하여 의사결정트리를 키워나가는 방식으로 상품 또는 서비스에 대한 분류 체계를 정의하기 위한 머신 러닝 모델로서 분류기를 구축할 수 있다.
일 실시 예에서, 프로세서(210)는 결정된 벡터값 및 분류 카테고리 정보를 학습함으로써 부트스트랩(Bootstrap)으로 앙상블 의사결정트리 분류기를 구성할 수 있다. 예를 들면, 프로세서(210)는 결정된 벡터값 및 분류 카테고리 정보를 학습 데이터셋으로 랜덤 샘플링하여 복수의 의사결정트리를 생성하고, 생성된 복수의 의사결정트리에 따른 결과들에 기초하여 다수결 기반으로 최종 결과를 도출하여 집단 학습을 수행하는 랜덤 포레스트(random forest) 방식의 앙상블 의사결정트리 분류기를 구성할 수 있다. 이에 따라, 프로세서(210)는 앙상블 의사결정트리 분류기를 통해 많은 입력 변수들을 간편하게 다루면서 빠르게 학습할 수 있다.
예를 들면, 프로세서(210)는 머신러닝을 기반으로 분류 모델링을 수행하여 의사결정나무의 앙상블 학습 방법인 랜덤 포레스트 알고리즘으로 분류 모델 (Pipeline([('vect', Tfidf), ('RFC', RandomForestClassifier (n_estimators=..))])을 획득할 수 있으며, 획득된 분류 모델의 성능을 accuracy_score로 1차 평가하고 검증 데이터를 빈도순 샘플링 및 랜덤 샘플링하는 방식으로 2차 평가하여 최종 모델을 선정할 수 있다. 일 실시 예에서, 파라메터 최적 튜닝은 SearchCV 기능으로 수행될 수 있다.
일 실시 예에 따른 프로세서(210)는 구성된 분류기를 통해 새롭게 획득되는 품목데이터를 분류할 수 있으나, 이에 제한되지 않으며, 다양한 실시가 가능하다. 일 실시 예에서, 상술한 분류기를 구성하는 기능이 다른 서버에서 이루어지는 경우에는, 프로세서(210)는 해당 서버로부터 분류기를 획득하여 새롭게 획득되는 품목데이터를 분류하는데 이용할 수 있다. 예를 들면, 크롤링 및 머신러닝 기반으로 상술한 분류기를 구성하는 기능은 대용량 서버에서 수행되고, 구성된 분류기를 이용하여 새롭게 획득되는 데이터에 대한 테스트를 수행하는 기능은 서비스 서버에서 수행될 수 있다. 또한, 일 실시 예에서, 프로세서(210)는 구성된 분류기를 사용자 단말에 제공하여 분류기가 설치된 사용자 단말에서 분류기를 이용하여 품목데이터를 자동으로 분류하도록 지원할 수도 있다. 또는, 일 실시 예에서, 프로세서(210)는 단말로 구현되어 상술한 서버로부터 분류기를 획득하여 새롭게 획득되는 품목데이터를 분류하는데 이용할 수도 있다.
일 실시 예에 따른 수신부(220)는 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득할 수 있다. 일 실시 예에서, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터는, 가맹점 단말, PG 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버로부터 획득될 수 있다. 예를 들면, 프로세서(210)는 품목데이터 분류를 위한 분류기가 준비되면, 수신부(220)를 통해 인증서버, 가맹점, PG 등의 다양한 대상에 의해 제공되는 다양한 유형의 결제데이터(예: ISP(Internet Secure Payment) 등)를 수신할 수 있고, 이로부터 새로운 비정형의 품목데이터를 획득할 수 있다. 예를 들면, 프로세서(210)는 상품 결제 과정 중 획득된 상품 또는 서비스와 관련된 품목데이터를 온라인 결제 및 인증서버(예: ISP, MISP, 간편결제 등)로부터 수신할 수 있다.
일 실시 예에서, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터가 환경부에서 지정한 친환경 상품데이터 또는 바우처사업 대상 품목데이터를 포함하는 경우, 비정형의 품목데이터는 결제 승인 요청 전문으로부터 획득될 수 있다. 예를 들면, 프로세서(210)는 PG 서버로부터 새롭게 획득된 상품에 대한 비정형의 품목데이터에 환경부 지정의 친환경 인증 상품에 해당하는 상품명이 포함된 경우에는, PG 서버로부터 획득된 결제 승인 요청 전문에 대한 텍스트 분석을 통해 해당 상품의 품목데이터를 획득할 수 있다.
일 실시 예에 따른 프로세서(210)는 새롭게 획득된 품목데이터를 분류기를 통해 분류할 수 있다. 예를 들면, 프로세서(210)는 새롭게 획득된 품목데이터(예: 치앙마이 한달살기)를 구성된 분류기에 입력하여 그 결과로서 해당 품목데이터를 분류기에 구축된 분류 체계에 따른 특정 분류 카테고리(예: 해외여행)로 분류할 수 있다.
일 실시 예에 따른 분류기는 지도학습의 결과로서 획득된 분류 모듈을 포함할 수 있고, 예를 들면, 상술한 랜덤 포레스트 방식으로 학습되어 생성된 앙상블 의사결정트리 분류기를 분류 모듈로서 포함할 수 있다.
일 실시 예에 따른 분류기는 분류 모듈이 소정의 카테고리로 분류하지 못한 상품 또는 서비스에 대한 비정형의 품목데이터에 대해서 소정의 룰(rule)을 기반으로 특정 카테고리로 분류를 할 수 있는 룰 분류 모듈을 더 포함할 수 있다. 예를 들면, 프로세서(210)는 상품 또는 서비스에 대해 비정형의 품목데이터가 새롭게 획득되면, 우선적으로 분류 모듈을 기반으로 획득된 품목데이터를 소정의 카테고리로 분류하도록 시도할 수 있으며, 기설정 횟수에 다다를 때까지 분류하지 못하거나 분류 정확도가 기설정 값보다 작으면 분류 시도가 실패한 것으로 결정하고, 분류 모듈로 분류가 되지 않는 품목명에 대해 룰 분류 모듈을 통해 룰 기반으로 분류할 수 있다.
일 실시 예에 따른 룰 분류 모듈은 상품 또는 서비스에 대한 비정형의 품목데이터를 가맹점 특성에 따라서 정해진 카테고리로 분류할 수 있다. 예를 들면, 룰 분류 모듈은 품목데이터 또는 추가적으로 획득된 웹페이지 속성(예: 가맹점데이터)로부터 추출된 가맹점(예: 배달의 민족)이 기설정 가맹점 분류 내에 속하면, 기저장된 가맹점에 관한 룰에 따라 해당 가맹점과 대응되는 분류 카테고리(예: 배달음식)로 해당 품목데이터를 분류할 수 있다.
일 실시 예에 따른 룰 분류 모듈은 상품 또는 서비스에 대한 비정형의 품목데이터를 비정형의 품목데이터 내에 단어 패턴에 기초하여 소정의 카테고리로 분류할 수 있고, 예를 들면, 품목데이터에서 반복되는 단어 패턴이 기설정 단어 패턴 분류 내에 속하면, 기저장된 단어 패턴에 관한 룰에 따라 해당 단어 패턴과 대응되는 분류 카테고리로 해당 품목데이터를 분류할 수 있다.
일 실시 예에 따른 룰 분류 모듈은 상품 또는 서비스에 대한 비정형의 품목데이터를, 비정형의 품목데이터 길이가 소정 길이 이하인 경우, 경험 데이터에 기반하여 분류할 수 있다. 예를 들면, 룰 분류 모듈은 기설정 비트수(예: 80비트) 이하인 품목데이터(예: 투데이특가)로부터 추출된 하나 이상의 단어(예: 특가)에 기초하여 경험 데이터로서 기축적된 품목데이터-카테고리 분류 데이터 또는 룰 정보로부터 가장 근접하게 매칭되는 분류 카테고리(예: 프로모션)를 결정할 수 있다. 다른 예를 들면, 룰 분류 모듈은 기저장된 사용자 정보 또는 웹 캐시 등을 경험 데이터로서 이용하여 분류 카테고리를 결정할 수도 있다.
일 실시 예에 따른 룰 분류 모듈은 경험 데이터에 기반하여 분류하는 경우, 결정된 분류 카테고리에 대한 예측 정확도를 산출하여 기설정 값 이상이면 분류를 수행하고, 그렇지 않으면 분류 대상에서 제외할 수 있다.
일 실시 예에 따른 룰 분류 모듈은 상품 또는 서비스에 대한 비정형의 품목데이터를 품목명 특성에 따라서 정해진 카테고리로 분류할 수 있고, 예를 들면, 품목데이터로부터 추출된 품목명(예: 가스요금)이 기설정 품목명 분류 내에 속하면, 기저장된 품목명에 관한 룰에 따라 해당 품목명과 대응되는 분류 카테고리(예: 공공요금)로 해당 품목데이터를 분류할 수 있다.
일 실시 예에 따른 분류기는 획득된 품목데이터를 기반으로 마케팅 속성에 따라 분류할 수 있다. 일 실시 예에서, 마케팅 속성은, 프로모션/이벤트 대상, 가격할인 대상, 프리미엄, 부가혜택, 소량소비, 대량소비, 해외쇼핑, 착한소비, 트랜드 소비 및 편의제공 중 적어도 일부일 수 있다.
일 실시 예에서, 편의제공은 품목데이터에 포함된 품목명(예: 영양반찬 7 세트 격일)에 따라 시공간적 편의나 기능편의가 제공되는 품목에 적용될 수 있고, 가격할인은 품목명(예: 컬쳐랜드 PIN 10 만원권 할인)에 따라 가격이 정상 가격보다 저렴한 품목에 적용될 수 있고, 프로모션은 품목명(예: 슈퍼 22 데이 외 0 건)에 따라 각종 이벤트 또는 프로모션 대상품목에 적용될 수 있고, 프리미엄은 품목명(예: 물넣지않은 유기농 100 석류즙 30 팩 NFC 착즙)에 따라 동종상품 대비 고품질 또는 고가격 품목에 적용될 수 있고, 착한 소비는 품목명(예: 친환경 양파 망)에 따라 기부, 친환경 또는 공정무역 대상 품목에 적용될 수 있고, 부가혜택은 품목명(예: 루쥬 르 꾸뛰르 더 슬림 선물포장)에 따라 부가적인 재화나 용역 제공 품목에 적용될 수 있고, 트랜드 소비는 품목명(예: 특가 깨끗한나라 3 겹데코 프리미엄소프트)에 따라 신상품이나 한정판 등 얼리버드 또는 트렌드세터성 품목에 적용될 수 있고, 대량소비는 품목명(예: 대용량 236 미네랄워터 2L x 24 병)에 따라 단체나 3인이상 가족형 소비 품목에 적용될 수 있고, 소량소비는 품목명(예: 혼밥 SET)에 따라 1인가구나 2인 이하 또는 개별 포장 품목에 적용될 수 있고, 해외쇼핑은 품목명(예: 스타벅스 커피 캡슐, 10 캡슐, 영국 직구)에 따라 해외로부터 구매한 품목에 적용될 수 있다.
예를 들면, 분류기는 품목데이터(예: 런칭 4주년 이벤트 아이러브베베)에 대한 텍스트 분석을 통해 마케팅 속성 분류를 위한 하나 이상의 키워드(예: 런칭, 4주년, 이벤트)를 추출할 수 있고, 추출된 키워드 각각을 기설정 키워드 분류와 비교하여 가장 많이 매칭되는 마케팅 속성(예: 프로모션)에 따라 해당품목 데이터를 분류할 수 있다.
일 실시 예에 따른 저장부(230)는 분류기를 통한 분류 결과를 저장할 수 있고, 분류기를 구성하거나 이용하기 위한 데이터를 저장할 수 있으며, 디바이스(110)가 그밖의 비정형의 품목 데이터를 자동으로 분류하는 과정에서 요구 및 생성되는 데이터를 저장할 수 있다. 일 실시 예에서, 저장부(230)는 데이터베이스, 클라우드 또는 별도의 저장 서버로 구현되어 유무선 통신망을 통해 디바이스(110)에 필요한 데이터 및 저장 공간을 제공할 수 있다.
일 실시 예에 따른 프로세서(210)는 디바이스(110)의 동작 전반을 제어하는 CPU로 구현될 수 있고, 수신부(220) 및 저장부(230)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다.
또한, 도 2에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 디바이스(110)에 더 포함될 수 있음을 관련 기술 분야에서 통상의 지식을 가진 자라면 이해할 수 있다. 일 실시 예에 따를 경우, 디바이스(110)는 품목데이터의 분류 설정을 위한 사용자 입력을 수신하는 사용자 인터페이스 및 유무선 통신을 위한 통신 인터페이스 등을 더 포함할 수 있고, 다른 실시 예에 따를 경우, 도 2에 도시된 구성요소들 중 일부 구성요소는 생략될 수 있다.
도 3은 도 2에 있는 디바이스(110)가 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법의 일 예를 설명하기 위한 흐름도이다.
도 3은 도 1 내지 도 2에 개시된 디바이스(110)가 동작하는 모든 실시 예를 참조하여 이해될 수 있다.
단계 S310에서, 일 실시 예에 따르면, 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 품목데이터에 대한 분류 카테고리 정보가 크롤링을 통해 획득될 수 있다. 예를 들면, 디바이스(110)는 e-커머스와 연관된 웹페이지를 크롤링하여 품목텍스트데이터(예: 치앙마이 5박여행), 품목이미지 및 상품/서비스 리뷰 데이터 중 적어도 일부를 포함하는 비정형의 품목데이터와 해당 품목데이터에 대한 분류 카테고리 정보(예: 해외여행)를 수집할 수 있다.
단계 S320에서, 일 실시 예에 따르면, 품목데이터에 포함된 하나 이상의 형태소가 분석되어 단어의 빈도수에 기반하여 벡터값이 결정될 수 있다. 예를 들면, 디바이스(110)는 품목명 텍스트에 포함된 하나 이상의 형태소에 대한 분석을 통해 형태소의 조합 또는 빈도에 따라 복수개의 숫자로 표시되는 벡터값을 결정할 수 있다.
단계 S330에서, 일 실시 예에 따르면, 결정된 벡터값 및 분류 카테고리 정보에 기초하여 지도학습이 수햄됨으로써 분류기가 구성될 수 있다. 예를 들면, 디바이스(110)는 결정된 벡터값 및 분류 카테고리 정보를 학습하여 부트스트랩으로 앙상블 의사결정트리 분류기를 구성할 수 있다.
단계 S340에서, 일 실시 예에 따른 디바이스(110)는 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득할 수 있다. 예를 들면, 디바이스(110)는 가맹점 단말, PG 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버로부터 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 수신할 수 있다.
단계 S350에서, 일 실시 예에 따른 디바이스(110)는 획득된 품목데이터를 분류기를 통해 분류하거나 분류하도록 지원할 수 있다. 예를 들면, 디바이스(110)는 새롭게 획득된 품목데이터(예: 치앙마이 한달살기)를 구성된 분류기에 입력하여 그 결과로서 해당 품목데이터를 분류기에 구축된 분류 체계에 따른 특정 분류 카테고리(예: 해외여행)로 분류할 수 있다.
본 발명의 일 실시 예에 따르면, 디바이스(110)는 비정형의 품목명만으로도 품목을 분류할 수 있어, 품목명 외 품목에 대한 부가적인 정보가 없는 업체에서도 품목에 대한 부가정보를 개발하고 데이터 사업 및 분석/활용 역량을 강화할 수 있도록 지원할 수 있다.
본 발명의 일 실시 예에 따르면, 디바이스(110)는 키워드를 기반으로 일일이 값을 지정하지 않아도 분류 모델 기반으로 품목데이터를 자동으로 분류하여 작업 효율을 높일 수 있다.
도 4는 도 2에 있는 디바이스(110)가 비정형의 품목데이터 분류를 위한 분류기를 구성하는 방법의 일 예를 설명하기 위한 도면이다.
도 4는 도 1 내지 도 3에 개시된 디바이스(110)가 동작하는 모든 실시 예를 참조하여 이해될 수 있다.
단계 S410에서, 일 실시 예에 따른 디바이스(110)는 품목데이터를 특정 카테고리로 분류하기 위한, 분류를 위한 룰을 구성할 수 있다. 예를 들면, 디바이스(110)는 품목데이터에 포함된 품목명과 가맹점 정보를 이용하여 룰을 생성할 수 있고, 가맹점, 상품명 패턴 및 상품명 길이 중 적어도 일부의 조건에 따라 특정 카테고리로 분류하거나 제외하도록 하는 룰을 생성 및 개발할 수 있다.
일 실시 예에 따른 디바이스(110)는 단계 S410을 통해 구성된 분류를 위한 룰을 이용하여 품목데이터를 특정 카테고리로 분류할 수 있으며, 예를 들면, 1차적으로는 분류 모듈을 이용하여 상품 또는 서비스에 대한 비정형의 품목데이터를 소정의 카테고리로 분류하도록 시도하고, 실패하면, 분류 모듈이 소정의 카테고리로 분류하지 못한 상품 또는 서비스에 대한 비정형의 품목데이터에 대해서 룰을 기반으로 특정 카테고리로 분류를 할 수 있다.
단계 S420에서, 일 실시 예에 따른 디바이스(110)는 품목데이터를 특정 카테고리로 분류하기 위한 분류기를 구성할 수 있다.
단계 S421에서, 일 실시 예에 따른 디바이스(110)는 크롤링을 통해 e-커머스의 웹페이지 상에 게시된 품목데이터와 해당 분류 카테고리 정보를 획득할 수 있다. 예를 들면, 디바이스(110)는 인코딩 환경을 'utf-8' 로 표준화 하여 목적지(referrer 대상 html) 에서 requests(requests.get(url, headers=header))를 통하여 url, 헤더 ("PROD_NM,CODE_NO" + "\n") 를 담아 카테고리와 상품명을 호출할 수 있다.
단계 S422에서, 일 실시 예에 따른 디바이스(110)는 획득된 품목데이터에 대한 형태소 분리를 수행할 수 있다. 예를 들면, 디바이스(110)는 쇼핑용어 특수성 상 영어-한글-숫자가 혼용되어 있고 띄어쓰기가 일정하지 않아 Mecab(m=Mecab())을 이용하여 듀플 형식(TaggedDocument = namedtuple('TaggedDocument', 'words tags'))으로 품목명 형태소를 분리할 수 있다.
단계 S423에서, 일 실시 예에 따른 디바이스(110)는 품목데이터로부터 분리된 하나 이상의 단어의 빈도수를 분석하여 임베딩을 통해 벡터값을 결정할 수 있다. 예를 들면, 디바이스(110)는 Tfidf 방식(TfidfVectorizer( tokenizer=m_pos, min_df=1, lowercase=True )으로 자주 등장하는 특정 단어에 가중치를 부여하여 품목데이터를 벡터화할 수 있다.
단계 S424에서, 일 실시 예에 따른 디바이스(110)는 품목데이터로부터 결정된 벡터값과 해당 품목데이터의 분류 카테고리 정보를 학습 데이터셋으로 이용해 머신 러닝을 수행하여 품목데이터를 자동 분류하기 위한 분류 체계를 정의하는 분류 모델링을 수행할 수 있다. 예를 들면, 디바이스(110)는 의사결정나무의 앙상블 학습 방법인 RandomForest 알고리즘으로 분류 모델 (Pipeline([('vect', Tfidf), ('RFC', RandomForestClassifier(n_estimators=..))])을 개발할 수 있고, 분류 모델의 성능을 accuracy_score로 1차평가하고 검증 데이터를 빈도순 샘플링 및 랜덤 샘플링하여 2차 평가하여 최종 모델을 선정할 수 있으며, 선정된 최종 모델에 따라 최종적으로 분류기를 구성할 수 있다.
단계 S430에서, 일 실시 예에 따른 디바이스(110)는 품목데이터를 마케팅 속성에 따라 분류하기 위한, 속성을 위한 룰을 구성할 수 있다. 예를 들면, 디바이스(110)는 복수의 마케팅 속성을 정의하고, 상품명에 포함된 단어, 상품명 패턴 및 상품명 길이 중 적어도 일부의 조건에 따라 특정 마케팅 속성으로 분류하거나 제외하도록 하는 마케팅 속성 기반의 룰을 생성 및 개발할 수 있다.
일 실시 예에 따른 디바이스(110)는 단계 S430을 통해 구성된 속성을 위한 룰을 이용하여 품목데이터를 마케팅 속성에 따라 분류할 수 있으며, 예를 들면, 품목데이터를 프로모션/이벤트 대상, 가격할인 대상, 프리미엄, 부가혜택, 소량소비, 대량소비, 해외쇼핑, 착한소비, 트랜드 소비 또는 편의제공의 마케팅 속성으로 분류할 수 있다. 예를 들면, 디바이스(110)는 분류 모듈을 이용하여 비정형의 품목데이터가 소정의 카테고리로 분류되더라도, 속성을 위한 룰을 기반으로 품목데이터에 마케팅 속성을 부여할 수 있다.
일 실시 예에 따른 디바이스(110)는 단계 S410 내지 S430을 통해 분류기가 구성되면, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득하여 품목데이터에 대한 텍스트 정규화를 수행할 수 있고, 이를 분류기에 입력하여 출력으로서 품목에 대한 분류 카테고리 정보(예: 대분류, 중분류, 소분류 등)를 획득할 수 있다. 예를 들면, 디바이스(110)는 ISP 서버, POS 단말 또는 바우처 서버로부터 품목명을 획득하여 특수문자나 공백 등의 판단 불가 텍스트를 제외하여 정규화된 텍스트를 분류기에 입력하고, 분류기에 포함된 분류 모듈을 통해 품목데이터를 소정의 카테고리로 분류하여 대분류, 중분류 및 소분류 중 적어도 일부를 출력으로 획득할 수 있으며, 만일 분류 모듈을 통해 분류되지 않는 경우에는, 룰 분류 모델을 통해 분류를 위한 룰을 기반으로 품목데이터를 특정 카테고리로 분류할 수 있다.
일 실시 예에 따른 디바이스(110)는 상술한 과정에서 분류기를 통해 품목데이터에 대한 마케팅 속성 정보를 출력으로 더 획득할 수 있으며, 예를 들면, 분류기에 포함된 룰 분류 모듈을 통해 속성을 위한 룰을 기반으로 품목데이터에 매칭되는 마케팅 속성을 출력으로 더 획득할 수 있다.
일 실시 예에 따른 디바이스(110)는 운영 단계에서 검증 결과를 분류기 학습을 위한 트레이닝, 분류를 위한 룰 및 속성을 위한 룰에 입력으로 반영하여 지속적인 머신 러닝을 기반으로 분류 모델 성능을 개선할 수 있고, 성능 개선에 따라 기저장된 분류 카테고리 체계를 확장시킬 수 있다. 도 5는 일 실시 예에 따른 비정형 품목데이터 분류 시스템(100)에서 분류기가 지속적으로 개선되는 과정을 설명하기 위한 도면이며, 도 5를 참조하면, 디바이스(110)에 탑재된 분류기는 지속적인 분류 모델 성능 개선을 통해 기저장된 e-커머스 분류체계에 없던 품목을 신설(식별번호 510 참조)하거나 기병합되어 있던 품목 중 일부를 분리할 수 있다.
도 6은 도 2에 있는 디바이스(110)가 분류기를 통해 상품 또는 서비스에 대한 비정형의 품목데이터를 분류하는 방법의 다른 일 예를 설명하기 위한 흐름도이다.
도 6은 도 1 내지 도 5에 개시된 디바이스(110)가 동작하는 모든 실시 예를 참조하여 이해될 수 있다.
단계 S610에서, 일 실시 예에 따른 디바이스(110)는 분류기가 구성되면, 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득할 수 있다(단계 S310 내지 S340 참조).
단계 S620에서, 일 실시 예에 따른 디바이스(110)는 구성된 분류기에 포함된 분류 모듈을 이용하여 획득된 품목데이터(예: 런칭4주년이벤트 역대최저가 치앙마이 6박)를 소정의 카테고리로 분류하도록 시도할 수 있다.
단계 S630에서, 일 실시 예에 따른 디바이스(110)는 단계 S520에 따라 품목데이터를 소정의 카테고리로 분류하지 못한 경우에는, 룰 분류 모듈을 이용하여 품목데이터를 룰 기반으로 특정 카테고리로 분류하도록 할 수 있다.
단계 S640에서, 일 실시 예에 따른 디바이스(110)는 룰 분류 모듈을 통해 상품 또는 서비스에 대한 비정형의 품목데이터를 가맹점 특성(예: 하나투어)에 따라서 정해진 카테고리(예: 여행)로 분류하거나, 품목데이터 내의 단어 패턴(예: 반복되는 단어 및 사용 패턴)에 기초하여 소정의 카테고리로 분류하거나, 품목데이터 길이가 소정 길이(예: 80비트) 이하인 경우, 경험 데이터에 기반하여 분류할 수 있다.
단계 S650에서, 일 실시 예에 따른 디바이스(110)는 상술한 단계들이 수행되면, 품목데이터를 룰 기반으로 마케팅 속성에 따라 분류할 수 있으며, 예를 들면, 품목데이터(예: 런칭4주년이벤트 역대최저가 치앙마이 6박)에 포함된 하나 이상의 키워드(예: 런칭, 4주년, 이벤트, 역대, 최저가)의 조건이 기저장된 복수의 마케팅 속성 중 하나 이상의 조건에 따르는지에 따라 품목데이터를 프로모션/이벤트 대상, 가격할인 대상, 프리미엄, 부가혜택, 소량소비, 대량소비, 해외쇼핑, 착한소비, 트랜드 소비 및 편의제공 중 하나 이상으로 분류할 수 있다.
일 실시 예에 따른 디바이스(110)는 단계 S610 내지 S640에 따라 품목데이터(예: 런칭4주년이벤트 역대최저가 치앙마이 6박)를 소정의 카테고리로 분류하여 대분류(예: 여행/문화/서비스), 중분류(예: 여행/항공권) 및 소분류(예: 여행)를 포함하는 분류 카테고리 정보를 출력할 수 있고, 단계 S650에 따라 품목데이터(예: 런칭4주년이벤트 역대최저가 치앙마이 6박)를 룰 기반으로 마케팅 속성에 따라 분류하여 제 1 마케팅 속성(예: 프로모션) 및 제 2 마케팅 속성(예: 가격할인 대상)을 포함하는 마케팅 속성 정보를 출력할 수 있다.
본 발명의 일 실시 예에 따르면, 디바이스(110)는 비정형의 품목명만으로도 품목을 분류하고 품목에 대한 마케팅적 속성 정보를 부여할 수 있어, 품목명 외 품목에 대한 부가적인 정보가 없는 업체에서도 품목에 대한 부가정보를 개발하고 데이터 사업 및 분석/활용 역량을 강화할 수 있도록 지원할 수 있다.
본 발명의 일 실시 예에 따르면, 디바이스(110)는 룰 기반의 방식과 결합된 분류 모델을 구성하여 품목 분류 대상을 확대하고 작업 효율을 높일 수 있다.
도 3 내지 도 6에 도시된 단계들의 순서 및 조합은 일 실시 예이고, 명세서에 기재된 각 구성요소들의 본질적인 특성에서 벗어나지 않는 범위에서 순서, 조합, 분기, 기능 및 그 수행 주체가 추가, 생략 또는 변형된 형태로 다양하게 실시될 수 있음을 알 수 있다.
한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 램, USB, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
본 실시 예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 비정형 품목데이터 분류 시스템
110: 디바이스 120: 외부 디바이스
210: 프로세서 220: 수신부
230: 저장부

Claims (16)

  1. 디바이스가 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법에 있어서,
    상기 디바이스에 의해, (i) 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 상기 품목데이터에 대한 분류 카테고리 정보가 크롤링을 통해 획득되고, (ii) 상기 품목데이터에 포함된 하나 이상의 형태소가 분석되어 단어의 빈도수에 기반하여 벡터값이 결정된 후, (iii) 상기 결정된 벡터값 및 상기 분류 카테고리 정보에 기초하여 지도학습이 수행됨으로써 분류기(classifier)가 구성되면,
    상기 디바이스가 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득하는 단계, 및
    상기 디바이스가 상기 획득된 품목데이터를 상기 분류기를 통해 분류하거나 분류하도록 지원하는 단계를 포함하고,
    상기 디바이스가 상기 획득된 품목데이터를 분류하거나 분류하도록 지원하는 단계는
    상기 지도학습의 결과로써 획득된 분류 모듈이 기설정 횟수에 도달할 때까지 상기 획득된 품목데이터를 소정의 카테고리로 분류하지 못하거나 분류 과정에서 결정되는 분류 정확도가 기설정값 미만인 경우, 소정의 룰(rule)을 기반으로 특정 카테고리로 분류하는 룰 분류 모듈을 통해 상기 획득된 품목데이터를 분류하는 단계;를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 하나 이상의 형태소는
    영어, 한글 및 숫자의 혼용되고 띄어쓰기가 일정하지 않은 쇼핑 용어의 특성에 기초하여 기설정된 듀플 형식을 통해 상기 품목데이터로부터 품목명 형태소로서 분리되고,
    상기 벡터값은
    상기 하나 이상의 형태소에 대한 분석 결과에 기초하여 임베딩을 통해 기설정 수준 이상 자주 등장하는 특정 단어에 가중치를 부여하는 벡터화가 수행됨에 따라 결정되는, 방법.
  3. 제 1 항에 있어서,
    상기 룰 분류 모듈은,
    상품 또는 서비스에 대한 비정형의 품목데이터를 (a) 가맹점 특성에 따라서 정해진 카테고리로 분류하거나, (b) 비정형의 품목데이터 내에 단어 패턴에 기초하여 소정의 카테고리로 분류하거나, (c) 비정형의 품목데이터 길이가 소정 길이 이하인 경우 사용자 정보 및 웹 캐시를 포함하는 경험 데이터에 기반하여 분류하는 것을 특징으로 하고,
    상기 룰 분류 모듈은 상기 경험 데이터에 기반하여 분류하는 경우, 상기 경험 데이터에 기반하여 결정된 카테고리에 대한 예측 정확도를 산출하여 기설정 값 이상이면 분류를 수행하고, 그렇지 않으면 분류 대상에서 제외하는, 방법.
  4. 제 1 항에 있어서,
    상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터는,
    가맹점 단말, PG 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버로부터 획득되는 것을 특징으로 하는, 방법.
  5. 제 4 항에 있어서,
    상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터가 환경부에서 지정한 친환경 상품데이터 또는 바우처사업 대상 품목데이터를 포함하는 경우, 상기 비정형의 품목데이터는, 결제 승인 요청 전문으로부터 획득되는 것을 특징으로 하는, 방법.
  6. 제 1 항에 있어서,
    상기 (iii)은,
    상기 결정된 벡터값 및 상기 분류 카테고리 정보가 학습됨으로써 부트스트랩(Bootstrap)으로 앙상블 의사결정트리 분류기가 구성되는 것을 특징으로 하는, 방법.
  7. 제 1 항에 있어서,
    상기 벡터값은
    상기 하나 이상의 형태소에 대한 분석을 통해 획득되는 상기 형태소의 조합 및 빈도에 기초하여 복수개의 숫자로 표시되는 벡터값으로 결정되고,
    상기 빈도가 높을수록 상기 복수개의 숫자가 더 큰 값으로 결정되거나 상기 복수개의 숫자를 표현하는 비트들 중 하나 이상에 더 높은 값이 할당되는, 방법
  8. 제 1 항에 있어서,
    상기 품목데이터는, 품목텍스트데이터, 품목이미지 및 상품/서비스 리뷰 데이터 중 적어도 일부인 것을 특징으로 하는, 방법
  9. 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 디바이스에 있어서,
    (i) 웹페이지 상에서 제공되는 상품 또는 서비스에 대한 비정형의 품목데이터 및 상기 품목데이터에 대한 분류 카테고리 정보가 크롤링을 통해 획득되고, (ii) 상기 품목데이터에 포함된 하나 이상의 형태소가 분석되어 단어의 빈도수에 기반하여 벡터값이 결정된 후, (iii) 상기 결정된 벡터값 및 상기 분류 카테고리 정보에 기초하여 지도학습이 수행됨으로써 분류기(classifier)가 구성되면,
    새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터를 획득하는 수신부, 및
    상기 획득된 품목데이터를 상기 분류기를 통해 분류하거나 분류하도록 지원하는 프로세서를 포함하고,
    상기 프로세서는
    상기 지도학습의 결과로써 획득된 분류 모듈이 기설정 횟수에 도달할 때까지 상기 획득된 품목데이터를 소정의 카테고리로 분류하지 못하거나 분류 과정에서 결정되는 분류 정확도가 기설정값 미만인 경우, 소정의 룰(rule)을 기반으로 특정 카테고리로 분류하는 룰 분류 모듈을 통해 상기 획득된 품목데이터를 분류하는, 디바이스.
  10. 제 9 항에 있어서,
    상기 하나 이상의 형태소는
    영어, 한글 및 숫자의 혼용되고 띄어쓰기가 일정하지 않은 쇼핑 용어의 특성에 기초하여 기설정된 듀플 형식을 통해 상기 품목데이터로부터 품목명 형태소로서 분리되고,
    상기 벡터값은
    상기 하나 이상의 형태소에 대한 분석 결과에 기초하여 임베딩을 통해 기설정 수준 이상 자주 등장하는 특정 단어에 가중치를 부여하는 벡터화가 수행됨에 따라 결정되는, 디바이스.
  11. 제 9 항에 있어서,
    상기 룰 분류 모듈은,
    상품 또는 서비스에 대한 비정형의 품목데이터를 (a) 가맹점 특성에 따라서 정해진 카테고리로 분류하거나, (b) 비정형의 품목데이터 내에 단어 패턴에 기초하여 소정의 카테고리로 분류하거나, (c) 비정형의 품목데이터 길이가 소정 길이 이하인 경우 사용자 정보 및 웹 캐시를 포함하는 경험 데이터에 기반하여 분류하는 것을 특징으로 하고,
    상기 룰 분류 모듈은 상기 경험 데이터에 기반하여 분류하는 경우, 상기 경험 데이터에 기반하여 결정된 카테고리에 대한 예측 정확도를 산출하여 기설정 값 이상이면 분류를 수행하고, 그렇지 않으면 분류 대상에서 제외하는, 디바이스.
  12. 제 9 항에 있어서,
    상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터는,
    가맹점 단말, PG 서버, 결제 지원 서버, 전자영수증서비스서버 또는 결제 인증 서버로부터 획득되는 것을 특징으로 하는, 디바이스.
  13. 제 12 항에 있어서,
    상기 새롭게 획득되는 상품 또는 서비스에 대한 비정형의 품목데이터가 환경부에서 지정한 친환경 상품데이터 또는 바우처사업 대상 품목데이터를 포함하는 경우, 상기 비정형의 품목데이터는, 결제 승인 요청 전문으로부터 획득되는 것을 특징으로 하는, 디바이스.
  14. 제 9 항에 있어서,
    상기 (iii)은,
    상기 결정된 벡터값 및 상기 분류 카테고리 정보가 학습됨으로써 부트스트랩(Bootstrap)으로 앙상블 의사결정트리 분류기가 구성되는 것을 특징으로 하는, 디바이스.
  15. 제 9 항에 있어서,
    상기 벡터값은
    상기 하나 이상의 형태소에 대한 분석을 통해 획득되는 상기 형태소의 조합 및 빈도에 기초하여 복수개의 숫자로 표시되는 벡터값으로 결정되고,
    상기 빈도가 높을수록 상기 복수개의 숫자가 더 큰 값으로 결정되거나 상기 복수개의 숫자를 표현하는 비트들 중 하나 이상에 더 높은 값이 할당되는, 디바이스.
  16. 제 9 항에 있어서,
    상기 품목데이터는, 품목텍스트데이터, 품목이미지 및 상품/서비스 리뷰 데이터 중 적어도 일부인 것을 특징으로 하는, 디바이스.
KR1020190146080A 2019-11-14 2019-11-14 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스 KR102351879B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190146080A KR102351879B1 (ko) 2019-11-14 2019-11-14 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190146080A KR102351879B1 (ko) 2019-11-14 2019-11-14 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스

Publications (2)

Publication Number Publication Date
KR20210058525A KR20210058525A (ko) 2021-05-24
KR102351879B1 true KR102351879B1 (ko) 2022-01-14

Family

ID=76153344

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190146080A KR102351879B1 (ko) 2019-11-14 2019-11-14 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스

Country Status (1)

Country Link
KR (1) KR102351879B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102548849B1 (ko) * 2022-04-07 2023-06-28 김재성 의사결정 최적화 시스템
KR20240029946A (ko) * 2022-08-29 2024-03-07 네이버 주식회사 아이템 원부 플랫폼을 통해 정제된 아이템 정보를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR20240029945A (ko) * 2022-08-29 2024-03-07 네이버 주식회사 아이템 원부 플랫폼을 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101731626B1 (ko) * 2016-08-31 2017-04-28 고려대학교 산학협력단 트리 기반 앙상블 분류기를 이용한 정보 예측 방법 및 시스템
KR102042047B1 (ko) * 2018-09-06 2019-11-07 가톨릭대학교 산학협력단 정형 및 비정형의 빅데이터를 이용한 마케팅 서비스 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102008845B1 (ko) * 2017-11-30 2019-10-21 굿모니터링 주식회사 비정형 데이터의 카테고리 자동분류 방법
KR102108460B1 (ko) * 2018-04-17 2020-05-07 (주)레몬클라우드 상품 벡터를 이용한 상품 분류 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101731626B1 (ko) * 2016-08-31 2017-04-28 고려대학교 산학협력단 트리 기반 앙상블 분류기를 이용한 정보 예측 방법 및 시스템
KR102042047B1 (ko) * 2018-09-06 2019-11-07 가톨릭대학교 산학협력단 정형 및 비정형의 빅데이터를 이용한 마케팅 서비스 시스템 및 방법

Also Published As

Publication number Publication date
KR20210058525A (ko) 2021-05-24

Similar Documents

Publication Publication Date Title
US11157956B2 (en) Application recommendation method and server
KR102285263B1 (ko) 제품 타이틀 선택 기법
Lakshmanaprabu et al. Ranking analysis for online customer reviews of products using opinion mining with clustering
US11907274B2 (en) Hyper-graph learner for natural language comprehension
US8190621B2 (en) Method, system, and computer readable recording medium for filtering obscene contents
KR102351879B1 (ko) 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스
US9672251B1 (en) Extracting facts from documents
US20170206416A1 (en) Systems and Methods for Associating an Image with a Business Venue by using Visually-Relevant and Business-Aware Semantics
Dhingra et al. Spam analysis of big reviews dataset using Fuzzy Ranking Evaluation Algorithm and Hadoop
KR102282599B1 (ko) 온라인 빅데이터를 활용한 소비자 분석 시스템 및 방법
US20150032753A1 (en) System and method for pushing and distributing promotion content
US20140288999A1 (en) Social character recognition (scr) system
US20190019233A1 (en) Real time recommendation engine
JP6976207B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102406453B1 (ko) 빅데이터 형태소 분석 기법을 활용한 온라인 마케팅 플랫폼
JP2015521306A (ja) 製品フィード類似性を使用したスパム商人の発見
KR101652433B1 (ko) Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
US10360600B1 (en) Big tree method and system for verifying user reviews
CN107665442A (zh) 获取目标用户的方法及装置
US20150347564A1 (en) Category name extraction device, category name extraction method, and category name extraction program
CN111475652B (zh) 数据挖掘的方法和系统
CN113065573B (zh) 用户分类方法、用户分类装置及电子设备
KR20220076765A (ko) 커뮤니티의 카테고리를 설정하기 위한 방법, 시스템, 및 컴퓨터 프로그램
US11100535B2 (en) Group recommendations based on external factors

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant