KR20200078170A

KR20200078170A - 상품을 계층적 카테고리로 분류하는 장치 및 방법

Info

Publication number: KR20200078170A
Application number: KR1020180167814A
Authority: KR
Inventors: 임호성; 류민우; 홍미정
Original assignee: 주식회사 케이티
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-07-01

Abstract

상품의 메타 데이터 및 상품의 카테고리 분석을 통해 적어도 하나 이상의 상품 카테고리를 계층적으로 분류하는 장치 및 방법이 개시된다. 본 발명에 따른 상품을 연관성에 따른 계층적 카테고리로 분류하는 장치는, 상품의 메타 데이터를 입력받는 입력부; 입력된 메타 데이터에서 의미있는 키워드들을 추출하는 추출부; 추출된 각 키워드의 각 카테고리에서, 키워드의 출현 횟수에 비례하고, 키워드를 포함한 카테고리 개수에 반비례하는 가중치를 계산하는 계산부; 및 계산된 각 키워드의 가중치를 이용하여 키워드의 카테고리별 출현 확률를 계산하고, 최대 출현 확률의 카테고리를 상품의 카테고리로 분류하는 분류부를 포함한다.

Description

상품을 계층적 카테고리로 분류하는 장치 및 방법{Apparatus for classifying products by hierarchical category and method thereof}

본 발명은 상품 분류 기술로서, 상품의 카테고리를 계층적 카테고리로 분류하는 장치 및 방법에 관한 것이다.

종래의 상품 정보 제공 시스템에선 구매자가 상품을 쉽게 조회할 수 있도록 등록된 상품을 다양한 계층적 카테고리로 분류하여 저장해 두었다. 상기 카테고리의 예를 들면, A사 모바일 폰 상품이 대분류 계층의 가전/디지털, 중분류 계층의 휴대폰/주변기기, 소분류 계층의 휴대폰 등의 카테고리로 분류되는 것이다. 그러면, 사용자는 계층적 카테고리 검색을 통해 원하는 A사 모바일 폰 상품을 찾을 수 있었다.

상품의 효율적인 검색과 정보 관리를 사용자에게 제공하기 위해, 등록된 상품은 세분화되고 정확한 카테고리로 분류되어 관리되어야 한다. 일반적으로 상품의 카테고리 분류는 그 복잡성으로 인해 상품을 체계에 따라 분류하는 작업은 산업별 전문가의 수작업으로 이루어져 왔다.

정보 시스템의 활용이 증가함에 따라 관리해야 하는 상품 정보가 대용량이 되었고, 그에 따라 전문가가 수작업으로 분류하는 작업은 더욱 어려운 작업이 되는 문제점이 있었다. 상기 문제점을 해결하기 위해, 최근에는 전문가의 수작업 수고를 줄이기 위해 상품을 자동으로 분류해주는 기술에 관한 연구가 활발히 이루어지고 있다. 특히, 정보 검색과 기계 학습 분야의 대표적인 분류 모델로 Vector Space Model, K-nearest neighbor, Naive Bayes 등이 있으며, 이를 활용한 다양한 자동 분류 방법에 관해 연구가 선행되고 있다.

하지만, 다양한 상품이 출시되고 상품 정보가 다양하면서 세분화되기에 상기 분류 모델의 기술을 적용하는 것이 어렵게 되었다. 그 이유는 대부분의 상품 자동 분류 시스템에선 단일 카테고리에 초점을 맞추고 있다는 것과 다중 카테고리들 간의 데이터의 특성을 반영하지 않고 있다는 점이다. 때문에, 카테고리 분류 결과가 사용자에게 실질적으로 도움을 주지 못하고 혼란을 주었다. 따라서, 카테고리 사이의 연관성을 고려하여 사용자가 직관적으로 이해하고 사용할 수 있는 사용자 친화적인 다중의 계층적 카테고리를 상품의 레이블 정보로 바로 적용할 수 있는 선별 기법이 필요하다.

한국공개특허 2015-0037924(2015.04.08)

본 발명은 상기와 같은 종래 기술의 인식하에 창출된 것으로서, 상품의 메타 데이터에서 연관성을 계산하여 상품의 대분류, 중 분류, 소분류 등의 순으로 계층적 카테고리로 상품을 분류하는 장치 및 방법을 제공하는 것을 목적으로 한다.

또한, 계층적 분류된 상품 카테고리에 대해 각 업체의 기존 분류된 카테고리와의 매핑 관계를 계산하여 최적의 매핑 관계를 정의하고, 정의된 최적 매핑 관계에 따라 본 발명에 의해 분류된 상품 카테고리를 각 업체의 기존 분류된 카테고리로 변환하여 상품 분류하는데 다른 목적이 있다.

일 측면에 따른, 상품을 연관성에 따른 계층적 카테고리로 분류하는 장치는, 상품의 메타 데이터를 입력받는 입력부; 입력된 메타 데이터에서 의미있는 키워드들을 추출하는 추출부; 추출된 각 키워드의 각 카테고리에서, 상기 키워드의 출현 횟수에 비례하고, 상기 키워드를 포함한 카테고리 개수에 반비례하는 가중치를 계산하는 계산부; 및 계산된 각 키워드의 가중치를 이용하여 상기 키워드의 카테고리별 출현 확률을 계산하고, 최대 출현 확률의 카테고리를 상품의 카테고리로 분류하는 분류부를 포함한다.

상기 입력부는, 각 상품에 대응되는 전자상거래 등에서의 상품 등의 정보 제공에 관한 고시의 정보를 포함하는 상기 메타 데이터를 입력받는다.

상기 장치는, 상기 입력부로부터 메타 데이터를 입력받고, 형태소 분석을 통해 의미없는 불용어를 제거한 단어들을 상기 추출부로 출력하여 전처리하는 전처리부를 더 포함한다.

상기 전처리부는, 특수 기호 속성 및 분류에 의미없는 불용어 속성을 참조하고, 참조된 속성에 일치하는 상기 불용어를 제거한다.

상기 계산부는, 분류를 위해 기 저장된 카테고리 정보를 참조하고, 각 키워드의 카테고리별 출현 횟수에 비례하고, 전체 카테고리 개수에 대한 상기 카테고리 개수에 반비례하는 상기 가중치를 계산한다.

상기 분류부는, 상기 최대 출현 확률의 카테고리를 상기 연관성이 가장 큰 제 1계층의 카테고리로 구한다.

상기 분류부는, 상기 제 1계층을 포함하는 상위 계층에 해당되는 각 n(n>=2)계층에서 후보 카테고리들이 주어졌을 때, 상기 제 1계층부터 제 n계층까지의 각 순차적 카테고리에서의 출현 확률을 최대로 하는 후보 카테고리를 구하여 상기 n계층의 카테고리로 분류한다.

상기 장치는, 기 사용되는 제 1카테고리 정보를 입력받고, 입력된 제 1카테고리와 상기 분류된 카테고리의 유사성을 계산하여 매핑 관계를 정의하고, 정의된 매핑 관계에 따라 상기 분류된 카테고리를 매핑된 상기 제 1카테고리로 변환하는 변환부를 더 포함한다.

다른 측면에 따른, 장치가 상품을 연관성에 따른 계층적 카테고리로 분류하는 방법은, 상품의 메타 데이터를 입력받는 단계; 입력된 메타 데이터에서 의미있는 키워드들을 추출하는 단계; 추출된 각 키워드의 각 카테고리에서, 상기 키워드의 출현 횟수에 비례하고 상기 키워드를 포함한 카테고리 개수에 반비례하는 가중치를 계산하는 단계; 및 계산된 각 키워드의 가중치를 이용하여 상기 키워드의 카테고리별 출현 확률을 계산하고, 최대 출현 확률의 카테고리를 상품의 카테고리로 분류하는 단계를 포함한다.

본 발명의 일 측면에 따르면, 입력된 상품의 메타 데이터에서 분석된 키워드를 이용하여 대응되는 제 1계층의 카테고리를 분류하고, 분류된 제 1계층 카테고리의 상위 계층의 카테고리로서 제 1계층부터 제 n(n>=2)계층의 카테고리와 연관성이 최대가 되는 제 n계층의 카테고리를 추가적으로 순차 분류하여 계층적으로 체계화된 카테고리 분류 정보를 생성할 수 있다.

또한, 본 발명의 다른 측면에 따르면, 기 사용중인 카테고리 분류 정보를 계속 이용할 수 있도록 본 발명에 의해 분류된 카테고리 정보에 기 사용중인 카테고리 정보를 매핑시켜서 본 발명의 분석, 계산 및 분류의 처리를 따르지만 최종 분류는 기 사용중인 카테고리 정보로 출력할 수 있다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 후술한 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되지 않아야 한다.
도 1은 본 발명의 일 실시예에 따른 카테고리 분류 장치의 개략적인 구성도이다.
도 2는 도 1의 카테고리 분류 장치가 데이터 처리하는 개략적 흐름도이다.
도 3은 도 2의 입력부가 입력받는 메타 데이터의 예시도이다.
도 4는 도 2의 계산부가 계산하는 키워드 가중치의 예시도이다.
도 5는 도 2의 변환부가 본 발명의 카테고리 분류 정보를 기 사용 중인 카테고리 분류 정보로 변환하기 위해 매핑하는 예시도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상에 모두 대변하는 것은 아니므로, 본 출원 시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명의 일 실시예에 따른 카테고리 분류 장치(100)의 개략적인 구성도이다.

본 발명의 일 실시예에 따른 카테고리 분류 장치(100)는 입력부(110), 전처리부(120), 추출부(130), 계산부(140), 분류부(150) 및 변환부(160)를 포함하여 구성된다.

카테고리 분류 장치(100)는 메모리와 프로세서로 구성된 컴퓨터 단말에 해당된다. 각 구성부(110~160)들은 프로그램의 형태로 메모리에 로딩되어 프로세서를 통해 실행될 수 있다. 예를 들면, 각 구성부(110 ~160)들은 상품의 카테고리를 분류하는 프로그램으로 제작된 후, 카테고리 분류 장치(100)의 프로세서에 의해 실행되어 상품의 정보를 입력받고 분류된 카테고리 정보를 출력할 수 있다.

상기 입력부(110)는 상품의 메타 데이터를 입력받는다. 상기 메타 데이터는 도 3을 참조하여 후술된다.

상기 전처리부(120)는 입력부(110)로부터 입력 데이터를 입력받고, 전처리(preprocessing)를 통해 형태소 분석 처리 및 불용어 제거 처리를 수행한다.

상기 형태소 분석 처리는 입력된 메타 데이터의 자연어를 분석하여 개별 단어로 분석하여 결과물을 출력하는 것이다. 그리고 형태소 분석의 결과물인 단어들은 불용어 제거 처리를 통해 단어량이 줄어든다.

상기 불용어 제거 처리는 기능어 역할을 하고 그 뜻을 표현하지 못하는 단어에 해당되는 불용어를 제거하는 것이다. 대표적인 불용어로는 조사, 어미 등이 있다. 또한, 상기 메타 데이터에 포함된 제품명, 원재료명, 내용량 및 제조사 정보 등의 공통된 속성들은 불용어로써 제거의 대상이다.

여기서, 자연어 처리 기반의 형태소 분석 처리 및 그 이후의 처리는 언어의 의미적 연관성 계산을 수반하기 때문에 메모리 및 프로세서의 부하를 가중시킨다. 또한, 부하에 따라 비례하는 저장량 및 처리량의 증가는 처리 지연을 발생시키는 단점이 있다. 이러한 단점을 제거하고자 불용어를 미리 제거함으로써 메모리 및 프로세서의 상기 부하를 줄일 수 있다.

상기 추출부(130)는 전처리부(120)의 처리 결과물인 단어들을 입력받고, 의미를 가지는 최소 단위이며 카테고리 분류의 처리 대상이 되는 키워드를 추출한다. 그러면, 추출 처리를 통해 단어들이 최소 의미의 키워드로 걸러지므로 상기 부하는 더욱 줄어든다. 추출부(130)는 의미를 갖는 키워드를 추출하기 위해 사전으로부터 검색이 성공된 단어를 키워드로 추출할 수 있다.

상기 계산부(140)는 추출부(130)의 처리 결과물인 키워드를 입력받고, 각 키워드가 메타 데이터에서 갖는 연관 정도를 가중치로 계산한다. 이를 위해, 카테고리 분류 장치(110)는 카테고리 정보를 저장하고, 계산부(140)는 상기 저장된 카테고리 정보를 참조한다. 참조된 카테고리 정보는 카테고리명 및 대응되는 단어들의 데이터 셋이다.

예를 들어, A 키워드의 출현 빈도가 당해 카테고리에서 큰 값이면, 그 키워드는 상기 카테고리에서 중요한 역할을 하므로 강하게 연관된다. 또한, 전체 카테고리 개수에 대해 상기 A 키워드를 포함한 카테고리 개수(빈도)가 큰 값이면, 그 키워드는 특징없이 전체 카테고리에서 흔하게 쓰이는 역할을 하므로 약하게 연관된다. 따라서, 각 키워드가 개별 카테고리에서 출현 빈도가 높으면서 각 키워드가 출현된 카테고리 개수가 작을수록, 가중치의 값은 커지며 연관성은 높아진다.

상기 분류부(150)는 계산부(140)의 처리물인 키워드별 가중치를 이용하여 각 키워드와 카테고리의 키워드들간의 연관 정도를 계산한다. 계산된 연관 정도의 값이 최대가 되는 카테고리는 당해 상품의 카테고리로 분류된다.

분류부(150)는 상기 데이터 셋으로 저장된 카테고리 정보를 참조한다. 참조된 카테고리 정보는 소분류, 중분류 및 대분류의 순차적으로 연관되는 계층적 카테고리의 데이터 구조를 가질 수 있다. 여기서, 본 발명은 상품의 메타 데이터 정보를 분석하여 연관 관계를 갖는 카테고리를 하나씩 선택할 때마다, 선택된 제 1계층의 카테고리와 연관 관계가 가장 높으면서 제 1계층의 카테고리보다 상위 계층의 카테고리에 해당되는 제 2계층의 카테고리를 선택하는 것으로 n(n>=2) 계층의 순차적 카테고리의 계층적 연관 관계를 형성하는 것이다.

따라서, 본 발명에서 강한 연관 관계에 의해 계층적으로 나열된 순차적 카테고리들은 사용자의 연상 작용이나 기억에 있어 편리함을 제공하는 장점이 있다. 즉, 상기 연상 작용의 편리함 측면에서, 사용자는 본 발명의 카테고리를 모르고서 임의로 직관적인 키워드를 연상하여 입력을 하면 본 발명의 계층적 분류된 카테고리의 검색의 성공률이 보장된다. 물론, 상기 기억의 편리함 측면에서, 사용자는 본 발명의 계층적 카테고리를 직관적으로 쉽게 외울수도 있다.

상기 변환부(160)는 이미 사용 중인 카테고리 분류 체계를 유지해야 할 경우, 본 발명의 분류된 카테고리의 계층적 정보를 기 사용 중의 카테고리로 변환한다. 예를 들어, 인터넷 쇼핑몰 A는 이미 카테고리 분류 체계를 갖고 있다. 이때, 인터넷 쇼핑몰 A는 본 발명이 제공하는 카테고리 분류 정보를 새롭게 수용하는 것이 어려울 수 있다. 이때, 변환부(160)는 본 발명에서 분류가 완료된 카테고리 정보를 매핑된 인터넷 쇼핑몰 A의 카테고리로 변환하여 출력함으로써 인터넷 쇼핑몰 A의 기존 카테고리 분류를 사용할 수 있게 지원할 수 있다.

도 2는 도 1의 카테고리 분류 장치(100)가 데이터 처리하는 개략적 흐름도이다. 도 3은 도 2의 입력부(110)가 입력받는 메타 데이터의 예시도이다. 도 4는 도 2의 계산부(140)가 계산하는 키워드 가중치의 예시도이다. 도 5는 도 2의 변환부(160)가 본 발명의 카테고리 분류 정보를 기 사용 중인 카테고리 분류 정보로 변환하기 위해 매핑하는 예시도이다.

도 2를 참조하면, 카테고리 분류 장치(100)의 입력부(110)는 각 상품의 메타 데이터를 입력받고 전처리부(120)로 출력한다(S210).

도 3을 참조하면, 상기 메타 데이터에 포함되는 "상품의 품목별 고시 정보"가 예시된다. 예시된 고시 정보는 상품이 농수산물의 품목인 경우이다. 상품의 고시 정보는 전체 품목에 공통된 사항 "소비자상담 관련 전화번호" 등과 같은 항목을 포함한다. 또한, 상품의 고시 정보는 농수산물의 품목에만 종속되는 사항 "5-1. 농산물", "5-2. 축산물", "5-3. 수산물" 등의 항목을 포함한다. 즉, 상품의 품목이 가공 식품, 건강 기능 식품일 경우, 농수산물에 종속되는 상기 항목은 고시 정보에 포함되지 않는다. 각 상품의 메타 데이터에 포함된 단어들, 각 단어의 출현 횟수가 분석 처리되면, 상기 상품이 속하는 카테고리의 생성, 분류 및 출력이 가능하다.

전처리부(120)는 입력부(110)의 메타 데이터를 입력받아 형태소 분석 처리하여 각 품사별 단어들로 분리하고, 분리된 단어들의 불용어를 제거 처리하고, 처리 결과물의 단어들을 추출부(130)로 출력한다(S220).

상기 메타 데이터의 고시 정보에서 조사, 어미의 품사 속성, 각 품목들에 공통될 수 있는 제품명, 원재료명, 내용량 등의 속성 및 숫자 속성들은 상품의 특성이나 의미와 상관없는 불용어 속성으로서 제거 대상이다. 전처리부(120)는 제거 대상의 불용어 속성을 제거함으로써 프로세서 및 메모리의 부하를 줄이고 카테고리 분류의 총 처리 시간을 줄인다.

추출부(130)는 전처리부(120)에서 처리된 단어군을 입력받고, 상기 단어군에서 의미있는 키워드들을 추출하여 계산부(140)로 출력한다(S220). 그러면, 메타 데이터에서 분석된 단어들은 키워드로 필터링 처리되어 상기 부하 및 상기 총 처리 시간을 더울 줄일 수 있다. 추출부(130)는 각 단어로 사전을 검색하여 고유 명사, 동사, 동사형 명사 등의 단어를 제거하고 일반 명사의 키워드만을 추출한다.

계산부(140)는 추출부(130)로부터 입력받은 각 키워드가 카테고리에서 얼마다 중요도가 있는지 각 카테고리에서의 출현 횟수에 비례하는 가중치를 계산하여 각 단어의 카테고리별 가중치를 분류부(15)에 출력한다(S240).

계산부(140)는 TF-IDF(Term Frequency-Inverse Document Frequency)의 값을 계산하는 수학식 1을 이용하여 상기 가중치 WT _x,y 를 계산한다.

WT _x,y 의 가중치는 (키워드x, 카테고리 y)의 출현 빈도수 tf _x,y 에 비례하고, 전체 카테고리 개수 N에 대해 키워드 x를 포함한 카테고리 개수 df _x 에 반비례하는 값이다. 즉, WT _x,y 의 가중치는 tf _x,y 의 값이 클수록 df _x 의 값이 작을수록 연관성이 큰 값으로 계산된다.

도 4를 참조하면, 각 카테고리(510)에서 각 키워드(550)의 가중치(550)를 갖는 데이터 구조의 어휘 벡터 사전이 테이블 형태로 도시된다. "우유" 카테고리(510)의 경우, "원유" 키워드(530)에서 "0.95113"의 가중치(550)가 최대값이다.

분류부(150)는 계산부(140)에서 출력된 상기 어휘 벡터 사전의 가중치를 입력받고, 가중치의 TF-IDF 값을 카테고리별 출현 빈도의 확률 값에 곱하는 계산으로 카테고리를 생성 및 분류한다(S250).

먼저, 상품에 대해 단일 카테고리로 분류하고, 이 단일 카테고리 분류의 방식을 이용하여 다중 카테고리를 연관성 관계의 계층 구조로 분리하는 것으로 설명한다.

상기 단일 카테고리 분류를 구하는 수학식 2가 도시된다.

상기 수학식 2에서 argmax c _j 는 전체 카테고리 C 중에서 각 메타 데이터의 출현 확률이 제일 높은 j 카테고리이다. C P(c _j |d _i )는 상품별 메타 데이터 d에 대해 출현 확률이 제일 높은 j카테고리이다. 그러면, 분류부(150)는 수학식 1의 TF-IDF의 가중치 값 tfidf(w _ik ,d _i ,D)을 각 카테고리에서의 각 단어의 출현 확률 P(w _ik |c _j ) 에 적용하여 최대 확률 값이 계산되는 카테고리 c _j 를 구한다. c _j 카테고리는 당해 상품을 분류하는 카테고리로서 상품과 최대 연관성을 갖는다.

분류부(150)가 연관성에 따른 계층적 카테고리로 분류하는 수학식 3이 도시된다.

최하위 계층의 소분류 CS에서 중분류 CM을 거쳐 최상위 계층의 대분류로 카테고리를 분류하는 것이라 가정한다. 물론, 수학식 3은 2개 계층 이상의 계층적 카테고리를 구하는데 적용될 수 있다.

먼저, 소분류 카테고리의 계산식은 수학식 2에 해당되는 수학식 3의 첫번째 수학식을 통해 얻어질 수 있다. 분류부(150)는 소분류의 전체 카테고리 중에서 최대 출현 확률이 계산되는 소분류 카테고리 cs _x 를 구한다.

다음으로, 수학식 3의 두번째 중분류 수학식에서, 분류부(150)는 전체의 중분류 카테고리가 주어졌을 때, x 소분류 카테고리 cs _x 를 최대 출현 확률로 만드는 y 중분류 카테고리 cm _y 를 구한다. 즉, 어떤 소분류 카테고리 x가 주어졌을 때, 각 중분류 카테고리들의 조건부 확률 값을 계산하여, 최대 출현 확률 값에 의한 최대 연관 관계를 갖는 중분류 y카테고리를 구하는 것이다.

마지막으로, 수학식 3의 세번째 대분류 수학식에서, 분류부(150)는 전체의 대분류 카테고리가 주어졌을 때, x 소분류 카테고리 cs _x 를 최대 출현 확률로 만들고 y 중분류 카테고리 cm _y 를 최대 출현 확률로 만드는 z번째 대분류 카테고리 cl _z 를 구한다. 이 역시 소분류 및 중분류 카테고리와 최대 연관 관계를 갖는 카테고리를 구하는 것이다. 즉, n(n>=2) 계층에 포함되는 n계층부터 제 1계층까지의 각각 순차적으로 나열되는 모든 카테고리가 최대 출현 확률로 계산되며 동시에 상품과 최대 연관성을 갖는 계층별 카테고리로 구해진다.

선택적으로, 본 발명의 카테고리 분류 체계는 기존 운영 중인 인터넷 쇼핑몰이나 상품 분류 시스템과 같은 레거시 시스템에 적용될 수 있다. 이때, 레거시 시스템에서 기 운용 중인 카테고리 정보를 활용하고자 할 때, 변환부(160)는 본 발명의 분류 엔진을 적용하면서 레거시 시스템의 카테고리 정보로 분류 결과를 출력하게 한다.

도 5를 참조하면, 변환부(160)는 도시된 대분류, 중분류 및 소분류의 본 발명의 분류된 카테고리 정보의 각 셋마다 상품 메타 데이터 집합(810)을 매칭시킨다. 매칭된 상품 메타 데이터 집합(810)은 본 발명의 카테고리를 레거시 시스템의 카테고리로 변환하기 위한 정보이다.

변환부(160)는 본 발명의 상품 및 카테고리 정보와 레거시 시스템의 상품 및 카테고리를 각각 비교하여 유사도(예 : 카테고리의 일치 횟수)를 산출하고, 산출된 유사도 중에서 최대 유사도를 갖는 본 발명의 카테고리 분류 정보와 레거시 시스템의 카테고리 분류 정보를 매칭시켜 상품 메타 데이터 집합(810)으로 저장한다. 그러면, 레거시 시스템에서 구축된 본 발명의 카테고리 분류 장치(110)는 레거시 시스템의 상품 메타 데이터를 입력받고, 분류 처리된 본 발명의 상품 카테고리 정보를 출력하고, 변환부(160)는 상기 출력된 본 발명의 상품 카테고리를 상품 메타 데이터 집합(810)을 근거로 대응되는 레거시 시스템의 카테고리 분류 정보로 출력한다.

본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

100 : 카테고리 분류 장치 110 : 입력부
120 : 전처리부 130 : 추출부
140 : 계산부 150 : 분류부
160 : 변환부

Claims

상품을 연관성에 따른 계층적 카테고리로 분류하는 장치에 있어서,
상품의 메타 데이터를 입력받는 입력부;
입력된 메타 데이터에서 의미있는 키워드들을 추출하는 추출부;
추출된 각 키워드의 각 카테고리에서, 상기 키워드의 출현 횟수에 비례하고 상기 키워드를 포함한 카테고리 개수에 반비례하는 가중치를 계산하는 계산부; 및
계산된 각 키워드의 가중치를 이용하여 상기 키워드의 카테고리별 출현 확률을 계산하고, 최대 출현 확률의 카테고리를 상품의 카테고리로 분류하는 분류부
를 포함하는 장치.
제 1항에 있어서,
상기 입력부는,
각 상품에 대응되는 전자상거래 등에서의 상품 등의 정보 제공에 관한 고시의 정보를 포함하는 상기 메타 데이터를 입력받는 것을 특징으로 하는 장치.
제 1항에 있어서,
상기 입력부로부터 메타 데이터를 입력받고, 형태소 분석을 통해 의미없는 불용어를 제거한 단어들을 상기 추출부로 출력하여 전처리하는 전처리부를 더 포함하는 것을 특징으로 하는 장치.
제 3항에 있어서,
상기 전처리부는,
특수 기호 속성 및 분류에 의미없는 불용어 속성을 참조하고, 참조된 속성에 일치하는 상기 불용어를 제거하는 것을 특징으로 하는 장치.
제 1항에 있어서,
상기 계산부는,
분류를 위해 기 저장된 카테고리 정보를 참조하고, 각 키워드의 카테고리별 출현 횟수에 비례하고, 전체 카테고리 개수에 대한 상기 카테고리 개수에 반비례하는 상기 가중치를 계산하는 것을 특징으로 하는 장치.
제 1항에 있어서,
상기 분류부는,
상기 최대 출현 확률의 카테고리를 상기 연관성이 가장 큰 제 1계층의 카테고리로 구하는 것을 특징으로 하는 장치.
제 6항에 있어서,
상기 분류부는,
상기 제 1계층을 포함하는 상위 계층에 해당되는 각 n(n>=2)계층에서 후보 카테고리들이 주어졌을 때, 상기 제 1계층부터 제 n계층까지의 각 순차적 카테고리에서의 출현 확률을 최대로 하는 후보카테고리를 구하여 상기 n계층의 카테고리로 분류하는 것을 특징으로 하는 장치.
제 1항에 있어서,
기 사용되는 제 1카테고리 정보를 입력받고, 입력된 제 1카테고리와 상기 분류된 카테고리의 유사성을 계산하여 매핑 관계를 정의하고, 정의된 매핑 관계에 따라 상기 분류된 카테고리를 매핑된 상기 제 1카테고리로 변환하는 변환부를 더 포함하는 것을 특징으로 하는 장치.
장치가 상품을 연관성에 따른 계층적 카테고리로 분류하는 방법에 있어서,
상품의 메타 데이터를 입력받는 단계;
입력된 메타 데이터에서 의미있는 키워드들을 추출하는 단계;
추출된 각 키워드의 각 카테고리에서, 상기 키워드의 출현 횟수에 비례하고, 상기 키워드를 포함한 카테고리 개수에 반비례하는 가중치를 계산하는 단계; 및
계산된 각 키워드의 가중치를 이용하여 상기 키워드의 카테고리별 출현 확률을 계산하고, 최대 출현 확률의 카테고리를 상품의 카테고리로 분류하는 단계
를 포함하는 방법.
제 9항에 있어서,
상기 입력받는 단계는,
각 상품에 대응되는 전자상거래 등에서의 상품 등의 정보 제공에 관한 고시의 정보를 포함하는 상기 메타 데이터를 입력받는 단계인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 추출하는 단계 이전에,
상기 입력된 메타 데이터의 형태소 분석을 통해 의미없는 불용어를 제거하여 전처리하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서,
상기 전처리하는 단계는,
특수 기호 속성 및 분류에 의미없는 불용어 속성을 참조하고, 참조된 속성에 일치하는 상기 불용어를 제거하는 단계인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 계산하는 단계는,
분류를 위해 기 저장된 카테고리 정보를 참조하고, 각 키워드의 카테고리별 출현 횟수에 비례하고, 전체 카테고리 개수에 대한 상기 카테고리 개수에 반비례하는 상기 가중치를 계산하는 단계인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 분류하는 단계는,
상기 최대 출현 확률의 카테고리를 상기 연관성이 가장 큰 제 1계층의 카테고리로 구하는 단계인 것을 특징으로 하는 방법.
제 14항에 있어서,
상기 분류하는 단계는,
상기 제 1계층을 포함하는 상위 계층에 해당되는 각 n(n>=2)계층에서 후보 카테고리들이 주어졌을 때, 상기 제 1계층부터 제 n계층까지의 각 순차적 카테고리에서의 출현 확률을 최대로 하는 후보 카테고리를 구하여 상기 n계층의 카테고리로 분류하는 단계인 것을 특징으로 하는 방법.
제 9항에 있어서,
상기 분류하는 단계 이후로,
기 사용되는 제 1카테고리 정보를 입력받고, 입력된 제 1카테고리와 상기 분류된 카테고리의 유사성을 계산하여 매핑 관계를 정의하고, 정의된 매핑 관계에 따라 상기 분류된 카테고리를 매핑된 상기 제 1카테고리로 변환하는 단계를 더 포함하는 것을 특징으로 하는 방법.