KR101755227B1

KR101755227B1 - 제품 유형 분류 장치 및 방법

Info

Publication number: KR101755227B1
Application number: KR1020150112253A
Authority: KR
Inventors: 이수원; 심상권
Original assignee: 숭실대학교산학협력단
Priority date: 2015-08-10
Filing date: 2015-08-10
Publication date: 2017-07-06
Also published as: KR20170018522A; US20170178206A1; WO2017026638A1

Abstract

제품유형 분류 장치 및 방법이 개시된다.
제품유형 분류 장치는 제품유형 분리 장치는 제품의 리뷰에 출현하는 단어를 이용하여 제품 유형을 판단할 수 있는 객관적 지수인 실용쾌락 지수, 단어 유사도 또는 감정 지수를 산출하고, 산출한 실용쾌락 지수, 단어 유사도 또는 감정 지수를 이용하여 해당 제품의 유형을 분류한다.

Description

제품 유형 분류 장치 및 방법{APPARATUS AND METHOD FOR PRODICT TYPE CLASSIFICATION}

본 발명은 제품 유형 분류 장치 및 방법에 관한 것으로서, 보다 상세하게는 제품의 유형을 분석하여 해당 제품의 유형을 분류하는 제품 유형 분류 장치 및 방법에 관한 것이다.

온라인 쇼핑은 소비자의 구매편의를 증대시켰을 뿐만 아니라 제품에 대한 정보획득의 편의성까지 제공하여 제품구매 시 매우 핵심적인 정보탐색 매체로 발전하였다. 또한, 온라인 커뮤니티, 리뷰사이트, 소셜 네트워크 서비스 등 새로운 미디어 채널은 더 많은 소비자들이 자신의 의견을 표현하고 제품의 정보를 전달하기 위해 사용되고 있다.

한편 사회과학 분야 중 하나인 소비자 행동이론에 따르면 소비자의 제품 구매 동기는 실용적 동기(Utilitarian motive)와 쾌락적 동기(Hedonic motive)로 구분할 수 있다. 전자는 제품을 소비함으로써 실용적인 효용을 얻고자 하는 것이며 후자는 제품 소비에 의하여 즐거움을 얻고자 하는 것이다. 예를 들면, 세탁기를 구매하는 주된 동기가 실용적인 것이라면 세탁 성능이나 세탁물이 엉키는 정도 등을 중요한 평가 기준으로 고려하나, 쾌락적인 경우는 상대적으로 세탁기 디자인이나 외관 등을 중요시 한다. 따라서, 소비자행동 이론에 따라 제품유형을 실용재와 쾌락재로 구분할 수 있다.

제품유형 분류는 소비자의 정보처리 과정에 영향을 미치기 때문에, 한정된 시간 내에 소비자에게 제품의 정보와 가치를 전달해야 하는 마케팅 분야에 있어서 매우 중요하다. 그러나 제품유형을 구분하는 기존의 방법은 제품의 특징에 따라 마케터가 임의로 유형을 할당하는 방법을 사용함으로써 마케터에 따라서 제품유형이 다를 수 있으므로 객관적이지 못하고, 소비자들이 인지하는 제품의 유형을 파악하기 어렵다는 문제점이 있다.

따라서, 제품의 유형을 객관적 수치를 이용하여 분류할 수 있는 제품 유형 분류 방식이 필요한 상황이다.

본 발명의 일측면은 제품의 리뷰에 포함된 단어를 이용하여 제품 유형을 판단할 수 있는 객관적 지수를 산출하고, 산출한 객관적 지수를 이용하여 해당 제품의 유형을 분류하는 제품 유형 분류 장치 및 방법을 제공한다.

본 발명의 일 실시예에 따른 제품유형 분류 방법은 분류 대상 제품의 리뷰를 수집하고, 상기 리뷰로부터 단어를 추출하여 상기 단어의 출현빈도를 산출하고, 상기 단어의 출현빈도를 이용하여 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수를 산출하고, 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수에 따라 상기 분류 대상 제품의 유형을 분류한다.

상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 것은, 미리 구축된 실용쾌락 사전으로부터 상기 단어에 대응하는 단어 실용쾌락 지수를 검출하고, 상기 검출한 단어 실용쾌락 지수와 상기 단어의 출현빈도로 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출할 수 있다.

상기 검출한 단어 실용쾌락 지수와 상기 단어의 출현빈도로 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 것은, 상기 리뷰로부터 복수 개의 단어를 추출하고, 상기 리뷰로부터 추출한 복수 개의 단어 각각의 출현빈도를 산출하고, 상기 복수 개의 단어 각각에 대응하는 단어 실용쾌락 지수를 검출하고, 상기 복수 개의 단어 각각의 출현빈도와 상기 복수 개의 단어 각각에 대응하는 단어 실용쾌락 지수의 가중평균을 산출하여 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출할 수 있다.

상기 분류 대상 제품에 대한 실용쾌락 지수에 따라 상기 분류 대상 제품의 유형을 분류하는 것은, 상기 분류 대상 제품에 대한 실용쾌락 지수가 미리 정해진 임계값을 초과하면 상기 분류 대상 제품을 실용재로 분류하고, 상기 분류 대상 제품에 대한 실용쾌락 지수가 상기 미리 정해진 임계값 이하이면 상기 분류 대상 제품을 쾌락재로 분류할 수 있다.

상기 분류 대상 제품에 대한 단어 유사도를 산출하는 것은, 상기 단어의 출현빈도로 구성되는 상기 분류 대상 제품의 단어 빈도 벡터를 생성하고, 상기 분류 대상 제품의 단어 빈도 벡터와 미리 학습된 실용재의 단어 빈도 벡터 간의 코사인 유사도를 산출하고, 상기 분류 대상 제품의 단어 빈도 벡터와 쾌락재의 단어 빈도 벡터 간의 코사인 유사도를 산출할 수 있다.

상기 분류 대상 제품에 대한 단어 유사도에 따라 상기 분류 대상 제품의 유형을 분류하는 것은, 상기 분류 대상 제품의 단어 빈도 벡터와 미리 학습된 실용재의 단어 빈도 벡터 간의 코사인 유사도가 상기 분류 대상 제품의 단어 빈도 벡터와 쾌락재의 단어 빈도 벡터 간의 코사인 유사도보다 크면 상기 분류 대상 제품을 실용재로 분류하고, 상기 분류 대상 제품의 단어 빈도 벡터와 미리 학습된 실용재의 단어 빈도 벡터 간의 코사인 유사도가 상기 분류 대상 제품의 단어 빈도 벡터와 쾌락재의 단어 빈도 벡터 간의 코사인 유사도보다 작으면 상기 분류 대상 제품을 쾌락재로 분류할 수 있다.

상기 분류 대상 제품에 대한 감정 지수를 산출하는 것은, 상기 단어가 속하는 감정 범주를 검출하고, 미리 저장된 감정 범주별 사용확률 데이터로부터 상기 단어의 감정 범주별 사용 확률을 검출하고, 미리 저장된 감정 범주별 감정 강도 데이터로부터 상기 단어의 감정 범주에 대응하는 감정 강도를 검출하고, 상기 단어의 감정 범주별 사용 확률로 상기 단어의 감정 범주에 대응하는 감정 강도를 보정하고, 상기 보정된 감정 강도 이용하여 상기 분류 대상 제품에 대한 감정 지수를 산출할 수 있다.

상기 보정된 감정 강도 이용하여 상기 분류 대상 제품에 대한 감정 지수를 산출하는 것은, 상기 보정된 감정 강도, 상기 단어의 감정 범주별 출현빈도 및 상기 단어의 감정 범주별 사용 확률의 가중평균을 산출하여 상기 분류 대상 제품에 대한 감정 지수를 산출할 수 있다.

상기 분류 대상 제품에 대한 감정 지수로 상기 분류 대상 제품의 유형을 분류하는 것은, 복수의 제품에 대한 리뷰를 수집하고, 수집된 복수의 제품에 대한 리뷰를 기계학습을 통해 감정 지수에 따라 제품의 유형을 분류할 수 있는 학습 데이터를 생성하고, 상기 분류 대상 제품에 대한 감정 지수를 상기 학습 데이터에 적용하여 상기 분류 대상 제품의 유형을 분류할 수 있다.

상기 분류 대상 제품이 속하는 도메인을 검출하고, 미리 저장된 도메인별 특징 조합 데이터로부터 상기 분류 대상 제품이 속하는 도메인에 대응되는 특징 조합 정보를 검출하고, 상기 검출한 특징 조합 정보에 따라 상기 분류 대상 제품에 대한 분류 모델을 생성하고, 상기 분류 대상 제품에 대한 분류 모델을 이용하여 상기 분류 대상 제품의 유형을 분류하는 것을 더 포함할 수 있다.

상기 리뷰에 출현한 단어의 출현빈도를 산출하는 것은, 실용재 및 쾌락재 리뷰에 출현하는 단어의 수의 차이에 의한 오차 요인을 최소화할 수 있도록 상기 단어 출현빈도를 상기 단어의 개수 대비 상기 리뷰에서 출현하는 전체 단어의 개수의 비율로 보정하는 것을 더 포함할 수 있다.

본 발명의 일 실시예에 따른 제품유형 분류 장치는 분류 대상 제품의 리뷰를 수집하는 수집부, 상기 리뷰로부터 단어를 추출하여 상기 단어의 출현빈도를 산출하는 전처리부 및 상기 단어의 출현빈도를 이용하여 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수를 산출하고, 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수에 따라 상기 분류 대상 제품의 유형을 분류하는 분류부를 포함한다.

상술한 본 발명의 일측면에 따르면, 제품의 리뷰에 포함된 단어로 해당 제품의 유형을 판단할 수 있는 지수를 산출함으로써, 보다 객관적으로 해당 제품의 유형을 분류할 수 있다.

도 1 은 본 발명의 일 실시예에 따른 제품유형 분류 장치의 블록도이다.
도 2 는 학습 알고리즘별 분류 정확도 결과를 나타낸 그래프이다.
도 3 은 본 발명의 일 실시예에 따른 실용쾌락 지수를 이용한 제품유형 분류 방법을 도시한 순서도이다.
도 4 는 본 발명의 다른 실시예에 따른 실용쾌락 지수를 이용한 제품유형 분류 방법을 도시한 순서도이다.
도 5 는 본 발명의 일 실시예에 따른 단어 유사도를 이용한 제품유형 분류 방법을 도시한 순서도이다.
도 6 은 본 발명의 다른 실시예에 따른 단어 유사도를 이용한 제품유형 분류 방법을 도시한 순서도이다.
도 7 은 본 발명의 일 실시예에 따른 감정 지수를 이용한 제품유형 분류 방법을 도시한 순서도이다.
도 8 은 본 발명의 일 실시예에 따른 특징 조합을 이용한 제품유형 분류 방법을 도시한 순서도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1 은 본 발명의 일 실시예에 따른 제품유형 분류 장치의 블록도이며, 도 2 는 학습 알고리즘별 분류 정확도 결과를 나타낸 그래프이다.

본 발명의 일 실시예에 따른 제품유형 분류 장치(1)는 제품에 대한 리뷰를 수집하여 리뷰에 포함된 단어를 분석하여 해당 제품의 유형을 분류할 수 있다. 이때, 제품의 유형을 분류하는 것은 해당 제품을 실용재 또는 쾌락재 중 하나로 분류하는 것을 의미할 수 있다.

도 1 을 참조하면, 본 발명의 일 실시예에 따른 제품유형 분류 장치(1)는 수집부(100), 전처리부(200) 및 분류부(300)를 포함할 수 있다.

수집부(100)는 온라인 커뮤니티 또는 쇼핑몰 등에서 제품에 대한 리뷰를 수집할 수 있다. 이때, 수집부(100)는 수집한 리뷰와 해당 제품에 대해 기록된 제품명 또는 스펙 정보를 매칭시켜 수집할 수 있다.

전처리부(200)는 수집부(100)로부터 수집한 리뷰를 분석하여 리뷰에서 빈발하게 나타나는 단어를 추출할 수 있다. 이를 위해, 전처리부(200)는 형태소 분석부(210) 및 단어 출현빈도 산출부(220)를 포함할 수 있다.

형태소 분석부(210)는 수집부(100)에 의해 수집된 리뷰를 문장 단위로 형태소 분석하여 수집된 리뷰로부터 해당 제품에 대한 명사, 동사, 형용사를 추출할 수 있다.

단어 출현빈도 산출부(220)는 형태소 분석부(210)에 의해 형태소 분석을 거친 문장으로부터 빈발 단어를 추출할 수 있다. 이때, 단어 출현빈도 산출부(220)는 임의의 단어가 미리 정해진 일정 수 이상 리뷰에 출현하는 것으로 확인되면 해당 단어를 빈발 단어로 인식할 수 있다. 단어 출현빈도 산출부(220)는 임의의 빈발 단어가 리뷰에 출현하는 횟수를 검출하여 해당 단어의 출현빈도를 산출할 수 있다.

한편, 실용재 제품의 리뷰가 쾌락재 제품의 리뷰보다 출현하는 단어의 단순히 수가 상대적으로 많기(실용재의 단어 수 중앙값: 10.62, 쾌락재의 단어 수 중앙값: 9.74) 때문에, 즉 실용재의 리뷰가 쾌락재의 리뷰보다 크기가 더 크기 때문에, 단순히 단어의 출현 빈도를 사용하면 실용재 리뷰에서 출현하는 단어들이 쾌락재에 비해 상대적으로 높은 빈도로 출현한다. 본 발명의 다른 실시예에 따른 제품유형 분류 장치(1)는 단어의 출현빈도를 이용하여 제품의 유형을 분류하는데, 상술한 것과 같이 단순히 출현빈도만을 사용하면 실용재가 쾌락재보다 상대적으로 출현빈도가 높아 제품의 유형을 정확히 분류할 수 없다. 이에 따라, 본 발명의 다른 실시예에 따른 전처리부(200)는 이러한 문제를 해결하기 위해 단어 보정부(230)를 포함할 수 있다.

단어 보정부(230)는 실용재와 쾌락재의 리뷰의 크기를 정규화하기 위해, 리뷰에 포함된 빈발 단어를 보정할 수 있다.

구체적으로, 단어 보정부(230)는 임의의 빈발 단어의 출현 횟수 대비 리뷰 하나에서 출현하는 총 단어의 출현 횟수의 비율을 산출하여 리뷰의 크기를 정규화할 수 있다. 보정된 임의의 빈발 단어의 출현빈도는 아래의 <수학식 1>에 의해 산출될 수 있다.

여기서,

는 단어

에 대한 보정된 단어 빈도를 나타내며, 는 리뷰 r에서 단어

의 출현빈도를 나타낸다.

본 발명의 일 실시예에 따른 전처리부(200)는 단어의 출현빈도를 이용하여 제품의 유형을 분류하기 위해 실용/쾌락 사전을 생성할 수 있다. 이를 위해, 전처리부(200)는 실용/쾌락 사전 생성부(240)를 포함할 수 있다.

실용/쾌락 사전 생성부(240)는 실용재 및 쾌락재 리뷰에 포함된 단어의 실용쾌락 지수를 산출함으로써 실용/쾌락 사전을 생성할 수 있다.

구체적으로, 실용/쾌락 사전 생성부(240)는 수집부를 통해 실용재 리뷰 및 쾌락재 리뷰를 수집할 수 있다. 실용/쾌락 사전 생성부(240)는 수집한 실용재 리뷰 및 쾌락재 리뷰에서 단어 또는 빈발 단어를 추출할 수 있다. 실용/쾌락 사전 생성부(240)는 실용재 리뷰에서 추출된 임의의 단어가 실용재 리뷰에서 출현하는 횟수를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 실용재 리뷰에서 출현하는 복수 개의 단어들의 총 출현 횟수를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 임의의 단어가 실용재 리뷰에서 출현하는 횟수 대비 실용재 리뷰에서 출현하는 복수 개의 단어들의 총 출현 횟수의 대비로 임의의 단어

가 실용재 리뷰에서 출현할 확률(

)을 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 쾌락리뷰에서 추출된 임의의 단어가 쾌락재 리뷰에서 출현하는 횟수를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 쾌락재 리뷰에서 출현하는 복수 개의 단어들의 총 출현 횟수를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 임의의 단어가 쾌락재 리뷰에서 출현하는 횟수 대비 쾌락재 리뷰에서 출현하는 복수 개의 단어들의 총 출현 횟수의 대비로 임의의 단어

가 쾌락재 리뷰에서 출현할 확률(

)을 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 산출한 임의의 단어

가 실용재 리뷰에서 출현할 확률(

) 및 임의의 단어

가 쾌락재 리뷰에서 출현할 확률(

)을 이용하여 임의의 단어

의 실용쾌락 지수를 산출할 수 있다. 이때, 임의의 단어

의 실용쾌락 지수는 아래의 <수학식 2>를 통해 산출될 수 있다.

여기서,

는 임의의 단어

의 실용쾌락 지수를 나타내며,

는 임의의 단어

가 실용재 리뷰에서 출현할 확률,

는 임의의 단어

가 쾌락재 리뷰에서 출현할 확률을 나타내며,

는 실용재 리뷰에서 임의의 단어

의 출현 빈도,

는 쾌락재 리뷰에서 임의의 단어

의 출현 빈도를 나타낸다.

실용/쾌락 사전 생성부(240)는 상술한 것과 같이 실용재 리뷰 및 쾌락재 리뷰에 포함된 단어들의 실용쾌락 지수를 산출하여 각각 저장함으로써 실용/쾌락 사전을 생성할 수 있다. 생성된 실용/쾌락 사전의 일예는 아래의 <표 1>과 같다.

본 발명의 다른 실시예에 따른 실용/쾌락 사전 생성부(240)는 단어 보정부(230)에 의해 보정된 출현빈도를 이용하여 실용/쾌락 사전을 생성할 수 있다.

구체적으로, 실용/쾌락 사전 생성부(240)는 수집부를 통해 실용재 리뷰 및 쾌락재 리뷰를 수집할 수 있다. 실용/쾌락 사전 생성부(240)는 수집한 실용재 리뷰 및 쾌락재 리뷰에서 단어를 추출할 수 있다. 실용/쾌락 사전 생성부(240)는 실용재 리뷰에서 추출된 임의의 단어가 실용재 리뷰에서 출현하는 횟수를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 단어 보정부(230)에 통해 임의의 단어의 보정된 출현빈도를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 실용재 리뷰에서 출현하는 복수 개의 보정된 단어들의 출현빈도를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 임의의 보정된 단어의 출현빈도 대비 실용재 리뷰에서 출현하는 복수 개의 보정된 단어들의 출현빈도의 대비로 임의의 보정된 단어

가 실용재 리뷰에서 출현할 확률(

)을 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 쾌락재 리뷰에서 추출된 임의의 보정된 단어의 출현빈도를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 쾌락재 리뷰에서 출현하는 복수 개의 보정된 단어들의 출현빈도를 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 임의의 보정된 단어의 출현빈도 대비 쾌락재 리뷰에서 출현하는 복수 개의 보정된 단어들의 출현빈도의 대비로 임의의 보정된 단어

가 쾌락재 리뷰에서 출현할 확률(

)을 산출할 수 있다. 실용/쾌락 사전 생성부(240)는 산출한 임의의 보정된 단어

가 실용재 리뷰에서 출현할 확률(

) 및 임의의 보정된 단어

가 쾌락재 리뷰에서 출현할 확률(

)을 이용하여 임의의 보정된 단어

의 실용쾌락 지수를 산출할 수 있다. 이때, 임의의 보정된 단어

의 실용쾌락 지수는 아래의 <수학식 3>를 통해 산출될 수 있다.

여기서,

는 임의의 보정된 단어

의 실용쾌락 지수를 나타내며,

는 실용재 리뷰에서 임의의 보정된 단어

의 출현 빈도,

는 쾌락재 리뷰에서 임의의 보정된 단어

의 출현 빈도를 나타내며,

는 실용재 리뷰에서 임의의 단어

의 출현 빈도,

는 쾌락재 리뷰에서 임의의 단어

의 출현 빈도를 나타낸다.

한편, 산출한 단어의 실용쾌락 지수는 -1.0 ~ 1.0의 값을 가지며, 1.0에 가까울수록 실용적인 단어, -1.0에 가까울수록 쾌락적인 단어로 인식될 수 있다. 즉, 단어의 실용쾌락 지수가 0보다 크면(>0) 실용적인 단어로 인식될 수 있으며, 0 이하이면 쾌락적인 단어로 인식될 수 있다.

분류부(300)는 제품의 리뷰에 출현하는 단어의 출현빈도를 분석하여 해당 제품의 유형을 분류할 수 있다. 이를 위해, 분류부(300)는 실용쾌락 지수 산출부(310) 및 제품유형 분류부(350)를 포함할 수 있다.

실용쾌락 지수 산출부(310)는 분류 대상 제품의 리뷰에 포함된 단어의 출현빈도 및 미리 생성된 실용/쾌락 사전을 이용하여 분류 대상 제품의 실용쾌락 지수를 산출할 수 있다.

구체적으로, 실용쾌락 지수 산출부(310)는 전처리부(200)를 통해 분류 대상 제품 리뷰에 출현하는 단어를 추출할 수 있다. 실용쾌락 지수 산출부(310)는 전처리부(200)를 통해 분류 대상 제품의 리뷰에 출현하는 각각의 단어에 대한 출현빈도를 산출할 수 있다. 실용쾌락 지수 산출부(310)는 미리 생성된 실용/쾌락 사전에서 분류 대상 제품 리뷰에 출현하는 각각의 단어에 대응하는 실용쾌락 지수를 검출할 수 있다. 실용쾌락 지수 산출부(310)는 분류 대상 제품의 리뷰에 출현하는 복수 개의 단어의 출현빈도 및 각 단어의 실용쾌락 지수를 이용하여 분류 대상 제품의 실용쾌락 지수를 산출할 수 있다. 이때, 분류 대상 제품의 실용쾌락 지수는 아래의 <수학식 4>에 의해 산출될 수 있다.

여기서,

는 제품 p의 실용쾌락 지수를 나타내며, W(p)는 제품 p의 리뷰에서 출현한 단어 집합을 나타내며,

는 제품 p의 리뷰에서 단어

의 출현빈도를 나타내며,

는 단어

의 실용쾌락 지수를 나타낸다.

본 발명의 다른 실시예에 따른 실용쾌락 지수 산출부(310)는 실용재 또는 쾌락재 리뷰의 크기로 인해 제품의 유형이 잘못 분류되는 것을 예방하기 위해, 출현빈도가 보정된 단어의 출현빈도를 사용하여 빈도 보정에 따른 분류 대상 제품의 실용쾌락 지수를 산출할 수 있다.

구체적으로, 본 발명의 다른 실시예에 따른 실용쾌락 지수 산출부(310)는 전처리부(200)를 통해 분류 대상 제품 리뷰에 출현하는 단어를 추출할 수 있다. 실용쾌락 지수 산출부(310)는 전처리부(200)를 통해 분류 대상 제품의 리뷰에 출현하는 각각의 단어에 대한 출현빈도를 산출할 수 있다. 실용쾌락 지수 산출부(310)는 단어 보정부(230)를 통해 분류 대상 제품의 리뷰에 출현하는 각각의 단어의 보정된 출현빈도를 산출할 수 있다. 실용쾌락 지수 산출부(310)는 미리 생성된 실용/쾌락 사전에서 분류 대상 제품 리뷰에 출현하는 각각의 단어에 대응하는 보정된 실용쾌락 지수(

)를 검출할 수 있다. 실용쾌락 지수 산출부(310)는 분류 대상 제품의 리뷰에 출현하는 복수 개의 단어의 보정된 출현빈도 및 각 단어의 보정된 실용쾌락 지수를 이용하여 분류 대상 제품의 보정된 실용쾌락 지수를 산출할 수 있다. 이때, 분류 대상 제품의 보정된 실용쾌락 지수는 아래의 <수학식 5>에 의해 산출될 수 있다.

여기서,

는 보정된 단어의 출현빈도를 사용하여 산출한 제품 p의 실용쾌락 지수를 나타내며, W(p)는 제품 p의 리뷰에서 출현한 단어 집합을 나타내며,

는 제품 p의 리뷰에서 단어

의 보정된 출현빈도를 나타내며,

는 출현빈도가 보정된 단어

의 실용쾌락 지수를 나타낸다.

제품유형 분류부(350)는 실용쾌락 지수 산출부(310)에 의해 산출된 분류 대상 제품의 실용쾌락 지수에 따라 분류 대상 제품의 유형을 분류할 수 있다. 제품유형 분류부(350)는 실용쾌락 지수 산출부(310)에 의해 산출된 분류 대상 제품의 실용쾌락 지수가 0보다 크면(>0) 분류 대상 제품의 유형을 실용재로 분류할 수 있다. 제품유형 분류부(350)는 실용쾌락 지수 산출부(310)에 의해 산출된 분류 대상 제품의 실용쾌락 지수가 0 이하이면 분류 대상 제품의 유형을 쾌락재로 분류할 수 있다.

단어의 보정되지 않은 출현빈도로 산출한 분류 대상 제품의 실용쾌락 지수와 단어의 보정된 출현빈도로 산출한 분류 대상 제품의 실용쾌락 지수를 비교한 일예는 아래의 <표 2>와 같다. <표 2>는 참조하면 대부분의 제품에서 단어의 보정되지 않은 출현빈도로 산출한 분류 대상 제품의 실용쾌락 지수와 단어의 보정된 출현빈도로 산출한 분류 대상 제품의 실용쾌락 지수간의 차이가 있으며, 일부 제품은 단어의 출현빈도 보정으로 인해 제품의 유형이 다르게 분류되는 것을 볼 수 있다.

본 발명의 다른 실시예에 따른 분류부(300)는 제품유형별로 학습된 단어 벡터와 분류 대상 제품의 단어 벡터 간의 유사도를 산출하여 분류 대상 제품의 유형을 분류할 수 있다. 이를 위해, 본 발명의 다른 실시예에 따른 분류부(300)는 단어 유사도 산출부(320) 및 제품유형 분류부(350)를 포함할 수 있다.

단어 유사도 산출부(320)는 단어 출현빈도 산출부(220)를 통해 분류 대상 제품의 리뷰에서 출현되는 복수 개의 단어의 출현빈도를 산출할 수 있다. 단어 유사도 산출부(320)는 분류 대상 제품의 리뷰에서 출현되는 복수의 단어의 출현빈도로 구성되는 분류 대상 제품의 단어 벡터를 생성할 수 있다. 단어 유사도 산출부(320)는 제품유형별로 학습된 단어 벡터와 분류 대상 제품의 단어 벡터 간의 유사도를 산출할 수 있다. 이때, 분류 대상 제품의 단어 벡터 및 학습된 단어 벡터는 아래의 <수학식 6>와 같다.

여기서,

는 실용재 리뷰에서 출현한 단어의 빈도 벡터를 나타내며,

는 쾌락재 리뷰에서 출현한 단어의 빈도 벡터를 나타내며,

는 분류 대상 제품 p의 리뷰에서 출현한 단어의 빈도 벡터를 나타내며,

는 실용재 리뷰에서 단어

의 출현 빈도,

는 쾌락재 리뷰에서 단어

의 출현 빈도,

는 분류 대상 제품 p의 리뷰에서 단어

의 출현 빈도,

는 실용재 리뷰에서 출현한 단어 집합,

는 쾌락재 리뷰에서 출현한 단어 집합, W(p)는 분류 대상 제품 p의 리뷰에서 출현한 단어 집합을 나타낸다.

한편, 제품유형별로 학습된 단어 벡터와 분류 대상 제품의 단어 벡터 간의 유사도를 산출하는 것은, 제품유형별로 학습된 단어 벡터와 분류 대상 제품의 단어 벡터 간의 코사인 유사도를 산출하는 것일 수 있다.

한편, 제품유형별로 학습된 단어 벡터는 실용재 리뷰에서 출현한 단어의 빈도 벡터 및 쾌락재 리뷰에서 출현한 단어의 빈도 벡터를 의미할 수 있다.

제품유형 분류부(350)는 단어 유사도 산출부(320)에 의해 산출된 제품유형별로 학습된 단어 벡터와 분류 대상 제품의 단어 벡터 간의 유사도에 따라 분류 대상 제품의 유형을 분류할 수 있다. 이때, 제품유형 분류부(350)는 실용재 리뷰에서 출현한 단어의 빈도 벡터(

)와 분류 대상 제품의 단어 벡터(

) 간의 단어 유사도를 산출할 수 있다. 또한, 제품유형 분류부(350)는 쾌락재 리뷰에서 출현한 단어의 빈도 벡터(

)와 분류 대상 제품의 단어 벡터(

) 간의 단어 유사도를 산출할 수 있다. 제품유형 분류부(350)는 실용재 리뷰에서 출현한 단어의 빈도 벡터(

)와 분류 대상 제품의 단어 벡터(

) 간의 단어 유사도와 쾌락재 리뷰에서 출현한 단어의 빈도 벡터(

)와 분류 대상 제품의 단어 벡터(

) 간의 단어 유사도 중에서 분류 대상 제품의 단어 벡터(

)와의 유사도가 높은 유형으로 분류 대상 제품의 유형을 분류할 수 있다. 예를 들어, 실용재 리뷰에서 출현한 단어의 빈도 벡터(

)와 분류 대상 제품의 단어 벡터(

) 간의 단어의 코사인 유사도가 0.7이며, 쾌락재 리뷰에서 출현한 단어의 빈도 벡터(

)와 분류 대상 제품의 단어 벡터(

) 간의 단어의 코사인 유사도 0.4이면, 해당 분류 대상 제품은 실용재로 분류될 수 있다.

본 발명의 또 다른 실시예에 따른 분류부(300)는 분류 대상 제품의 리뷰에 출현하는 감정 단어를 이용하여 제품의 유형을 분류할 수 있다. 이를 위해, 분류부(300)는 감정 지수 산출부(330) 및 제품유형 분류부(350)를 포함할 수 있다.

감정 지수 산출부(330)는 분류 대상 제품의 감정 범주별 감정 지수를 산출할 수 있다.

구체적으로, 감정 지수 산출부(330)는 감정 표현 단어를‘Sadness’, ‘Anger’, ‘Happiness’, ‘Surprise’, ‘Fear’, ‘Disgust’, ‘Boredom’, ‘Interest’, ‘Pain’, ‘Neutral’, ‘Other’의 11가지 감정 범주로 분류할 수 있다. 한편, 본 발명의 일 실시예에 따르면 ‘Neutral’, ‘Other’의 감정 범주는 감정을 나타내지 않기 때문에 11가지 감정 범주에서 제외시킬 수 있다. 이때, 각 감정 범주는 감정 범주별로 감정 강도가 매칭되어 저장되어 있다. 한편, 감정단어는 감정 범주별로 사용되는 확률이 다르기 때문에 감정 범주의 사용 확률에 맞게 감정 강도를 보정할 필요성이 있다. 이에 따라, 감정 지수 산출부(330)는 감정 범주별 확률과 미리 정해진 강도의 곱으로 각 감정 범주의 감정 강도를 산출할 수 있다. 감정 지수 산출부(330)는 감정 범주별로 산출한 감정 강도를 이용하여 분류 대상 제품의 감정 지수를 산출할 수 있다. 이때, 감정 지수 산출부(330)는 분류 대상 제품의 리뷰에 출현하는 감정 단어들의 감정 범주별 감정 강도를 가중평균으로 산출하여 분류 대상 제품의 감정 지수를 산출할 수 있으며, 아래의 <수학식 7>을 통해 분류 대상 제품의 감정 지수를 산출할 수 있다.

여기서,

는 분류 대상 제품 p에서 출현한 감정 단어의 집합을 나타내며,

는 분류 대상 제품 p의 감정 범주 c에 대한 감정 지수를 나타내며,

는 단어

가 감정 범주 c로 사용될 확률,

는 단어

가 감정 범주 c로 사용될 때의 감정 강도를 나타내며,

는 제품 p의 리뷰에서 단어

의 출현빈도를 나타낸다.

본 발명의 다른 실시예에 따른 감정 지수 산출부(330)는 실용재 또는 쾌락재 리뷰의 크기로 인해 제품의 유형이 잘못 분류되는 것을 예방하기 위해, 출현빈도가 보정된 단어의 출현빈도를 사용하여 감정 지수를 산출할 수 있다.

구체적으로, 감정 지수 산출부(330)는 감정 범주별 확률과 해당 감정 범주의 미리 정해진 강도의 곱으로 각 감정 범주의 감정 강도를 산출할 수 있다. 감정 지수 산출부(330)는 감정 범주별로 산출한 감정 강도를 이용하여 분류 대상 제품의 감정 지수를 산출할 수 있다. 이때, 감정 지수 산출부(330)는 분류 대상 제품의 리뷰에 출현하는 출현빈도가 보정된 단어들의 범주별 감정 강도를 가중평균으로 산출하여 분류 대상 제품의 감정 지수를 산출할 수 있으며, 아래의 <수학식 8>을 통해 분류 대상 제품의 감정 지수를 산출할 수 있다.

여기서,

는 분류 대상 제품 p의 감정 범주 c에 대한 보정된 단어빈도를 이용한 감정 지수를 나타내며,

는 단어

가 감정 범주 c로 사용될 확률,

는 단어

가 감정 범주 c로 사용될 때의 감정 강도를 나타내며,

는 제품 p의 리뷰에서 단어

의 보정된 출현빈도를 나타낸다.

감정 지수 산출부(330)에 의해 제품 별, 감정 범주 별로 감정 지수가 산출된 일예를 아래의 <표 3>과 같다.

제품유형 분류부(350)는 감정 지수 산출부(330)에 의해 산출된 감정 지수를 이용하여 분류 대상 제품의 유형을 분류할 수 있다. 이때, 제품유형 분류부(350)는 기계학습을 통해 감정 지수로 제품의 유형을 분류할 수 있다. 이를 위해, 제품유형 분류부(350)는 수집부(100)를 통해 수집된 리뷰에서 감정 단어를 추출하고, 추출된 감정 단어에 대한 감정 범주 별 감정 지수를 산출하여 학습데이터를 생성하고, 기계학습을 통해 생성된 학습데이터를 감정 범주별로 분류할 수 있다.

한편, 상술한 것과 같이 산출된 제품의 실용쾌락 지수 또는 단어 유사도 또는 감정 지수 각각의 분류 방법을 사용하여 제품의 유형을 분류할 수 있으나, 임의의 기준으로 분류하면 오차가 발생하고, 최적의 분류 기준을 착지 어려운 문제가 있다. 따라서, 오차를 줄이기 위한 방법으로 기계학습을 사용하여 최적의 분류 기준을 찾아 모델을 생성해야 한다.

이에 따라, 본 발명의 또 다른 실시예에 따른 분류부(300)는 분류 대상 제품의 특징인 분류 대상 제품의 실용쾌락 지수, 단어 유사도 또는 감정 지수를 조합하여 분류 대상 제품을 분류할 수 있다. 이를 위해, 본 발명의 또 다른 실시예에 따른 분류부(300)는 특징 조합부(340) 및 제품유형 분류부(350)를 포함할 수 있다. 이때, 본 발명의 또 다른 실시예에 따른 분류부(300)는 분류를 위하여 의사 결정 나무(Decision tree), 서포트 벡터 머신(Support Vector Machine), 로지스틱 회귀(Logistic Regression) 알고리즘 중 실험을 통해 가장 좋은 알고리즘을 채택하고, 채택된 알고리즘으로 분류 모델을 생성하여 제품의 유형을 분류할 수 있다.

특징 조합부(340)는 분류 대상 제품의 실용쾌락 지수, 실용재 유사도, 쾌락재 유사도, 9가지 감정 지수(Sadness’, ‘Anger’, ‘Happiness’, ‘Surprise’, ‘Fear’, ‘Disgust’, ‘Boredom’, ‘Interest’, ‘Pain’)을 하나의 특징으로 인식할 수 있다. 특징 조합부(340)는 적어도 2개 이상의 특징을 조합할 수 있다. 이때, 특징 조합부(340)는 도메인 별로 특징 중요도를 산출하여 산출한 중요도에 따라 특징을 선택하여 특징을 조합할 수 있다. 이때, 특징 조합부(340)는 기계학습을 통해 도메인 별로 특징을 결정할 수 있다. 특징 조합부(340)는 도메인 별로 미리 정해진 특징 조합 데이터에 따라 분류 대상 제품의 특징 조합에 대한 분류 모델을 생성할 수 있다.

먼저, 특징 조합부(340)는 분류 모델을 생성하기 위한 학습 알고리즘을 채택하기 위해 특징 별로 학습 알고리즘의 분류 정확도를 산출할 수 있다. 이때, 특징 조합부(340)는 도메인 별로 수집한 리뷰를 학습 데이터와 평가 데이터로 분리할 수 있다. 한편, 도메인 별로 제품의 개수가 적은 경우 학습 데이터와 평가 데이터를 분리하기 어려운 문제가 있으므로, 본 발명의 일 실시예에 따른 특징 조합부(340)는 리브-원-아웃 교차 검증법(Leave-one-out cross validation)을 이용할 수 있다. 이때, 리브-원-아웃 교차 검증법은 n개의 데이터가 존재할 대 n-fold cross validation을 수행하는 것으로, n-1개의 데이터로 학습 데이터 집합(Tranining dataset)을 구축하고 나머지 1개로 평가 데이터 집합(Test dataset)을 구축하여 교차 검증을 진행하는 방법이며, 이때 평가 데이터가 1개씩 선택되기 때문에 총 n번의 검증이 가능하며 정확도는 n번 수행한 검증 정확도 평균으로 산출할 수 있다.

자동차 도메인을 예를 들어 설명하면, 전체 데이터 30개 중 29개의 데이터로 학습 데이터 셋을 구축하여 학습하고, 나머지 1개의 평가 데이터로 평가를 진행하여 학습 및 평가를 30번 반복한다. 모델의 분류 정확도(Accuracy)는 아래의 <수학식 9>에 의해 산출될 수 있으며, 30개의 정확도의 평균으로 평가할 수 있다.

분류 정확도(Accuracy)는 <수학식 9>와 같이 전체 데이터의 수에서 올바르게 분류된 TP(number of True Positive)와 TN(number of True Nagative)의 수를 나누어 산출할 수 있다.

도 2 를 통해 각각의 특징에 대한 학습 알고리즘 별 분류 정확도 결과를 보면, 서포트 벡터 머신 알고리즘이 ‘실용/쾌락 사전’과 ‘감정 지수’ 특징에서 가장 높은 정확도를 보이고, 의사결정 나무 알고리즘이 ‘단어 유사도’ 특징에서 가장 높은 정확도를 보인다. 이에 따라, 특징 조합부(340)는 ‘실용/쾌락 사전’과 ‘감정 지수’ 특징에서는 서포트 벡터 머신 알고리즘을 채택할 수 있으며, ‘단어 유사도’ 특징에서는 의사 결정 나무 알고리즘으로 학습 알고리즘을 채택할 수 있다. 특징 조합부(340)는 채택한 학습 알고리즘을 이용하여 도메인 별로 특징의 중요도를 산출할 수 있다. 특징 조합부(340)는 도메인 별 특징 중요도 순서에 따라 특징을 선택하여 특징을 조합할 때 최적의 특징의 개수를 도출할 수 있다. 이때, 중요도 결과를 기준으로 몇 개의 상위 특징을 이용하였을 때 가장 좋은 성능을 보이는지 단어의 보정된 빈도를 기준으로 서포트 벡터 머신 알고리즘을 이용하여 특징 조합의 정확도를 측정하여, 특징을 조합할 때 최적의 특징의 개수를 도출할 수 있다.

예를 들어, 자동차 도메인에서는 특징의 조합 결과, 중요도 상위 3개의 특징(실용쾌락 지수, 실용재 유사도, 지루 감정 지수)을 선택하여 분류 모델을 생성할 때 73.33%로 가장 높은 정확도를 가지는 것으로 나타난다. 이에 따라, 특징 조합부(340)는 자동차 도메인에서는 실용쾌락 지수, 실용재 유사도, 지루 감정 지수를 조합하여 특징 조합에 대한 분류 모델을 생성할 수 있다. 또한, 호텔 도메인에서는 중요도 상위 3개의 특징(실용쾌락 지수, 쾌락재 유사도, 기쁨 감정 지수)을 선택하여 분류 모델을 생성할 때 69%로 가장 좋은 정확도를 가지는 것으로 나타난다. 이에 따라, 특징 조합부(340)는 호텔 도메인에서는 실용쾌락 지수, 쾌락재 유사도, 기쁨 감정 지수를 조합하여 특징 조합에 대한 분류 모델을 생성할 수 있다. 또한, 시계 도메인에서는 중요도 상위 5개의 특징(실용쾌락 지수, 쾌락재 유사도, 실용재 유사도, 흥미 감정 지수, 놀람 감정 지수)을 선택하여 분류 모델을 생성할 때 93.1%로 가장 좋은 정확도를 가지는 것으로 나타난다. 이에 따라, 특징 조합부(340)는 시계 도메인에서는 실용쾌락 지수, 쾌락재 유사도, 실용재 유사도, 흥미 감정 지수, 놀람 감정 지수를 조합하여 특징 조합에 대한 분류 모델을 생성할 수 있다.

제품유형 분류부(350)는 특징 조합부(340)에 의해 생성된 분류 모델을 이용하여 분류 대상 제품의 유형을 분류할 수 있다.

이하에서는, 도 3 을 통하여 본 발명의 일 실시예에 따른 실용쾌락 지수를 이용한 제품유형 분류 방법에 대해 설명한다.

먼저, 수집부를 통해 분류 대상 제품의 리뷰를 수집(410)하고, 수집된 리뷰로부터 단어를 추출한다(420).

이때, 리뷰로부터 단어를 추출하는 것은, 상술한 것과 같이 리뷰를 문장 단위로 형태소 분석하여 빈발 단어를 추출하는 것일 수 있다.

리뷰로부터 추출된 단어가 리뷰에 출현되는 출현 횟수를 나타내는 단어의 출현빈도를 산출(430)하고, 산출한 출현빈도를 이용하여 분류 대상 제품의 실용쾌락 지수를 산출한다(440).

이때, 분류 대상 제품의 실용쾌락 지수를 산출하는 것은, 상술한 것과 같이, 분류 대상 제품의 리뷰에 포함된 단어의 출현빈도 및 미리 생성된 실용/쾌락 사전을 이용하여 분류 대상 제품의 실용쾌락 지수를 산출할 수 있다.

산출한 분류 대상 제품의 실용쾌락 지수가 미리 정해진 임계값, 즉 0을 초과하는지 여부를 확인(450)하여, 분류 대상 제품의 실용쾌락 지수가 0을 초과하면 분류 대상 제품을 실용재로 분류(460)하고, 분류 대상 제품의 실용쾌락 지수가 0 이하이면 분류 대상 제품을 쾌락재로 분류한다(470).

이하에서는, 도 4 를 통하여 본 발명의 다른 실시예에 따른 실용쾌락 지수를 이용한 제품유형 분류 방법에 대해 설명한다.

먼저, 수집부를 통해 분류 대상 제품의 리뷰를 수집(510)하고, 수집된 리뷰로부터 단어를 추출한다(520).

리뷰로부터 추출된 단어가 리뷰에 출현되는 출현 횟수를 나타내는 단어의 출현빈도를 산출(530)하고, 일반적으로 실용재 리뷰에 출현되는 단어의 수가 쾌락재 리뷰에 출현되는 단어의 수보다 많은 특성에 의해 제품의 유형이 잘못 분류될 가능성을 최소화시키기 위해 리뷰로부터 추출된 단어의 출현빈도를 보정한다(540).

이때, 단어의 출현빈도를 보정하는 것은, 상술한 <수학식 1>에 따라 보정될 수 있다.

단어의 보정된 출현빈도를 이용하여 분류 대상 제품의 실용쾌락 지수를 산출한다(550).

산출한 분류 대상 제품의 실용쾌락 지수가 미리 정해진 임계값, 즉 0을 초과하는지 여부를 확인(560)하여, 분류 대상 제품의 실용쾌락 지수가 0을 초과하면 분류 대상 제품을 실용재로 분류(570)하고, 분류 대상 제품의 실용쾌락 지수가 0 이하이면 분류 대상 제품을 쾌락재로 분류한다(580).

이하에서는, 도 5 를 통하여 본 발명의 일 실시예에 따른 단어 유사도를 이용한 제품유형 분류 방법에 대해 설명한다.

먼저, 수집부를 통해 분류 대상 제품의 리뷰를 수집(610)하고, 수집된 리뷰로부터 단어를 추출한다(620).

리뷰로부터 추출된 단어가 리뷰에 출현되는 출현 횟수를 나타내는 단어의 출현빈도를 산출(630)하고, 산출한 출현빈도를 이용하여 분류 대상 제품의 단어 벡터를 생성한다(640).

이때, 분류 대상 제품의 단어 벡터를 생성하는 것은, 리뷰로부터 추출되는 복수 개의 단어 각각의 출현빈도를 산출하여 단어와 출현빈도를 매칭시켜 분류 대상 제품의 단어 벡터를 생성하는 것일 수 있다.

생성한 분류 대상 제품의 단어 벡터와 제품유형별로 미리 학습된 단어 벡터 간의 유사도를 산출한다(650).

이때, 분류 대상 제품의 단어 벡터와 제품유형별로 미리 학습된 단어 벡터 간의 유사도를 산출하는 것은, 분류 대상 제품의 단어 벡터와 실용재에 대해 미리 학습된 단어 벡터와의 코사인 유사도를 산출하고, 분류 대상 제품의 단어 벡터와 쾌락재에 대해 미리 학습된 단어 벡터와의 코사인 유사도를 산출하는 것일 수 있다.

분류 대상 제품의 단어 벡터와 실용재에 대해 미리 학습된 단어 벡터와의 유사도가 분류 대상 제품의 단어 벡터와 쾌락재에 대해 미리 학습된 단어 벡터와의 유사도보다 큰 지 여부를 확인(660)하여, 분류 대상 제품의 단어 벡터와 실용재에 대해 미리 학습된 단어 벡터와의 유사도가 분류 대상 제품의 단어 벡터와 쾌락재에 대해 미리 학습된 단어 벡터와의 유사도보다 크면 분류 대상 제품을 실용재로 분류(670)하고, 작으면 분류 대상 제품을 쾌락재로 분류한다(680).

이하에서는, 도 6 을 통하여 본 발명의 다른 실시예에 따른 실용쾌락 지수를 이용한 제품유형 분류 방법에 대해 설명한다.

먼저, 수집부를 통해 분류 대상 제품의 리뷰를 수집(710)하고, 수집된 리뷰로부터 단어를 추출한다(720).

리뷰로부터 추출된 단어가 리뷰에 출현되는 출현 횟수를 나타내는 단어의 출현빈도를 산출(730)하고, 일반적으로 실용재 리뷰에 출현되는 단어의 수가 쾌락재 리뷰에 출현되는 단어의 수보다 많은 특성에 의해 제품의 유형이 잘못 분류될 가능성을 최소화시키기 위해 리뷰로부터 추출된 단어의 출현빈도를 보정한다(740).

단어의 보정된 출현빈도를 이용하여 분류 대상 제품의 단어 벡터를 생성한다(750).

생성한 분류 대상 제품의 단어 벡터와 제품유형별로 미리 학습된 단어 벡터 간의 유사도를 산출한다(760).

분류 대상 제품의 단어 벡터와 실용재에 대해 미리 학습된 단어 벡터와의 유사도가 분류 대상 제품의 단어 벡터와 쾌락재에 대해 미리 학습된 단어 벡터와의 유사도보다 큰 지 여부를 확인(770)하여, 분류 대상 제품의 단어 벡터와 실용재에 대해 미리 학습된 단어 벡터와의 유사도가 분류 대상 제품의 단어 벡터와 쾌락재에 대해 미리 학습된 단어 벡터와의 유사도보다 크면 분류 대상 제품을 실용재로 분류(780)하고, 작으면 분류 대상 제품을 쾌락재로 분류한다(790).

이하에서는, 도 7 을 통하여 본 발명의 일 실시예에 따른 감정 지수를 이용한 제품유형 분류 방법에 대해 설명한다.

먼저, 수집부를 통해 분류 대상 제품의 리뷰를 수집(810)하고, 수집된 리뷰로부터 감정 단어를 추출(820)하고, 리뷰로부터 추출된 감정 단어가 감정 범주 별로 사용되는 사용 확률을 검출한다(830).

이때, 감정 단어의 감정 범주 별 사용 확률은 감정 범주 별로 분류되어 미리 저장되어 있는 값일 수 있다.

검출된 해당 감정 단어의 감정 범주별 사용확률을 이용하여 해당 감정 단어의 감정 범주별 감정 강도 보정값을 산출한다(940).

이때, 해당 감정 단어의 감정 범주별 감정 강도 보정값을 산출하는 것은, 감정 단어는 여러 감정 범주에 속해질 수 있으며 어느 감정 범주에 속하느냐에 따라 해당 감정 단어가 나타내는 감정 강도가 달라질 수 있으므로, 감정 범주에 따라 감정 단어의 감정 강도를 보정하여 보다 정확한 감정 지수를 산출하기 위함이다. 예를 들어, ‘긴장하다’라는 감정 단어는 공포의 감정 범주에서 0.413의 사용확률을 가지며, ‘긴장하다’라는 감정 단어는 본래 4.72의 감정 강도를 가지나 공포의 감정 범주에서는 1.949(0.413ⅹ4.72=1.949)의 감정 강도 보정값을 가질 수 있다.

해당 감정 단어의 감정 범주별 감정 강도 보정값을 산출(840)한 후, 해당 감정 단어의 감정 범주별 감정 강도 보정값과 해당 감정 단어가 리뷰에서 출현하는 출현빈도를 이용하여 제품의 감정 범주별 감정 지수를 산출한다(850).

이때, 제품의 감정 범주별 감정 지수는 상술한 것과 같이 <수학식 7>을 통해 산출할 수 있다.

산출한 제품의 감정 범주 별 감정 지수를 기계학습을 통해 학습된 데이터에 적용하여 해당 제품의 유형을 분류한다(860)

이하에서는, 도 8 을 통하여 본 발명의 다른 실시예에 따른 특징 조합을 이용한 제품유형 분류 방법에 대해 설명한다.

먼저, 수집부를 통해 분류 대상 제품의 리뷰를 수집한다(910).

리뷰를 수집(910)한 후, 분류 대상 제품이 속하는 도메인을 검출(920)하고, 검출된 도메인에 대응되는 특징 조합을 검출한다(930).

이때, 특징 조합은, 상술한 것과 같이 도메인 별로 채택한 학습 알고리즘을 이용하여 도메인별 학습 중요도를 산출하고, 산출한 학습 중요도에 따라 최적의 특징의 개수를 도출하여 검출된 도메인별 특징 조합 데이터로부터 검출될 수 있다.

특징 조합을 검출(930)한 후, 검출된 특징 조합에 따라 분류 모델을 생성(940)하고, 생성한 분류 모델을 이용하여 분류 대상 제품의 유형을 분류한다(950).

이와 같은, 제품의 유형을 분류하는 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

1: 제품유형 분류 장치
100: 수집부
200: 전처리부
300: 분류부
310: 실용쾌락 지수 산출부
320: 단어 유사도 산출부
330: 감정 지수 산출부
340: 특징 조합부
350: 제품유형 분류부

Claims

분류 대상 제품의 리뷰를 수집하고,
상기 리뷰로부터 단어를 추출하여 상기 단어의 출현빈도를 산출하고,
상기 단어의 출현빈도를 이용하여 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수를 산출하고,
상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수에 따라 상기 분류 대상 제품의 유형을 분류하며,
상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 것은,
미리 구축된 실용쾌락 사전으로부터 상기 단어에 대응하는 단어 실용쾌락 지수를 검출하고, 상기 단어 실용쾌락 지수와 상기 단어의 출현빈도로 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 제품유형 분류 방법.
삭제
제 1항에 있어서,
상기 단어 실용쾌락 지수와 상기 단어의 출현빈도로 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 것은,
상기 리뷰로부터 복수 개의 단어를 추출하고, 상기 리뷰로부터 추출한 복수 개의 단어 각각의 출현빈도를 산출하고, 상기 복수 개의 단어 각각에 대응하는 단어 실용쾌락 지수를 검출하고, 상기 복수 개의 단어 각각의 출현빈도와 상기 복수 개의 단어 각각에 대응하는 단어 실용쾌락 지수의 가중평균을 산출하여 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 제품유형 분류 방법.
[청구항 4은(는) 설정등록료 납부시 포기되었습니다.]

제 3 항에 있어서,
상기 분류 대상 제품에 대한 실용쾌락 지수에 따라 상기 분류 대상 제품의 유형을 분류하는 것은,
상기 분류 대상 제품에 대한 실용쾌락 지수가 미리 정해진 임계값을 초과하면 상기 분류 대상 제품을 실용재로 분류하고, 상기 분류 대상 제품에 대한 실용쾌락 지수가 상기 미리 정해진 임계값 이하이면 상기 분류 대상 제품을 쾌락재로 분류하는 제품유형 분류 방법.
제 1 항에 있어서,
상기 분류 대상 제품에 대한 단어 유사도를 산출하는 것은,
상기 단어의 출현빈도로 구성되는 상기 분류 대상 제품의 단어 빈도 벡터를 생성하고, 상기 분류 대상 제품의 단어 빈도 벡터와 미리 학습된 실용재의 단어 빈도 벡터 간의 코사인 유사도를 산출하고, 상기 분류 대상 제품의 단어 빈도 벡터와 쾌락재의 단어 빈도 벡터 간의 코사인 유사도를 산출하는 제품유형 분류 방법.
[청구항 6은(는) 설정등록료 납부시 포기되었습니다.]

제 5 항에 있어서,
상기 분류 대상 제품에 대한 단어 유사도에 따라 상기 분류 대상 제품의 유형을 분류하는 것은,
상기 분류 대상 제품의 단어 빈도 벡터와 미리 학습된 실용재의 단어 빈도 벡터 간의 코사인 유사도가 상기 분류 대상 제품의 단어 빈도 벡터와 쾌락재의 단어 빈도 벡터 간의 코사인 유사도보다 크면 상기 분류 대상 제품을 실용재로 분류하고,
상기 분류 대상 제품의 단어 빈도 벡터와 미리 학습된 실용재의 단어 빈도 벡터 간의 코사인 유사도가 상기 분류 대상 제품의 단어 빈도 벡터와 쾌락재의 단어 빈도 벡터 간의 코사인 유사도보다 작으면 상기 분류 대상 제품을 쾌락재로 분류하는 제품유형 분류 방법.
제 1 항에 있어서,
상기 분류 대상 제품에 대한 감정 지수를 산출하는 것은,
상기 단어가 속하는 감정 범주를 검출하고, 미리 저장된 감정 범주별 사용확률 데이터로부터 상기 단어의 감정 범주별 사용 확률을 검출하고, 미리 저장된 감정 범주별 감정 강도 데이터로부터 상기 단어의 감정 범주에 대응하는 감정 강도를 검출하고, 상기 단어의 감정 범주별 사용 확률로 상기 단어의 감정 범주에 대응하는 감정 강도를 보정하고, 상기 보정된 감정 강도 이용하여 상기 분류 대상 제품에 대한 감정 지수를 산출하는 제품유형 분류 방법.
[청구항 8은(는) 설정등록료 납부시 포기되었습니다.]

제 7 항에 있어서,
상기 보정된 감정 강도 이용하여 상기 분류 대상 제품에 대한 감정 지수를 산출하는 것은,
상기 보정된 감정 강도, 상기 단어의 감정 범주별 출현빈도 및 상기 단어의 감정 범주별 사용 확률의 가중평균을 산출하여 상기 분류 대상 제품에 대한 감정 지수를 산출하는 제품유형 분류 방법.
[청구항 9은(는) 설정등록료 납부시 포기되었습니다.]

제 7 항에 있어서,
상기 분류 대상 제품에 대한 감정 지수로 상기 분류 대상 제품의 유형을 분류하는 것은,
복수의 제품에 대한 리뷰를 수집하고, 수집된 복수의 제품에 대한 리뷰를 기계학습을 통해 감정 지수에 따라 제품의 유형을 분류할 수 있는 학습 데이터를 생성하고, 상기 분류 대상 제품에 대한 감정 지수를 상기 학습 데이터에 적용하여 상기 분류 대상 제품의 유형을 분류하는 제품유형 분류 방법.
제 1 항에 있어서,
상기 분류 대상 제품이 속하는 도메인을 검출하고, 미리 저장된 도메인별 특징 조합 데이터로부터 상기 분류 대상 제품이 속하는 도메인에 대응되는 특징 조합 정보를 검출하고, 상기 특징 조합 정보에 따라 상기 분류 대상 제품에 대한 분류 모델을 생성하고, 상기 분류 대상 제품에 대한 분류 모델을 이용하여 상기 분류 대상 제품의 유형을 분류하는 것을 더 포함하는 제품유형 분류 방법.
제 1 항에 있어서,
상기 리뷰에 출현한 단어의 출현빈도를 산출하는 것은,
실용재 및 쾌락재 리뷰에 출현하는 단어의 수의 차이에 의한 오차 요인을 최소화할 수 있도록 상기 단어 출현빈도를 상기 단어의 개수 대비 상기 리뷰에서 출현하는 전체 단어의 개수의 비율로 보정하는 것을 더 포함하는 제품유형 분류 방법.
분류 대상 제품의 리뷰를 수집하는 수집부;
상기 리뷰로부터 단어를 추출하여 상기 단어의 출현빈도를 산출하는 전처리부; 및
상기 단어의 출현빈도를 이용하여 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수를 산출하고, 상기 분류 대상 제품에 대한 실용쾌락 지수, 단어 유사도 또는 감정 지수에 따라 상기 분류 대상 제품의 유형을 분류하는 분류부를 포함하며,
상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 것은,
미리 구축된 실용쾌락 사전으로부터 상기 단어에 대응하는 단어 실용쾌락 지수를 검출하고, 상기 단어 실용쾌락 지수와 상기 단어의 출현빈도로 상기 분류 대상 제품에 대한 실용쾌락 지수를 산출하는 제품유형 분류 장치.