KR102363958B1

KR102363958B1 - 이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램

Info

Publication number: KR102363958B1
Application number: KR1020210103207A
Authority: KR
Inventors: 이기원; 김서영; 양희; 김도희
Original assignee: 재단법인차세대융합기술연구원; 서울대학교 산학협력단
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2022-02-16

Abstract

이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램에 관한 것으로, 온라인 매체로부터 데이터를 수집하는 단계, 상기 수집된 데이터를 전처리하는 단계, 상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하여 단어 표현(word representation)을 수행하는 단계, 상기 단어 표현 결과를 기반으로 단어 클러스터링(word clustering)을 수행하는 단계, 상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링(document clustering)을 수행하는 단계, 및 상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 단계를 포함하는 것을 특징으로 한다.

Description

이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램{METHOD, APPARATUS AND PROGRAM FOR ANALYZING CUSTOMER PERCEPTION BASED ON DOUBLE CLUSTERING}

본 발명은 소비자 인식 분석 방법에 관한 것으로, 보다 구체적으로 이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램에 관한 것이다.

일반적으로, 소비자의 구매 과정에서 수많은 소비자 행동, 욕구, 니즈 정보가 비정형적 형태로 존재할 수 있다.

이러한 정보가 정보로써 활용되지 못하고, 데이터 수준으로 저장되고 있는 것이 현 소비자 상거래 현실이다.

따라서, 소비자의 비정형적 행동, 욕구, 니즈 정보를 활용하여 데이터들 사이의 융복합적 정보 분석을 통해 소비자 인식을 분석하여 소비자를 위한 제품/서비스 향상을 위한 정보로 활용할 필요가 있다.

하지만, 다양한 데이터들을 군집화하거나 분류하기 위한 다양한 자연 언어 처리 방식들을 이용하여 소비자 인식을 분석하고자 하였지만, 문서들의 특징 정보를 제대로 파악하지 못하여 이를 실무적으로 활용하기는 어려운 문제들이 있었다.

또한, 기존 방식은, 단어 클러스터링만을 수행하거나 또는 문서 클러스터링만을 수행하므로 해석력과 클러스터링 성능이 트레이드 오프(trade off) 관계에 있어 단어 클러스터링 맥락 반영이 부족하고, 문서 클러스터링을 규정할 수 있는 단어가 부족하여 문서에 대한 해석력이 낮아 소비자 인식을 분석하는데 어려움이 있었다.

따라서, 향후, 단어 클러스터링과 문서 클러스터링을 모두 진행하여 단어 클러스터링과 문서 클러스터링의 장점을 모두 취함으로써, 문서에 대한 해석력을 높여 소비자 인식을 정확하게 분석할 수 있는 소비자 인식 분석 방법의 개발이 요구되고 있다.

대한민국 등록특허 10-1847847호 (2018. 04. 12)

상술한 바와 같은 문제점을 해결하기 위한 본 발명의 일 목적은, 단어 클러스터링과 문서 클러스터링을 모두 진행하여 단어 클러스터링과 문서 클러스터링의 장점을 모두 취함으로써, 소비자 인식을 정확하게 분석할 수 있는 소비자 인식 분석 방법, 장치 및 프로그램을 제공하는 것이다.

또한, 본 발명은, 각국 언어 특성에 맞게 클러스터링을 수행하여 여러 언어로 작성된 텍스트에 대하여 효용성 및 효율성이 향상된 분석을 수행함으로써, 다양한 언어를 사용하는 소비자별로 소비자 인식을 정확하게 분석할 수 있는 소비자 인식 분석 방법, 장치 및 프로그램을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 소비자 인식 분석 방법은, 이중 클러스터링 기반 소비자 인식 분석 장치의 소비자 인식 분석 방법으로서, 온라인 매체로부터 데이터를 수집하는 단계, 상기 수집된 데이터를 전처리하는 단계, 상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하여 단어 표현(word representation)을 수행하는 단계, 상기 단어 표현 결과를 기반으로 단어 클러스터링(word clustering)을 수행하는 단계, 상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링(document clustering)을 수행하는 단계, 및 상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 단계를 포함하는 것을 특징으로 한다.

실시 예에 있어서, 상기 단어 표현을 수행하는 단계는, 상기 전처리된 데이터로부터 도출된 단어 리스트를 제1 알고리즘을 기반으로 학습하여 하나의 단어를 하나의 행렬로 나타내는 것을 특징으로 한다.

실시 예에 있어서, 상기 단어 클러스터링을 수행하는 단계는, 상기 단어 표현 결과에 제2 알고리즘을 적용하여 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)하는 것을 특징으로 한다.

실시 예에 있어서, 상기 문서 클러스터링을 수행하는 단계는, 상기 문서 벡터를 생성할 때, 상기 단어 클러스터링 결과를 기반으로 각각의 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 상기 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 상기 문서 벡터를 생성하는 것을 특징으로 한다.

실시 예에 있어서, 상기 문서 벡터를 생성하는 단계는, 상기 TF-IDF 스코어를 산출할 때, 각각의 단어들에 대하여 각 문서 내에서 단어 출현 확률을 기반으로 상기 TF-IDF 스코어를 산출하는 것을 특징으로 한다.

실시 예에 있어서, 상기 문서 벡터를 생성하는 단계는, 상기 각 단어 클러스터와의 연관도를 산출할 때, 각각의 단어 벡터와 각 단어 클러스터 중심 벡터를 곱하여 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하는 것을 특징으로 한다.

실시 예에 있어서, 상기 문서 클러스터링을 수행하는 단계는, 상기 단어 클러스터링 결과를 기반으로 단어들 중 다른 언어의 문자가 포함되면 제3 알고리즘을 기반으로 상기 다른 언어의 문자가 포함된 단어를 변형하고, 상기 변형된 단어에 대한 문서 벡터를 생성하며, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 것을 특징으로 한다.

실시 예에 있어서, 상기 문서 클러스터링을 수행하는 단계는, 상기 다른 언어의 문자가 포함된 단어를 변형할 때, 상기 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되면 엔-그램(N-gram) 알고리즘을 기반으로 상기 표의문자 및 표음문자 중 적어도 어느 하나가 포함된 단어를 엔-그램 형태로 변형하는 것을 특징으로 한다.

본 발명의 일 실시예에 따른 이중 클러스터링 기반 소비자 인식 분석 장치는, 온라인 매체로부터 데이터를 수집하는 데이터 수집부, 상기 수집된 데이터를 전처리하는 전처리부, 상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하는 단어 표현부, 상기 단어 표현 결과를 기반으로 단어 클러스터링을 수행하는 단어 클러스터링부, 상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 문서 클러스터링부, 그리고 상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 소비자 인식 분석부를 포함하는 것을 특징으로 한다.

상술한 과제를 해결하기 위한 본 발명의 다른 실시 예에 따른 소비자 인식 분석 방법을 제공하는 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 상술한 방법 중 어느 하나의 방법을 수행하기 위해 매체에 저장된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

상기와 같이 본 발명에 따르면, 단어 클러스터링과 문서 클러스터링을 동시에 활용하여 문서의 맥락을 반영하고 각 클러스터의 성격을 명확하게 규정하여 결과에 대한 해석력을 높임으로써, 소비자 인식을 정확하게 분석할 수 있다.

즉, 기존에는, 단어 클러스터링만을 수행하거나 또는 문서 클러스터링만을 수행하므로 해석력과 클러스터링 성능이 트레이드 오프(trade off) 관계에 있어 단어 클러스터링 맥락 반영이 부족하고, 문서 클러스터링을 규정할 수 있는 단어가 부족하여 문서에 대한 해석력이 낮아 소비자 인식을 분석하는데 어려움이 있었지만, 본 발명은, 단어 클러스터링과 문서 클러스터링을 모두 진행하여 단어 클러스터링과 문서 클러스터링의 장점을 모두 취함으로써, 문서에 대한 해석력을 높여 소비자 인식을 정확하게 분석할 수 있다.

또한, 본 발명은, 각국 언어 특성에 맞게 클러스터링을 수행하여 여러 언어로 작성된 텍스트에 대하여 효용성 및 효율성이 향상된 분석을 수행함으로써, 다양한 언어를 사용하는 소비자별로 소비자 인식을 정확하게 분석할 수 있다.

즉, 본 발명은, 온라인 매체로부터 데이터를 수집하여 데이터 전처리를 수행하고, Word2Vec 기반하여 단어 클러스터링을 수행한 뒤, TF-IDF를 이용한 문서 클러스터링을 수행할 수 있으며, 중국어와 같이 표의문자로 기재된 문서는 엔-그램(n-gram) 형태로 클러스터링을 진행할 수 있다.

따라서, 본 발명은, 단어 클러스터링 및 문서 클러스터링을 결합하여 클러스터의 성격을 명확히 규정하고, 문서 내 단어의 맥락을 고려하여 문서를 클러스터링함으로 관심사를 도출할 수 있으며, 언어 특성(표의문자, 표음문자)에 따라 텍스트 분석 방법을 달리 채택하여 여러 언어로 작성된 텍스트 분석의 효용성 및 효율성을 높일 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은, 본 발명의 일 실시예에 따른 소비자 인식 분석 장치를 설명하기 위한 블록 구성도이다.
도 2는, 데이터 수집을 위한 온라인 소셜 미디어에 개시된 포스트와 코멘트의 예시를 보여주는 도면이다.
도 3은, 본 발명의 일 실시예에 따른 소비자 인식 분석 장치의 소비자 인식 분석 방법을 설명하기 위한 흐름도이다.
도 4는, 본 발명의 제1 실시예에 따른 문서 클러스터링 방법을 설명하기 위한 흐름도이다.
도 5는, 본 발명의 제2 실시예에 따른 문서 클러스터링 방법을 설명하기 위한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.

도 1은, 본 발명의 일 실시예에 따른 소비자 인식 분석 장치를 설명하기 위한 블록 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 소비자 인식 분석 장치는, 데이터 수집부(110), 전처리부(120), 단어 표현부(130), 단어 클러스터링부(140), 문서 클러스터링부(150), 그리고 소비자 인식 분석부(160)를 포함할 수 있다.

데이터 수집부(data collection part)(110)는, 온라인 소셜 미디어로부터 데이터를 수집할 수 있다.

여기서, 데이터 수집부(110)는, 데이터를 수집할 때, 온라인 소셜 미디어로부터 특정 주제에 관한 빅데이터를 수집할 수 있다.

예를 들면, 온라인 소셜 미디어는, 레딧(Reddit)을 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

그리고, 빅데이터는, 포스트(post)와 코멘트(comment)를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

도 2는, 데이터 수집을 위한 온라인 소셜 미디어에 개시된 포스트와 코멘트의 예시를 보여주는 도면으로서, 도 2와 같이, 데이터 수집부(110)는, 온라인 소셜 미디어인 레딧(Reddit)으로부터 특정 주제에 관한 빅데이터(일 예로, 포스트와 코멘트 등)를 수집할 수 있다.

경우에 따라, 본 발명의 데이터 수집부(110)는, 타 소셜 미디어로도 확장 가능할 수 있다.

이어, 전처리부(data preprocessing part)(120)는, 데이터 수집부(110)로부터 수집된 데이터를 전처리할 수 있다.

여기서, 전처리부(120)는, 수집된 데이터로부터 단어의 원형 추출 및 특정 품사의 단어 선별 추출 등을 포함하는 데이터 전처리를 수행할 수 있다.

다음, 단어 표현부(word representation part)(130)는, 전처리된 데이터로부터 도출된 단어 리스트를 벡터화할 수 있다.

여기서, 단어 표현부(130)는, 단어 표현을 수행할 때, 전처리된 데이터로부터 도출된 단어 리스트를 제1 알고리즘을 기반으로 학습하여 하나의 단어를 하나의 행렬로 나타낼 수 있다.

일 예로, 제1 알고리즘은, 코사인 유사도를 기반으로 하는 워드투벡터(Word2Vec)를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

그리고, 도출된 단어 리스트는, 전처리된 데이터의 포스트(post)와 코멘트(comment)로부터 도출되는 단어를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

즉, 단어 표현부(130)는, 포스트(post)와 코멘트(comment)로부터 도출된 단어 리스트를 워드투벡터(Word2Vec) 알고리즘을 통해 학습할 수 있는데, 이를 통해 하나의 단어를 하나의 행렬(matrix)로 나타낼 수 있다.

다음, 단어 클러스터링부(word clustering part)(140)는, 단어 표현 결과를 기반으로 단어 클러스터링을 수행할 수 있다.

여기서, 단어 클러스터링부(140)는, 단어 클러스터링을 수행할 때, 단어 표현 결과에 제2 알고리즘을 적용하여 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)할 수 있다.

일 예로, 제2 알고리즘은, k-평균 클러스터링(k-means clustering)을 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

즉, 단어 클러스터링부(140)는, 코사인 유사도(cosine similarity)를 기반으로 한 워드투벡터(Word2Vec) 알고리즘에 k-평균 클러스터링(k-means clustering) 알고리즘을 적용하고, 단어의 의미를 기반으로 단어를 클러스터링한 후, 가까운 코사인 거리(cosine distance) 순으로 각 단어 클러스터에 속하는 단어들을 정렬(sorting)할 수 있다.

그리고, 문서 클러스터링부(document clustering part)(150)는, 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고, 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행할 수 있다.

여기서, 문서 클러스터링부(150)는, 문서 벡터를 생성할 때, 단어 클러스터링 결과를 기반으로 각각의 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성할 수 있다.

일 예로, 문서 클러스터링부(150)는, TF-IDF 스코어를 산출할 때, 각각의 단어들에 대하여 각 문서 내에서 단어 출현 확률을 기반으로 TF-IDF 스코어를 산출할 수 있다.

또한, 문서 클러스터링부(150)는, 각 단어 클러스터와의 연관도를 산출할 때, 각각의 단어 벡터와 각 단어 클러스터 중심 벡터를 곱하여 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출할 수 있다.

다른 실시에로서, 문서 클러스터링부(150)는, 문서 클러스터링을 수행할 때, 단어 클러스터링 결과를 기반으로 단어들 중 다른 언어의 문자가 포함되면 제3 알고리즘을 기반으로 다른 언어의 문자가 포함된 단어를 변형하고, 변형된 단어에 대한 문서 벡터를 생성하며, 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행할 수도 있다.

여기서, 문서 클러스터링부(150)는, 다른 언어의 문자가 포함된 단어를 변형할 때, 단어들 중 표의문자가 포함되면 엔-그램(N-gram) 알고리즘을 기반으로 표의문자 및 표음문자 중 적어도 어느 하나가 포함된 단어를 엔-그램 형태로 변형할 수 있다.

이처럼, 문서 클러스터링부(150)는, 하나의 문서에서, 단어 클러스터들의 TF-IDF를 고려하여 하나의 클러스터에 매핑되는 방식으로 문서 클러스터링을 진행할 수 있다.

다음, 소비자 인식 분석부(160)는, 문서 클러스터링 결과를 기반으로 소비자 인식을 분석할 수 있다.

이와 같이, 본 발명은, 단어 클러스터링과 문서 클러스터링을 동시에 활용하여 문서의 맥락을 반영하고 각 클러스터의 성격을 명확하게 규정하여 결과에 대한 해석력을 높임으로써, 소비자 인식을 정확하게 분석할 수 있다.

즉, 본 발명은, 온라인 소셜 미디어로부터 데이터를 수집하여 데이터 전처리를 수행하고, Word2Vec 기반하여 단어 클러스터링을 수행한 뒤, TF-IDF를 이용한 문서 클러스터링을 수행할 수 있으며, 중국어와 같이 표의문자로 기재된 문서는 엔-그램(n-gram) 형태로 클러스터링을 진행할 수 있다.

도 3은, 본 발명의 일 실시예에 따른 소비자 인식 분석 장치의 소비자 인식 분석 방법을 설명하기 위한 흐름도이다.

도 3에 도시된 바와 같이, 본 발명은, 먼저, 온라인 소셜 미디어로부터 데이터를 수집할 수 있다(S10).

여기서, 본 발명은, 온라인 소셜 미디어로부터 특정 주제에 관한 빅데이터를 수집할 수 있다.

예를 들면, 온라인 소셜 미디어는, 레딧(Reddit)을 포함할 수 있고, 빅데이터는, 포스트(post)와 코멘트(comment)를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

그리고, 본 발명은, 수집된 데이터를 전처리할 수 있다(S20).

여기서, 본 발명은, 수집된 데이터로부터 단어의 원형 추출 및 특정 품사의 단어 선별 추출 등을 포함하는 데이터 전처리를 수행할 수 있다.

이어, 본 발명은, 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하여 단어 표현(word representation)을 수행할 수 있다(S30).

여기서, 본 발명은, 전처리된 데이터로부터 도출된 단어 리스트를 제1 알고리즘을 기반으로 학습하여 하나의 단어를 하나의 행렬로 나타낼 수 있다.

일 예로, 제1 알고리즘은, 코사인 유사도를 기반으로 하는 워드투벡터(Word2Vec)를 포함할 수 있고, 도출된 단어 리스트는, 전처리된 데이터의 포스트(post)와 코멘트(comment)로부터 도출되는 단어를 포함할 수 있는데, 이는 일 실시예일 뿐, 이에 제한되지는 않는다.

즉, 본 발명은, 포스트(post)와 코멘트(comment)로부터 도출된 단어 리스트를 워드투벡터(Word2Vec) 알고리즘을 통해 학습하고, 이를 통해 하나의 단어를 하나의 행렬(matrix)로 나타낼 수 있다.

다음, 본 발명은, 단어 표현 결과를 기반으로 단어 클러스터링(word clustering)을 수행할 수 있다(S40).

여기서, 본 발명은, 단어 표현 결과에 제2 알고리즘을 적용하여 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)할 수 있다.

즉, 본 발명은, 코사인 유사도(cosine similarity)를 기반으로 한 워드투벡터(Word2Vec) 알고리즘에 k-평균 클러스터링(k-means clustering) 알고리즘을 적용하고, 단어의 의미를 기반으로 단어를 클러스터링한 후, 가까운 코사인 거리(cosine distance) 순으로 각 단어 클러스터에 속하는 단어들을 정렬(sorting)할 수 있다.

그리고, 본 발명은, 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고, 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링(document clustering)을 수행할 수 있다(S50).

여기서, 본 발명은, 단어 클러스터링 결과를 기반으로 각각의 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성할 수 있다.

경우에 따라, 본 발명은, 단어 클러스터링 결과를 기반으로 단어들 중 다른 언어의 문자가 포함되면 제3 알고리즘을 기반으로 다른 언어의 문자가 포함된 단어를 변형하고, 변형된 단어에 대한 문서 벡터를 생성할 수도 있다.

이어, 본 발명은, 문서 클러스터링 결과를 기반으로 소비자 인식을 분석할 수 있다(S60).

도 4는, 본 발명의 제1 실시예에 따른 문서 클러스터링 방법을 설명하기 위한 흐름도이다.

도 4에 도시된 바와 같이, 본 발명은, 단어 클러스터링 결과를 기반으로 각각의 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성할 수 있다(S52).

여기서, 본 발명은, TF-IDF 스코어를 산출할 때, 각각의 단어들에 대하여 각 문서 내에서 단어 출현 확률을 기반으로 TF-IDF 스코어를 산출할 수 있다.

또한, 본 발명은, 단어 클러스터링 결과를 기반으로 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성할 수 있다(S54).

여기서, 본 발명은, 각 단어 클러스터와의 연관도를 산출할 때, 각각의 단어 벡터와 각 단어 클러스터 중심 벡터를 곱하여 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출할 수 있다.

다음, 본 발명은, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성할 수 있다(S56).

이어, 본 발명은, 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행할 수 있다(S58).

도 5는, 본 발명의 제2 실시예에 따른 문서 클러스터링 방법을 설명하기 위한 흐름도이다.

도 5에 도시된 바와 같이, 본 발명은, 단어 클러스터링 결과를 기반으로 단어들 중 다른 언어의 문자가 포함되는지를 확인하고, 단어들 중 다른 언어의 문자가 포함되면 제3 알고리즘을 기반으로 다른 언어의 문자가 포함된 단어를 변형할 수 있다(S51).

일 예로, 본 발명은, 다른 언어의 문자가 포함된 단어를 변형할 때, 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되면 엔-그램(N-gram) 알고리즘을 기반으로 표의문자 및 표음문자 중 적어도 어느 하나가 포함된 단어를 엔-그램 형태로 변형할 수 있다.

그리고, 본 발명은, 변형된 단어에 대한 각각의 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성할 수 있다(S52).

또한, 본 발명은, 변형된 단어에 대한 각각의 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성할 수 있다(S54).

따라서, 본 발명은, 단어 클러스터링 및 문서 클러스터링을 결합하여 클러스터의 성격을 명확히 규정하고, 문서 내 단어의 쓰임을 고려하여 문서를 클러스터링함으로 관심사를 도출할 수 있으며, 언어 특성(표의문자, 표음문자)에 따라 텍스트 분석 방법을 달리 채택하여 여러 언어로 작성된 텍스트 분석의 효용성 및 효율성을 높일 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 방법은, 하드웨어인 서버와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

이중 클러스터링 기반 소비자 인식 분석 장치의 소비자 인식 분석 방법에 있어서,
온라인 매체로부터 데이터를 수집하는 단계;
상기 수집된 데이터를 전처리하는 단계;
상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하여 단어 표현(word representation)을 수행하는 단계;
상기 단어 표현 결과를 기반으로 단어 클러스터링(word clustering)을 수행하는 단계;
상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링(document clustering)을 수행하는 단계; 및
상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 단계를 포함하고,
상기 단어 표현을 수행하는 단계는,
온라인 소셜 미디어로부터 특정 주제에 관한 포스트(post)와 코멘트(comment)를 포함하는 전처리 데이터로부터 도출된 단어 리스트를 워드투벡터(Word2Vec)를 포함하는 제1 알고리즘을 통해 학습하고, 이를 통해 하나의 단어를 하나의 행렬(matrix)로 나타내며,
상기 단어 클러스터링을 수행하는 단계는,
상기 단어 표현 결과에 k-평균 클러스터링(k-means clustering)를 포함하는 제2 알고리즘을 통해 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)하며,
상기 문서 클러스터링을 수행하는 단계는,
상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되는지를 확인하고,
상기 확인 결과, 상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되면 엔-그램(N-gram)를 포함하는 제3 알고리즘을 통해 상기 단어를 엔-그램 형태로 변형하며, 상기 변형된 단어에 대한 각 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 상기 변형된 단어에 대한 각 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 것을 특징으로 하는 소비자 인식 분석 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
하드웨어인 컴퓨터와 결합되어, 상기 제1 항의 소비자 인식 분석 방법을 수행하기 위해 매체에 저장된, 소비자 인식 분석 장치의 소비자 인식 분석 방법을 제공하는 컴퓨터 프로그램.
이중 클러스터링 기반 소비자 인식 분석 장치에 있어서,
온라인 매체로부터 데이터를 수집하는 데이터 수집부;
상기 수집된 데이터를 전처리하는 전처리부;
상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하는 단어 표현부;
상기 단어 표현 결과를 기반으로 단어 클러스터링을 수행하는 단어 클러스터링부;
상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 문서 클러스터링부; 그리고,
상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 소비자 인식 분석부를 포함하고,
상기 단어 표현부는,
온라인 소셜 미디어로부터 특정 주제에 관한 포스트(post)와 코멘트(comment)를 포함하는 전처리 데이터로부터 도출된 단어 리스트를 워드투벡터(Word2Vec)를 포함하는 제1 알고리즘을 통해 학습하고, 이를 통해 하나의 단어를 하나의 행렬(matrix)로 나타내며,
상기 단어 클러스터링부는,
상기 단어 표현 결과에 k-평균 클러스터링(k-means clustering)를 포함하는 제2 알고리즘을 통해 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)하며,
상기 문서 클러스터링부는,
상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되는지를 확인하고,
상기 확인 결과, 상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되면 엔-그램(N-gram)를 포함하는 제3 알고리즘을 통해 상기 단어를 엔-그램 형태로 변형하며, 상기 변형된 단어에 대한 각 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 상기 변형된 단어에 대한 각 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 것을 특징으로 하는 소비자 인식 분석 장치.