KR102023516B1

KR102023516B1 - 사용자 반응 데이터 분석 방법 및 장치

Info

Publication number: KR102023516B1
Application number: KR1020170117662A
Authority: KR
Inventors: 김선율; 우용완; 조성국; 이태주; 류청; 김헌범
Original assignee: 주식회사 인데이터랩
Priority date: 2017-08-11
Filing date: 2017-09-14
Publication date: 2019-09-20
Also published as: KR20190017597A

Abstract

본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법이 제공된다. 상기 방법은 사용자 반응을 포함하는 적어도 하나의 텍스트를 수신하는 단계, 적어도 하나의 텍스트를 매트릭스로 수치화하는 단계, 적어도 하나의 텍스트에 대한 수치화된 매트릭스에 기초하여 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 스코어를 예측하도록 구성된 엔진을 이용하여, 적어도 하나의 텍스트에 대한 스코어를 결정하는 단계 및 결정된 스코어를 제공하는 단계를 포함한다.

Description

사용자 반응 데이터 분석 방법 및 장치{METHOD FOR ANALYZING SOCIAL SERVICE DATA AND APPARATUS USING THE SAME}

본 발명은 사용자 반응 데이터 분석 방법 및 장치에 관한 것으로서, 보다 상세하게는, 사용자 반응 데이터 중 텍스트의 감성지수를 산출하기 위한 사용자 반응 데이터 분석 방법 및 장치에 관한 것이다.

제품이나 서비스를 제공하는 기업이 고객의 반응을 알아보는 다양한 방법들이 존재한다. 최근에는 특히 온라인에서 제공할 수 있는 다양한 서베이, 제공 사이트에서의 상품평 등을 통해 고객의 반응이 수집될 수 있다. 마케팅 담당자들은 다양한 방식으로 수집된 상품이나 서비스에 대한 고객의 반응을 참조하여 상품이나 서비스에 대한 개선을 하거나 요구에 맞는 마케팅을 기획하도록 할 수 있다.

발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.

그러나, 현존하는 고객 반응 수집은 기업이 제공하는 플랫폼 내에서 수집되므로, 정보의 모수가 편향됨으로 인해 대표성의 오류가 발생할 가능성이 존재한다. 또한, 자사의 고객 반응 수집 결과, 기업의 고객 소통 채널상에 존재하는 고객 반응은 전체 소셜 빅데이터 상에 존재하는 데이터의 5% 미만이다.

이에 따라, 기업의 합리적인 의사결정을 위해서는 95%의 고객 반응을 반영해야 한다. 이를 위해서는 소셜 미디어에서 나타나는 집단감성에 대한 객관화가 필요하다. 즉, 소셜 미디어의 빅데이터 상에서 제품에 대한 고객의 의견을 제품에 대한 평가 점수로 계량화하여 파악하는 것이 기업에게 있어서 매우 중요하다.

한편, 70% 이상에 달하는 소셜 미디어 상의 고객 반응은 긍정도 부정도 아닌 중립적인 반응이다. 종래의 소셜 데이터 분석 서비스는 브랜드를 추종하는 수호자나 비방하는 비방자도 아닌, 일반적인 소비자들의 반응이 가지는 특수성과 중요성을 고려하지 않는다. 따라서, 기업들은 대다수의 소비자들의 니즈를 정확하게 파악하지 못하고, 효율적인 고객화에 어려움을 겪을 수 있다.

다시 말하면, 종래의 기술로는 기업의 매출 증대를 위해 반드시 파악해야 할 고객 구매 행위의 '이유'는 파악하기 어렵다. 예를 들어, 종래의 이분법적인 분류 방식으로는 고객 반응을 만족 또는 불만족으로 나누기만 할 뿐이므로, 세분화된 소비자의 의견 반영이 불가능하다.

이에 본 발명의 발명자들은, 소셜 미디어에서 나타나는 텍스트들을 긍정 또는 부정으로 나타내지 않고, 그 감성의 정도를 점수화함으로써, 소비자들의 반응이 가지는 의미를 보다 명확하게 이해할 수 있도록 제공할 수 있다는 점을 인식하였다.

따라서. 본 발명의 해결하고자 하는 과제는 고객 반응을 보다 정확하게 파악할 수 있는 사용자 반응 데이터 분석 방법 및 장치를 제공하는 것이다.

나아가, 본 발명의 발명자들은 소셜 미디어들에 나타나는 텍스트들을 점수화하는데 있어서, 긍정 또는 부정의 감성을 점수로 예측하도록 머신러닝된 모델을 사용할 수 있다는 점을 인식하였다. 또한, 이러한 머신러닝된 모델을 사용하는데 있어서, 텍스트를 그대로 사용하기 보다는 텍스트를 수치화하여 사용하는 것이 보다 정확하고, 연산 속도에 있어서 향상된 효율을 가진다는 점을 인지하였다. 또한, 텍스트를 수치화하여 사용할 때, 너무 많은 변수가 있음에 따라 정확도가 떨어지거나 연산 속도가 떨어질 수 있다는 점도 인지하였다.

이에, 본 발명의 해결하고자 하는 다른 과제는, 소셜 미디어들에 나타나는 텍스트들을 점수화하는데 있어서, 긍정 또는 부정의 감성을 점수로 예측하도록 머신러닝된 모델을 정확도와 연산 속도가 향상된 방식으로 사용하는 사용자 반응 데이터 분석 방법 및 장치를 제공하는 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법이 제공된다. 상기 방법은 사용자 반응을 포함하는 적어도 하나의 텍스트를 수신하는 단계, 적어도 하나의 텍스트를 매트릭스로 수치화하는 단계, 적어도 하나의 텍스트에 대한 수치화된 매트릭스에 기초하여 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 스코어를 예측하도록 구성된 엔진을 이용하여, 적어도 하나의 텍스트에 대한 스코어를 결정하는 단계 및 결정된 스코어를 제공하는 단계를 포함한다.

본 발명의 다른 특징에 따르면, 적어도 하나의 텍스트를 매트릭스로 수치화하는 단계는, 텍스트에서 단어의 출연빈도수를 카운트하는 단계 및 텍스트에 대한 정보를 유지하면서 변수를 줄이기 위해 단어의 출연빈도수를 매트릭스로 처리하는 단계를 포함한다.

본 발명의 또 다른 특징에 따르면, 단어의 출연빈도수를 매트릭스로 처리하는 단계는, 단어의 출연빈도수를 매트릭스로 치환하는 단계 및 매트릭스의 차원을 축소하는 단계를 포함한다.

본 발명의 또 다른 특징에 따르면, 단어의 출연빈도수를 매트릭스로 치환하는 단계는 tf -idf, word2vec, doc2vec 중 하나를 이용하여 단어의 출연빈도수를 매트릭스로 치환하는 단계일 수 있다.

본 발명의 또 다른 특징에 따르면, 매트릭스의 차원을 축소하는 단계는 truncated Singular Value Decomposition(SVD) 또는 Sufficient Reduction(SR)을 이용하여 차원을 축소하는 단계일 수 있다.

본 발명의 또 다른 특징에 따르면, 스코어를 제공하는 단계는 적어도 하나의 텍스트에 대한 스코어를 텍스트 작성자의 정보와 연관시켜 제공하는 단계를 포함한다.

본 발명의 또 다른 특징에 따르면, 스코어를 텍스트 작성자의 정보와 연관시켜 제공하는 단계는, 소셜 서비스에서 팔로워, 친구, 및 구독수 중 적어도 하나를 기초로 산출된 텍스트 작성자 영향력을 이용하여 적어도 하나의 텍스트에 대한 스코어를 보상하는 단계를 포함한다.

본 발명의 또 다른 특징에 따르면, 스코어를 제공하는 단계는 적어도 하나의 텍스트를 스코어에 따라 2 이상의 식별자로 분류하는 단계 및 2 이상의 식별자를 시간대별로 시각적으로 제공하는 단계를 포함한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 장치가 제공된다. 상기 장치는 사용자 반응을 포함하는 적어도 하나의 텍스트를 수신하도록 구성된 통신부, 통신부와 동작가능하도록 연결되고, 통신부로부터 사용자 반응을 포함하는 적어도 하나의 텍스트를 획득하고, 적어도 하나의 텍스트를 매트릭스로 수치화하고, 적어도 하나의 텍스트에 대한 수치화된 매트릭스에 기초하여 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 스코어를 예측하도록 구성된 엔진을 이용하여, 적어도 하나의 텍스트에 대한 스코어를 결정하도록 구성된 프로세서 및 결정된 스코어를 제공하도록 구성된 출력부를 포함한다.

본 발명의 다른 특징에 따르면, 적어도 하나의 텍스트를 매트릭스로 수치화하는 것은, 텍스트에서 단어의 출연빈도수를 카운트하고, 단어의 출연빈도수를 매트릭스로 치환하고, 매트릭스의 차원을 축소하는 것을 포함한다.

본 발명은, 고객 반응을 보다 정확하게 파악할 수 있는 사용자 반응 데이터 분석 방법 및 장치를 제공할 수 있는 효과가 있다.

나아가, 본 발명은 소셜 미디어들에 나타나는 텍스트들을 점수화하는데 있어서, 긍정 또는 부정의 감성을 점수로 예측하도록 머신러닝된 모델을 정확도와 연산 속도가 향상된 방식으로 사용할 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법을 이용하는 서비스를 설명하기 위한 개략도이다.
도 2는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 장치를 설명하기 위한 개략적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다.
도 4는 본 발명의 다른 실시예에 따른 사용자 반응 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다.
도 5는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법과 종래의 분석 방법을 비교하기 위한 개략도이다.
도 6은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 감성 지수를 예시적으로 도시한 유저인터페이스를 설명하기 위한 개략도이다.
도 7은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 다양한 시각화 방식에 따라 소셜 미디어에서 언급된 버즈량을 비교하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 다양한 시각화 방식에 따라 스코어 분포를 나타내기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 다양한 시각화 방식에 따라 하위 스코어에서 언급되는 단어들을 나타내는 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 장치를 이용하는 시스템을 설명하기 위한 개략도이다. 사용자 반응 데이터 분석 장치(100)를 이용하는 시스템(1000)은 소셜 서비스 이용 디바이스(10), 소셜 서비스 서버(20), 사용자 반응 데이터 분석 장치(100) 및 사용자 반응 데이터 분석 이용 디바이스(30)를 포함할 수 있다. 본 명세서에서, 소셜 서비스 이용 디바이스(10) 및 사용자 반응 데이터 분석 이용 디바이스(30)는 제한되지 않고, 예를 들어, 범용 컴퓨터, 랩탑, 네트워크 연결형 저장소, 스트리밍 서버, 모바일 디바이스 (예: MP3 플레이어, 테블릿 디바이스, 스마트폰) 등을 포함할 수 있다.

소셜 서비스 이용 디바이스(10)에서 사용자 반응 데이터가 생성된다. 소셜 서비스 데이터란 페이스북, 인스타그램, 블로그, 웹페이지형 소셜 서비스, 텀블러 등의 소셜 서비스 또는 소셜 미디어의 이용자가 작성한 모든 텍스트 데이터를 의미할 수 있다. 텍스트 데이터는 특정 서비스나 유무형의 상품에 대한 텍스트를 포함할 수 있다. 소셜 서비스 서버(20)는 소셜 서비스 이용 디바이스(10)에서 생성된 소셜 서비스 데이터를 저장하고 관리한다. 도 1에서는 소셜 서비스 서버(20)를 편의상 하나의 서버로 도시하였으나, 이에 제한되지 않고, 소셜 서비스 서버(20)는 운영 서버, 데이터베이스 등 다양한 구현 형태를 포함할 수 있다. 또한, 사용자 반응 데이터는 소셜 서비스로부터의 텍스트 데이터뿐만 아니라 인터넷에서 획득가능한 사용자 반응을 포함하는 텍스트 데이터를 모두 포함할 수 있다.

본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 장치(100)는 소셜 서비스 서버(20)에 저장된 소셜 서비스 데이터를 수신하고, 소셜 서비스 데이터 또는 텍스트 데이터를 분석하도록 구성된다. 본 명세서에서, 텍스트 데이터의 분석은 특정 서비스나 유무형의 상품에 대한 텍스트에 대해 감성스코어를 결정하고, 감성스코어, 특정 범위의 감성스코어를 가지는 텍스트, 그 텍스트들의 공통점 및 감성 스코어를 이용하여 생성된 시각적인 표지들을 제공하는 일련의 모든 작업들을 제한하지 않고 포함할 수 있다.

사용자 반응 데이터 분석 장치(100)는 수신된 텍스트 데이터를 수치화하도록 변환시키고, 수치화된 텍스트 데이터에 바람직하게는 전처리를 수행한다. 나아가, 사용자 반응 데이터 분석 장치(100)는 수치화된 텍스트 데이터가 입력되는 경우 텍스트들의 감성스코어를 예측하도록 구성된 예측 모델을 이용하여 텍스트 데이터에 대한 감성스코어를 획득한다. 또한, 사용자 반응 데이터 분석 장치(100)는 획득된 감성스코어를 이용하여 사용자 반응 데이터 분석 이용 디바이스(30)의 요청에 대응한 사용자 반응 데이터 분석을 제공할 수 있다. 사용자 반응 데이터 분석 장치(100)가 텍스트 데이터를 처리하는 구체적인 방법들에 대해서는 도 3 및 4를 참조하여 후술한다.

사용자 반응 데이터 분석 이용 디바이스(30)는 사용자 반응 데이터 분석 장치(100)에 특정 서비스나 유무형 상품과 연관된 소셜 서비스 데이터의 분석을 요청할 수 있다. 사용자 반응 데이터 분석 이용 디바이스(30)는 상기 요청에 응답하여 사용자 반응 데이터 분석 장치(100)로부터 감성스코어를 포함하는 소셜 서비스 데이터에 대한 분석 결과를 수신하고 열람할 수 있다.

도 2는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 장치를 설명하기 위한 개략적인 블록도이다.

사용자 반응 데이터 분석 장치(100)는 통신부(110), 사용자 입력부(120), 출력부(130), 메모리(140), 인터페이스부(150), 제어부(160) 및 전원 공급부(170) 등을 포함할 수 있다. 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 가지거나 그보다 적은 구성요소들을 갖는 장치가 구현될 수도 있다.

통신부(110)는 장치와 장치가 위치한 네트워크 사이의 유무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 통신부(110)는, 인터넷 등의 통신망 상에서 외부의 장치 예를 들어, 소셜 서비스 서버와 신호를 송수신한다. 상기 신호는, 다양한 형태의 데이터를 포함할 수 있다. 예를 들어, 통신부(110)는 소셜 서비스 서버로부터 텍스트인 사용자 반응 데이터를 수신할 수 있다. 사용자 반응 데이터는 특정 서비스 또는 유무형 상품과 연관된 사용자 반응 데이터일 수 있다.

다양한 실시예에서, 사용자 반응 데이터 분석 장치(100)는 크롤러(crawler) 모듈을 포함할 수 있다. 크롤러 모듈은 다양한 소셜 서비스에 존재하는 사용자 반응 데이터를 수집하기 위한 모듈이다. 크롤러 모듈은 광고/스팸 등의 불필요한 텍스트 데이터를 필터링할 수 있다. 또한, 크롤러 모듈은 사용자 반응 데이터와 함께 데이터를 생산한 사용자에 대한 정보도 함께 수집할 수 있다. 함께 수집되는 사용자에 대한 정보는 예를 들어 인구통계학적 데이터일 수 있다. 크롤러 모듈은 서로 상이한 소셜 서비스로부터 텍스트 데이터를 수집할 수 있다. 이 경우, 크롤러 모듈은 사용자에 대한 정보를 변환하여 일정한 포맷으로 통일시킬 수 있다. 다양한 실시예에서, 크롤러 모듈은 사용자 반응 데이터 분석 장치(100)와 별도로 구현될 수 있으며, 사용자 반응 데이터 분석 장치(100)는 분리된 크롤러 모듈로부터 전술한 텍스트인 사용자 반응 데이터 (및 인구통계학적 데이터)를 수신할 수 있다.

사용자 입력부(120)는 사용자가 장치기의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(120)는 키 패드(key pad) 돔 스위치 (domeswitch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다.

출력부(130)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 이에는 디스플레이부(131), 음향 출력 모듈(132) 등이 포함될 수 있다. 디스플레이부(131)는 장치에서 처리되는 정보를 표시(출력)한다. 예를 들어, 장치가 시스템과 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 디스플레이부(131)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 음향 출력 모듈(132)은 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈(132)은 장치에서 수행되는 기능과 관련된 음향 신호를 출력하기도 한다. 다양한 실시예에서, 사용자 입력부(120)나 출력부(130)는 생략되도록 구현될 수도 있다.

메모리부(140)는 제어부(160)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들의 임시 저장을 위한 기능을 수행할 수도 있다. 메모리(140)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 장치는 인터넷(internet)상에서 상기 메모리(160)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.

인터페이스부(150)는 장치에 연결되는 모든 외부기기와의 통로 역할을 한다. 인터페이스부(150)는 외부 기기로부터 데이터를 전송받거나, 전원을 공급받아 장치 내부의 각 구성 요소에 전달하거나, 장치 내부의 데이터가 외부 기기로 전송되도록 한다. 예를 들어, 유/무선 헤드셋 포트, 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등이 인터페이스부(150)에 포함될 수 있다.

제어부(controller, 160)는 통상적으로 장치의 전반적인 동작을 제어한다. 예를 들어 데이터의 처리나 처리된 데이터를 디스플레이하기 위한 관련된 제어 및 처리를 수행한다. 제어부(160)는 병렬 데이터 처리를 위한 그래픽 모듈(161)을 구비할 수도 있다. 그래픽 모듈(161)은 제어부(160) 내에 구현될 수도 있고, 제어부(160)와 별도로 구현될 수도 있다.

전원 공급부(170)는 제어부(160)의 제어에 의해 외부의 전원, 내부의 전원을 인가받아 각 구성요소들의 동작에 필요한 전원을 공급한다.

여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.

하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs(application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어부(160) 자체로 구현될 수 있다.

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(160)에 의해 실행될 수 있다.

제어부(160)는 수신된 텍스트 데이터를 분석 전에 정제할 수 있다. 보다 구체적으로, 제어부(160)는 수신된 텍스트 데이터에 대해 텍스트 정규화, 스팸/광고 필터링 프로세스를 전처리 프로세스로 수행할 수 있다. 텍스트 정규화는 오탈자 수정, 인터넷 신조어 의미 파악 및 적용, 불필요한 문자 제거(특수기호, 특수문자), 신조어 추출을 포함할 수 있다.

제어부(160)는 전처리된 텍스트 데이터에 대해서 감성 스코어를 산출할 수 있다. 또한, 제어부(160)는 산출된 감성 스코어를 이용하여 연관어 분석을 통해 소비자 감성 분석. 오피니언 리더 분석 및 트렌드 분석 (트래픽, 언급량)을 수행할 수 있다. 예를 들어, 브랜드/키워드 트렌드 분석은 특정 사용자 반응 트래픽 분석, 특정 브랜드/키워드 언급량 분석 등을 포함할 수 있다. 제어부(160)는 산출된 감성 스코어와 오피니언 리더 스코어(OLS: Opinion Leader score)를 연관시켜 제공할 수 있다. OLS란 팔로워, 친구, 구독 수를 기반으로 산출될 수 있으며, 소셜 서비스 상에서 텍스트를 작성한 사용자가 가지는 영향력을 구체적으로 수치화하는 것을 의미한다.

다양한 실시예에서, 제어부(160)는 산출된 감성 스코어를 이용하여, 데이터 시각화를 수행할 수 있다. 데이터 시각화는 사용자들의 인구통계학적 특징에 따른 감성분포도 제시하는 것을 포함한다. 데이터 시각화는 또한 오피니언 리더 트랙, 저장된 데이터를 기반으로 인구통계학적 정보의 추출, 데이터 분석 결과와 결합하여 시각화하는 것, 다양한 SNS 채널 별로 특정 브랜드에 강한 영향력을 보유한 소비자 추적하는 것, 인구통계학적 정보(지역/연령/성별 등) 또한 표기하는 것을 포함한다.

제어부(160)는 데이터의 가공 및 시각화를 수행할 수 있다. 데이터의 가공은 텍스트 데이터 각각에 대해서 획득된 감성 스코어를 결합하는 작업을 포함할 수 있다. 다양한 실시예에서 제어부(160)는 감성 스코어의 분포도 도출을 위해 감성 스코어를 결합할 수 있으며, 감성 스코어 스펙트럼과 감성 스코어와 인구통계학적 데이터의 결합 및 감성 스코어에 따른 트렌드의 시계열분석 결과 등을 포함할 수 있다. 다양한 실시예에서, OLS가 높은 오피니언 리더가 개제한 텍스트에 대한 타 사용자들의 반응을 감성 스코어를 통해 나타낼 수 있다. 이에 따라, 거시적인 측면에서의 각 개개인의 영향력 (팔로워 수, 페이지 좋아요 수 등) 보다는 특정 서비스 또는 상품에 대한 소비자 의견의 영향력을 측정하고, 특정 서비스 또는 상품에 따라 가장 많은 공감을 얻고 있는 의견을 식별할 수 있다.

다양한 실시예에서, 제어부(160)는 텍스트로부터 획득된 감성 스코어를 스펙트럼으로 나타내어 특정 서비스 또는 유무형 상품에 대한 소비자 의견을 점수화하여 가장 높은 감성 스코어의 텍스트를 제공할 수 있다.

본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 장치(100)에 따르면, 마케터와 브랜드 매니저와 같은 사용자가 사용자 반응 데이터 분석 장치(100)의 결과물을 통해 상품 또는 서비스가 소비자들로부터 어떻게 평가를 받는지에 대한 정보를 광범위한 범위에서 수치화된 자료로 획득할 수 있다. 이에 따라, 본 사용자 반응 데이터 분석 장치(100)는 현재 서비스 또는 상품의 개량과 신상품의 개발에 대한 인사이트를 제공할 수 있다.

이하에서는, 도 3을 참조하여, 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 감성 스코어를 획득 또는 산출하는 방식에 대해서 구체적으로 설명한다. 도 3은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다. 설명의 편의를 위해 도 2의 구성요소들을 참조하여 설명한다.

먼저, 제어부(160)는 통신부(110)를 통해 사용자 반응을 포함하는 적어도 하나의 텍스트를 수신한다(S110). 소셜 서비스에서 수집되는 텍스트는 특정 서비스 또는 상품과 연관된 사용자 반응을 포함하는 텍스트일 수 있다. 또한, 전술한 바와 같이 사용자 반응을 포함하는 텍스트는 소셜 서비스외의 다른 방식을 통해 획득될 수도 있다. 또한, 소셜 서비스에서 제한되지 않고 일정 기간 동안의 텍스트가 수집된 후 서비스 또는 상품과 연관된 텍스트가 필터링될 수도 있다. 텍스트는 복수의 소셜 서비스에서 수집될 수 있으며, 이 경우 텍스트의 포맷이 통일되도록 변환작업이 수반될 수도 있다. 또한, 다양한 실시예에서 OLS를 포함한 텍스트를 작성한 사용자의 정보가 함께 수신될 수도 있다.

다음으로, 제어부(160)는 적어도 하나의 텍스트를 매트릭스의 형식으로 수치화한다(S120). 텍스트를 매트릭스의 형식으로 수치화하는 작업은 제한되지 않으며, 예를 들어, Document Term Matrix(DTM)을 생성하는 것을 포함할 수 있다. DTM이란 문장에서 용어의 출현빈도를 카운팅하여 수치화하는 것을 의미한다. DTM을 통해서 복수의 텍스트가 행렬로 나타내어질 수 있다. 복수의 텍스트가 입력되는 경우, 각각의 텍스트에 대해서 하나의 행을 가지게 되며, 각각의 용어에 대해서 하나의 열을 가지게 된다.

제어부(160)는, 적어도 하나의 텍스트에 대한 수치화된 매트릭스에 기초하여 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 스코어를 예측하도록 구성된 엔진을 이용하여, 적어도 하나의 텍스트에 대한 스코어를 결정한다(S130).

텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 스코어(또는 감성 스코어)를 예측하도록 구성된 엔진은, 예를 들어, 텍스트 및 긍정 또는 부정에 대한 경향성을 스코어의 데이터 세트를 통해 텍스트의 감성 스코어를 예측하도록 학습된 엔진일 수 있다. 예를 들어, 엔진은 Recurrent Neural Network등 제한되지 않은 공지의 방법을 이용하여 구축될 수 있다. 엔진에서 각각의 수치화된 텍스트 데이터는 하나의 매트릭스로 표현될 수 있으며, 반복적인 학습을 통해 수치화된 텍스트 데이터가 가질 확률이 높은 감성 스코어가 예측될 수 있다. 제한되지 않으나, 텍스트 데이터가 가지는 용어들 각각이 가지는 긍정 또는 부정 경향성들이 스코어로 환산되고 학습된 확률 통계에 따라 텍스트가 가지는 감성 스코어가 예측 또는 결정될 수 있다.

결정된 스코어는 사용자 디바이스에 제공된다(S140). 예를 들어 결정된 스코어를 제공받는 사용자 디바이스는 결정된 스코어를 대응하는 텍스트와 함께 제공받을 수 있다. 다양한 실시예에서, 결정된 감성 스코어는 도 2와 함께 설명된 다양한 시각화 자료로 생성되어 제공될 수도 있다.

본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서는 텍스트 자체를 감성을 나타내는 스코어로 예측하거나 결정하지 않는다는 점에서 종래의 텍스트 데이터 분석 방법과 차이점이 있을 수 있다. 텍스트 자체를 감성 스코어 엔진과 유사한 예측 엔진에 학습시키고, 이러한 예측 엔진에 텍스트 자체를 입력하여 감성 스코어를 결정 또는 예측시킬 수 있다. 그러나, 텍스트 자체를 이용하는 경우, 텍스트 자체가 가지는 다양성 때문에, 수치화된 텍스트 데이터에 비해 데이터의 처리량이 상대적으로 클 수 있다. 데이터 처리량이 상대적으로 큰 경우 엔진의 정확도를 향상시키기 위한 학습량도 증가할 수 있다. 또는, 같은 학습량을 가진 엔진을 사용하는 경우 텍스트 자체를 입력으로 이용하는 경우에 예측 정확도가 수치화된 텍스트 데이터를 이용하는 것보다 낮을 수 있다. 결국, 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에 따르면 텍스트를 수치화한 데이터를 학습 가능한 감성 스코어 예측 엔진에 사용함으로써, 동일한 엔진 학습량에서 보다 정확한 예측 결과를 나타낼 수 있다.

도 4는 본 발명의 다른 실시예에 따른 사용자 반응 데이터 분석 방법을 설명하기 위한 개략적인 순서도이다. 도 4에서 단계 S110, S130, S140은 도 3에서 전술한 동일한 부호의 단계들과 실질적으로 동일하므로, 중복 설명은 생략한다.

단계 S122, S124 및 S126은 도 3에서 설명된 적어도 하나의 텍스트를 매트릭스의 형식으로 수치화는 단계의 다른 실시예를 나타낼 수 있다. 도 4를 참조하면, 적어도 하나의 텍스트에서 단어의 출연빈도수가 카운트된다(S122). 예를 들어, 단계 S122는 Document Term Matrix(DTM)을 생성하는 것일 수 있다.

예를 들어, 하나의 텍스트(T1)가 “나는 홍길동이다”이고, 다른 하나의 텍스트(T2)가 “나는 김철수이다” 라고 하면, DTM을 통해 생성된 매트릭스는 아래의 매트릭스(표 1)와 같이 나타낼 수 있다.

	나	는	홍길동	이다	김철수
T1	1	1	1	1	0
T2	1	1	0	1	1

다만, 단어에서 일부의 단어들, 예를 들어 조사 등은 감성 스코어를 예측하거나 산출하는데 있어, 다른 단어들에 비해 상대적으로 중요하지 않을 수 있다. 즉, 텍스트는 상대적으로 중요성이 낮은 변수로 나타내어지는 단어를 포함할 수 있다. 그러나, 이러한 단어 또는 변수들을 제외하도록 처리한다면, 텍스트에서 누락이 발생되고 이러한 누락은 산출 또는 예측되는 감성 스코어의 정확성을 떨어뜨릴 수 있다. 이를 위해, DTM을 매트릭스로 변환한 후 차원 축소를 함으로써, 정확성을 유지하는 동시에 사용되는 변수를 감소시켜 데이터의 처리량을 감소시킨다.

이를 위해, 단어의 출연빈도수는 매트릭스로 치환된다(S124). DTM을 매트릭스로 치환하는 방식은 제한되지 않으며, 예를 들어 tf-idf(Term Frequency - Inverse Document Frequency), word2vec, doc2vec 등의 방식이 사용될 수 있다.

치환된 매트릭스의 차원이 축소된다(S126). 치환된 매트릭스의 차원 축소는 truncated Singular Value Decomposition(SVD) 또는 Sufficient Reduction(SR) 등의 방식이 사용될 수 있다. truncated SVD가 사용되는 경우, 하기의 수학식 1이 사용될 수 있다.

[수학식 1]

여기서, X는 DTM으로 생성된 매트릭스이며, k는 X를 축소하고자 하는 차원의 크기이며,

는 truncated SVD를 통해 차원 축소된 X, 즉 SVD변환의 결과물이며,

는 SVD변환을 통해 구해진 오른쪽 eigenvector로 이루어진 매트릭스이며, ∑는 SVD변환을 통해 구해진 eigenvalue로 이루어진 대각행렬이며, V는 SVD변환을 통해 구해진 왼쪽 eigenvector로 이루어진 매트릭스이다. 여기서 차원의 크기 k를 조절함으로써 차원 축소를 통해 잃게 되는 정보량, 감성 스코어 예측과 학습에 용이한 데이터의 크기를 고려할 수 있다.

예를 들어, truncated SVD를 이용하여 치환된 매트릭스의 차원이 실질적으로 감소될 수 있다. 차원이 감소된 매트릭스에 기초하여, 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 스코어(또는 감성 스코어)를 예측하도록 구성된 엔진이 사용된다(S130). 차원이 감소된 매트릭스의 이용은 차원 감소 없는 수치화된 텍스트 데이터(또는 매트릭스)를 이용하는 것보다 더 빠른 감성 스코어 예측과 학습을 가능하게 할 수 있으며, 동시에 정확성이 유지될 수 있다.

도 5는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법과 종래의 분석 방법을 비교하기 위한 개략도이다.

도 5의 (a)는 텍스트에 대한 종래의 이분법적인 분류를 개략적으로 나타낸다. 종래에는 소셜 서비스로부터 수집된 특정 서비스나 상품에 대한 텍스트 또는 소비자 반응을 긍정적인 반응 또는 부정적인 반응으로 나타내었다. 도 5의 (b)를 참조하면, 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법은 기존의 이분법적인 분류에 비교할 때, 고객 반응을 스펙트럼화할 수 있다. 이에 따라, 감성 스코어(도 5에서는 감성 지수로 표시)가 높은 텍스트를 통해서 충성도가 높은 소비자가 어떠한 점에서 서비스 또는 상품을 좋아하는지 알 수 있으며, 반대로 감성 스코어가 낮은 텍스트를 통해서 서비스 또는 상품에 어떠한 나아질 점이 있는지 알 수 있다. 예를 들어, 텍스트 작성자(204)는 감성 스코어가 높은 텍스트를 작성한 고객이며, 텍스트 작성자(206)은 감성 스코어가 낮은 텍스트를 작성한 고객일 수 있다.

또한, 종래의 이분법적 분류에서는 긍정적이지도 또는 부정적이지도 않은 집단이 관심있는 요소를 알기 어려웠다. 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법은 크게 높지도 낮지도 않은 감성 스코어를 가지는 집단이 어떠한 요소를 중요하게 생각하는지 파악할 수 있다. 예를 들어, 텍스트 작성자 (202, 208)은 감성 스코어가 크게 높지도 않고 낮지도 않은 텍스트를 작성한 고객들일 수 있다.

도 6은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 감성 지수를 예시적으로 도시한 유저인터페이스를 설명하기 위한 개략도이다. 도 6은 스코어를 제공하는 예시적인 유저인터페이스를 나타낸다. 예시적인 유저인터페이스에서는 감성 스코어(도 6에서는 감성 지수로 표시)가 상위 30%인 그룹과 하위 30%인 그룹의 텍스트들이 표시된다. 텍스트(211)는 사용자가 작성한 서비스 또는 상품에 대한 피드백 텍스트이다. 반응 표시(212)는 텍스트(211)에 대해 얼마나 많은 타 사용자들이 호감을 나타내었는지 또는 얼마나 많이 텍스트(211)를 공유 했는지를 나타낸다. 아이콘(213)은 텍스트가 수집된 소셜 서비스를 나타낸다. 긍정 반응 표시(214)는 텍스트(211)가 긍정적인 반응으로 분류됨을 나타낸다. 감성 스코어(215)는 엔진에 의해 결정된 긍정 반응의 정도를 나타낸다. 부정 반응 표시(216)는 텍스트가 부정적인 반응으로 분류됨을 나타낸다. 감성 스코어(217)는 엔진에 의해 결정된 부정 반응의 정도를 나타낸다. 감성 스코어(215, 217)은 미리 결정된 최대 값 및 최소 값을 가질 수 있다. 제한되지 않으나, 감성 스코어(215, 217)는 0 내지 100의 값을 가질 수 있다. 전술한 바와 같이 감성 스코어(215, 217)에 대응하는 텍스트를 검토 할 수 있어, 긍정 반응 또는 부정 반응이 높은 소비자의 만족도 또는 니즈를 알 수 있다. 또한, 다양한 실시예에서 적어도 하나의 텍스트에 대한 감성 스코어가 텍스트 작성자의 정보와 연관시켜 제공될 수 있다. 예를 들어, 도 6에서 텍스트 작성자의 정보가 함께 표시될 수도 있다.

또한, 감성 스코어는 소셜 서비스에서 팔로워, 친구, 및 구독수 중 적어도 하나를 기초로 산출된 텍스트 작성자 영향력을 이용하여 보상될 수도 있다. 예를 들어, 객관적인 리뷰로 인기가 많은 소셜 서비스 사용자에게 가중치가 부여될 수도 있다. 또는, 텍스트 작성자 영향력이 높은 작성자가 서비스 또는 상품에 대해 텍스트를 작성하고, 상기 텍스트에 대해 댓글로 작성된 텍스트에 대해서는 그 반응이 원글 텍스트 작성자의 영향력에 의한 것으로 판단하여, 감성 스코어가 보정될 수 있다.

이하에서는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 감성 스코어를 정제하고 시각화하여 제공되는 다양한 방식들을 설명한다. 상기 방법은 소셜 서비스 상의 고객 반응을 실시간으로 보여줄 수 있다. 이하의 실시예에서는 참조를 위해 소비자 평판에 민감한 산업인, 엔터테인먼트와 연관된 서비스를 선정하여 감성 스코어를 산출하였다.

도 7은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 다양한 시각화 방식에 따라 소셜 미디어에서 언급된 버즈량을 비교하기 위한 도면이다. 도 7을 참조하면, 가수 3명, X, Y, Z를 키워드로 하여 상기 키워드에 대한 소셜 미디어 버즈량(또는 텍스트 빈도수)이 표시된다. 텍스트가 수집된 소셜 서비스는 트위터, 유튜브, 인스타그램, 페이스북, 및 네이버 블로그를 포함한다. 다양한 실시예에서, 선택한 키워드에 대해 날짜별 버즈량이 조회될 수 있다. 이에 따라, 관련 서비스 또는 상품에 대한 전체 버즈량 및 세분화된 서비스의 트래픽량이 조회될 수 있다. 또한, 선택된 키워드 별 버즈량도 비교될 수 있다. 이에 따라, 집중적으로 비교하고자 하는 서비스 또는 상품을 선택하여 소셜 서비스 상에서의 인지도 및 잠재 시장이 파악될 수 있다.

도 8은 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 다양한 시각화 방식에 따라 스코어 분포를 나타내기 위한 도면이다. 다양한 실시예에서 감성 스코어의 제공은 적어도 하나의 텍스트를 스코어에 따라 2 이상의 식별자로 분류하는 것을 포함할 수 있다. 예를 들어, 감성 스코어가 긍정 50 내지 100인 텍스트를 식별자(S1)으로 분류하고, 감정 스코어가 긍정 0 내지 긍정 50 그리고 부정 0 내지 부정 50인 텍스트를 식별자(S2)로 분류하고, 감성 스코어가 부정 50 내지 100인 텍스트를 식별자(S3)으로 분류할 수 있다. 물론, 분류를 위한 범위는 조정될 수 있다.

도 8을 참조하면, 선택된 서비스 또는 상품의 시간대별 감성 스코어 분포가 도시된다. 식별자(S1)은 예를 들어 비방자(Detractor), 식별자(S2)는 잠재 수호자(Potential), 식별자(S3)은 수호자(Promoter)로 정의될 수도 있다. 이에 따라, 서비스에 대한 비방자, 잠재 수호자, 그리고 현재 수호자들의 수가 파악될 수 있다. 본 발명의 일 실시예에 따른 사용자 반응 데이터 부석 방법의 사용자들은 서비스 또는 상품에 대한 평판을 조회하고 지속 관리할 수 있으며, 비방자 수를 파악함으로써 빠른 위기 포착을 할 수 있다.

도 9는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 다양한 시각화 방식에 따라 하위 스코어에서 언급되는 단어들을 나타내는 도면이다. 도 9는 본 발명의 일 실시예에 따른 사용자 반응 데이터 분석 방법에서 감성 스코어에 따라 긍정적으로 반응한 내용과 그 키워드 그리고 부정적으로 반응한 내용과 그 키워드를 예시적으로 도시한 것이다. 도 9를 참조하면, 특정 서비스 또는 상품에 대한 텍스트에 대해서 감성 스코어를 획득하고, 식별자(S1)으로 분류된 그룹(227)에서 최다 언급 명사(229) Top 5를 추출 후, 그에 대한 수식어(230)를 조회할 수 있다. 또는, 식별자(S2)로 분류한 그룹(228)에서 최다 언급 명사(231) Top 5를 추출한 후 그에 대한 수식어(232)를 조회할 수도 있다. 이에 따라, 각 감성 스코어 구간 (Detractor, Potential, Promoter)에 따른 소비자들의 니즈에 대한 인사이트를 제공할 수 있다.

예를 들어, 워너원의 잠재 수호자(Potential)들은 현재 인기를 끌고 있는 멤버 강다니엘에 가장 많은 관심을 보이고 있으며, 마지막에 탈락한 정세운에 대한 아쉬움을 표출하고 있음을 파악할 수 있다. 이들이 주로 활동하는 사용자 반응을 파악해 강다니엘의 “섹시”한 “분량”을 많이 노출시킨다면 많은 잠재 고객이 워너원의 수호자가 될 가능성이 존재한다는 것을 의미할 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

복수의 소셜 서비스로부터 사용자 반응을 포함하는 적어도 하나의 텍스트와 함께 상기 적어도 하나의 텍스트를 생산한 사용자에 대한 정보를 수신하는 단계;
상기 수신된 적어도 하나의 텍스트를 전처리하는 단계;
상기 전처리된 적어도 하나의 텍스트에서 상기 전처리된 적어도 하나의 텍스트에 포함된 각 단어의 출현 빈도수를 카운트하는 단계;
상기 카운트된 출현 빈도수를 매트릭스로 치환하는 단계;
상기 매트릭스의 차원을 축소하는 단계;
상기 차원이 축소된 매트릭스를 기초로 상기 적어도 하나의 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 감성 스코어를 예측하도록 구성된 엔진을 이용하여, 상기 적어도 하나의 텍스트에 대한 상기 감성 스코어를 결정하는 단계;
상기 결정된 감성 스코어를 이용하여 소비자 감성 분석, 오피니언 리더 분석 및 트렌드 분석을 수행하는 단계; 및
상기 소비자 감성 분석, 상기 오피니언 리더 분석 및 상기 트렌드 분석에 대한 분석 결과를 시각화하는 단계를 포함하고,
상기 전처리하는 단계는,
상기 적어도 하나의 텍스트에 대한 오탈자 수정, 인터넷 신조어 의미 파악 및 적용, 불필요한 문자 제거 및 신조어 추출 중 적어도 하나를 포함하는 텍스트 정규화를 수행하는 단계; 및
상기 적어도 하나의 텍스트에서 불필요한 텍스트 데이터를 필터링하는 단계를 포함하고,
상기 분석 결과를 시각화하는 단계는,
상기 적어도 하나의 텍스트 데이터 각각에 대해서 획득된 감성 스코어를 결합하여 시각화하는 단계;
감성 스코어 스펙트럼, 상기 감성 스코어 및 상기 사용자에 대한 정보를 결합하여 시각화하는 단계;
상기 감성 스코어에 따른 트렌드의 시계열적 분석 결과를 시각화하는 단계; 및
사용자 반응별 언급 단어 및 수식어를 시각화하는 단계 중 적어도 일부를 포함하는, 사용자 반응 데이터 분석 방법.
삭제
삭제
제1항에 있어서,
상기 단어의 출연빈도수를 매트릭스로 치환하는 단계는 tf-idf, word2vec, doc2vec 중 하나를 이용하여 상기 단어의 출연빈도수를 매트릭스로 치환하는 단계인, 사용자 반응 데이터 분석 방법.
제1항에 있어서,
상기 매트릭스의 차원을 축소하는 단계는 truncated Singular Value Decomposition(SVD) 또는 Sufficient Reduction(SR)을 이용하여 차원을 축소하는 단계인, 사용자 반응 데이터 분석 방법.
제1항에 있어서,
상기 감성 스코어를 제공하는 단계는 상기 적어도 하나의 텍스트에 대한 상기 감성 스코어를 상기 텍스트 작성자의 정보와 연관시켜 제공하는 단계를 포함하는, 사용자 반응 데이터 분석 방법.
제6항에 있어서,
상기 감성 스코어를 상기 텍스트 작성자의 정보와 연관시켜 제공하는 단계는, 상기 소셜 서비스에서 팔로워, 친구, 및 구독수 중 적어도 하나를 기초로 산출된 텍스트 작성자 영향력을 이용하여 상기 적어도 하나의 텍스트에 대한 감성 스코어를 보상하는 단계를 포함하는, 사용자 반응 데이터 분석 방법.
제1항에 있어서, 상기 분석 결과를 시각화하는 단계는,
상기 스코어를 제공하는 단계는 상기 적어도 하나의 텍스트를 상기 감성 스코어에 따라 2 이상의 식별자로 분류하는 단계; 및
상기 2 이상의 식별자를 시간대별로 시각적으로 제공하는 단계를 포함하는, 사용자 반응 데이터 분석 방법.
복수의 소셜 서비스로부터 사용자 반응을 포함하는 적어도 하나의 텍스트와 함께 상기 적어도 하나의 텍스트를 생산한 사용자에 대한 정보를 수신하도록 구성된 통신부;
상기 통신부와 동작가능하도록 연결되고,
상기 통신부로부터 상기 적어도 하나의 텍스트 및 상기 사용자에 대한 정보를 획득하고,
상기 획득된 적어도 하나의 텍스트를 전처리하고,
상기 전처리된 적어도 하나의 텍스트에서 상기 전처리된 적어도 하나의 텍스트에 포함된 각 단어의 출현 빈도수를 카운트하고,
상기 카운트된 출현 빈도수를 매트릭스로 치환하고,
상기 매트릭스의 차원을 축소하고,
상기 차원이 축소된 매트릭스를 기초로 상기 적어도 하나의 텍스트가 가지는 긍정 또는 부정에 대한 경향성을 나타내는 감성 스코어를 예측하도록 구성된 엔진을 이용하여, 상기 적어도 하나의 텍스트에 대한 상기 감성 스코어를 결정하고,
상기 결정된 감성 스코어를 이용하여 소비자 감성 분석, 오피니언 리더 분석 및 트렌드 분석을 수행하도록 구성된 프로세서; 및
상기 소비자 감성 분석, 상기 오피니언 리더 분석 및 상기 트렌드 분석에 대한 분석 결과를 시각화하도록 구성된 출력부를 포함하고,
상기 프로세서는,
상기 적어도 하나의 텍스트에 대한 오탈자 수정, 인터넷 신조어 의미 파악 및 적용, 불필요한 문자 제거 및 신조어 추출 중 적어도 하나를 포함하는 텍스트 정규화를 수행하고, 상기 적어도 하나의 텍스트에서 불필요한 텍스트 데이터를 필터링하여 상기 적어도 하나의 텍스트 데이터를 전처리하도록 구성되고,
상기 프로세서는,
상기 적어도 하나의 텍스트 데이터 각각에 대해서 획득된 감성 스코어를 결합하여 시각화하는 동작, 감성 스코어 스펙트럼, 상기 감성 스코어 및 상기 사용자에 대한 정보를 결합하여 시각화하는 동작, 상기 감성 스코어에 따른 트렌드의 시계열적 분석 결과를 시각화하는 동작 및 사용자 반응별 언급 단어 및 수식어를 시각화하는 동작 중 적어도 일부를 수행하도록 구성된, 사용자 반응 데이터 분석 장치.
삭제