KR101713558B1

KR101713558B1 - 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법

Info

Publication number: KR101713558B1
Application number: KR1020150151781A
Authority: KR
Inventors: 신주현; 남민지; 홍택은
Original assignee: 조선대학교산학협력단
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-03-08

Abstract

본 발명은 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법에 관한 것으로, 보다 구체적으로는 테이어 모델(Thayer Model)의 감정 카테고리로 구분되는 소셜 네트워크 서비스(Social Network Service) 상의 해시태그(Hashtag)를 수집하여 감정 키워드 데이터 베이스를 구축하고, 사용자의 게시글과 감정 키워드 데이터 베이스의 각 감정 카테고리 간의 유사도를 비교하여 사용자 게시글의 감정 분포도 및 주요 감정을 객관적으로 분석하여 분류할 수 있는 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법에 관한 것이다.

Description

소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법{Method of classification and analysis of sentiment in social network service}

본 발명은 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법에 관한 것으로, 보다 구체적으로는 테이어 모델(Thayer Model)의 감정 카테고리로 구분되는 소셜 네트워크 서비스(Social Network Service) 상의 해시태그(Hashtag)를 수집하여 감정 키워드 데이터 베이스를 구축하고, 사용자의 게시글과 감정 키워드 데이터 베이스의 각 감정 카테고리 간의 유사도를 비교하여 사용자 게시글의 주요 감정을 객관적으로 분석하여 분류할 수 있는 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법에 관한 것이다.

최근 소셜 네트워크 서비스(Social Network Service, SNS)가 스마트폰 사용과 더불어 사용자들의 생활 속 일부분으로 자리 잡으면서 다양한 종류의 SNS들이 등장하고 있다.

시대 흐름에 따른 SNS의 형태를 살펴보자면, 먼저 1세대 SNS는 기존에 형성된 오프라인 인맥을 중심으로 온라인에서 소통하는 방식인 싸이월드(Cyworld)의 미니홈피나 블로그와 같은 형태였다.

다음, 2세대 SNS에서는 스마트 폰의 등장과 함께 트위터(Twitter)나 페이스북(Facebook)과 같이 타임라인 형식으로 단문형태의 메시지를 실시간으로 주고받는 서비스가 인기를 끌고 있다.

이에 다양한 SNS들이 등장하면서 인맥 중심의 관계와 포괄적인 커뮤니케이션을 이어나가는 기존의 SNS에서 벗어나 점차 관심사나 취미 등 특정한 주제를 중심으로 공유하는 사용자 맞춤형 서비스인 텀블러(Tumblr), 핀터레스트(Pinterest), 인스타그램(Instagram)과 같은 3세대 SNS가 떠오르고 있다.

이러한 SNS들 중에서 사용자가 게시한 게시물 등을 이용하여 관심사나 감정을 분석하는 연구가 활발히 진행되고 있지만, 기존의 보편화된 SNS를 활용한 연구가 대부분이다.

기존에 제안된 텍스트의 감정을 분석하는 방법에는 감정사전을 이용하여 감정어휘에 대한 극성 값을 부여해 긍정과 부정으로 감정을 분류하는 방법과 같이 감정 사전을 바탕으로 감정을 결정하는 방법이 있다.

이러한 방법은 감정 사전에 수록된 단어들의 집합이 중요한 요소로 작용하여 감정 사전의 정확도를 높여야 하는 미흡한 부분이 존재한다. 또한 대부분의 감정 분석을 통한 감정으로의 분류는 주관적인 부분이 개입되어 있어 이를 추가적으로 보완하여 객관적인 분석이 필요하며, 추가적으로 이를 이용하여 개인 맞춤형 콘텐츠 분야의 일환으로 상용화 하는 것이 요구되고 있다.

본 발명은 상술한 요구를 충족하기 위해 안출된 것으로 소셜 네트워크 서비스 상에서 공유되는 감정을 테이어 모델을 기준으로 해시태그로부터 수집하여 감정 키워드 데이터 베이스를 구축한 후, 사용자의 게시글과의 유사도를 비교함으로써 사용자 게시글의 감정을 객관적으로 산출할 수 있는 사용자 게시글 감정 분류방법을 제공하는 데 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기의 목적을 달성하기 위하여 본 발명은 소셜 네트워크 서비스(Social Network Service) 상에서 서로 다른 감정 카테고리 별로 감정 키워드를 수집하는 단계; 수집된 감정 키워드를 감정 키워드 데이터 베이스로 구축하는 단계; 감정 분석의 대상인 사용자 게시글을 수집하고, 상기 사용자 게시글에서 감정 어휘 후보 리스트를 추출하는 단계; 및 상기 감정 어휘 후보 리스트와 상기 감정 키워드 데이터 베이스의 감정 키워드들 간의 유사도를 계산하여 상기 사용자 게시글의 감정을 분류하는 단계;를 포함하는 것을 특징으로 하는 사용자 게시글 감정 분류 방법을 제공한다.

바람직한 실시예에 있어서, 상기 감정 카테고리는 테이어 모델(Thayer Model)로 구분된다.

바람직한 실시예에 있어서, 상기 감정 카테고리는 Happy(기쁜), Angry(화난), Peaceful(평온한), Sad(슬픈)을 포함한다.

바람직한 실시예에 있어서, 상기 감정 키워드를 수집하는 단계는, 상기 감정 카테고리 별로 대표 감정 형용사를 포함하는 소셜 네트워크 서비스(Social Network Service) 상의 해시태그들을 수집하고, 상기 해시태그들의 형용사를 추출하여 상기 감정 키워드로 수집한다.

바람직한 실시예에 있어서, 상기 감정 키워드를 수집하는 단계:는, 상기 감정 카테고리 별로 대표 감정 형용사를 포함하는 소셜 네트워크 서비스(Social Network Service) 상의 해시태그(Hashtag)들을 수집하는 단계; 상기 해시태그들에 포함된 각 단어의 품사를 분류하는 단계; 및 상기 해시태그들의 단어들 중, 품사가 형용사인 단어들을 상기 감정 키워드로 추출하여 수집하는 단계;를 포함한다.

바람직한 실시예에 있어서, 상기 해시태그들의 각 단어의 품사를 분류하는 단계:는, 상기 해시태그들을 토큰화(Tokenizing)하여 단어 단위로 분리하고 불용어(Stopwords)의 제거를 수행하는 단계; 및 상기 토큰화된 단어들의 품사를 분류하여 태깅(POS(Part of Speech) Tagging)하는 단계;를 포함한다.

바람직한 실시예에 있어서, 상기 감정 키워드를 추출하여 수집하는 단계:는, 상기 헤시태그들의 단어들 중, 품사가 형용사인 단어들을 추출하는 단계; 추출된 단어들의 빈도수를 계산하는 단계; 및 상기 추출된 단어들을 빈도수 별로 내림차순 정렬하여 상기 감정 키워드 데이터로 생성하는 단계;를 포함한다.

바람직한 실시예에 있어서, 상기 감정 키워드 데이터로 생성되는 단어는 빈도수가 소정의 임계 빈도수 이상이고, 해당 감정 카테고리의 대표 감정 형용사와 동일한 단어는 상기 감정 키워드 데이터에서 제외된다.

바람직한 실시예에 있어서, 상기 감정 어휘 후보 리스트를 추출하는 단계:는, 상기 사용자 게시글을 수집하는 단계; 상기 사용자 게시글에 포함된 각 단어의 품사를 분류하는 단계; 및 상기 사용자 게시글의 단어들 중, 품사가 형용사인 단어를 상기 감정 어휘 후보 리스트로 추출하는 단계;를 포함한다.

바람직한 실시예에 있어서, 상기 사용자 게시글의 각 단어의 품사를 분류하는 단계:는, 상기 사용자 게시글을 토큰화(Tokenizing)하여 단어 단위로 분리하고 불용어(Stopwords)의 제거를 수행하는 단계; 및 상기 토큰화된 단어들의 품사를 분류하여 태깅(POS(Part of Speech) Tagging)하는 단계;를 포함한다.

바람직한 실시예에 있어서, 상기 감정 어휘 후보 리스트로 추출하는 단계:는, 상기 사용자 게시글의 단어들 중, 형용사를 추출하는 단계; 추출된 단어들의 빈도수를 계산하는 단계; 및 상기 추출된 단어들을 빈도수 별로 내림차순 정렬하여 상기 감정 어휘 후보 리스트를 생성하는 단계;를 포함한다.

바람직한 실시예에 있어서, 상기 감정 어휘 후보 리스트와 상기 감정 키워드 데이터 베이스의 유사도는 코사인 유사도(cosine similarity)를 이용하여 계산된다.

바람직한 실시예에 있어서, 상기 코사인 유사도 계산에 이용되는 두 벡터는 상기 감정 어휘 후보 리스트와 상기 감정 키워드 데이터의 빈도수이다.

바람직한 실시예에 있어서, 상기 유사도의 계산은 상기 감정 카테고리 별로 이루어지고, 상기 감정 어휘 후보 리스트가 어느 감정 카테고리와 유사도가 더 큰지 산출된다.

또한, 본 발명은 컴퓨터와 결합하여 상기 사용자 게시글 감정 분류 방법을 실행시키기 위한 매체에 저장된 컴퓨터 프로그램을 더 제공한다.

또한, 본 발명은 상기 컴퓨터 프로그램이 탑재되어 사용자 게시글 감정 분류 방법을 수행하는 컴퓨터를 더 제공한다.

또한, 본 발명은 상기 컴퓨터 프로그램이 저장되고 통신망을 통해 상기 컴퓨터 프로그램을 클라이언트 컴퓨터에 전송해줄 수 있는 서버 컴퓨터를 더 제공한다.

본 발명은 다음과 같은 우수한 효과를 가진다.

본 발명의 사용자 게시글 감정 분류 방법에 의하면, 해시태그를 이용하여 감정 키워드 데이터 베이스를 구축하고, 사용자 게시글의 감정 어휘 후보를 감정 키워드 데이터 베이스와 서로 비교함으로써, 각 감정 카테고리별 유사도를 계산할 수 있어 사용자 감정을 객관적으로 분석할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법을 수행하는 게시글 감정 분류 프로그램의 기능을 설명하기 위한 도면,
도 2는 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법에서 감정 카테고리의 분류 기준인 테이어 모델을 설명하기 위한 도면,
도 3은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법을 수행하는 게시글 감정 분류 프로그램의 해시 태그 전 처리 수단을 설명하기 위한 도면,
도 4는 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법을 수행하는 게시글 감정 분류 프로그램의 감정 키워드 추출 수단을 설명하기 위한 도면,
도 5는 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법을 수행하는 게시글 감정 분류 프로그램의 감정 키워드 데이터 베이스 저장 수단을 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법을 수행하는 게시글 감정 분류 프로그램의 사용자 게시글 전 처리 수단을 설명하기 위한 도면,
도 7은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법을 수행하는 게시글 감정 분류 프로그램의 감정 어휘 후보 추출 수단을 설명하기 위한 도면,
도 8은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법의 흐름도,
도 9는 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법에서 유사도 계산 결과의 일례를 보여주는 도면,
도 10은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류방법의 분류 성능을 보여주는 도면이다.

본 발명에서 사용되는 용어는 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있는데 이 경우에는 단순한 용어의 명칭이 아닌 발명의 상세한 설명 부분에 기재되거나 사용된 의미를 고려하여 그 의미가 파악되어야 할 것이다.

이하, 첨부한 도면에 도시된 바람직한 실시예들을 참조하여 본 발명의 기술적 구성을 상세하게 설명한다.

그러나, 본 발명은 여기서 설명되는 실시예에 한정되지 않고 다른 형태로 구체화 될 수도 있다. 명세서 전체에 걸쳐 동일한 참조번호는 동일한 구성요소를 나타낸다.

본 발명의 일 실시예에 따른 사용자 게시글 감정 분류 방법은 사용자가 소셜 네트워크 서비스(Social Network Service, SNS)와 같은 인터넷 매체를 통해 작성한 게시글의 감정을 분류함으로써 사용자의 주요 감정을 분류할 수 있는 방법이다.

또한, 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류 방법은 실질적으로 컴퓨터에 의해 수행되며, 상기 컴퓨터에는 상기 컴퓨터를 기능시켜 사용자 게시글 감정 분류 방법을 수행하게 하는 컴퓨터 프로그램(이하 '게시글 감정 분류 프로그램'이라 함)이 저장된다.

또한, 상기 컴퓨터는 일반적인 퍼스널 컴퓨터뿐만 아니라 임베디드 시스템, 스마트 기기 및 본 발명을 위해 특별히 고안된 컴퓨팅장치일 수 있다.

또한, 상기 게시글 감정 분류 프로그램은 별도로 기록 매체에 저장되어 제공될 수 있으며, 상기 기록매체는 본 발명을 위하여 특별히 설계되어 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에서 공지되어 사용 가능할 것일 수 있다.

예를 들면, 상기 기록 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD, DVD와 같은 광 기록 매체, 자기 및 광 기록을 겸할 수 있는 자기-광 기록 매체, 롬, 램, 플래시 메모리 등 단독 또는 조합에 의해 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치일 수 있다.

또한, 상기 게시글 감정 분류 프로그램은 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등이 단독 또는 조합으로 구성된 프로그램일 수 있고, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라, 인터프리터 등을 사용하여 컴퓨터에 의해 실행될 수 있는 고급 언어 코드로 짜여진 프로그램일 수 있다.

또한, 상기 게시글 감정 분류 프로그램은 통신망을 통해 데이터의 전송이 가능한 서버 컴퓨터에 저장될 수 있고, 상기 서버 컴퓨터는 통신망을 통해 상기 게시글 감정 분류 프로그램을 클라이언트 컴퓨터로 다운로드해 줄 수 있다.

또한, 상기 컴퓨터와 상기 서버 컴퓨터는 각각 중앙처리장치, 기억장치, 입출력장치 및 통신장치를 포함하여 이루어진다.

이하에서는 도 1을 참조하여, 상기 게시글 감정 분류 프로그램의 기능을 상세히 설명한다.

도 1을 참조하면, 상기 게시글 감정 분류 프로그램(100)은 컴퓨터를 감정 키워드 수집수단(110), 감정 키워드 데이터 베이스 저장수단(120), 감정 어휘 후보 수집수단(130), 감정 어휘 후보 리스트 저장수단(140) 및 감정 분류 수단(150)으로 기능시킨다.

또한, 상기 감정 키워드 수집수단(110)은 해시태그 수집수단(111), 해시태그 전 처리 수단(112) 및 감정 키워드 추출수단(113)을 포함하여 기능하며, 상기 감정 어휘 후보 수집 수단(130)은 사용자 게시글 수집 수단(131), 사용자 게시글 전 처리 수단(132) 및 감정 어휘 후보 추출 수단(133)을 포함하여 기능한다.

또한, 도 8은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류 방법의 흐름도를 보여주는 것으로 도 8을 참조하여, 상기 게시글 감정 분류 프로그램의 기능을 상세히 설명하면, 먼저, 상기 감정 키워드 수집수단(110)이 감정 카테고리별로 감정 키워드를 수집한다(S1000).

또한, 상기 감정 카테고리는 사람의 대표적인 감정들의 분류로써 본 발명에서는 사람의 감정을 생물심리학적인 감정으로 분류한 테이어 모델(Thayer Model)을 기준으로 분류하였다.

또한, 도 2는 상기 테이어 모델의 감정분류를 보여주는 것으로 테이어는 사람의 감정을 2차원 공간에 긍정과 부정의 정도에 따른 Valence 축과 감성의 강도를 나타내는 Arousal 축을 기준으로 서로 다른 12가지의 감정들로 분류하였다.

본 발명에서는 상기 테이어 모델의 12가지의 감정들 중, 'Happy(기쁜)', 'Angry(화난)', 'Peaceful(평온한)', 'Sad(슬픈)'의 4가지 감정을 상기 감정 카테고리로 분류하였다.

또한, 상기 감정 키워드는 소셜 네트워크 서비스 상의 불특정 다수의 사용자가 작성한 해시태그들로 부터 추출된다.

한편, 상기 해시태그(Hashtag)란 ‘#’기호 뒤에 특정 단어를 써서 트위터(twitter)나, 페이스북(facebook), 인스타그램(instagram) 등과 같은 소셜 네트워크 서비스상에서 특정 키워드를 편리하게 검색할 수 있도록 도입된 기능이다.

또한, 사용자는 게시물에 해시태그를 함께 게시함으로써 특정 주제를 키워드로 관심사를 표현할 수 있고, 자신의 감정이나 상태에 대한 정보 또한 키워드로 공유할 수 있으며 이를 통해 사용자들 사이에서 공감을 이끌어낼 수 있어 최근 사용이 증가하고 있다.

또한, 상기 감정 키워드를 수집하는 과정은 먼저, 상기 해시태그 수집수단(111)이 소셜 네트워크 서비스상의 불특정 사용자들이 작성한 해시태그들을 수집한다(S1100).

또한, 상기 해시태그들은 상기 각 감정 카테고리별로 수집되며, 더욱 자세하게는 각 감정 카테고리별 대표 감정 형용사를 포함하는 해시태그들을 해당 감정 카테고리의 해시태그로 수집한다.

예를 들면, 'Happy(기쁜)' 감정 카테고리의 대표 감정 형용사는 'Happy(기쁜)'이고 'Happy(기쁜)'를 포함하는 해시태그들을 상기 'Happy(기쁜)' 감정 카테고리의 해시태그들로 수집된다.

또한, 상기 'Angry(화난)' 감정 카테고리의 대표 감정 형용사는 'Angry(화난)'이고, 상기 'Peaceful(평온한)' 감정 카테고리의 대표 감정 형용사는 'Peaceful(평온한)'이며, 상기 'Sad(슬픈)' 감정 카테고리의 대표 감정 형용사는 'Sad(슬픈)'이다.

다음, 상기 해시태그 전 처리 수단(112)이 수집된 해시태그 내의 단어들 중 형용사 단어만을 추출하는 전 처리 과정을 수행한다(S1200).

또한, 도 3을 참조하면, 상기 해시태그 전 처리 수단(112)은 제1 토큰화 수단(112a), 제1 불용어 제거 수단(112b) 및 제1 품사 태깅 수단(112c)를 포함하여 기능한다.

먼저, 상기 제1 토큰화 수단(112a)은 수집된 해시태그를 단어 단위로 분리하는 토큰화(Tokenizing)과정을 수행한다.

또한, 상기 토큰화 과정은 문장을 단어 단위로 구분하는 것으로 일반적으로 띄어쓰기를 기준으로 토큰화할 수 있고, 본 발명에서는 해시태그의 문장을 라인별로 불러와 토큰화를 수행하였다.

다음, 상기 제1 불용어 제거 수단(112b)이 토큰화된 단어들 중, 분석에 의미없는 기능어인 불용어를 제거한다.

또한, 상기 불용어는 출현 빈도가 높은 영어의 관사나 전치사, 접속사 등일 수 있고, 출현 빈도가 높지만 특정한 의미를 지니는 단어는 불용어에서 제외될 수도 있다.

본 발명에서는 파이썬(Python)의 NLTK 라이브러리에 포함된 불용어 리스트를 이용하여 불용어를 제거하였다.

또한, 상기 토큰화 과정과 상기 불용어 제거 과정은 서로 선후가 뒤바뀔 수 있다.

다음, 상기 제1 품사 태깅 수단(112c)이 불용어가 제거된 단어들의 품사를 분류하여 태깅(POS(Part of Speech) Tagging)한다.

또한, 상기 태깅은 단어에 품사의 정보를 포함시키는 과정을 의미한다.

즉, 상기 해시태그 전 처리 수단(112)은 수집된 해시태그의 단어를 구분하여 품사를 분류하는 기능을 수행하는 것이다.

다음, 상기 감정 키워드 추출수단(113)은 태깅된 단어들 중 품사가 형용사인 소정의 단어들을 감정 키워드로 추출한다(S1300).

또한, 도 4를 참조하면, 상기 감정 키워드 추출수단(113)은 제1 형용사 단어 추출 수단(113a), 제1 빈도수 계산 수단(113b) 및 제1 내림 차순 정렬 수단(113c)를 포함하여 기능한다.

먼저, 상기 제1 형용사 단어 추출 수단(113a)은 태깅된 단어들 중 품사가 형용사인 단어들을 모두 추출한다.

다음, 상기 제1 빈도수 계산 수단(113b)은 추출된 각 형용사가 몇 개나 중복되어 포함되어 있는지 카운팅하여 출현 빈도수를 계산한다.

다음, 상기 제1 내림 차순 정렬 수단(113c)은 빈도수의 내림차순으로 추출된 단어들을 정렬한다.

다음, 상기 감정 키워드 데이터 베이스 저장수단(120)은 추출된 단어들을 각 감정 카테고리 별로 저장하여 감정 키워드 데이터 베이스를 구축한다(S2000).

또한, 도 5는 상기 감정 키워드 데이터 베이스(120')를 보여주는 것으로 상기 감정 키워드 데이터 베이스(120')에는 'Happy(기쁜)', 'Angry(화난)', 'Peaceful(평온한)', 'Sad(슬픈)'의 감정 카테고리 별로 감정 키워드 데이터(121,122.123,124)가 저장된다.

또한, 상기 감정 키워드 데이터로 생성되는 단어는 빈도수가 소정의 임계 빈도수 이상이고, 해당 감정 카테고리의 대표 감정 형용사와 동일한 단어는 제외된다.

아래의 표 1은 상기 감정 카테고리 중, 'Happy(기쁜)' 감정 카테고리의 감정 키워드 추출 결과를 보여주는 표이다.

'Happy(기쁜)' 감정 카테고리의 형용사 단어	빈도수(Freq.)	감정 키워드 선정 여부
happy	9636	Ｘ
cute	3358	○
beautiful	3218	○
adorable	253	○
funny	248	○
healthy	231	○
live	227	○
best	194	○
sweet	163	○
good	143	○
fit	143	○
hot	137	○
sunny	99	Ｘ

표 1에서도 알 수 있듯이 빈도수가 100 미만인 형용사 단어 'sunny'와 'Happy(기쁜)' 감정 카테고리의 대표 감정 형용사인 'happy'는 제외하고, 'cute', 'beautiful', 'adorable', 'funny', 'healthy', 'live', 'best', 'sweet', 'good', 'fit', 'hot'이 감정 키워드 데이터로 생성되어 저장된다.

아래의 표 2는 각 감정 카테고리 별로 선정된 감정 키워드를 보여주는 표이다.

감정 카테고리	감정 키워드
Happy	cute, beautiful, adorable, funny, healthy, live, best, sweet, good, fit, hot
Angry	sad, cute, black, funny, honest, happy, mad, suicidal, dark, skinny, upset, bad, white, unhappy, anorexic, thin, fat, dead, hungry, bulimic, sweet, stupid, young, bloody
Peaceful	beautiful, happy, green, blue, sunny, quiet, natural, colorful, cute, gorgeous, square, grateful, normal, sad, thankful, live, scenic, good, healthy
Sad	suicidal, fat, happy, anorexic, black, alternative, cute, dead, dark, pale, skinny, bulimic, rad, white, thin, true, unhappy, empty, sorry, emotional, bipolar, bad, aesthetic, stupid, funny, pathetic, anxious, mad, soft

또한, 도시하지는 않았으나 상기 감정 키워드 데이터 베이스(120')는 주기적으로 갱신될 수 있다.

여기까지의 과정은 상기 감정 카테고리 별로 불특정 사람들이 주로 사용하는 감정 키워드를 수집하여 데이터 베이스화하는 과정이며 이후의 과정은 감정 분석의 대상인 사용자 게시글을 수집하여 상기 감정 키워드 데이터 베이스(120')와의 비교를 통해 상기 사용자 게시글의 감정을 분류하는 과정이다.

먼저, 상기 감정 어휘 후보 수집 수단(130)이 사용자의 게시글을 수집하여 상기 감정 키워드 데이터 베이스(120')와 비교 대상이 되는 감정 어휘 후보를 추출한다(S3000).

더욱 자세하게는, 먼저, 상기 사용자 게시글 수집 수단(131)이 소셜 네트워크 서비스 상의 사용자 게시글을 수집한다(S3100).

본 발명에서는 소셜 네트워크 서비스 중 인스타그램(instagram)의 사용자 게시글을 수집하였다.

다음, 상기 사용자 게시글 전 처리 수단(132)이 수집된 사용자 게시글을 전처리하여 형용사 단어를 추출한다(S3200).

도 6은 상기 사용자 게시글 전 처리 수단(132)을 보여주는 것으로, 상기 사용자 게시글 전 처리 수단(132)은 제2 토큰화 수단(132a), 제2 불용어 제거 수단(132b) 및 제2 품사 태깅 수단(132c)을 포함하여 기능하며, 상기 제2 토큰화 수단(132a)은 수집된 사용자 게시글을 단어 단위로 구분하는 토큰화 과정을 수행하고, 상기 제2 불용어 제거 수단(132b)은 토큰화된 단어들 중 불용어를 제거하며, 상기 제2 품사 태깅 수단(132c)은 불용어가 제거된 단어들의 품사를 분류하여 태깅한다.

또한, 상기 토큰화 과정과 상기 불용어 제거과정은 서로 선후가 뒤바뀔 수 있다.

또한, 상기 제2 토큰화 수단(132a), 상기 제2 불용어 제거 수단(132b) 및 상기 제2 품사 태깅 수단(132c)과 상기 제1 토큰화 수단(112a), 상기 제1 불용어 제거수단(112b) 및 상기 제1 품사 태깅 수단(112c)는 각각 전 처리의 대상에 차이가 있을 뿐 그 기능은 실질적으로 동일하므로 자세한 설명은 생략한다.

다음, 상기 감정 어휘 후보 추출 수단(133)이 상기 전 처리된 단어들 중, 형용사 단어를 감정 어휘 후보로 추출하고(S3300), 상기 감정 어후 후보 리스트 저장수단(140)이 추출된 감정 어휘 후보를 감정 어휘 후보 리스트로 생성하여 저장한다(S4000).

또한, 도 7은 상기 감정 어휘 후보 추출 수단(133)을 보여주는 것으로 상기 감정 어휘 후보 추출 수단(133)은 제2 형용사 단어 추출 수단(133a), 제2 빈도수 계산 수단(133b) 및 제2 내림차순 정렬수단(133c)를 포함하여 기능하며, 상기 제2 형용사 단어 추출 수단(133a)은 품사가 형용사인 단어들을 추출하고, 상기 제2 빈도수 계산 수단(133b)은 추출된 단어의 출현 빈도수를 계산하며, 상기 제2 내림차순 정렬수단(133c)은 빈도수 별로 형용사 단어를 내림차순 정렬한다.

또한, 상기 제2 형용사 단어 추출 수단(133a), 상기 제2 빈도수 계산 수단(133b) 및 상기 제2 내림차순 정렬수단(133c)은 상기 제1 형용사 단어 추출 수단(113a), 제1 빈도수 계산 수단(113b) 및 제1 내림차순 정렬수단(113c)과 추출의 대상이 상이할 뿐 그 기능은 실질적으로 동일하므로 상세한 설명은 생략한다.

아래의 표 3은 상기 사용자 게시글에서 감정 어휘 후보를 추출한 일례를 보여주는 것이다.

단계	처리 결과
사용자 게시글 수집	47-0 : So cute ?? 47:::::Happy Birthday?? My adorable pet ???? #happy #birthday #happybirthday #pet #dog #adorable #smile #cute #beautiful #good
불용어 제거	So cute Happy Birthday My adorable pet happy birthday happybirthday pet dog adorable smile cute beautiful good
토큰화	['So', 'cute'] ['Happy', 'Birthday'] ['My', 'adorable', 'pet'] ['happy', 'birthday', 'happybirthday', 'pet', 'dog', 'adorable', 'smile', 'cute', 'beautiful', 'good']
품사 태깅	[('So', 'IN'), ('cute', 'JJ')] [('Happy', 'JJ'), ('Birthday', 'NN')] [('My', 'PRP$'), ('adorable', 'JJ'), ('pet', 'NN')] [('happy', 'JJ'), ('birthday', 'NN'), ('happybirthday', 'NN'), ('pet', 'NN'), ('dog', 'NN'), ('adorable', 'JJ'), ('smile', 'NN'), ('cute', 'JJ'), ('beautiful', 'JJ'), ('good', 'JJ')]
감정 어휘 추출	cute happy adorable happy adorable cute beautiful good
빈도수 계산 및 내림차순 정렬	(2, 'happy') (2, 'cute') (2, 'adorable') (1, 'beautiful') (1, 'good')
감정 어휘 후보 리스트 생성	happy, cute, adorable, beautiful, good

한편, 표 3의 품사 태깅 단계에서 형용사와 태깅된 'IN', 'JJ'등은 품사의 종류를 의미하는 것으로 Penn Treebank Project의 코드이며, 코드 'JJ'가 형용사(adjective)를 의미하는 코드이다.

다음, 상기 감정 어휘 후보 리스트와 상기 감정 어휘 키워드 데이터 베이스의 유사도를 계산하여 사용자 게시글의 감정이 상기 각 감정 카테고리들과 얼마나 유사한지 계산하여 사용자 게시글의 감정을 분류한다(S5000).

또한, 상기 유사도의 계산은 코사인 유사도(cosine similarity)를 이용하여 계산할 수 있다.

또한, 코사인 유사도는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미하며, 수학식 1과 같이 계산할 수 있다.

여기서, A는 상기 감정 어휘 키워드의 출현 빈도수, B는 상기 감정 어휘 후보의 출현 빈도수이다.

아래의 표 4는 표 2의 'Happy' 감정 카테고리의 감정 키워드와 표 3의 감정 어휘 후보들 간의 유사도 계산 예를 보여주는 것으로 유사도 값이 '0.5394'로 계산되었으며 백분률로 표시하면 '53.9%'의 유사도를 갖는 것으로 계산되었다.

유사도 계산 대상	(1) 'Happy' 감정 카테고리의 감정 키워드 : cute beautiful adorable funny healthy live best sweet good hit hot (2) 사용자 게시글의 감정 어휘 후보 : happy cute adorable beautiful good
계산 대상의 전체 단어 식별	happy cute adorable beautiful good funny healthy live best sweet fit hot
전체 단어 출현 빈도수 파악	전체 단어	(1)의 출현 빈도수	(2)의 출현 빈도수
	happy	0	1
	cute	1	1
	adorable	1	1
	beautiful	1	1
	good	1	1
	funny	1	0
	healthy	1	0
	live	1	0
	best	1	0
	sweet	1	0
	fit	1	0
	hot	1	0
출현 빈도수를 통한 벡터 생성	Vector A = {0,1,1,1,1,1,1,1,1,1,1,1} Vector B = {1,1,1,1,1,0,0,0,0,0,0,0}
수학식 1의 계산

또한, 표 4에서는 유사도 계산의 벡터 값을 단어의 존재 여부인 출현 빈도수로 설정하였으나, 표 1 및 표 3에서 계산된 출현 빈도수로 설정이 가능하다.

다시 말해서, 표 4에서는 단어 'cute'의 경우 감정 키워드에도 존재하고 감정 어휘 후보로로 존재하므로 출현 빈도수를 '1', '1'로 설정하여 계산하였으나, 표 1에서 계산된 빈도수 '3358'과 표 3에서 계산된 빈도수 '2'를 유사도 계산의 벡터 값으로 이용할 수 있다.

도 9는 상기 표 4의 계산방법으로 사용자 게시글과 각 감정 카테고리의 유사도를 표현한 그래프이다.

도 9에서도 알 수 있듯이, 사용자 게시글은 'Happy' 감정 카테고리의 감정과 가장 유사한 것을 알 수 있으며, 'Peaceful' 감정 카테고리, 'Angry' 감정 카테고리, 'Sad' 감정 카테고리 순으로 유사도가 높은 것을 알 수 있다.

도 10은 본 발명의 일 실시예에 따른 사용자 게시글 감정 분류 방법의 분류 정확도를 검증한 것으로, 상기 정확도는 상기 감정 카테고리에 의해 분류된 모든 사용자 게시글과 상기 감정 카테고리에 의해 올바르게 분류된 사용자 게시글의 비로 계산하였다. 계산결과 모든 감정 카테고리에 평균 90.7%의 정확도를 보여 본 발명의 의한 사용자 게시글 감정 분류을 통해 사용자 맞춤형 서비스나 감성마케팅등을 수행할 수 있는 것을 확인하였다.

이상에서 살펴본 바와 같이 본 발명은 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.

100:게시글 감정 분류 프로그램, 110:감정 키워드 수집수단
111:해시태그 수집수단, 112:해시태그 전 처리 수단
113:감정 키워드 추출수단, 120:감정 키워드 데이터 베이스 저장수단
130:감정 어휘 후보 수집수단, 131:사용자 게시글 수집수단
132:사용자 게시글 전 처리 수단, 133:감정 어휘 후보 추출수단
140:감정 어휘 부호 리스트 저장수단, 150:감정 분류수단

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
소셜 네트워크 서비스(Social Network Service) 상에서 테이어 모델(Thayer Model)로 구분되는 서로 다른 감정 카테고리 별로 감정 키워드를 수집하는 단계;
수집된 감정 키워드를 감정 키워드 데이터 베이스로 구축하는 단계;
감정 분석의 대상인 사용자 게시글을 수집하고, 상기 사용자 게시글에서 감정 어휘 후보 리스트를 추출하는 단계; 및
상기 감정 어휘 후보 리스트와 상기 감정 키워드 데이터 베이스의 감정 키워드들 간의 유사도를 계산하여 상기 사용자 게시글의 감정을 분류하는 단계;를 포함하고,
상기 감정 카테고리는 Happy(기쁜), Angry(화난), Peaceful(평온한), Sad(슬픈)을 포함하며,
상기 감정 키워드를 수집하는 단계는,
상기 감정 카테고리 별로 대표 감정 형용사를 포함하는 소셜 네트워크 서비스(Social Network Service) 상의 해시태그(Hashtag)들을 수집하는 단계;
상기 해시태그들에 포함된 각 단어의 품사를 분류하는 단계; 및
상기 해시태그들의 단어들 중, 품사가 형용사인 단어들을 상기 감정 키워드로 추출하여 수집하는 단계;를 포함하고,
상기 해시태그들의 각 단어의 품사를 분류하는 단계:는,
상기 해시태그들을 토큰화(Tokenizing)하여 단어 단위로 분리하고 불용어(Stopwords)의 제거를 수행하는 단계; 및
상기 토큰화된 단어들의 품사를 분류하여 태깅(POS(Part of Speech) Tagging)하는 단계;를 포함하며,
상기 감정 키워드를 추출하여 수집하는 단계:는,
상기 해시태그들의 단어들 중, 품사가 형용사인 단어들을 추출하는 단계;
추출된 단어들의 빈도수를 계산하는 단계; 및
상기 추출된 단어들을 빈도수 별로 내림차순 정렬하여 상기 감정 키워드 데이터로 생성하는 단계;를 포함하고,
상기 감정 키워드 데이터로 생성되는 단어는 빈도수가 소정의 임계 빈도수 이상이고, 해당 감정 카테고리의 대표 감정 형용사와 동일한 단어는 상기 감정 키워드 데이터에서 제외되는 것을 특징으로 하는 사용자 게시글 감정 분류 방법.
제 8 항에 있어서,
상기 감정 어휘 후보 리스트를 추출하는 단계:는,
상기 사용자 게시글을 수집하는 단계;
상기 사용자 게시글에 포함된 각 단어의 품사를 분류하는 단계; 및
상기 사용자 게시글의 단어들 중, 품사가 형용사인 단어를 상기 감정 어휘 후보 리스트로 추출하는 단계;를 포함하는 것을 특징으로 하는 사용자 게시글 감정 분류 방법.
제 9 항에 있어서,
상기 사용자 게시글의 각 단어의 품사를 분류하는 단계:는,
상기 사용자 게시글을 토큰화(Tokenizing)하여 단어 단위로 분리하고 불용어(Stopwords)의 제거를 수행하는 단계; 및
상기 토큰화된 단어들의 품사를 분류하여 태깅(POS(Part of Speech) Tagging)하는 단계;를 포함하는 것을 특징으로 하는 사용자 게시글 감정 분류 방법.
제 10 항에 있어서,
상기 감정 어휘 후보 리스트로 추출하는 단계:는,
상기 사용자 게시글의 단어들 중, 형용사를 추출하는 단계;
추출된 단어들의 빈도수를 계산하는 단계; 및
상기 추출된 단어들을 빈도수 별로 내림차순 정렬하여 상기 감정 어휘 후보 리스트를 생성하는 단계;를 포함하는 것을 특징으로 하는 사용자 게시글 감정 분류 방법.
제 11 항에 있어서,
상기 감정 어휘 후보 리스트와 상기 감정 키워드 데이터 베이스의 유사도는 코사인 유사도(cosine similarity)를 이용하여 계산되는 것읕 특징으로 하는 사용자 게시글 감정 분류 방법.
제 12 항에 있어서,
상기 코사인 유사도 계산에 이용되는 두 벡터는 상기 감정 어휘 후보 리스트와 상기 감정 키워드 데이터의 빈도수인 것을 특징으로 하는 사용자 게시글 감정 분류 방법.
제 13 항에 있어서,
상기 유사도의 계산은 상기 감정 카테고리 별로 이루어지고, 상기 감정 어휘 후보 리스트가 어느 감정 카테고리와 유사도가 더 큰지 산출되는 것을 특징으로 하는 사용자 게시글 감정 분류 방법.
컴퓨터와 결합하여 제 14 항의 사용자 게시글 감정 분류 방법을 실행시키기 위한 매체에 저장된 컴퓨터 프로그램.
제 15 항의 컴퓨터 프로그램이 탑재되어 사용자 게시글 감정 분류 방법을 수행하는 컴퓨터.
제 15 항의 컴퓨터 프로그램이 저장되고 통신망을 통해 상기 컴퓨터 프로그램을 클라이언트 컴퓨터에 전송해줄 수 있는 서버 컴퓨터.