KR101448228B1 - 소셜 데이터 분석 장치 및 방법 - Google Patents

소셜 데이터 분석 장치 및 방법 Download PDF

Info

Publication number
KR101448228B1
KR101448228B1 KR1020130014943A KR20130014943A KR101448228B1 KR 101448228 B1 KR101448228 B1 KR 101448228B1 KR 1020130014943 A KR1020130014943 A KR 1020130014943A KR 20130014943 A KR20130014943 A KR 20130014943A KR 101448228 B1 KR101448228 B1 KR 101448228B1
Authority
KR
South Korea
Prior art keywords
emotional
vocabulary
data
unit
storing
Prior art date
Application number
KR1020130014943A
Other languages
English (en)
Other versions
KR20140101906A (ko
Inventor
이주양
장필식
Original Assignee
이주양
장필식
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이주양, 장필식 filed Critical 이주양
Priority to KR1020130014943A priority Critical patent/KR101448228B1/ko
Publication of KR20140101906A publication Critical patent/KR20140101906A/ko
Application granted granted Critical
Publication of KR101448228B1 publication Critical patent/KR101448228B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

상기한 목적을 달성하기 위한 본 발명에 따른 소셜 데이터 분석 장치는 통신망을 통해 서버군에 존재하는 콘텐츠의 데이터를 수집하고, 저장하는 데이터 취합부; 상기 데이터를 형태소 DB 및 감성어휘 DB에 매칭되는 형태소 단위로 분석하여, 상기 형태소 단위로 품사를 태깅(tagging)하고, 감성어휘를 색출하여 저장하는 메시지 분석부; 상기 메시지 분석부에서 품사 태깅이 되지 않은 미등록 어휘를 수신하여 감성평가를 하고, 상기 미등록 어휘에 대응하는 표준어 감성어휘를 감성 DB에 저장하는 감성 평가부; 상기 메시지 분석부와 상기 감성 평가부에서 제공되는 다수의 감성어휘를 기반으로 감성측정 대상에 대한 감성공학적 분석 후 주된 감성 이미지를 추출하는 감성 분석부; 및 상기 감성측정 대상과 상기 주된 감성 성분을 실시간으로 이미지 공간상에 표시하는 분석결과 표시부를 포함하며, 본 발명에 의하면 일상적 언어, 및 비속어, 은어(隱語), 약어, 이모티콘 등을 기초로 복합적인 감성을 자연스럽게 파악할 수 있고, 자발적인 다수의 소비자에 의해 작성된 문서, 인터넷 댓글, SNS 메시지 텍스트 데이터를 활용하므로 소비자의 숨겨진 감성을 측정할 수 있는 효과가 있다.

Description

소셜 데이터 분석 장치 및 방법{Apparatus and Method for social data analysis}
본 발명은 통신망을 통해 수신된 소셜 데이터를 분석하는 장치 및 방법에 관한 것이다. 더욱 상세하게는, 인터넷 및 소셜미디어를 통하여 취합된, 문서, 인터넷 댓글, SNS(Social Network Service) 메시지 텍스트 등으로부터 신제품 컨셉, 브랜드, 브랜드 컨셉, 네이밍, 디자인, 연예인이나 정치인 등의 사람과 모든 사물에 대한 세부적 이미지와 세부 감성을 자동으로 정량 측정, 평가, 분석하여 실시간으로 결과를 제시할 수 있는 감성 측정 및 분석 장치 및 방법에 관한 것이다.
현재 스마트 폰과 인터넷의 보급 확대 등으로 디지털 데이터는 기존의 방식으로 다루기 어려울 정도로 폭발적으로 증가 추세에 있으며, 빅데이터(big data)에서 누가 먼저 그 가치를 추출하는 가가 기업과 국가의 발전 성패를 결정할 것으로 예상되고 있다. 하지만, 현재의 소셜미디어를 포함한 빅데이터에 대한 기계적 분류 분석방법은 무가치한 결과를 양산하고 있으며, 빅데이터가 도움이 되려면 감정, 감성까지 헤아리는 감성분석이 이루어져야 한다. 이와 관련된 지금까지의 감성측정, 분석 기술은 긍정/부정 등 두세 개 큰 범주로 감성을 분류하는'감성분석(감정분석, Sentiment Analysis)'기술과, 설문평가 방법을 통해 감성을 측정 분석하는 '감성공학 기술'로 대별된다.
감성분석은 ‘오피니언 마이닝’(Opinion Mining)이나 '평판 분석'이라고도 불린다. 메시지 등 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 판별하고, 주관적이면 극성(Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 판별하거나 중립인지를 판단한다. 즉, 해당 글을 쓴 사람의 글을 분석하여 문맥상으로 긍정인지 부정인지 찾아내어 특정 상품이나 서비스 등에 대한 사용자의 반응이나 여론을 파악하는데 이용되고 있다. 이러한 감성분석를 이용하면 소셜 미디어와 같은 온라인 상의 여론을 비교적 신속하게 파악할 수 있으며, 기존의 오픈라인 여론조사에 비해서 시간과 비용을 줄이고 사람들의 의견을 쉽게 파악하고 예측할 수 있는 것으로 알려져 있다.
다만, 한국 공개 특허 제 2012-0108095 등 종래기술은 다음과 같은 문제점을 가지고 있다. 첫째, 단순하게 긍정, 부정 두 개 범주 또는 긍정, 부정, 중립의 세 개 범주로 나누는 것은 활용에 있어 큰 제약으로 작용하게 된다. 즉, ‘복고풍의’-‘신세대 감각의’, ‘여성스러운’-‘남성스러운’ 등의 감성은 특정 상품이나 인물에 대한 이미지 파악에 있어 중요한 감성이지만, 단순히 ‘중립’으로 분류되며, 세부 감성 및 감정은 파악이 불가능하다. 오히려 극성의 판단이 애매한 감성들을 두 개(긍정/부정) 또는 세 개(긍정/부정/중립)의 범주로 무리하게 끼워 넣음으로써, 감성분석의 정확성을 훼손하게 된다. 둘째, 기존 감성분석 기술들에서는 비속어, 은어(隱語), 약어, 이모티콘 들은 필터링하여 제외하고, 표준 어휘만 분석하고 있다. 하지만, SNS 나 홈페이지 댓글, 블로그 등에 사용자 들이 올리는 많은 글(텍스트) 들은 구어 및 은어 비속어, 이모티콘을 포함하고 있으며, 이들 텍스트들이 필터링 됨으로써, 다양한 감성을 포함하는 데이터 들이 감성분석과정에서 제외되고 있다. 따라서, 취합된 문서, 인터넷 댓글, SNS(Social Network Service) 메시지 텍스트 등으로부터, 비속어, 은어, 약어 등 표준어휘의 범주에 벗어나는 데이터를 포함한, 사람 및 모든 사물에 대한 세부적 이미지와 세부 감성을 자동으로 정량 측정, 평가, 분석할 수 있는 소셜 데이터 분석 장치 및 방법이 필요하다.
본 발명은 전술한 종래 기술의 단점을 해결하기 위하여, 일상적 언어, 및 비속어, 은어(隱語), 약어, 이모티콘 등을 기초로 복합적인 감성을 자연스럽게 파악할 수 있는 소셜 데이터 분석 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 자발적인 다수의 소비자에 의해 작성된 문서, 인터넷 댓글, SNS 메시지 텍스트 데이터로부터 소비자의 숨겨진 감성을 측정하고 평가하는 소셜 데이터 분석 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 수개의 주된 감성 이미지 요인을 특정시점 또는 특정기간에 대한 이미지 공간상에 위치시킴으로써 실시간, 연속적인 분석 결과를 표시하는 소셜 데이터 분석 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따른 소셜 데이터 분석 장치는 통신망을 통해 서버군에 존재하는 콘텐츠의 데이터를 수집하고, 저장하는 데이터 취합부; 상기 데이터를 형태소 DB 및 감성어휘 DB에 매칭되는 형태소 단위로 분석하여, 상기 형태소 단위로 품사를 태깅(tagging)하고, 감성어휘를 색출하여 저장하는 메시지 분석부; 상기 메시지 분석부에서 품사 태깅이 되지 않은 미등록 어휘에 대하여 감성평가를 하며, 상기 감성평가의 결과로 얻어진 상기 미등록 어휘에 대응하는 표준어 감성어휘를 감성 DB에 저장하는 감성 평가부; 상기 메시지 분석부와 상기 감성 평가부에서 제공되는 감성어휘를 기반으로 감성측정 대상에 대한 감성공학적 분석 후 상기 감성측정 대상에 대한 대표적인 감성 성분인 주된 감성 성분을 추출하는 감성 분석부; 및 상기 감성측정 대상과 상기 주된 감성 성분을 실시간으로 이미지 공간상에 표시하는 분석결과 표시부를 포함한다.
이 때, 상기 데이터 취합부는, 데이터의 키워드 또는 데이터를 수집할 기간을 입력받아, 상기 입력에 대응하여 데이터를 수집하고 저장하며, 상기 데이터의 출처 또는 상기 데이터의 업로더 별로 분류하여 저장할 수 있다.
이 때, 상기 데이터 취합부는, 다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하여 데이터를 수집하고 저장하는 병렬처리 기술이 지원되며, 상기 병렬처리 기술을 통하여 수집된 데이터 중 중복 데이터는 삭제하며, 상기 데이터를 시간별, 유형별로 통합하며, 상기 병렬처리 기술이 진행 중에 중단된 경우, 자동으로 연결되어 상기 중단된 데이터 이후 데이터를 계속하여 수집하고, 저장할 수 있다.
이 때, 상기 메시지 분석부는, 띄어쓰기 없는 짧은 패턴의 반복 또는 의미 없는 특수기호의 반복 사용 등을 필터링하여 제외하거나, 축약하여 분석하는 입력필터 모듈; 및 품사 태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 중 적어도 어느 하나에 해당하는 미등록 어휘를 감성 평가부로 전달하는 미등록어 처리 모듈을 포함할 수 있다.
이 때, 상기 메시지 분석부는, 다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하는 병렬처리 기술이 지원될 수 있다.
이 때, 상기 메시지 분석부는, 형태소 DB와 감성어휘 DB를 기반으로 감성 및 감정과 관련된 어휘를 구별하고, 상기 감성 및 감정과 관련된 어휘의 주체 및 객체를 분리하여 저장할 수 있다.
이 때, 상기 감성 평가부는, 표준어 감성어휘쌍을 이용하여 감성평가를 하며, 온라인 접속을 통하여 평가자로 하여금 상기 표준어 감성어휘쌍에 대한 평가가 이루어 질 수 있다.
이 때, 상기 감성 평가부는, 온라인 접속을 통하여 평가자로 하여금 상기 품사 태깅이 되지 않은 미등록 어휘를 대체할 수 있는 표준어를 2 이상의 표준어들의 가중합으로 선정할 수 있다.
이 때, 상기 감성 평가부는, 상기 품사 태깅이 되지 않은 미등록 어휘에 대한 감정 및 감성의 강도를 직접 입력 받거나, 온라인 설문 평가를 통해 평가할 수 있다.
이 때, 상기 감성 분석부는, 감성측정 대상에 대한 감성어휘들과 상기 어휘들의 빈도 및 감정적 강도를 조합한 것을 기반으로 성긴 주성분 분석(SPCA; Sparse Principal Component Analysis)을 함으로써 상기 감성측정 대상의 주된 감성 성분을 추출할 수 있다.
이 때, 상기 주된 감성 성분의 추출은, 특정 시점 또는 특정 기간을 설정하여 이루어질 수 있다.
이 때, 상기 분석 결과 표시부는, 상기 감성 분석부에서 추출되는 수개의 주된 감성 성분을 2차원 내지 3차원의 축으로 구성하고, 감성측정 대상의 특정 시점에 대한 이미지 공간상의 위치를 실시간으로 표시하거나, 특정 기간 동안의 시간의 추이에 따른 분석결과를 애니메이션 형식으로 표시할 수 있다.
이 때, 상기 분석 결과 표시부는, 감성측정 대상 여러 개를 공통의 감정 및 감성 이미지 요인들로 구성된 이미지 공간상에 동시에 표시할 수 있다.
또한, 상기한 목적을 달성하기 위한 본 발명에 따른 소셜 데이터 분석 방법은 통신망을 통해 서버군에 존재하는 콘텐츠의 데이터를 수집하고, 저장하는 단계; 상기 데이터를 형태소 DB 및 감성어휘 DB에 매칭되는 형태소 단위로 분석하여, 상기 형태소 단위로 품사를 태깅(tagging)하고, 감성어휘를 색출하여 저장하는 단계; 상기 색출하여 저장하는 단계에서 품사 태깅이 되지 않은 미등록 어휘에 대하여 감성평가를 하며, 상기 감성평가의 결과로 얻어진 상기 미등록 어휘에 대응하는 표준어 감성어휘를 감성 DB에 저장하는 단계; 상기 색출하여 저장하는 단계와 감성 DB에 저장하는 단계에서 제공되는 감성어휘를 기반으로 감성측정 대상에 대한 감성공학적 분석 후 상기 감성측정 대상에 대한 대표적인 감성 성분인 주된 감성 성분을 추출하는 단계; 및 상기 감성측정 대상과 상기 주된 감성 성분을 실시간으로 이미지 공간상에 표시하는 단계를 포함한다.
이 때, 상기 수집하고, 저장하는 단계는, 데이터의 키워드 또는 데이터를 수집할 기간을 입력받아, 상기 입력에 대응하여 데이터를 수집하고 저장하며, 상기 데이터의 출처 또는 상기 데이터의 업로더 별로 분류하여 저장하며, 다수의 컴퓨터, 멀티 프로세서 또는 멀티 스레드를 동시에 활용하여 데이터를 수집하고 저장하는 병렬처리 기술이 지원되며, 상기 병렬처리 기술을 통하여 수집된 데이터 중 중복 데이터는 삭제하며, 상기 데이터를 시간별, 유형별로 통합하며, 상기 병렬처리 기술이 진행 중에 중단된 경우, 자동으로 연결되어 상기 중단된 데이터 이후 데이터를 계속하여 수집하고, 저장할 수 있다.
이 때, 상기 색출하여 저장하는 단계는, 형태소 DB와 감성어휘 DB를 기반으로 감성 및 감정과 관련된 어휘를 구별하고, 상기 감성 및 감정과 관련된 어휘의 주체 및 객체를 분리하여 저장하며, 다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하는 병렬처리 기술이 지원될 수 있다.
이 때, 상기 색출하여 저장하는 단계는, 띄어쓰기 없는 짧은 패턴의 반복 또는 의미 없는 특수기호의 반복 사용 등을 필터링하여 제외하거나, 축약하여 분석하며, 품사태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 중 적어도 어느 하나에 해당하는 미등록 어휘가 존재하는 경우에 한하여, 상기 감성 DB에 저장하는 단계를 진행할 수 있다.
이 때, 상기 감성 DB에 저장하는 단계는, 표준어 감성어휘쌍을 이용하여 감성평가를 하며, 온라인 접속을 통하여 평가자로 하여금 상기 표준어 감성어휘쌍에 대한 평가가 이루어지도록 하며, 온라인 접속을 통하여 평가자로 하여금 상기 품사 태깅이 되지 않은 미등록 어휘를 대체할 수 있는 표준어를 2 이상의 표준어들의 가중합으로 선정하도록 하며, 상기 품사 태깅이 되지 않은 미등록 어휘에 대한 감정 및 감성의 강도를 직접 입력 받거나, 온라인 설문 평가를 통해 평가할 수 있다.
이 때, 상기 추출하는 단계는, 감성측정 대상에 대한 감성어휘들과 상기 어휘들의 빈도 및 감정적 강도를 조합한 것을 기반으로 성긴 주성분 분석(SPCA; Sparse Principal Component Analysis)을 함으로써 상기 감성측정 대상의 주된 감성 성분을 추출하되, 상기 주된 감성 성분의 추출은, 특정 시점 또는 특정 기간을 설정하여 이루어질 수 있다.
이 때, 상기 표시하는 단계는, 상기 추출하는 단계에서 추출되는 수개의 주된 감성성분을 2차원 내지 3차원의 축으로 구성하고, 감성측정 대상의 특정 시점에 대한 이미지 공간상의 위치를 실시간으로 표시하거나, 특정 기간 동안의 시간의 추이에 따른 분석결과를 애니메이션 형식으로 표시하며, 감성측정 대상 여러 개를 공통의 감정 및 감성 이미지 요인들로 구성된 이미지 공간상에 동시에 표시할 수 있다.
본 발명은, 일상적 언어, 및 비속어, 은어(隱語), 약어, 이모티콘 등을 기초로 복합적인 감성을 자연스럽게 파악할 수 있는 소셜 데이터 분석 장치 및 방법을 제공하는 효과가 있다.
또한, 본 발명은 자발적인 다수의 소비자에 의해 작성된 문서, 인터넷 댓글, SNS 메시지 텍스트 데이터를 활용하므로 소비자의 숨겨진 감성을 측정하고 평가하는 소셜 데이터 분석 장치 및 방법을 제공하는 효과가 있다.
또한, 본 발명은 수개의 주된 감성 이미지 요인을 특정시점 또는 특정기간에 대한 이미지 공간상에 위치시킴으로써 실시간, 연속적인 분석 결과를 표시할 수 있는 효과가 있다.
도 1은 본 발명에 따른 소셜 데이터 분석 장치의 구성에 대하여 설명한 도면이다.
도 2는 본 발명에 따른 소셜 데이터 분석 장치의 데이터 취합부가 서버군으로부터 콘텐츠 데이터를 수집하는 모습을 설명한 도면이다.
도 3은 본 발명에 따른 소셜 데이터 분석 장치의 메시지 분석부의 구성 및 작용에 관하여 설명한 도면이다.
도 4는 본 발명에 따른 소셜 데이터 분석 방법의 동작 흐름도를 설명한 도면이다.
도 5는 본 발명에 따른 소셜 데이터 분석 장치에서 활용하는 표준어 감성어휘쌍의 예를 도시한 도면이다.
도 6은 본 발명에 따른 소셜 데이터 분석 장치의 감성 평가부에서 활용되는 주성분 분석의 예를 도시한 도면이다.
도 7은 분석 결과 표시부의 출력의 예를 나타낸 도면이다.
도 8은 분석 결과 표시부의 출력의 다른 예를 나타낸 도면이다.
도 9는 분석 결과 표시부의 출력의 또 다른 예를 나타낸 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
감성분석을 이용하면 소셜 미디어와 같은 온라인 상의 여론을 비교적 신속하게 파악할 수 있으며, 기존의 오프라인 여론조사에 비해서 시간과 비용을 줄이고 사람들의 의견을 쉽게 파악하고 예측할 수 있는 것으로 알려져 있다. 긍정/부정을 분석하는 주요 기법에는 다음과 같은 기법이 있으며, 이 기법 중에서 여러 기법을 함께 활용하여 분석하기도 한다. SVMs(Support Vector Machines)방식은 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의견을 분류하는 방식이며, N-grams or Part Of Speech는 N-grams 단어 구조로 긍정/부정을 찾는 방식으로 "I do not like to drink tea"라는 문장이 있고 이 문장을 Bi-gram Decomposition으로 분리하면, "I-do", "do-not", "not-like"와 같은 식으로 분리한다. 이 때, N은 주로 1, 2, 3까지 사용한다. Lexicon-based Approach는 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry and Word Count)나 POMS(Profile of Mood States) 같은 사전을 이용할 수 있다. 또한, Linguistic Approach는 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법으로 주로 Lexicon-based Approach 방식과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별하는 것이 특징이다.
이렇게 텍스트 데이터로부터 감성 및 감정을 추출하고자 하는 감성분석과는 별개로, 다양한 상품이나 디자인을 대상으로 감성을 직접 정량적으로 측정, 활용하고자하는 감성공학(human sensibility ergonomics / sensibility ergonomics / image technology)이라는 분야도 현재 활성화 되고 있다. 감성공학은 개인의 경험을 통해 얻어지는 외부의 물리적 자극에 대한 쾌적함·안락함 또는 불쾌함·불편함 등의 복합적인 감성을 과학적으로 측정·분석하여 공학적으로 적용시켜 제품이나 환경을 그것에 맞게 편리하고 안락하며 쾌적하게 개발하려는 분야이다. 크게 생체측정, 인간의 오감센서 및 감성처리, 감성디자인, 마이크로가공, 사용성 평가 기술 등의 분야로 대별된다. 감성공학적 기법은 일반적으로, 다수의 감성형용사 쌍을 평가자에게 제시하고, 이를 이용하여 대상을 평가하도록 하는 SD(Semantic Differential)법을 이용하여 감성을 정량적으로 측정하며, 요인분석(Factor Analysis), MDS(Multi Dimensional Scaling) 등의 분석방법을 통해, 감성 맵(map) 형태의 결과를 보여주게 된다. 현재 까지 자동차 계기판, 인테리어, 주택, 화장품용기, 전기자동차 외장, 요트 외장 디자인 등에 널리 사용되어 오고 있으며, 브랜드, 브랜드 컨셉·디자인 및 네이밍의 진단평가, 사물 및 사람에 대한 이미지 진단 평가에도 활용 가능하다.
이하에서는 본 발명에 따른 소셜 데이터 분석 장치의 구성과 기능에 대하여 설명한다.
도 1은 본 발명에 따른 소셜 데이터 분석 장치의 구성에 대하여 설명한 도면이다.
상기 도 1을 참조하면, 소셜 데이터 분석 장치(100)는 서버군(10)으로 부터 콘텐츠 데이터를 수집하는 것을 알 수 있고, 데이터 취합부(110) 메시지 분석부(120), 형태소 DB(121), 감성어휘 DB(122), 감성 평가부(130), 감성 DB(131), 감성 분석부(140), 분석결과 표시부(150)로 구성되어 있다.
도 2는 본 발명에 따른 소셜 데이터 분석 장치의 데이터 취합부가 서버군으로부터 콘텐츠 데이터를 수집하는 모습을 설명한 도면이다.
도 1 및 2를 참조하면, 데이터 취합부(110)는 인터넷 망 등의 통신망(20)을 통해 서버군(10)에 존재하는 콘텐츠의 데이터를 수집하고, 저장한다. 이 때, 본 발명과 관련하여 '소셜 데이터(Social Data)'란 블로그(Blog), 카페(Cage), 포털(Portal), 쇼밍몰, 트위터 등 각종 온라인 서비스를 이용하는 사용자들이 업로드한 데이터를 의미한다. 상기 데이터 취합부(110)는 다양한 방식을 이용하여 소셜 데이터를 수집할 수 있다. 예컨대, URL Request 방식, 검색엔진을 이용하는 방식, 브라우저를 직접 실행하는 방식 등을 이용하여 소셜 데이터를 수집할 수 있다. 또한, 상기 데이터 취합부(110)는 데이터의 키워드 또는 데이터를 수집할 기간을 입력받아서 상기 입력에 매칭되는 조건으로 현재 또는 그 동안 내에 올려진, 키워드를 포함하는 소셜미디어 메시지나 홈페이지 내 텍스트, 댓글 등을 자동으로 수집하여 상기 데이터 취합부의 DB에 저장할 수 있다. 또한, 상기 수집된 각 소셜미디어 메시지, 텍스트 댓글, 의견, 미디어 데이터 뭉치에서 메시지, URL, 업로드한 사람의 정보(성별, 지역) 등을 유형화 하여 추출하고, 분류하여 DB에 저장할 수 있다. 그리고 상기 데이터 취합부(110)는 단위 시간 내에 많은 양의 데이터를 수집하기 위하여 여러 대의 컴퓨터, 멀티프로세서, 멀티스레드를 동시에 활용하는 병렬처리 기술과, 각각의 컴퓨터, 프로세서, 스레드에 의해 취합된 데이터들 중 중복 데이터를 삭제하고, 상기 데이터를 시간별 또는 유형별로 통합할 수 있다. 이 때, 상기 데이터 취합부(110)는 상기 병렬처리 기술 진행 중에 인터넷 등의 통신 연결이 끊어진 경우, 자동으로 재연결하고, 중단된 데이터 이후의 데이터를 계속하여 취합할 수 있는 기능을 가진다.
도 3은 본 발명에 따른 소셜 데이터 분석 장치의 메시지 분석부의 구성 및 작용에 관하여 설명한 도면이다.
도1 및 3을 참조하면, 메시지 분석부(120)는 상기 데이터 취합부(110)에서 수집하여 저장된 텍스트, 메시지 들을 형태소 단위로 분석하여 품사를 구분하고, 각각의 형태소에 해당되는 품사를 태깅(tagging)하는 기능을 가진다. 상기 품사(品詞)는 단어를 문법적 기능, 형태, 의미에 따라 나눈 갈래다. 이는 명사(이름씨), 대명사(대이름씨), 수사(셈씨), 조사(토씨), 동사(움직씨), 형용사(그림씨), 관형사(매김씨), 부사(어찌씨), 감탄사(느낌씨)로 나누어 진다. 상기 메시지 분석부(120)는 띄어쓰기 없는 짧은 패턴의 반복 또는 의미 없는 특수기호의 반복 사용 등을 필터링하여 제외하거나, 축약하여 분석하는 입력필터 모듈(123)과 품사 태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 중 적어도 어느 하나에 해당하는 미등록 어휘를 감성 평가부로 전달하는 미등록어 처리 모듈(125)을 포함한다. 기타 문장을 분리하는 문장 분리 모듈, 형태소를 분석하는 형태소 분석 모듈 및 상기 품사를 태깅하는 품사태거(tagger) 모듈(124)이 포함될 수 있다. 또한, 상기 데이터 취합부(110)에서와 마찬가지로, 분석의 효율을 높이기 위해 다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하는 병렬처리 기술이 지원된다. 도 3을 참조하면, 메시지 분석부(120)는 형태소 DB(121)와 감성어휘 DB(122)를 이용하여, 감성, 감정과 관련된 어휘를 구별하고, 메시지, 문장 내에서 감성, 감정 관련 어휘의 주체 및 객체를 분리하여 저장하는 기능을 가진다. 이 때, 상기 형태소 DB(121) 및 상기 감성어휘 DB(122)에 저장되어 있지 않아서 품사태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 등의 미등록 어휘는 상기 미등록어 처리모듈(125)의 작동으로 감성 평가부(130)로 전송하게 된다. 상기 형태소 DB 및 감성어휘 DB는 업데이트가 가능하여 추후 저장 및 삭제가 가능한 것으로 구성된다. 따라서 이상에서와 같이 메시지 분석부(120)는 미등록 어휘를 제외한 상기 데이터 취합부(110)에서 수집하여 저장된 모든 데이터에 대하여 감성어휘를 색출하게 된다.
도 5는 본 발명에 따른 소셜 데이터 분석 장치에서 활용하는 표준어 감성어휘쌍의 예를 도시한 도면이다.
감성 평가부(130)는 상기 메시지 분석부(120)의 미등록어 처리 모듈(125)에 의하여 품사태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 등의 미등록 어휘에 대하여 대체할 수 있는 표준어를 선정함으로써 감성어휘를 저장한다. 상기 감성어휘의 저장은 상기 감성 평가부(130)의 감성 DB(131)에 저장되면 상기 감성 DB(131)는 업데이트가 가능하여 추후 저장 및 삭제가 가능한 것으로 구성된다. 상기 감성 평가부(130)는 미등록 어휘를 은어, 비속어, 약어, 이모티콘 등의 유형별로 분류하여 저장할 수 있으며, 상기 미등록 어휘를 대상으로 표준어 감성어휘쌍을 이용하여 평가자로 하여금 감성평가를 할 수 있도록 한다. 이 때, 각각의 은어, 비속어, 약어, 이모티콘을 온라인 접속을 통하여 모니터 등의 출력장치의 화면에 제시하고, 평가자로 하여금 표준어 감성어휘쌍 또는 표준어 조합에 대한 평가를 마우스, 키보드 등의 입력장치를 통하여 입력받음으로써 온라인상에서 평가를 진행할 수도 있다. 도 5를 참조하면 표준어 감성어휘쌍이란 예를들어, ‘뽀대 있는’이라는 비속어를 표준어로 매핑(또는 번역)하기 위해서 도5와 같이 감성을 나타내는 형용사들을 쌍(서로 반대의미를 가지는)으로 제시하고(보통 20~40개쌍)을 피실험자들에게 평가를 하는 것이다. 이는 SD법(Semantic Differential method)에서 사용되는 방법으로서 상기 SD법은 기조사방법의 하나이며, 각종 이미지나 선호도를 측정하는 데 이용되며, SD법으로 약칭된다. 크다-작다, 좋다-나쁘다 등의 형용사 반대어를 사용해서 일정한 상표나 상품이 어느 쪽에 어느 정도나 가까운 느낌을 주고 있는가를 조사한다. 약 30명의 평균으로 비교적 안정된 결과를 얻을 수 있다. 또한, 상기 감성 평가부(130)는 각각의 은어, 약어를 대체할 수 있는 대체 표준어를 한 가지로 선정하기 어렵거나, 의미가 모호할 경우, 온라인 설문 평가를 통해 각각의 은어, 약어를 2개 이상 표준어 들의 가중합으로 대체할 수 있으며, 비속어 별로 감정, 감성의 강도를 직접 입력받거나 온라인 설문 평가를 통하여 감정, 감성의 강도를 평가하고 그 결과를 상기 감성 DB에 저장한다. 상기 감성 DB에는 은어, 비속어, 약어, 이모티콘 등의 의미와 각 어휘 또는 이모티콘을 대체할 수 있는 표준어 1개 또는 표준어들의 조합과 가중치가 수록될 수 있으며, 감성, 감정과 관련 있는 어휘, 이모티콘은 표준 감성어휘 조합과 그 가중치가 수록되며, 비속어는 감성, 감정의 강도가 수록 될 수 있다.
도 6은 본 발명에 따른 소셜 데이터 분석 장치의 감성 평가부에서 활용되는 주성분 분석의 예를 도시한 도면이다.
주성분 분석(Principal Component Analysis)은 다변량 통계분석방법 중 하나로서, 서로 연관되어 있는 변수들이 관측되었을 때, 이 변수들이 가지고 있는 정보들을 최대한 확보하면서 이들을 설명할 수 있는 작은 수의 새로운 변수(주성분)를 찾아내는 방법이다. 상기 도 5에서‘뽀대 있는’이라는 비속어는 그 아래 감성어휘쌍(형용사 쌍)에 대한 평가결과를 통해 의미 또는 감성을 파악할 수 있는데, 이 감성어휘쌍(형용사 쌍)이 너무 많게 된다. 따라서 도 6을 참조하여 볼 때, 주성분 분석을 통해 은어 비속어 등을 두 개, 또는 세 개 쌍으로 축약해서 나타낼 수 있다. (단순히 위에서 보이는 감성어휘쌍 중 두세 개로 줄여지는 것이 아니라 복합된 형용사쌍으로 축약되게 된다. 따라서 주성분 쌍의 이름을 새로 부여하기도 하지만 기존 감성어휘쌍의 이름을 이용하기도 한다.)
상기 도 5에서의 "뽀대 있는" 이라는 비속어를 살펴볼 때,
첫 번째 주성분 : (각지고 격식을 차린) - (부드럽고 격식을 차리지 않은)
두 번째 주성분 : (남성적인) - (여성적인)
즉, ‘뽀대 있는’ 이라는 비속어를 가장 많은 부분 설명할 수 있는 형용사 쌍이 첫 번째 주성분이 되며, 첫 번째 주성분, 두 번째 주성분으로 설명이 부족하게 되면 세 번째 네 번째 주성분 까지 이용하게 된다. 이러한 과정을 통해 본 발명에서는 ‘뽀대있는’의 감성은 0.8*(각지고 격식을 차린) + 0.2*(남성적인) 과 같이 표준어 감성 조합으로 나타낼 수 있으며 이러한 데이터는 상기 감성DB(131)에 저장된다.
감성 분석부(140)는 상기 메시지 분석부(120)와 상기 감성 평가부(130)에서 제공되는 다수의 감성어휘를 기반으로 감성측정 대상에 대한 감성공학적 분석 후 주된 감성 이미지를 추출한다.
감성공학적 분석이란 감성공학이라는 분야에서 제품이나 브랜드 평가에 이용되는 분석방법을 말한다. 상기 ‘뽀대있는’ 이라는 비속어에 대한 평가, 분석이 바로 감성공학적 기법을 이용하여 감성평가를 한 것이다. 감성공학적 기법은 일반적으로, 다수의 감성형용사 쌍을 평가자에게 제시하고, 이를 이용하여 대상을 평가하도록 하는 SD(Semantic Differential)법을 이용하여 감성을 정량적으로 측정하며, 요인분석(Factor Analysis), MDS(Multi Dimensional Scaling) 등의 분석방법을 통해, 감성 맵(map) 형태의 결과를 보여주게 된다. 현재 까지 자동차 계기판, 인테리어, 주택, 화장품용기, 전기자동차 외장, 요트 외장 디자인 등에 널리 사용되어 오고 있으며, 브랜드, 브랜드 컨셉·디자인 및 네이밍의 진단평가, 사물 및 사람에 대한 이미지 진단 평가에도 활용 가능하다.
상기 감성 분석부(140)는 감성 측정 대상에 대한 감성 어휘들과 상기 감성 어휘들의 빈도 및 감정적 강도 등을 조합하고 이를 입력자료로 하여 성긴 주성분 분석(SPCA; Spare Principal Component Analysis)을 실시함으로써, 주된 감성 성분을 추출한다. 상기 감성 평가부(130)에서는 도 5에서 보여지는 것처럼 다양한 감성 어휘쌍으로 빠진 부분 없이 평가를 하므로 일반적인 주성분 분석(PCA; Principal Component Analysis)을 사용하였으나, 인터넷이나 SNS에서 수집된 데이터 들은 도 5와는 다르게 충분한 감성어휘쌍에 대한 평가자료를 얻을 수 없기 때문에 상기 감성 분석부(140)에서는 성긴 주성분 분석을 이용하여 주된 감성 성분을 추출한다.
분석결과 표시부(150)는 상기 감성 분석부(140)에서 추출된 주된 감성 성분과 감성측정 대상을 실시간으로 이미지 공간상에 표시한다. 이 때, 상기 분석결과 표시부(150)는 상기 감성 분석부(140)에서 추출되는 주된 수개의 감성 성분으로부터 2차원 내지 3차원의 요인축을 구성하고, 감성측정 대상의 특정 시점에 대한 이미지 공간상의 위치를 실시간으로 표시하거나, 특정 기간을 입력받아 상기 기간 동안의 시간의 추이에 따른 분석결과를 애니메이션 형식으로 표시할 수 있다. 또한, 감성측정 대상 여러 개를 공통의 감정 및 감성 성분들로 구성된 이미지 공간상에 동시에 표시할 수 있다.
도 7은 분석 결과 표시부의 출력의 예를 나타낸 도면이다. 도 8은 분석 결과 표시부의 출력의 다른 예를 나타낸 도면이다. 도 9는 분석 결과 표시부의 출력의 또 다른 예를 나타낸 도면이다.
도 7 및 8을 참조하면, 예를 들어, 자동차 3개 모델(A, B, C)을 대상으로 감성을 특정, 분석하여, 주된 감성성분을 다음과 같이 두 개 추출한 경우
1) (전통적인-현대적인)
2) (불안하고 불편해 보이는-안정되고 편안해 보이는)
상기 두 개의 주된 감성성분을 X, Y 축으로 하고 3개 모델을 나타내면, 다음과 같으며, 시기에 따라 감성이 변화하는 것을 나타낼 수 있다. (예를 들어 모델들 시장 출시 전 컨셉카 사진들에 대한 감성과 출시 후, 실제 모델들을 보거나 타보고 난 후의 감성이 변화됨. 정치인들의 경우, 여러 가지 사건이나 정치적 이슈에 따라 감성평가 결과가 달라질 수 있음) 또한, 시간에 따른 감성변화는 애니메이션으로도 표현 가능하다. 도 7 및 도 8은 2D 형태로 출력되는 것으로서 타원은 상기 모델의 95% 유의수준 범위를 나타낸다. 도 8은 도 7을 간략화된 정보 표시 방식으로 출력한 화면이다. 또한, 도 9를 참조하면 주된 감성성분을 (전통적인 - 현대적인), (불안하고 불편해보이는 - 안정되고 편안해 보이는), (남성적인 - 여성적인) 이렇게 세개를 추출한 경우로서, 3D 형태로 출력된다. 상기 도 7, 8 및 9를 참조하면, 모두 특정 시점에 대한 평가가 이루어지므로 시간의 추이에 따라 변화를 확인할 수 있으며 상기 시간의 추이에 따른 변화는 애니매이션 형태로 출력될 수도 있다.
이하에서는 본 발명에 따른 소셜 데이터 분석 방법의 동작에 대하여 설명한다.
도 4는 본 발명에 따른 소셜 데이터 분석 방법의 동작 흐름도를 설명한 도면이다.
도 4를 참조하면, 상기 소셜 데이터 분석 방법은 통신망을 통하여 서버군에 존재하는 콘텐츠의 데이터를 수집 및 저장하고(S10), 상기 수집 및 저장된 데이터를 형태소 DB 및 감성어휘 DB를 기반으로 형태소 별로 품사 태깅을 하고, 감성어휘를 색출한다(S20). 상기 형태소 DB 및 감성어휘 DB에 저장되지 않은 데이터에 대해서는 상기 품사 태깅이 이루어 질 수 없다. 이 때 비속어, 은어, 약어, 이모티콘 등의 미등록 어휘는 품사태깅이 되지 않으므로 품사태깅이 되지 않은 미등록 어휘가 존재하는지를 판단한다(S30). 이 후, 미등록 어휘가 발견되면 상기 미등록 어휘에 대하여 감성평가를 하고, 상기 미등록 어휘를 대체할 수 있는 표준어 감성어휘를 감성 DB에 저장한다(S40). 한편, 미등록 어휘가 발견되지 않은 경우 또는 미등록 어휘가 발견 된 경우로서 S40 단계를 진행하고 나서는 S20 단계 및 S40 단계에서 제공되는 감성어휘 들을 기반으로 주된 감성성분을 추출한다(S50). 이 후, 상기 추출된 주된 수개의 감성 성분과 감성 측정대상을 2차원 내지 3차원의 이미지 공간상에 표시를 함으로써(S60) 당해 소셜 데이터 분석 방법은 종료된다.
이상에서와 같이 본 발명에 따른 소셜 데이터 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
10; 서버군
20; 통신망
110; 데이터 취합부
120; 메시지 분석부
121; 형태소 DB
122; 감성어휘 DB
123; 입력 필터모듈
124; 품사 태깅모듈
125; 미등록어 처리모듈
130; 감성 평가부
131; 감성 DB
140; 감성 분석부
150; 분석결과 표시부

Claims (20)

  1. 통신망을 통해 서버군에 존재하는 콘텐츠의 데이터를 수집하고, 저장하는 데이터 취합부;
    상기 데이터를 형태소 DB 및 감성어휘 DB에 매칭되는 형태소 단위로 분석하여, 상기 형태소 단위로 품사를 태깅(tagging)하고, 감성어휘를 색출하여 저장하는 메시지 분석부;
    상기 메시지 분석부에서 품사 태깅이 되지 않은 미등록 어휘에 대하여 감성평가를 하며, 상기 감성평가의 결과로 얻어진 상기 미등록 어휘에 대응하는 표준어 감성어휘를 감성 DB에 저장하는 감성 평가부;
    상기 메시지 분석부와 상기 감성 평가부에서 제공되는 감성어휘 및 표준
    어 감성어휘를 기반으로 감성측정 대상에 대한 감성공학적 분석 후 상기 감성측정 대상에 대한 대표적인 감성 성분인 주된 감성 성분을 추출하는 감성 분석부; 및
    상기 감성측정 대상과 상기 주된 감성 성분을 실시간으로 이미지 공간상에 표시하는 분석결과 표시부를 포함하는 소셜 데이터 분석 장치.
  2. 청구항 1에 있어서,
    상기 데이터 취합부는,
    데이터의 키워드 또는 데이터를 수집할 기간을 입력받아, 상기 입력에 대응하여 데이터를 수집하고 저장하며, 상기 데이터의 출처 또는 상기 데이터의 업로더 별로 분류하여 저장하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  3. 청구항 1에 있어서,
    상기 데이터 취합부는,
    다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하여 데이터를 수집하고 저장하는 병렬처리 기술이 지원되며, 상기 병렬처리 기술을 통하여 수집된 데이터 중 중복 데이터는 삭제하며, 상기 데이터를 시간별, 유형별로 통합하며, 상기 병렬처리 기술이 진행 중에 중단된 경우, 자동으로 연결되어 상기 중단된 데이터 이후 데이터를 계속하여 수집하고, 저장하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  4. 청구항 1에 있어서,
    상기 메시지 분석부는,
    띄어쓰기 없는 패턴의 반복 또는 의미 없는 특수기호의 반복 사용 등을 필터링하여 제외하거나, 축약하여 분석하는 입력필터 모듈; 및
    품사 태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 중 적어도 어느 하나에 해당하는 미등록 어휘를 감성 평가부로 전달하는 미등록어 처리 모듈을 포함하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  5. 청구항 1에 있어서,
    상기 메시지 분석부는,
    다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하는 병렬처리 기술이 지원되는 것을 특징으로 하는 소셜 데이터 분석 장치.
  6. 청구항 1에 있어서,
    상기 메시지 분석부는,
    형태소 DB와 감성어휘 DB를 기반으로 감성 및 감정과 관련된 어휘를 구별하고, 상기 감성 및 감정과 관련된 어휘의 주체 및 객체를 분리하여 저장하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  7. 청구항 1에 있어서,
    상기 감성 평가부는,
    감성을 나타내는 상반되는 개념의 표준어 감성어휘쌍을 이용하여 감성평가를 하며, 온라인 접속을 통하여 평가자로 하여금 상기 표준어 감성어휘쌍에 대한 평가가 이루어지도록 하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  8. 청구항 1에 있어서,
    상기 감성 평가부는,
    온라인 접속을 통하여 평가자로 하여금 상기 품사 태깅이 되지 않은 미등록 어휘를 대체할 수 있는 표준어를 2 이상의 표준어들의 가중합으로 선정하도록 하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  9. 청구항 1에 있어서,
    상기 감성 평가부는,
    상기 품사 태깅이 되지 않은 미등록 어휘에 대한 감정 및 감성의 강도를 직접 입력 받거나, 온라인 설문 평가를 통해 평가하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  10. 청구항 1에 있어서,
    상기 감성 분석부는,
    감성측정 대상에 대한 감성어휘들과 상기 어휘들의 빈도 및 감정적 강도를 조합한 것을 기반으로 성긴 주성분 분석(SPCA; Sparse Principal Component Analysis)을 함으로써 상기 감성측정 대상의 주된 감성 성분을 추출하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  11. 청구항 10에 있어서,
    상기 주된 감성 성분의 추출은,
    특정 시점 또는 특정 기간을 설정하여 이루어지는 것을 특징으로 하는 소셜 데이터 분석 장치.
  12. 청구항 1에 있어서,
    상기 분석 결과 표시부는,
    상기 감성 분석부에서 추출되는 수개의 주된 감성성분을 2차원 내지 3차원의 축으로 구성하고, 감성측정 대상의 특정 시점에 대한 이미지 공간상의 위치를 실시간으로 표시하거나, 특정 기간 동안의 시간의 추이에 따른 분석결과를 애니메이션 형식으로 표시하는 것을 특징으로 하는 소셜 데이터 분석 장치.
  13. 청구항 1에 있어서,
    상기 분석 결과 표시부는,
    감성측정 대상 여러 개를 공통의 감정 및 감성 성분들로 구성된 이미지 공간상에 동시에 표시하는 것을 특징으로 하는 쇼셜 데이터 분석 장치.
  14. 통신망을 통해 서버군에 존재하는 콘텐츠의 데이터를 수집하고, 저장하는 단계;
    상기 데이터를 형태소 DB 및 감성어휘 DB에 매칭되는 형태소 단위로 분석하여, 상기 형태소 단위로 품사를 태깅(tagging)하고, 감성어휘를 색출하여 저장하는 단계;
    상기 색출하여 저장하는 단계에서 품사 태깅이 되지 않은 미등록 어휘에 대하여 감성평가를 하며, 상기 감성평가의 결과로 얻어진 상기 미등록 어휘에 대응하는 표준어 감성어휘를 감성 DB에 저장하는 단계;
    상기 색출하여 저장하는 단계와 감성 DB에 저장하는 단계에서 제공되는 감성어휘 및 표준어 감성어휘를 기반으로 감성측정 대상에 대한 감성공학적 분석 후 상기 감성측정 대상에 대한 대표적인 감성 성분인 주된 감성 성분을 추출하는 단계; 및
    상기 감성측정 대상과 상기 주된 감성 성분을 실시간으로 이미지 공간상에 표시하는 단계를 포함하는 소셜 데이터 분석 방법.
  15. 청구항 14에 있어서,
    상기 데이터를 수집하고, 저장하는 단계는,
    데이터의 키워드 또는 데이터를 수집할 기간을 입력받아, 상기 입력에 대응하여 데이터를 수집하고 저장하며, 상기 데이터의 출처 또는 상기 데이터의 업로더 별로 분류하여 저장하며, 다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하여 데이터를 수집하고 저장하는 병렬처리 기술이 지원되며, 상기 병렬처리 기술을 통하여 수집된 데이터 중 중복 데이터는 삭제하며, 상기 데이터를 시간별, 유형별로 통합하며, 상기 병렬처리 기술이 진행 중에 중단된 경우, 자동으로 연결되어 상기 중단된 데이터 이후 데이터를 계속하여 수집하고, 저장하는 것을 특징으로 하는 소셜 데이터 분석 방법.
  16. 청구항 14에 있어서,
    상기 색출하여 저장하는 단계는,
    형태소 DB와 감성어휘 DB를 기반으로 감성 및 감정과 관련된 어휘를 구별하고, 상기 감성 및 감정과 관련된 어휘의 주체 및 객체를 분리하여 저장하며, 다수의 컴퓨터, 멀티 프로세서 또는 멀티스레드를 동시에 활용하는 병렬처리 기술이 지원되는 것을 특징으로 하는 소셜 데이터 분석 방법.
  17. 청구항 14에 있어서,
    상기 색출하여 저장하는 단계는,
    띄어쓰기 없는 패턴의 반복 또는 의미 없는 특수기호의 반복 사용 등을 필터링하여 제외하거나, 축약하여 분석하며, 품사태깅이 되지 않은 비속어, 은어, 약어, 이모티콘 중 적어도 어느 하나에 해당하는 미등록 어휘가 존재 하는 경우에 한하여, 상기 감성 DB에 저장하는 단계를 진행하는 것을 특징으로 하는 소셜 데이터 분석 방법.
  18. 청구항 14에 있어서,
    상기 감성 DB에 저장하는 단계는,
    감성을 나타내는 상반되는 개념의 표준어 감성어휘쌍을 이용하여 감성평가를 하며, 온라인 접속을 통하여 평가자로 하여금 상기 표준어 감성어휘쌍에 대한 평가가 이루어지도록 하며, 온라인 접속을 통하여 평가자로 하여금 상기 품사 태깅이 되지 않은 미등록 어휘를 대체할 수 있는 표준어를 2 이상의 표준어들의 가중합으로 선정하도록 하며, 상기 품사 태깅이 되지 않은 미등록 어휘에 대한 감정 및 감성의 강도를 직접 입력 받거나, 온라인 설문 평가를 통해 평가하는 것을 특징으로 하는 소셜 데이터 분석 방법.
  19. 청구항 14에 있어서,
    상기 추출하는 단계는,
    감성측정 대상에 대한 감성어휘들과 상기 어휘들의 빈도 및 감정적 강도를 조합한 것을 기반으로 성긴 주성분 분석(SPCA; Sparse Principal Component Analysis)을 함으로써 상기 감성측정 대상에 대한 대표적인 감성 성분인 주된 감성 성분을 추출하되,
    상기 주된 감성 성분의 추출은, 특정 시점 또는 특정 기간을 설정하여 이루어지는 것을 특징으로 하는 소셜 데이터 분석 방법.
  20. 청구항 14에 있어서,
    상기 표시하는 단계는,
    상기 추출하는 단계에서 추출되는 수개의 주된 감성성분을 2차원 내지 3차원의 축으로 구성하고, 감성측정 대상의 특정 시점에 대한 이미지 공간상의 위치를 실시간으로 표시하거나, 특정 기간을 동안의 시간의 추이에 따른 분석결과를 애니메이션 형식으로 표시하며, 감성측정 대상 여러 개를 공통의 감정 및 감성 성분들로 구성된 이미지 공간상에 동시에 표시하는 것을 특징으로 하는 소셜 데이터 분석 방법.
KR1020130014943A 2013-02-12 2013-02-12 소셜 데이터 분석 장치 및 방법 KR101448228B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130014943A KR101448228B1 (ko) 2013-02-12 2013-02-12 소셜 데이터 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130014943A KR101448228B1 (ko) 2013-02-12 2013-02-12 소셜 데이터 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20140101906A KR20140101906A (ko) 2014-08-21
KR101448228B1 true KR101448228B1 (ko) 2014-10-10

Family

ID=51746972

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130014943A KR101448228B1 (ko) 2013-02-12 2013-02-12 소셜 데이터 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101448228B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101838089B1 (ko) * 2015-11-30 2018-04-26 주식회사 디커뮤니케이션즈 복지서비스 발굴을 위한 빅데이터 사례 기반 감성 오피니언 추출 및 평가 시스템 및 그 방법
KR102020756B1 (ko) 2018-10-23 2019-11-04 주식회사 리나소프트 머신러닝을 이용한 리뷰 분석 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101602898B1 (ko) * 2014-11-07 2016-03-11 아주대학교산학협력단 객체의 코멘트 데이터를 이용한 데이터 시각화 방법 및 시스템
KR101589626B1 (ko) * 2015-02-23 2016-01-28 주식회사 와이즈넛 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법
KR101632073B1 (ko) * 2015-06-04 2016-06-20 장원중 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
KR101713558B1 (ko) * 2015-10-30 2017-03-08 조선대학교산학협력단 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법
KR101700836B1 (ko) * 2015-12-21 2017-02-13 한국과학기술정보연구원 도서의 코멘트를 이용한 감성어 사전 구축 방법 및 시스템
US10073834B2 (en) * 2016-02-09 2018-09-11 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
KR102030342B1 (ko) * 2017-12-01 2019-10-10 상명대학교산학협력단 웹 콘텐츠의 소비 행태 분석 장치 및 그 방법
KR102222637B1 (ko) * 2018-12-28 2021-03-03 경희대학교 산학협력단 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
KR102225603B1 (ko) * 2019-03-08 2021-03-08 연세대학교 산학협력단 심리 상담을 위한 감정 스코어링 장치 및 방법
KR20220052726A (ko) * 2020-10-21 2022-04-28 주식회사 파라스타 소셜 네트워크 서비스 계정의 스타일 정보를 산출하는 방법 및 장치
KR102595058B1 (ko) * 2021-02-01 2023-10-27 주식회사 콜피아 광고 다시보기 서비스 제공 방법
KR102641801B1 (ko) * 2021-05-31 2024-02-28 상명대학교산학협력단 Sns 기반의 객체 감성 모델 생성 방법, 장치 및 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041411A (ja) 2000-07-28 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体
JP2007219929A (ja) 2006-02-17 2007-08-30 Nec Corp 感性評価システム及び方法
KR20100068531A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 콘텐츠 감성 및 의도 분석 기반의 온라인 광고 선정 장치 및 그 방법
JP2012256282A (ja) 2011-06-10 2012-12-27 Nomura Research Institute Ltd 感性分析システム及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041411A (ja) 2000-07-28 2002-02-08 Nippon Telegr & Teleph Corp <Ntt> テキスト読み上げロボット、その制御方法及びテキスト読み上げロボット制御プログラムを記録した記録媒体
JP2007219929A (ja) 2006-02-17 2007-08-30 Nec Corp 感性評価システム及び方法
KR20100068531A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 콘텐츠 감성 및 의도 분석 기반의 온라인 광고 선정 장치 및 그 방법
JP2012256282A (ja) 2011-06-10 2012-12-27 Nomura Research Institute Ltd 感性分析システム及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101838089B1 (ko) * 2015-11-30 2018-04-26 주식회사 디커뮤니케이션즈 복지서비스 발굴을 위한 빅데이터 사례 기반 감성 오피니언 추출 및 평가 시스템 및 그 방법
KR102020756B1 (ko) 2018-10-23 2019-11-04 주식회사 리나소프트 머신러닝을 이용한 리뷰 분석 방법

Also Published As

Publication number Publication date
KR20140101906A (ko) 2014-08-21

Similar Documents

Publication Publication Date Title
KR101448228B1 (ko) 소셜 데이터 분석 장치 및 방법
Ma et al. Sentiment analysis–a review and agenda for future research in hospitality contexts
Kirilenko et al. Automated sentiment analysis in tourism: Comparison of approaches
Di Caro et al. Sentiment analysis via dependency parsing
Teso et al. Application of text mining techniques to the analysis of discourse in eWOM communications from a gender perspective
KR102075788B1 (ko) 빅 데이터를 활용한 건강정보 콘텐츠 추천 서비스 시스템
Kirange et al. Aspect based sentiment analysis semeval-2014 task 4
Lee et al. Mining service quality feedback from social media: A computational analytics method
Khasawneh et al. Sentiment analysis of Arabic social media content: a comparative study
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
Abaalkhail et al. Survey on ontologies for affective states and their influences
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
KR101007284B1 (ko) 인터넷을 이용한 의견 검색 시스템 및 그 방법
Dang et al. Adoption of social media search systems: An IS success model perspective
Farrokhi et al. Textual metadiscourse resources in research articles
Xu et al. RIP emojis and words to contextualize mourning on Twitter
Kirange et al. Emotion classification of restaurant and laptop review dataset: Semeval 2014 task 4
Samanta et al. Depression Detection from Twitter Data Using Two Level Multi-modal Feature Extraction
Faryal et al. Mental health diseases analysis on Twitter using machine learning
Wiedemann et al. Computer-assisted text analysis in the social sciences
Nguyen et al. Analyzing customer experience in hotel services using topic modeling
Risal et al. Classification of Sentiment Analysis and Community Opinion Modeling Topics for Application of ICT in Government Operations
Lai et al. Sentiment analysis of online customer reviews for hotel industry: an appraisal of hybrid approach
Yusupova et al. Extracting Information on Affective Computing Research from Data Analysis of Known Digital Platforms: Research into Emotional Artificial Intelligence
Lima et al. Investigating the polarity of user postings in a social system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171010

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180930

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190930

Year of fee payment: 6