KR20190023722A - 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법 - Google Patents

소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법 Download PDF

Info

Publication number
KR20190023722A
KR20190023722A KR1020170109905A KR20170109905A KR20190023722A KR 20190023722 A KR20190023722 A KR 20190023722A KR 1020170109905 A KR1020170109905 A KR 1020170109905A KR 20170109905 A KR20170109905 A KR 20170109905A KR 20190023722 A KR20190023722 A KR 20190023722A
Authority
KR
South Korea
Prior art keywords
word
words
data
emotional
sensibility
Prior art date
Application number
KR1020170109905A
Other languages
English (en)
Inventor
차미영
이동만
김재우
임홍준
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170109905A priority Critical patent/KR20190023722A/ko
Publication of KR20190023722A publication Critical patent/KR20190023722A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

소셜 빅데이터 기반 감성 분석 키워드 확장 장치로서, 장소와 관련된 정보를 포함하는 온라인 소셜 데이터들 중에서, 목적이 되는 감성 표현 정보를 포함하는 유효 데이터들을 수집 및 추출하는 데이터 수집부, 해당 데이터에서 감성 연관 단어를 추출하여 군집화하는 단어 군집화 모듈, 그리고 상기 단어 군집화 모듈에서 군집화된 단어간 연관성을 기초로 특정 감성 연관 단어에 근접한 단어의 대표 군집을 찾고, 상기 대표 군집에 저장된 감성 단어들을 기초로 확장 감성 단어장을 생성하는 단어 확장부를 포함한다.

Description

소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법{APPARATUS AND METHOD FOR SENTIMENT ANALYSIS KEYWORD EXPANSION}
본 발명은 온라인 소셜 미디어에 게시된 사용자 의견 분석 기술에 관한 것이다.
소셜 네트워크 서비스가 보편화되고, 빅 데이터 기술이 발전하면서 온라인 소셜 네트워크에서 사용자가 사용하는 언어에 기초하여 사용자의 감성을 추출하는 기술 연구가 진행되었다. 특히 사용자 맞춤형 추천 서비스를 위해서는 분석 대상이 되는 장소에 대해 다양한 특징적 측면에서 감성적 특성을 평가해야 하고, 세분화된 결과를 추출해내기 위해서는 분석하고자 하는 장소 및 각 카테고리의 감성에 특화된 언어 키워드 셋이 필요하다. 그러나 분석의 원천이 되는 소셜 데이터는 서비스 플랫폼과 표현 주체 및 대상에 따라 방대한 형태의 비정형적인 표현이 나타나, 고정된 형태의 감성 분석 키워드 셋 구축이 어렵다.
본 발명이 해결하고자 하는 과제는 감성 분석 키워드 셋으로부터 분석 대상에 특화된 키워드 셋으로 자동 확장하는 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법을 제공하는 것이다.
소셜 빅데이터 기반 감성 분석 키워드 확장 장치는 데이터 수집부, 데이터 전처리부, 단어 임베딩 모듈, 단어 군집화 모듈, 단어 확장부를 포함한다.
데이터 수집부는 감성 정보를 포함하는 소셜미디어, 블로그 등 온라인에 공개된 다양한 형태의 소셜 데이터를 수집하며, 이렇게 수집된 데이터를 그 내용과 메타데이터로 구분하여 저장한다.
데이터 전처리부는 개별 단어의 구분, 단어 표현의 정형화 및 특수문자 제거를 한다.
단어 임베딩 모듈은 장소성에 관계된 대중 감성 어휘들을 정형화하기 위해서 장소성 소셜 데이터 내에 나타난 감성 어휘들을 의미를 자동화된 형태로 이해하고, 형태소 분석된 장소성 소셜 데이터를 입력으로 받아 벡터 형태의 단어들을 출력한다.
단어 군집화 모듈은 단어 임베딩 모듈을 이용해 소셜 데이터 내에 나타나는 단어들간 관계를 이해한다.
단어 확장부는 군집화 모듈에서 얻은 군집화된 단어 모형과 기존의 일반적인 감성 단어 셋을 이용하여 최종적으로 소셜 데이터에 최적화된 확장된 감성 단어 셋을 얻을 수 있다. 사전 또는 오픈소스로서 공중에 배포된 감성 단어를 씨앗 단어로 하여 해당 단어와 가까운 거리에 위치하는 동일한 군집에 속하는 단어들을 해당 감성 관계된 확장 감성 단어로 정의한다.
실시예에 따르면, 현재의 지능형 개인 비서 서비스가 갖는 한계점인 커뮤니케이션에서의 다양한 감성적 의미 고려가 결여된 목적 기반 서비스 제공에 그치고 있는 점을 해결하여 사용자의 다양한 요구사항에 최적화된 지능형 개인 비서 서비스를 제공할 수 있다. 실시예에 따르면, 다양한 형태로 확장성이 있는 지능형 개인 비서 서비스 분야에서 실시간성과 개인화를 강화하여 사용자의 만족도를 향상시킬 수 있다.
실시예에 따르면, 모바일 서비스인 지능형 개인 비서 및 챗봇 서비스에서 요구되는 감성 분석 키워드를 확장할 수 있다.
도 1은 소셜 빅데이터 기반 감성 분석 키워드 확장 장치의 구성도이다.
도 1을 참고하여 본 발명에 대해 설명한다.
도 1은 소셜 빅데이터 기반 감성 분석 키워드 확장 장치의 구성도이다.
온라인 소셜 데이터는 사람들에 의해 직접 작성된 비정형 데이터의 형태로 존재하기 때문에 기존의 일반적인 감성 분석 단어 셋을 그대로 적용하기에는 한계가 있다. 이를 해결하기 위해, 본 발명은 감성 분석 키워드 셋으로부터 분석 대상에 특화된 키워드 셋으로 자동 확장한다.
소셜 빅데이터 기반 감성 분석 키워드 확장 장치는 데이터 수집부, 데이터 전처리부, 단어 임베딩 모듈, 단어 군집화 모듈, 단어 확장부를 포함하고, 입력된 소셜 데이터에 실제로 사용된 감성 관련 단어들을 추출하여 정형화한다.
데이터 수집부는 감성 정보를 포함하는 소셜미디어, 블로그 등 온라인에 공개된 다양한 형태의 소셜 데이터를 수집하며, 이렇게 수집된 데이터를 그 내용과 메타데이터로 구분하여 저장한다.
데이터 전처리부는 소셜 데이터의 비정형성을 최소화하고 정형화된 분석 가능한 형태로 변환하는 전처리부로서, 개별 단어의 구분, 단어 표현의 정형화 및 특수문자 제거를 한다.
단어 임베딩 모듈은 소셜 데이터에 나타난 감성 단어들을 정형화하기 위해서 각 단어들을 의미에 기반하여 자동화된 형태로 이해한다. 이를 위해 단어 임베딩을 구현한다. 단어 임베딩은 분산 시맨틱스(Distributional Semantics)에서 문서 내 단어들의 관계를 학습시키는 것이다. 이를 구현하기 위해 word2vec 알고리즘을 이용하여 단어들 간 관계를 벡터 형태로 학습시켰다. Word2vec 알고리즘은 Google의 Tomas Milkov에 의해 만들어진 것으로 Skip grams를 이용하여 단어 w가 주어졌을 때 이와 함께 등장하는 주변 단어들 (문맥) c가 나타날 확률을 예측하며, CBOW를 이용하여 문맥 c가 주어졌을 때 단어 w가 나타날 확률을 예측한다. 해당 모듈은 전처리된 소셜 데이터를 입력으로 받아 사용된 모든 유의미한 단어에 대한 벡터 형태의 단어 모형을 출력한다.
단어 군집화 모듈은 단어 임베딩 모듈을 이용해 소셜 데이터 내에 나타나는 단어들간 관계를 이해한다. 단어는 벡터 형태로 표현되기 때문에 벡터의 거리 계산을 이용해 어떤 단어들이 유사한 의미를 가지는지, 혹은 어떤 단어가 전혀 관계가 없는지 등을 이해할 수 있다. 더 나아가 어떤 형태로 단어의 그룹이 지어지는지를 거리 기반의 군집화 알고리즘을 이용하여 이해할 수 있다. 구현을 위해 k-means와 같은 hard clustering clustering, 혹은 Mixture of Gaussian 과 같은 soft clustering 방법을 적용하며 벡터간 거리 계산을 위해서는 유클리드 거리 (Euclidean distance) 를 활용한다. 모듈은 밀접한 관계를 갖는 단어들의 군집을 결과로 얻게 된다.
단어 확장부는 군집화 모듈에서 얻은 군집화된 단어 모형과 기존의 일반적인 감성 단어 셋을 이용하여 최종적으로 소셜 데이터에 최적화된 확장된 감성 단어 셋을 얻을 수 있다. 사전 또는 오픈소스로서 공중에 배포된 감성 단어를 씨앗 단어로 하여 해당 단어와 가까운 거리에 위치하는 동일한 군집에 속하는 단어들을 해당 감성 관계된 확장 감성 단어로 정의한다.
실시예에 따르면, 현재의 지능형 개인 비서 서비스가 갖는 한계점인 커뮤니케이션에서의 다양한 감성적 의미 고려가 결여된 목적 기반 서비스 제공에 그치고 있는 점을 해결하여 사용자의 다양한 요구사항에 최적화된 지능형 개인 비서 서비스를 제공할 수 있다. 실시예에 따르면, 다양한 형태로 확장성이 있는 지능형 개인 비서 서비스 분야에서 실시간성과 개인화를 강화하여 사용자의 만족도를 향상시킬 수 있다. 실시예에 따르면, 모바일 서비스인 지능형 개인 비서 및 챗봇 서비스에서 요구되는 감성 분석 키워드를 확장할 수 있다.

Claims (3)

  1. 소셜 빅데이터 기반 감성 분석 키워드 확장 장치로서,
    장소와 관련된 정보를 포함하는 온라인 소셜 데이터들 중에서, 목적이 되는 감성 표현 정보를 포함하는 유효 데이터들을 수집 및 추출하는 데이터 수집부,
    해당 데이터에서 감성 연관 단어를 추출하여 군집화하는 단어 군집화 모듈, 그리고
    상기 단어 군집화 모듈에서 군집화된 단어간 연관성을 기초로 특정 감성 연관 단어에 근접한 단어의 대표 군집을 찾고, 상기 대표 군집에 저장된 감성 단어들을 기초로 확장 감성 단어장을 생성하는 단어 확장부
    를 포함하는 감성 분석 키워드 확장 장치.
  2. 제1항에서,
    상기 단어 군집화 모듈은
    상기 데이터 수집부에서 수집된 유효 데이터를 전처리하여 정형화하고, 전처리된 소셜 데이터에 사용된 유의미한 단어에 대한 벡터 형태의 단어 모형을 출력하며, 벡터 형태의 단어 모형의 거리를 기초로 단어들을 군집화하는 감성 분석 키워드 확장 장치.
  3. 제1항에서,
    상기 단어 확장부는
    벡터 형태의 단어 모형의 거리를 기초로 단어간 연관성을 추출하고, 단어간 연관성을 기초로 가장 근접한 단어의 대표 군집을 찾아서, 저장된 감성 단어장과 연관된 단어들을 확장 감성 단어장으로 출력하는 감성 분석 키워드 확장 장치.
KR1020170109905A 2017-08-30 2017-08-30 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법 KR20190023722A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170109905A KR20190023722A (ko) 2017-08-30 2017-08-30 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170109905A KR20190023722A (ko) 2017-08-30 2017-08-30 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20190023722A true KR20190023722A (ko) 2019-03-08

Family

ID=65801313

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170109905A KR20190023722A (ko) 2017-08-30 2017-08-30 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20190023722A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463950A (zh) * 2020-12-10 2021-03-09 中国科学院深圳先进技术研究院 文献搜索方法、装置及电子设备
KR20210031292A (ko) * 2019-09-11 2021-03-19 주식회사 알마덴디자인리서치 빅데이터를 이용한 품질 요인의 분석을 위한 장치 및 방법
KR20210043281A (ko) 2019-10-11 2021-04-21 이재근 소셜미디어 빅데이터 분석을 통한 커스텀 위젯의 시각적 제공 방법 및 이를 수행하는 서버

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210031292A (ko) * 2019-09-11 2021-03-19 주식회사 알마덴디자인리서치 빅데이터를 이용한 품질 요인의 분석을 위한 장치 및 방법
KR20210043281A (ko) 2019-10-11 2021-04-21 이재근 소셜미디어 빅데이터 분석을 통한 커스텀 위젯의 시각적 제공 방법 및 이를 수행하는 서버
CN112463950A (zh) * 2020-12-10 2021-03-09 中国科学院深圳先进技术研究院 文献搜索方法、装置及电子设备
CN112463950B (zh) * 2020-12-10 2023-10-24 中国科学院深圳先进技术研究院 文献搜索方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108614875A (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
JP2020521210A (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN109658271A (zh) 一种基于保险专业场景的智能客服系统及方法
CN107704558A (zh) 一种用户意见抽取方法及系统
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
Harris et al. Exploring the role of grammar and word choice in bias toward african american english (aae) in hate speech classification
Biradar et al. Machine learning tool for exploring sentiment analysis on twitter data
US20230073602A1 (en) System of and method for automatically detecting sarcasm of a batch of text
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
KR20190023722A (ko) 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법
CN110032741A (zh) 一种基于语义扩展和最大边缘相关的伪文本生成方法
CN108399157A (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN114138969A (zh) 文本处理方法及装置
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN106486114A (zh) 改进语言模型的方法和装置以及语音识别方法和装置
Zhang et al. Spam comments detection with self-extensible dictionary and text-based features
CN117473034A (zh) 交互文本处理方法、装置、电子设备及存储介质
KR102222637B1 (ko) 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
Sawant et al. Analytical and Sentiment based text generative chatbot
Maurya et al. A use of social media for opinion mining: An overview (with the use of hybrid textual and visual sentiment ontology)
Desai et al. A hybrid classification algorithm to classify engineering students' problems and perks