KR20220063483A - 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법 - Google Patents

머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법 Download PDF

Info

Publication number
KR20220063483A
KR20220063483A KR1020200149388A KR20200149388A KR20220063483A KR 20220063483 A KR20220063483 A KR 20220063483A KR 1020200149388 A KR1020200149388 A KR 1020200149388A KR 20200149388 A KR20200149388 A KR 20200149388A KR 20220063483 A KR20220063483 A KR 20220063483A
Authority
KR
South Korea
Prior art keywords
sentiment
corpus
classification model
information
topic
Prior art date
Application number
KR1020200149388A
Other languages
English (en)
Other versions
KR102410715B1 (ko
Inventor
배진
김재영
조창규
Original Assignee
주식회사 데이터캐스트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 데이터캐스트 filed Critical 주식회사 데이터캐스트
Priority to KR1020200149388A priority Critical patent/KR102410715B1/ko
Publication of KR20220063483A publication Critical patent/KR20220063483A/ko
Application granted granted Critical
Publication of KR102410715B1 publication Critical patent/KR102410715B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 문서에 개시되는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치는 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 하나 이상의 외부 문서로부터 수집된 말뭉치(corpus)와 함께 복수의 주제(topic) 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성(sentiment) 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하고, 획득된 학습 데이터 세트를 메모리에 저장하고, 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하고, 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.

Description

머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING SENTIMENT OF TEXT DATA BASED ON MACHINE LEARNING}
본 문서에서 개시되는 실시 예들은 머신 러닝에 기반하여 텍스트 데이터로부터 소비자의 감성을 분석하는 장치 및 방법과 관련된다.
통신 기술의 발전에 따라 다양한 형태의 매체를 통해 다수의 사용자가 텍스트를 업로드할 수 있게 되었고, 그 텍스트의 양은 지속적으로 증가하고 있다. 따라서, SNS(social network service), 블로그 및 웹 사이트 등과 같은 텍스트가 포함된 다수의 웹 페이지를 분석하는 경우, 그 방대한 양의 정보를 이용하여 다양한 사용자의 관심사, 여론, 의견 및 감정 등을 파악할 수 있다. 상술한 텍스트는 분석을 통해 다양한 형태의 정보로 재가공될 수 있다.
특정 제품 및 서비스 등에 대한 사용자의 리뷰를 분석하면, 그 제품 및 서비스에 대한 사용자의 감성(sentiment)의 극성(예: 긍정 또는 부정)을 파악할 수 있다. 자연어 처리를 이용하여 고객 의견(VOC: voice of customer)을 분석하면, 대량의 고객 의견에 내포된 감성을 신속하고 효율적으로 정량화할 수 있다.
말뭉치(corpus)에 내재된 감성은 사전 데이터베이스 또는 인공 신경망에 기반하여 판단될 수 있다. 인공 신경망에 기반하여 감성을 분석하는 경우, 고객 의견이 포함된 말뭉치 및 해당 말뭉치에 내재된 감성을 나타내는 레이블(label)을 이용하여 머신 러닝을 수행할 수 있다. 머신 러닝을 수행할 때에는 정확한 결과 도출을 위해 특정 주제(topic)와 연관된 말뭉치가 이용될 수 있다. 예를 들어, 호텔과 연관된 고객 의견을 이용하여 머신 러닝을 수행할 수 있고, 머신 러닝에 의해 도출된 모델은 호텔과 연관된 고객 의견에 대해서만 우수한 성능을 제공할 수 있다. 즉, 미리 학습되지 않은 새로운 주제에 대해서는 정확한 감성 분석 결과가 제공될 수 없으므로, 새로운 주제가 나타날 때마다 다시 새로운 주제에 대응하는 대량의 학습 데이터를 수집하고 머신 러닝을 수행하여 새로운 주제에 대응하는 모델을 산출할 필요성이 있다.
본 발명의 실시 예들은, 미리 학습되지 않은 주제와 연관된 고객 의견에 대해 정확한 감성 분석 결과를 출력할 수 있는 분석 모델을 제공하기 위한 것이다.
본 문서에 개시되는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치는 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 하나 이상의 외부 문서로부터 수집된 말뭉치(corpus)와 함께 복수의 주제(topic) 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성(sentiment) 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하고, 획득된 학습 데이터 세트를 메모리에 저장하고, 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하고, 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.
일 실시 예에 따르면, 프로세서는 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득하고, 복수의 학습 데이터 세트를 복수의 주제별로 분류하여 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되고 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득하고, 분석 대상 말뭉치를 주제 분류 모델, 글로벌 감성 분류 모델 및 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 출력할 수 있다.
일 실시 예에 따르면, 프로세서는 분석 대상 말뭉치를 주제 분류 모델에 입력함으로써 분석 대상 말뭉치와 복수의 주제 각각에 대한 유사도 정보를 획득하고, 유사도 정보에 기초하여 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델을 결정할 수 있다.
일 실시 예에 따르면, 프로세서는 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델 각각에 의해 출력된 분석 결과에 기초하여 분석 대상 말뭉치에 대한 감성 정보를 결정할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법은 하나 이상의 외부 문서로부터 수집된 말뭉치와 함께 복수의 주제 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하는 단계, 획득된 학습 데이터 세트를 저장하는 단계, 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하는 단계, 및 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 다양한 주제 및 감성 학습 데이터 세트를 고르게 이용하여 산출되는 글로벌 감성 분류 모델을 활용함으로써, 다양한 주제와 연관된 말뭉치에 대한 감성 정보를 정확하게 판단할 수 있다.
또한, 말뭉치의 주제를 판단하는 주제 분류 모델 및 말뭉치와 유사도가 높은 주제에 대응하는 로컬 감성 분류 모델을 글로벌 감성 분류 모델과 함께 활용함으로써, 새로운 주제에 대한 말뭉치의 감성 정보에 대한 판단의 정확성을 더 향상시킬 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 동작 환경을 도시한다.
도 2는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 구성을 도시하는 블록도이다.
도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법을 설명하기 위한 흐름도이다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해서 상세하게 설명한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경, 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 동작 환경을 도시한다.
도 1을 참조하면, 일 실시 예에 따른 텍스트 데이터의 감성 분석 장치는 서버(100) 형태로 구현될 수 있다. 서버(100)는 외부 장치(12)로부터 다양한 텍스트를 크롤링(crawling)할 수 있다. 서버(100)는 다양한 채널 또는 플랫폼으로부터 텍스트를 수집할 수 있다. 예를 들어, 서버(100)는 SNS(social network service), 블로그, 다양한 웹 사이트, 웹 페이지 및 웹 문서 등과 같은 외부 전자 문서로부터 말뭉치(corpus)를 수집할 수 있다. 서버(100)는 다양한 주제(topic)에 대한 고객 의견을 포함하는 말뭉치를 수집할 수 있다.
사용자 단말(11)은 서버(100)에 수집된 말뭉치에 말뭉치의 주제(topic)를 나타내는 주제 레이블 및 말뭉치에 내포된 감성(sentiment)을 나타내는 감성 레이블을 입력할 수 있다. 주제 레이블 및 감성 레이블은 사용자 단말(11)을 통한 사용자의 입력에 따라 부여될 수 있다. 예를 들어, “객실이 깨끗하고 편안합니다”라는 말뭉치가 수집된 경우, 사용자 단말(11)에 의해 주제 레이블 “호텔” 및 감성 레이블 “긍정”이 입력될 수 있다. 말뭉치, 말뭉치에 대응하는 주제 레이블 및 감성 레이블은 학습 데이터 세트로서 서버(100)에 저장될 수 있다.
서버(100)는 다수의 학습 데이터 세트를 저장할 수 있다. 서버(100)는 다수의 학습 데이터 세트를 주제별 그리고 감성별로 분류하고, 그 분류마다 지정된 수 이상의 학습 데이터 세트를 언어 모델링 알고리즘에 입력함으로써 머신 러닝을 수행할 수 있다. 다양한 주제 레이블 및 감성 레이블을 포함하는 학습 데이터 세트를 고르게 이용함으로써 모든 주제에 대응할 수 있는 하나의 글로벌 감성 분류 모델이 생성될 수 있다. 글로벌 감성 분류 모델과 함께 주제 분류 모델 및 다양한 주제 각각에 대응하는 복수의 로컬 감성 분류 모델이 생성될 수도 있다.
상술한 모델이 생성되면, 서버(100)는 분석 대상 말뭉치를 수신하고, 수신된 분석 대상 말뭉치를 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 출력할 수 있다. 분석 대상 말뭉치가 미리 학습된 주제에 직접 대응하지 않더라도, 다양한 주제에 대한 학습이 이루어져 있으므로 정확한 분석 결과가 도출될 수 있다.
도 1에서는 서버(100)와 사용자 단말(11)이 분리된 것으로 도시되었으나, 이에 제한되지 않고, 하나의 컴퓨팅 디바이스로 통합되어 구현될 수도 있다. 또한, 도 1에서는 서버(100) 및 사용자 단말(11)이 각각 하나의 디바이스인 것으로 도시되었으나, 이에 제한되지 않고, 서버(100) 및 사용자 단말(11)은 각각 2 이상의 컴퓨팅 디바이스로 분리되어 구현될 수도 있다.
또한, 도 1을 참조하여 설명된 서버(100)에 의해 수행되는 동작 중 적어도 일부는 사용자 단말(11)에 의해 수행될 수도 있다. 예를 들어, 외부 문서로부터 말뭉치를 수집하는 동작, 학습 데이터 세트를 저장하는 동작, 머신 러닝을 수행하여 모델을 생성하는 동작, 및 생성된 모델을 이용하여 분석 대상 말뭉치에 대한 감성 정보를 출력하는 동작 등은 사용자 단말(11)에 의해 수행될 수도 있다.
도 2는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치(200)의 구성을 도시하는 블록도이다.
도 2를 참조하면, 일 실시 예에 따른 텍스트 데이터의 감성 분석 장치(200)는 통신 회로(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다. 텍스트 데이터의 감성 분석 장치(200)는 서버의 형태로 구현될 수도 있고, 사용자 단말(21)의 형태로 구현될 수도 있다. 텍스트 데이터의 감성 분석 장치(200)가 사용자 단말(21)의 형태로 구현된 경우, 도 2에 도시된 사용자 단말(21)의 기능은 텍스트 데이터의 감성 분석 장치(200)에 의해 수행될 수 있다.
통신 회로(210)는 사용자 단말(21) 및 외부 서버(22)와 무선 또는 유선으로 통신할 수 있다. 통신 회로(210)는 사용자 단말(21) 및 외부 서버(22)와 데이터를 송수신할 수 있다.
메모리(220)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(220)는 텍스트 데이터의 감성 분석 장치(200)에서 취급되는 다양한 데이터를 저장할 수 있다. 예를 들어, 메모리(220)는 텍스트 데이터의 감성 분석 장치(200) 내부에서 처리된 데이터를 저장할 수 있고, 사용자 단말(21) 및 외부 서버(22)로부터 수신된 데이터를 저장할 수도 있다.
프로세서(230)는 통신 회로(210) 및 메모리(220)와 전기적으로 연결될 수 있다. 프로세서(230)는 통신 회로(210) 및 메모리(220)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 도 2에서는 프로세서(230)가 단일의 구성인 것으로 도시되었으나, 복수의 구성으로 분리되어 구현될 수도 있다. 프로세서(230)는 메모리(220)에 저장된 소프트웨어 내지 인스트럭션을 실행함으로써, 이하와 같은 동작을 수행할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 하나 이상의 외부 문서로부터 말뭉치(corpus)를 수집할 수 있다. 예를 들어, 프로세서(230)는 다양한 웹 사이트, 웹 페이지 및 웹 문서 등과 같은 외부 전자 문서로부터 다양한 상품 또는 서비스에 대한 리뷰, 후기 또는 평가 등을 포함하는 말뭉치를 수집할 수 있다. 다른 예를 들면, 말뭉치는 사용자 단말(21)에 의해 수집될 수도 있다.
일 실시 예에 따르면, 프로세서(230)는 수집된 말뭉치 각각에 대한 주제 레이블 및 감성 레이블을 수신할 수 있다. 주제 레이블은 다양한 주제 중 수집된 말뭉치의 주제를 나타낼 수 있다. 주제는 말뭉치와 연관된 서비스(예: 숙박, 레스토랑, 카페, 영화, 의료, 교육, 금융, 우편/배달, 관광 또는 사후 관리 등의 부가 서비스 등) 또는 제품(예: 의류, 신발, 식품, 전자제품, 가구, 게임, 소프트웨어, 모바일 어플리케이션, 자동차 또는 부동산 등)을 포함할 수 있다. 주제 레이블의 값은 말뭉치의 주제를 직접 나타내는 문자(예: 숙박, 레스토랑, 의류 또는 신발 등)일 수도 있고, 말뭉치의 주제에 대응하는 코드(예: a, b, 0 또는 1 등)일 수도 있다. 감성 레이블은 감성 레이블은 다양한 감성 중 수집된 말뭉치의 감성을 나타낼 수 있다. 감성은 긍정 및 부정(또는 긍정/중립/부정)을 포함할 수 있다. 감성 레이블의 값은 0(예: 부정) 또는 1(예: 긍정)(또는 -1(부정), 0(중립) 또는 1(긍정))일 수도 있고, 부정 또는 긍정(또는 부정, 중립 또는 긍정)일 수도 있다. 사용자 단말(21)은 사용자로부터 특정 말뭉치(예: 객실이 깨끗하고 편안합니다.)에 대한 주제 레이블(예: 호텔) 및 감성 레이블(예: 1)의 입력을 수신할 수 있다. 프로세서(230)는 통신 회로(210)를 이용하여 사용자 단말(21)로부터 입력된 주제 레이블 및 감성 레이블을 수신할 수 있고, 해당 말뭉치, 주제 레이블 및 감성 레이블을 학습 데이터 세트로서 획득할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 획득된 학습 데이터 세트를 메모리(220)에 저장할 수 있다. 프로세서(230)는 메모리(220)에 저장된 학습 데이터 세트를 머신 러닝에 활용할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 머신 러닝을 수행할 수 있다. 프로세서(230)는 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 확보할 수 있다. 예를 들어, 주제 호텔 및 의류, 감성 긍정 및 부정을 포함하는 학습 데이터 세트가 존재하는 경우, 주어진 주제 및 감성에 대한 모든 조합에 대응하기 위해, 주제 호텔 및 감성 긍정에 대응하는 n개 이상의 학습 데이터 세트, 주제 호텔 및 감성 부정에 대응하는 n개 이상의 학습 데이터 세트, 주제 의류 및 감성 긍정에 대응하는 n개 이상의 학습 데이터 세트, 및 주제 의류 및 감성 부정에 대응하는 n개 이상의 학습 데이터 세트가 확보될 수 있다. 프로세서(230)는 주제 레이블 및 감성 레이블을 이용하여 모든 조합에 대해 골고루 혼합된 학습 데이터 세트를 확보할 수 있다. 프로세서(230)는 확보된 학습 데이터 세트를 언어 모델링 알고리즘에 입력할 수 있다. 언어 모델링 알고리즘은, 예를 들어, BERT, KoBERT, GPT-3, Big Bird, ELMO 또는 ULMFit 등과 같은 오픈 소스 알고리즘 중 하나로 선택될 수 있다. 학습 데이터 세트의 구성에 대해서는 도 3을 참조하여 상세히 설명한다.
일 실시 예에 따르면, 프로세서(230)는 상술한 머신 러닝을 통해 단일의 글로벌 감성 분류 모델을 획득할 수 있다. 프로세서(230)는 학습 데이터 세트에 포함된 말뭉치 및 감성 레이블을 이용하여 머신 러닝을 수행하고, 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 글로벌 감성 분류 모델을 획득할 수 있다. 입력된 말뭉치는 임의의 주제와 연관될 수 있다. 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 혼합된 충분한 양의 학습 데이터 세트를 입력하므로, 하나의 글로벌 감성 분류 모델로 모든 주제에 대응할 수 있다. 특히, 글로벌 감성 모델은 미리 학습되지 않은 주제에 대해서도 신뢰도 높은 감성 정보를 출력할 수 있다. 글로벌 감성 분류 모델의 생성에 대해서는 도 4를 참조하여 상세히 설명한다.
일 실시 예에 따르면, 프로세서(230)는 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 주제 분류 모델을 획득할 수 있다. 프로세서(230)는 학습 데이터 세트에 포함된 말뭉치 및 주제 레이블을 이용하여 머신 러닝을 수행하고, 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득할 수 있다. 주제 분류 모델의 생성에 대해서는 도 4를 참조하여 상세히 설명한다.
일 실시 예에 따르면, 프로세서(230)는 복수의 학습 데이터 세트를 복수의 주제별로 분류하여 지정된 언어 모델링 알고리즘에 입력함으로써 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득할 수 있다. 프로세서(230)는 특정 주제에 대응하는 학습 데이터 세트에 포함된 말뭉치 및 감성 레이블을 이용하여 머신 러닝을 수행하고, 특정 주제에 대응하는 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 로컬 감성 분류 모델을 획득할 수 있다. 예를 들어, 호텔 및 의류에 대한 학습 데이터 세트가 구비된 경우, 주제 호텔에 대한 로컬 감성 분류 모델 및 주제 의류에 대한 로컬 감성 분류 모델이 획득될 수 있다. 로컬 감성 분류 모델의 생성에 대해서는 도 4를 참조하여 상세히 설명한다.
일 실시 예에 따르면, 프로세서(230)는 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다. 분석 대상 말뭉치는 텍스트로 이루어진 고객 의견을 포함할 수 있다. 프로세서(230)는 임의의 주제와 연관된 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 산출할 수 있다. 다양한 주제 및 감성에 대하여 골고루 혼합된 충분한 학습이 이루어져 있으므로, 미리 학습된 또는 미리 학습되지 않은 임의의 주제와 연관된 말뭉치에 대한 감성 정보가 하나의 글로벌 감성 분류 모델에 의해 정확하게 제공될 수 있다. 글로벌 감성 분류 모델을 이용한 감성 정보의 출력에 대해서는 도 5를 참조하여 상세히 설명한다.
일 실시 예에 따르면, 정확성의 향상을 위해, 프로세서(230)는 분석 대상 말뭉치를 주제 분류 모델, 글로벌 감성 분류 모델 및 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 출력할 수도 있다.
예를 들어, 프로세서(230)는 분석 대상 말뭉치를 주제 분류 모델에 입력함으로써 분석 대상 말뭉치와 복수의 주제 각각에 대한 유사도 정보를 획득할 수 있다. 주제 분류 모델을 이용한 유사도 산출에 대해서는 도 6을 참조하여 상세히 설명한다. 프로세서(230)는 유사도 정보에 기초하여 복수의 로컬 감성 분류 모델 중 분석 대상 말뭉치와 유사도가 높은 하나 이상의 주제에 각각 대응하는 하나 이상의 로컬 감성 분류 모델을 결정할 수 있다. 프로세서(230)는 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델 각각에 의해 출력된 분석 결과에 기초하여 분석 대상 말뭉치에 대한 감성 정보를 결정할 수 있다. 프로세서(230)는 글로벌 감성 분류 모델에 의한 분석 결과와 선택된 로컬 감성 분류 모델에 의한 분석 결과를 적절히 결합하여 최종 결과물을 산출할 수 있다.
예를 들어, 분석 대상 말뭉치와 유사한 주제에 대응하는 2개의 로컬 감성 분류 모델이 선택된 경우, 프로세서(230)는 글로벌 감성 분류 모델에 의한 감성 분석 결과가 “긍정”이고, 제1 로컬 감성 분류 모델에 의한 감성 분석 결과가 “긍정”이고, 제2 로컬 감성 분류 모델에 의한 감성 분석 결과가 “부정”인 경우, 다수의 모델(글로벌 감성 분류 모델 및 제1 로컬 감성 분류 모델)에 의해 도출된 결과인 감성 정보 “긍정”을 최종 결과물로서 제공할 수 있다. 다른 예를 들면, 분석 대상 말뭉치와 유사한 주제에 대응하는 3개의 로컬 감성 분류 모델이 선택된 경우, 2개의 모델에 의해 분석 결과 “긍정”이 도출되고 다른 2개의 모델에 의해 분석 결과 “부정”이 도출되면, 사용된 감성 분류 모델 중 주제 유사도가 지정된 값보다 높은 모델의 분석 결과를 최종 결과물로서 제공할 수 있다. 또 다른 예를 들면, 주제 유사도(또는 주제 유사도 사이의 차이)가 지정된 값보다 작은 경우에는 글로벌 감성 분류 모델의 분석 결과를 최종 결과물로서 제공할 수 있다.
도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 3을 참조하면, 일 실시 예에 따른 감성 분석 장치는 다수의 학습 데이터 세트를 수집할 수 있다. 학습 데이터 세트는 호텔, 레스토랑 및 의류 등의 주제에 대응할 수 있고, 긍정 및 부정 등의 감성에 대응할 수 있다. 학습 데이터 세트는 말뭉치, 주제 레이블 및 감성 레이블을 포함할 수 있다.
감성 분석 장치는 말뭉치 1 내지 말뭉치 12를 포함하는 다수의 말뭉치를 수집할 수 있다. 말뭉치 각각에 대한 사용자의 입력에 의해 주제 레이블 및 감성 레이블이 생성될 수 있다. 예를 들어, “객실이 지저분하고 냄새가 납니다.”라는 말뭉치 1에 대해, 주제 레이블 “호텔” 및 감성 레이블 “0”이 입력되어 저장될 수 있다.
감성 분석 장치는 수집된 말뭉치에 대응하는 주제 및 감성의 모든 조합 각각에 대해 지정된 수 이상의 학습 데이터 세트를 확보할 수 있다. 예를 들어, 주제 레이블 “호텔” 및 감성 레이블 “0”을 포함하는 n개 이상의 학습 데이터 세트(310), 주제 레이블 “호텔” 및 감성 레이블 “1”을 포함하는 n개 이상의 학습 데이터 세트(320), 주제 레이블 “레스토랑” 및 감성 레이블 “0”을 포함하는 n개 이상의 학습 데이터 세트(330), 주제 레이블 “레스토랑” 및 감성 레이블 “1”을 포함하는 n개 이상의 학습 데이터 세트(340), 주제 레이블 “의류” 및 감성 레이블 “0”을 포함하는 n개 이상의 학습 데이터 세트(350), 주제 레이블 “의류” 및 감성 레이블 “1”을 포함하는 n개 이상의 학습 데이터 세트(360)가 확보될 수 있다. 도 3에서는 학습 데이터 세트의 수가 n개 이상인 것으로 도시되었으나, 이에 제한되지 않고, 지정된 학습 데이터 세트의 수는 조합마다 상이하게 설정될 수도 있다.
다수의 말뭉치를 입력된 주제 레이블 및 감성 레이블에 따라 분류하고, 분류된 주제 및 감성의 모든 조합 각각에 대해 골고루 혼합된 충분한 학습 데이터 세트를 확보함으로써, 머신 러닝을 통해 다양한 주제, 특히, 미리 학습되지 않은 주제에 대해서도 대응 가능한 단일의 글로벌 감성 분류 모델이 산출될 수 있다.
도 4는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 일 실시 예에 따른 감성 분석 장치는 학습 데이터 세트(410)를 확보할 수 있다. 감성 분석 장치는 학습 데이터 세트(410)를 언어 모델링 알고리즘(420)에 입력함으로써 판단 모델(430)을 획득할 수 있다.
판단 모델(430)은 주제 분류 모델(431), 글로벌 감성 분류 모델(432), 제1 로컬 감성 분류 모델(433), 제2 로컬 감성 분류 모델(434) 및 제3 로컬 감성 분류 모델(435)을 포함할 수 있다. 도 4에서는 3개의 로컬 감성 분류 모델이 획득되는 것으로 도시되었으나, 이에 제한되지 않고, 학습 데이터 세트(410)에 포함된 주제의 수에 대응하는 로컬 감성 분류 모델이 생성될 수 있다. 또한, 도 4에서는 판단 모델(430)이 주제 분류 모델(431) 및 로컬 감성 분류 모델(433, 434, 435)을 포함하는 것으로 도시되었으나, 주제 분류 모델(431) 및 로컬 감성 분류 모델(433, 434, 435)은 선택적 구성에 해당하는 것으로, 판단 모델(430)은 하나의 글로벌 감성 분류 모델(432)로 구현될 수도 있다.
주제 분류 모델(431)은 학습 데이터 세트(410) 중 말뭉치 및 주제 레이블을 포함하는 제1 데이터 세트(411)의 학습에 의해 도출될 수 있다. 글로벌 감성 분류 모델(432)은 주제 및 감성의 모든 조합 각각에 대해 학습 데이터 세트(410)의 수가 충분히 확보되면 말뭉치 및 감성 레이블을 포함하는 제2 데이터 세트(412)의 학습에 의해 도출될 수 있다. 제1 로컬 감성 분류 모델(433)은 주제 호텔에 대응하는 제3 데이터 세트(413)의 학습에 의해 도출될 수 있다. 제2 로컬 감성 분류 모델(434)은 주제 레스토랑에 대응하는 제4 데이터 세트(414)의 학습에 의해 도출될 수 있다. 제3 로컬 감성 분류 모델(435)은 주제 의류에 대응하는 제5 데이터 세트(415)의 학습에 의해 도출될 수 있다.
감성 분석 장치는 분석 대상 말뭉치(440)를 획득할 수 있다. 감성 분석 장치는 분석 대상 말뭉치(440)를 판단 모델(430)로 입력할 수 있고, 판단 모델(430)에 의해 출력되는 감성 정보(450)를 획득할 수 있다.
도 5는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 일 실시 예에 따른 감성 분석 장치는 말뭉치 1 내지 말뭉치 3을 포함하는 분석 대상 말뭉치를 수신할 수 있다. 감성 분석 장치는 글로벌 감성 분류 모델로 분석 대상 말뭉치를 입력할 수 있다.
글로벌 감성 분류 모델은, 예를 들어, “모바일 앱” 및 “전자 제품” 등과 같은 다양한 주제와 연관된 학습 데이터 세트에 의해 학습된 모델일 수 있다. 다만 모든 주제에 대해 학습되는 것은 실질적으로 불가능하므로, 글로벌 감성 분류 모델은 주제 “게임”에 대해서는 학습되지 않은 모델일 수 있다. 글로벌 감성 분류 모델은 주제와 관계 없이 입력된 분석 대상 말뭉치에 대해 분석 결과를 출력할 수 있다. 예를 들어, 글로벌 감성 분류 모델은 말뭉치 1 “앱 디자인도 깔끔하고 사용하기 편해요.”에 대해 감성 정보 “긍정”을 출력할 수 있고, 말뭉치 2 ”마감 퀄리티가 좀 떨어지고 폰 그립감이 애매합니다.”에 대해 감성 정보 “부정”을 출력할 수 있고, 말뭉치 3 “유료 아이템이 많은 게임이고… 그래픽만 좋네요.”에 대해 감성 정보 “부정”을 출력할 수 있다.
글로벌 감성 분류 모델은 주제 “게임”에 대해서 학습되지 않았다 하더라도, 유사한 주제인 “모바일 앱” 또는 “소프트웨어” 등과 같은 다양한 주제에 대해 학습된 모델일 수 있다. 따라서, 학습되지 않은 주제 “게임”에 대해서도 신뢰도 높은 분석 결과를 제공할 수 있고, 이로써 임의의 주제와 연관된 분석 대상 말뭉치에 대한 감성 정보가 정확하게 제공될 수 있다.
도 6은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 6을 참조하면, 일 실시 예에 따른 감성 분석 장치는 말뭉치 1 내지 말뭉치 3을 포함하는 분석 대상 말뭉치를 수신할 수 있다. 감성 분석 장치는 주제 분류 모델로 분석 대상 말뭉치를 입력할 수 있다.
주제 분류 모델은, 예를 들어, 모바일 앱, 호텔, 레스토랑, 음식, 의류 및 전자 제품 등과 같은 다양한 주제와 연관된 학습 데이터 세트에 의해 학습된 모델일 수 있다. 주제 분류 모델은 입력된 분석 대상 말뭉치와 학습된 복수의 주제 각각 사이의 유사도를 산출할 수 있다. 예를 들어, 주제 분류 모델은 말뭉치 1 “앱 디자인도 깔끔하고 사용하기 편해요.”과 주제 “모바일 앱” 사이의 유사도를 71%로 산출할 수 있고, 말뭉치 2 ”마감 퀄리티가 좀 떨어지고 폰 그립감이 애매합니다.”와 주제 “전자 제품” 사이의 유사도를 74%로 산출할 수 있다. 말뭉치 1 및 말뭉치 2는 각각 미리 학습된 주제인 “모바일 앱” 및 “전자 제품”에 대응하므로 유사도가 특히 높게 산출될 수 있다. 다른 예를 들면, 주제 분류 모델은 말뭉치 3 “유료 아이템이 많은 게임이고… 그래픽만 좋네요.”와 주제 “모바일 앱” 사이의 유사도를 51%로 산출할 수 있고, 말뭉치 3과 주제 “전자 제품” 사이의 유사도를 36%로 산출할 수 있다. 말뭉치 3의 주제인 “게임”은 미리 학습된 주제에 해당하지 않을 수 있으나, 유사도 판단을 통해 주제 “모바일 앱” 및 “전자 제품”과 상대적으로 유사도가 높다는 점을 확인할 수 있다.
주제 분류 모델은 주제 “게임”에 대해서 학습되지 않았다 하더라도, 유사도 산출을 통해 유사도가 상대적으로 높은 주제인 “모바일 앱” 및 “전자 제품”을 식별할 수 있고, 이로써 분석 대상 말뭉치가 임의의 주제와 연관되었다 하더라도 미리 학습된 주제 중 분석 대상 말뭉치와 유사한 주제를 파악할 수 있다.
도 7은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 7을 참조하면, 일 실시 예에 따른 감성 분석 장치는 주제 분류 모델에 의해 산출된 유사도에 기초하여 복수의 주제 중 분석 대상 말뭉치와 유사도가 높은 주제 각각에 대응하는 로컬 감성 분류 모델을 선택할 수 있다. 예를 들어, 감성 분석 장치는 말뭉치 1 내지 3과 유사도가 높은 2개의 주제 “모바일 앱” 및 “전자 제품” 각각에 대응하는 로컬 감성 분류 모델(모바일 앱 감성 분류 모델 및 전자 제품 감성 분류 모델)을 선택할 수 있다.
감성 분석 장치는 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델 각각에 분석 대상 말뭉치를 입력할 수 있다. 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델은 입력된 분석 대상 말뭉치 각각에 대한 분석 결과를 출력할 수 있다. 예를 들어, 글로벌 감성 분류 모델은 말뭉치 1에 대해 감성 정보 “긍정”을 출력하고, 말뭉치 2에 대해 감성 정보 “부정”을 출력하고, 말뭉치 3에 대해 감성 정보 “긍정”을 출력할 수 있다. 글로벌 감성 분류 모델은 임의의 주제에 대해 상대적으로 정확도 높은 분석 결과를 출력할 수 있다. 모바일 앱 감성 분류 모델은 말뭉치 1에 대해 감성 정보 “긍정”을 출력하고, 말뭉치 2에 대해 감성 정보 “부정”을 출력하고, 말뭉치 3에 대해 감성 정보 “부정”을 출력할 수 있다. 모바일 앱 감성 분류 모델은 주제 “모바일 앱”에 대해 상대적으로 정확도 높은 분석 결과를 출력할 수 있다. 전자 제품 감성 분류 모델은 말뭉치 1에 대해 감성 정보 “부정”을 출력하고, 말뭉치 2에 대해 감성 정보 “부정”을 출력하고, 말뭉치 3에 대해 감성 정보 “부정”을 출력할 수 있다. 전자 제품 감성 분류 모델은 주제 “전자 제품”에 대해 상대적으로 정확도 높은 분석 결과를 출력할 수 있다.
감성 분석 장치는 3개의 감성 분류 모델에 의해 도출된 분석 결과에 기초하여 최종 결과물로서 분석 대상 말뭉치 각각에 대한 감성 정보를 출력할 수 있다. 예를 들어, 말뭉치 1에 대하여 3개의 모델 중 2개의 모델에 의해 도출된 감성 정보 “긍정”이 출력될 수 있고, 말뭉치 2에 대하여 3개의 모델 전부에 의해 도출된 감성 정보 “부정”이 출력될 수 있고, 말뭉치 3에 대하여 3개의 모델 중 2개의 모델에 의해 도출된 감성 정보 “부정”이 출력될 수 있다.
주제 분류 모델에 의해 도출된 유사도가 높은 주제에 대응하는 로컬 감성 분류 모델을 글로벌 감성 분류 모델과 함께 활용함으로써, 분석 대상 말뭉치에 대한 감성 분석의 정확성을 더욱 향상시킬 수 있다.
도 8은 일 실시 예에 따른 도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법을 설명하기 위한 흐름도이다.
이하에서는 도 2의 텍스트 데이터의 감성 분석 장치가 도 8의 프로세스를 수행하는 것을 가정한다. 또한, 도 8의 설명에서, 대출 서비스 제공 장치에 의해 수행되는 것으로 기술된 동작은 프로세서(230)에 의해 제어되는 것으로 이해될 수 있다.
도 8을 참조하면, 단계 810에서, 텍스트 데이터의 감성 분석 장치는 외부 문서로부터 수집된 말뭉치와 함께 복수의 주제 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득할 수 있다.
단계 820에서, 텍스트 데이터의 감성 분석 장치는 획득된 학습 데이터 세트를 저장할 수 있다.
단계 830에서, 텍스트 데이터의 감성 분석 장치는 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득할 수 있다.
단계 840에서, 텍스트 데이터의 감성 분석 장치는 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.
본 문서의 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤 구성요소가 다른 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소를 통하여 연결될 수 있다.
본 문서에서, "~하도록 설정된(adapted to or configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 설정된 (또는 구성된) 프로세서"는 해당 동작들을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU)를 의미할 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어(firmware)로 구성된 유닛(unit)을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.
일 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다.
일 실시 예에 따른 구성 요소(예: 모듈 또는 프로그램 모듈) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소를 더 포함할 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램 모듈)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (5)

  1. 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치에 있어서,
    통신 회로;
    메모리; 및
    상기 통신 회로 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고,
    상기 프로세서는,
    상기 통신 회로를 이용하여 하나 이상의 외부 문서로부터 수집된 말뭉치(corpus)와 함께 복수의 주제(topic) 중 상기 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성(sentiment) 중 상기 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하고,
    상기 획득된 학습 데이터 세트를 상기 메모리에 저장하고,
    상기 복수의 주제 및 상기 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하고,
    분석 대상 말뭉치를 상기 글로벌 감성 분류 모델에 입력함으로써 상기 분석 대상 말뭉치에 대한 감성 정보를 제공하는 것을 특징으로 하는, 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는,
    상기 복수의 학습 데이터 세트를 상기 지정된 언어 모델링 알고리즘에 입력함으로써 상기 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득하고,
    상기 복수의 학습 데이터 세트를 상기 복수의 주제별로 분류하여 상기 지정된 언어 모델링 알고리즘에 입력함으로써 상기 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되고 상기 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득하고,
    상기 분석 대상 말뭉치를 상기 주제 분류 모델, 상기 글로벌 감성 분류 모델 및 상기 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델에 입력함으로써 상기 분석 대상 말뭉치에 대한 감성 정보를 출력하는 것을 특징으로 하는, 장치.
  3. 제 2 항에 있어서,
    상기 프로세서는,
    상기 분석 대상 말뭉치를 상기 주제 분류 모델에 입력함으로써 상기 분석 대상 말뭉치와 상기 복수의 주제 각각에 대한 유사도 정보를 획득하고,
    상기 유사도 정보에 기초하여 상기 복수의 로컬 감성 분류 모델로부터 상기 선택된 로컬 감성 분류 모델을 결정하는 것을 특징으로 하는, 장치.
  4. 제 2 항에 있어서,
    상기 프로세서는,
    상기 글로벌 감성 분류 모델 및 상기 선택된 로컬 감성 분류 모델 각각에 의해 출력된 분석 결과에 기초하여 상기 분석 대상 말뭉치에 대한 감성 정보를 결정하는 것을 특징으로 하는, 장치.
  5. 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법에 있어서,
    하나 이상의 외부 문서로부터 수집된 말뭉치와 함께 복수의 주제 중 상기 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성 중 상기 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하는 단계;
    상기 획득된 학습 데이터 세트를 저장하는 단계;
    상기 복수의 주제 및 상기 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하는 단계; 및
    분석 대상 말뭉치를 상기 글로벌 감성 분류 모델에 입력함으로써 상기 분석 대상 말뭉치에 대한 감성 정보를 제공하는 단계를 포함하는 것을 특징으로 하는, 방법.
KR1020200149388A 2020-11-10 2020-11-10 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법 KR102410715B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200149388A KR102410715B1 (ko) 2020-11-10 2020-11-10 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200149388A KR102410715B1 (ko) 2020-11-10 2020-11-10 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220063483A true KR20220063483A (ko) 2022-05-17
KR102410715B1 KR102410715B1 (ko) 2022-06-20

Family

ID=81803324

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200149388A KR102410715B1 (ko) 2020-11-10 2020-11-10 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102410715B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500164B1 (ko) * 2022-06-15 2023-02-17 주식회사 스타일여신 객체의 감성 정보를 자동으로 추출하는 감성정보 분석 시스템 및 이를 활용한 감성정보 분석 방법
KR102543647B1 (ko) * 2023-01-26 2023-06-15 (주)피플리 적응적 마스크드 어텐션 메커니즘을 이용한 에스팩트 기반 문장 내 감정 분석 방법, 장치 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120014277A (ko) * 2010-08-09 2012-02-17 숭실대학교산학협력단 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법
JP2012181602A (ja) * 2011-02-28 2012-09-20 Nippon Telegr & Teleph Corp <Ntt> データ極性判定装置、方法、及びプログラム
JP2012226747A (ja) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと
KR20130103249A (ko) * 2012-03-09 2013-09-23 가톨릭대학교 산학협력단 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120014277A (ko) * 2010-08-09 2012-02-17 숭실대학교산학협력단 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법
JP2012181602A (ja) * 2011-02-28 2012-09-20 Nippon Telegr & Teleph Corp <Ntt> データ極性判定装置、方法、及びプログラム
JP2012226747A (ja) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc 感情分類を向上させるためにsvm学習に用語集知識を組み込むこと
KR20130103249A (ko) * 2012-03-09 2013-09-23 가톨릭대학교 산학협력단 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Naver blog, "Analyze emotions - Naver emotion analysis AI", 2020.09.04., url: https://blog.naver.com/naver_search/22208013227. chapter 1. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500164B1 (ko) * 2022-06-15 2023-02-17 주식회사 스타일여신 객체의 감성 정보를 자동으로 추출하는 감성정보 분석 시스템 및 이를 활용한 감성정보 분석 방법
KR102543647B1 (ko) * 2023-01-26 2023-06-15 (주)피플리 적응적 마스크드 어텐션 메커니즘을 이용한 에스팩트 기반 문장 내 감정 분석 방법, 장치 및 시스템

Also Published As

Publication number Publication date
KR102410715B1 (ko) 2022-06-20

Similar Documents

Publication Publication Date Title
CN108304526B (zh) 一种数据处理方法、装置及服务器
US20170308523A1 (en) A method and system for sentiment classification and emotion classification
US10242323B2 (en) Customisable method of data filtering
Teso et al. Application of text mining techniques to the analysis of discourse in eWOM communications from a gender perspective
CN107807968B (zh) 基于贝叶斯网络的问答装置、方法及存储介质
US9710829B1 (en) Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities
US20130080208A1 (en) User-Centric Opinion Analysis for Customer Relationship Management
Kim et al. Text Mining and Sentiment Analysis for Predicting Box Office Success.
KR102410715B1 (ko) 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법
KR20200048693A (ko) 감성 분석 시스템 및 그 방법
CN110781273A (zh) 文本数据处理方法、装置、电子设备及存储介质
JP7198408B2 (ja) 商標情報処理装置及び方法、並びにプログラム
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
Kim et al. Comparing machine learning classifiers for movie WOM opinion mining
Sankhe et al. Survey on sentiment analysis
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
KR20220118579A (ko) 인공지능을 이용하여 튜터링 서비스를 제공하기 위한 시스템 및 그에 관한 방법
Komamizu et al. Exploring Identical Users on GitHub and Stack Overflow.
CN108763203B (zh) 影评情感分析中使用特征词集将影评以特征向量表示的方法
Al-Bnd et al. Sentiment analysis and opinion mining via microblogging in social media like: twitter
Shaleha et al. Sentiment Analysis with Supervised Topic Modelling on Twitter Data Related to Indonesian Election 2024
Kumar et al. An Integrated Approach for Amazon Product Reviews Classification Using Sentiment Analysis
Kurochkin Meme generation for social media audience engagement

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant