KR102216768B1

KR102216768B1 - 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법

Info

Publication number: KR102216768B1
Application number: KR1020190093212A
Authority: KR
Inventors: 김동현; 김태욱
Original assignee: 주식회사 휴마트컴퍼니
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-02-17
Also published as: KR20210015010A

Abstract

본 발명은 텍스트 테라피 데이터를 이용하여 내담자의 감정 분석을 효율적으로 할 수 있도록 한 것으로, 한국어 어휘 임베딩 DB를 활용하여 구축된 자연어 자료에서 문장의 임베딩 시퀀스를 구하고 기계학습 엔진을 통해 텍스트 내의 대표감정 및 감정강도를 추출하고(Data based model) 이와 동시에 텍스트 내의 감정 어휘를 추출하여 대표감정 및 감정강도를 추출하여(Rule based model) 이 두 모델이 도출한 최종 감정 값에 가중치를 더하여 혼합한 후 사용자에 의해 입력되는 데이터의 최종 감정 및 감정 강도를 결정하는 것이다.

Description

심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법{System and Method for Analyzing Emotion in Text using Psychological Counseling data}

본 발명은 감정분석에 관한 것으로, 구체적으로 피상담자가 작성한 텍스트 만으로도 피상담자의 대표감정과 감정강도를 추출할 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법에 관한 것이다.

일반적으로 심리적, 정서적으로 어려움을 겪는 사람들을 위한 다양한 심리 상담 서비스가 제공되고 있다. 이와 같은 대부분의 심리 상담 서비스가 오프라인 상에서 제공되고 있으며, 익명성을 보장하지 못하거나, 그 관리가 어려워 복수의 상담사 간의 상담의 품질에 차이가 나거나, 상담의 효과의 측정이 어렵고, 물리적인 제약이 존재하는 문제점이 있다.

한편, 이동 전화의 등장과 인터넷, 스마트폰 기술의 발전으로 인해, 이제 사적 텍스트는 편지 등의 물리적인 형태뿐만 아니라 다양한 디지털의 형태로 전달되고 있으며, 작성과 전달의 편의성으로 인해 그 양이 폭증해왔다. 따라서 이와 관련된 빅데이터 시장은 지속적으로 성장해 국내 ICT 시장에서 차지하는 비중이 점점 커지고 있다.

그리고 보건의료분야가 사후 치료에서 예방 건강관리 중심으로 패러다임이 전환하며 보건의료분야에서의 빅데이터 활용이 활발하다. 그 중에서도 멘탈 헬스케어 시장의 성장 속도와 폭이 커지며 감정 영역에 대한 빅데이터 연구의 필요성이 대두되고 있다.

개인의 정신건강에 대한 지표인 심리건강지수, 자살위험도, 기질적 특성 등을 도출하고 그에 적절히 대응할 사회적 필요가 급증했기 때문이다.

국내 보건의료시장의 경우 건강보험심사평가원(이하 심평원)이 포털, SNS 등의 자료를 바탕으로 의료지식사전을 구축해 자연어 검색으로 정확한 병명을 찾아준다. 또한, 심평원이 보유한 75억 8100만 건의 심사정보와 116억 건의 처방정보를 바탕으로 해당 병의 평균, 최대, 최소 진료기간 및 진료비용에 대한 예측 제공하고 있다.

하지만, 감정 영역에 초점을 맞춘 유의미한 데이터가 부족해 멘탈 헬스케어 분야에서의 빅데이터 활용 및 개발이 미진한 상태이다.

그리고 사적 텍스트를 주고받는 방식에 있어서의 기술적인 발전은 활발하게 이루어져 왔으나, 사적 텍스트의 내용을 분석하는 방법에 있어서의 기술적인 발전은 상대적으로 더디게 이루어져 왔다.

혈액형, 별자리, 타로 등을 토대로 과거의 상태, 미래의 모습을 예측하는 방법이나 띠, 바이오리듬을 통해 그 날의 감정을 알아보는 서비스는 존재하나, 이러한 방식들은 과학적 연구방법에 기반을 둔 동적 분석이 아니라, 통설에 기반한 비과학적 분석방법에 불과하다.

특히, 사적 텍스트가 주로 담고 있는 사적 감정의 영역에 대한 분석 기술의 개발은 제한적으로 이루어지고 있는데, 현재 자연어로 기술된 텍스트로부터 감정을 인식하는 기술은 제품 리뷰, 사회 현상, 시장 등을 분석하는 데 있어 중요한 기술로 인식되고 있다.

이러한 감정 인식 기술 개발을 위해 다양한 텍스트의 형태로부터(대화문, SNS 게시글, 블로그 등) 감정을 인식하는 연구들이 수행되고 있다.

텍스트로부터의 감정 분석의 시도는 주로 감정 극성 분석(sentiment analysis) 기술을 이용하여 텍스트의 감정의 극성(긍/부정)을 인식하는데 집중되어 왔다. 그러나 긍정 또는 부정이라는 단순한 감정의 극성(sentiment)에 대한 정보는 심도있는 감정 분석에 있어 그 한계가 있다.

또한, 텍스트테라피(문자심리상담) 진행에 의한 상담 내용의 분석에 관한 기술의 개발은 시도되지 않고 있다.

따라서, 텍스트테라피(문자심리상담) 분야에서 피상담자가 작성한 텍스트 만으로도 피상담자의 대표감정과 감정강도를 추출할 수 있도록 하는 새로운 기술의 개발이 요구되고 있다.

대한민국 등록특허 제10-1899193호 대한민국 공개특허 제10-2019-0021015호 대한민국 공개특허 제10-2018-0096261호

본 발명은 종래 기술의 감정분석 기술의 문제점을 해결하기 위한 것으로, 피상담자가 작성한 텍스트 만으로도 피상담자의 대표감정과 감정강도를 추출할 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 전문 심리상담사와 내담자(상담 신청자)가 연결되어 문자를 주고받으며 상담을 진행하는 온라인 심리상담 서비스에서 누적된 방대한 텍스트 테라피 데이터를 이용하여 내담자의 감정 분석을 할 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 텍스트 테라피 데이터에서 추출된 감정어휘를 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)으로 구분하여 피상담자의 대표감정과 감정강도를 추출할 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 감정 어휘에 대한 다차원척도분석을 시행하여 기준이 되는 가로축과 세로축의 이름을 정해 축의 점수를 통해 각 감정 단어별 강도를 알 수 있는 테이블을 구축하여 피상담자의 대표감정과 감정강도 추출시에 활용할 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 텍스트에서 감정에 해당하는 어휘를 사전에 저장된 심리상담 데이터의 감정어휘와 비교하여 추출하고, 자체 보유한 심리상담 데이터 뿐만 아니라 SNS에서 등장하는 신규 어휘, 줄임어, 은어와 같이 현재 반영되지 않은 감정어휘를 실시간으로 수집하여 추출할 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명은 텍스트에서 각 대표감정에 해당하는 감정어휘들에 다차원척도분석 방법을 이용하여 감정강도를 추출하고, 사용자가 감정 어휘를 사용하는 횟수를 강도에 반영하여 해당 텍스트에 기반한 감성분석 데이터를 계속 누적하여 감정상태 분석의 정확도를 높일 수 있도록 한 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템은 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 텍스트 입력을 하고 전처리된 자연어 자료 구축을 하는 자료 전처리부;상기 자료 전처리부에 의해 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 감정분석 예측모델 구축 및 학습을 수행하는 감정분석 예측모델 학습부;상기 감정분석 예측모델 학습부에 의해 구축된 감정사전 데이터베이스 및 감정 분석 예측 모델을 이용하여 내담자의 감정 분석을 수행하는 감정분석 예측부;를 포함하는 것을 특징으로 한다.

여기서, 상기 자료 전처리부는, 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 태깅 자료의 문장 전처리를 하고, 레이블 오류 교정, 레이블된 문장 추출, 대화/SNS 통합을 하여 전처리된 자연어 자료 구축을 하는 것을 특징으로 한다.

그리고 상기 감정분석 예측모델 학습부는, 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 데이터 셋을 구축하는 데이터 셋 구축부와,랜덤 샘플링으로 심리상담 데이터의 학습 환경을 구성하기 위한 데이터 셋 분할을 수행하는 데이터 셋 분할부와,감정 분석의 정확도를 높이기 위하여 구축된 데이터 셋 및 분할된 데이터 셋을 이용한 학습을 수행하는 심리상담 데이터 학습부를 포함하는 것을 특징으로 한다.

그리고 상기 감정분석 예측모델 학습부에서의 감정 강도 레이블링은, 감정 어휘에 대한 다차원척도분석을 시행하여 기준이 되는 가로축과 세로축의 이름을 정해 축의 점수를 통해 각 감정 단어별 강도를 알 수 있는 테이블을 구축하여 피상담자의 대표감정과 감정강도 추출시에 활용될 수 있도록 하는 것을 특징으로 한다.

그리고 룰 베이스 모델(Rule based model)에 의한 감정사전 데이터베이스 구축 및 감정 분류/분석 모델 구축을 위하여, 입력받은 텍스트로부터 감정어휘를 추출하는 감정어휘 추출부와,상기 감정어휘 추출부가 추출한 감정어휘를 대표감정으로 분류하는 대표감정 분류부와,상기 대표감정 분류부가 분류한 대표감정의 감정강도를 추출하는 감정강도 추출부와,상기 대표감정 분류부 및 감정감도 추출부로부터의 대표감정 및 감정강도에 따라 피상담자의 감정을 분석하는 감정상태 분석부;를 포함하는 것을 특징으로 한다.

그리고 상기 대표감정 분류부는, 추출된 감정어휘를 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)의 대표감정으로 구분하여 분류하는 것을 특징으로 한다.

그리고 상기 감정어휘 추출부는, 상기 텍스트에서 감정에 해당하는 어휘를 감정사전 데이터베이스에 저장된 심리상담 데이터의 감정어휘와 비교하여 추출하는 것을 특징으로 한다.

그리고 상기 감정강도 추출부는, 상기 텍스트에서 각 대표감정에 해당하는 감정어휘가 가진 사용 횟수를 고려하여 최종 감정강도값을 추출하는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 방법은 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 텍스트 입력을 하고 전처리된 자연어 자료 구축을 하는 자료 전처리 단계;상기 자료 전처리 단계에 의해 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 감정분석 예측모델 구축 및 학습을 수행하는 감정분석 예측모델 학습 단계;상기 감정분석 예측모델 학습 단계에 의해 구축된 감정사전 데이터베이스 및 감정 분석 예측 모델을 이용하여 내담자의 감정 분석을 수행하는 감정분석 예측 단계;를 포함하는 것을 특징으로 한다.

여기서, 상기 자료 전처리 단계는, 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 태깅 자료의 문장 전처리를 하고, 레이블 오류 교정, 레이블된 문장 추출, 대화/SNS 통합을 하여 전처리된 자연어 자료 구축을 하는 것을 특징으로 한다.

그리고 상기 감정분석 예측모델 학습 단계는, 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 데이터 셋을 구축하는 데이터 셋 구축 단계와,랜덤 샘플링으로 심리상담 데이터의 학습 환경을 구성하기 위한 데이터 셋 분할을 수행하는 데이터 셋 분할 단계와,감정 분석의 정확도를 높이기 위하여 구축된 데이터 셋 및 분할된 데이터 셋을 이용한 학습을 수행하는 심리상담 데이터 학습 단계를 포함하는 것을 특징으로 한다.

그리고 상기 감정분석 예측 단계를 수행하고, 텍스트와 감정 간 상관관계 모델링을 하고, 심리건강 지수, 자살위험도, 기질적 특성을 포함하는 지표 도출을 하고 내담자의 감정 예측 서비스 및 맞춤 서비스를 지원하는 텍스트-감정 모델화 단계를 더 진행하는 것을 특징으로 한다.

그리고 상기 감정분석 예측 단계는, 입력받은 텍스트로부터 감정어휘를 추출하는 감정어휘 추출 단계와,상기 감정어휘 추출 단계에서 추출한 감정어휘를 대표감정으로 분류하는 대표감정 분류 단계와,상기 대표감정 분류 단계에서 분류한 대표감정의 감정강도를 추출하는 감정강도 추출 단계와,상기 대표감정 및 감정강도에 따라 피상담자의 감정을 분석하는 감정상태 분석 단계;를 포함하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법은 다음과 같은 효과가 있다.

첫째, 피상담자가 작성한 텍스트 만으로도 피상담자의 대표감정과 감정강도를 추출할 수 있도록 한다.

둘째, 전문 심리상담사와 내담자(상담 신청자)가 연결되어 문자를 주고받으며 상담을 진행하는 온라인 심리상담 서비스에서 누적된 방대한 텍스트 테라피 데이터를 이용하여 내담자의 감정 분석을 효율적으로 할 수 있도록 한다.

셋째, 텍스트 테라피 데이터에서 추출된 감정어휘를 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)으로 구분하여 피상담자의 대표감정과 감정강도를 추출할 수 있도록 하여 멘탈헬스케어 분야에서의 활용성을 높인다.

넷째, 감정 어휘에 대한 다차원척도분석을 시행하여 기준이 되는 가로축과 세로축의 이름을 정해 축의 점수를 통해 각 감정 단어별 강도를 알 수 있는 테이블을 구축하여 피상담자의 대표감정과 감정강도 추출시에 활용하여 감정 분석의 정확도를 높일 수 있도록 한다.

다섯째, 자체 보유한 심리상담 데이터뿐만 아니라 SNS에서 등장하는 신규 어휘, 줄임어, 은어와 같이 현재 반영되지 않은 감정어휘를 실시간으로 수집하여 추출할 수 있도록 한다.

여섯째, 텍스트에서 각 대표감정에 해당하는 감정어휘들에 다차원척도분석 방법을 이용하여 감정강도를 추출하고, 사용자가 감정 어휘를 사용하는 횟수를 강도에 반영하여 해당 텍스트에 기반한 감성분석 데이터를 계속 누적하여 감정상태 분석의 정확도를 높일 수 있도록 한다.

도 1은 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템의 구성 블록도
도 2a와 도 2b는 본 발명에 따른 텍스트 내 감정 분석을 위한 학습 구조 및 학습 과정을 나타낸 구성도
도 3a는 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 추론 과정을 나타낸 플로우 차트
도 3b는 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 전체 흐름 구성도
도 4는 본 발명에 따른 감정사전 데이터베이스 구축 및 감정분석 예측을 위한 장치의 상세 구성도
도 5a내지 도 5c는 룰 베이스 모델(Rule based model)에 의한 감정사전 데이터베이스 구축 및 감정 분류/분석 모델 구축을 나타낸 구성도
도 6a와 도 6b는 추출된 텍스트의 감정 강도 지정 방법을 나타낸 구성도
도 7a내지 도 7h는 본 발명의 일 실시 예에 따른 대표 감정으로 분류된 텍스트들의 감정 강도 지정을 나타낸 테이블
도 8은 본 발명에 따른 룰 베이스 모델(Rule based model)에 의한 텍스트 내의 감정 어휘를 추출하여 대표감정 및 감정강도를 추출하는 과정을 나타낸 상세 구성도

이하, 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1은 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템의 구성 블록도이다.

본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법은 전문 심리상담사와 내담자(상담 신청자)가 연결되어 문자를 주고받으며 상담을 진행하는 온라인 심리상담 서비스에서 누적된 방대한 텍스트 테라피 데이터를 이용하여 내담자의 감정 분석을 효율적으로 할 수 있도록 한 것이다.

이를 위하여 본 발명은 텍스트 테라피 데이터에서 추출된 감정어휘를 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)으로 구분하여 피상담자의 대표감정과 감정강도를 추출하는 구성을 포함할 수 있다.

본 발명은 감정 어휘에 대한 다차원척도분석을 시행하여 기준이 되는 가로축과 세로축의 이름을 정해 축의 점수를 통해 각 감정 단어별 강도를 알 수 있는 테이블을 구축하여 피상담자의 대표감정과 감정강도 추출시에 활용하여 감정 분석의 정확도를 높이는 구성을 포함할 수 있다.

텍스트테라피(문자심리상담)는 온라인 심리상담 서비스로, 전문 심리상담사와 내담자(상담 신청자)가 24시간 연결되어 문자를 주고받으며 상담을 진행하는 것이다.

이때 상담사와 내담자가 주고받게 되는 대화가 도달하는 감정의 영역은, 심리상담의 특성상 표면 감정부터 심층 감정까지 다룬다는 점에서 그 범위와 깊이가 매우 유의미하다. 텍스트테라피는 이와 같은 대화 내용이 음성으로 휘발되지 않고 텍스트로 남아 그 데이터의 유효성을 확보할 수 있다.

본 발명은 이와 같이 사적 감정 중에서도 심층 감정까지를 다루는 심리상담으로 누적된 빅데이터를 텍스트 마이닝해 감정 분석 솔루션을 제공하는 것이다.

이하의 설명에서 한국어 심리상담 자료에 기계학습기반 대화 모델링을 위하여 본 발명의 일 실시 예에서는 심리상담 대화 모델링을 위한 어휘 임베딩 방법으로, FastText식 접근법과 한글 자모 n-gram을 결합하는 방식을 적용할 수 있는데, 이로 제한되지 않는다.

본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템은 도 1에서와 같이, 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 텍스트 입력을 하는 자료 입력부(10)와, 태깅 자료의 문장 전처리를 하고, 레이블 오류 교정,레이블된 문장 추출, 대화/SNS 통합을 하여 전처리된 자연어 자료 구축을 하는 자료 전처리부(20)와, 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 데이터 셋을 구축하는 데이터 셋 구축부(30)와, 랜덤 샘플링으로 심리상담 데이터의 학습 환경을 구성하기 위한 데이터 셋 분할을 수행하는 데이터 셋 분할부(50)와, 감정 분석의 정확도를 높이기 위하여 구축된 데이터 셋 및 분할된 데이터 셋을 이용한 학습을 수행하는 심리상담 데이터 학습부(60)와, 심리상담 데이터 학습부(60)에서의 학습에 의해 구축된 감정사전 데이터베이스 및 감정 분석 예측 모델을 이용하여 내담자의 감정 분석을 수행하는 감정분석 예측부(70)를 포함한다.

본 발명에 따른 감정사전 데이터베이스 및 감정 분석 예측 모델 구축을 위한 학습 구조 및 학습 과정을 구체적으로 설명하면 다음과 같다.

도 2a와 도 2b는 본 발명에 따른 텍스트 내 감정 분석을 위한 학습 구조 및 학습 과정을 나타낸 구성도이다.

먼저, 태깅 자료의 문장 전처리를 하고, 레이블 오류 교정,레이블된 문장 추출, 대화/SNS 통합을 하여 전처리된 자연어 자료 구축한다.(S201)

이어, 구축된 자연어 자료(문장,감정)에서 문장의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 데이터 셋(임베딩, 레이블)을 구축한다.(S202)

그리고 랜덤 샘플링으로 심리상담 데이터의 학습 환경을 구성하기 위한 데이터 셋 분할(training, validation, test)을 수행한다.(S203)

이어, 감정 분석의 정확도를 높이기 위하여 감정사전 데이터베이스 및 감정 분석 예측 모델의 업데이트를 위한 학습을 구축된 데이터 셋 및 분할된 데이터 셋을 이용하여 진행한다.(S204)

본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 추론 과정을 구체적으로 설명하면 다음과 같다.

도 3a는 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 추론 과정을 나타낸 플로우 차트이고, 도 3b는 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 전체 흐름 구성도이다.

본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 추론 과정은 도 3a에서와 같이, 임베딩 시퀀스를 구한 후 그 데이터셋(임베딩 시퀀스 데이터O 레이블X)을 기계학습 엔진에 넣어 대표 감정을 구하여 텍스트 내 감정 분석을 위한 추론 과정을 수행한다.

도 3b는 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 전체 흐름 구성을 나타낸 것으로, 사용자에 의해 입력되는 심리상담 데이터의 문장 전처리를 한 후, 도 3a의 한국어 어휘 임베딩 DB를 활용하여 구축된 자연어 자료에서 문장의 임베딩 시퀀스를 구한다.

이후 기계학습 엔진을 통해 텍스트 내의 대표감정 및 감정강도를 추출한다.

이와 동시에 도 5c에서와 같은 텍스트 내의 감정 어휘를 추출하여 대표감정 및 감정강도를 추출한다.

그리고 정확도를 높이기 위해 이 두 모델이 도출한 최종 감정 값에 가중치를 더하여 혼합한 후 사용자에 의해 입력되는 데이터의 최종 감정 및 감정 강도를 결정한다.

본 발명에 따른 감정사전 데이터베이스 구축 및 감정분석 예측에 관하여 구체적으로 설명하면 다음과 같다.

도 4는 본 발명에 따른 감정사전 데이터베이스 구축 및 감정분석 예측을 위한 장치의 상세 구성도이다.

본 발명은 감정사전 데이터베이스 구축 및 감정분석 예측을 위한 모델의 구축을 위하여 다음과 같은 구성을 포함할 수 있다.

먼저, 세분화된 타겟을 대상으로 텍스트테라피(문자심리상담)를 진행한다.

누적된 상담 내용으로 텍스트 마이닝을 거쳐 유효 데이터를 추출 및 군집화한 뒤, 최종적으로는 텍스트와 감정 사이 상관관계를 모델링한다.

이때 데이터의 분류 기준과 트리 구조를 구축하는 작업을 우선 진행한다. 이를 통해 텍스트 데이터를 기반으로 한 감정분석 솔루션을 구축하는 것이다.

본 발명은 컴퓨터 시스템을 통해 텍스트를 기계적으로 분석하는 '텍스트 마이닝(Text Mining)' 기술을 이용하여 사적 텍스트를 형태소별로 나눈 후, 그 내용(주제, 주제어, 동사), 문법(조사, 어미, 동사의 형태), 형식, 말투(어미의 변형), 이모티콘, 특수기호 등을 분석한다.

그리고 '내용 분석(Content Analysis)'기술을 이용하여 이 분석 결과가 다양한 감정들과 연계된 정도를 통계적으로 도출하여 최종적인 감정상태를 표시한다.

이를 통해 분석할 수 있는 감정은 '우울함', '행복함', '슬픔', '화남'과 같은 개인적인 감정뿐만 아니라 관계에 있어서의 감정도 포함된다.

본 발명에 따른 감정사전 데이터베이스 구축 및 감정분석 예측을 위한 장치는 도 4에서와 같이, 데이터 분류 기준 및 트리 구조 구축을 통하여 상담 및 진단 데이터 수집을 하는 상담 데이터 수집부(41)와, 텍스트 마이닝 및 사적 텍스트 내용 분석을 수행하는 텍스트마이닝부(42)와, 전문 심리상담사의 소견에 따른 유효 데이터 추출, 감정별 데이터 패턴 군집화를 수행하는 유효데이터 추출 및 군집화부(43)와, 텍스트와 감정 간 상관관계 모델링을 하고, 심리건강 지수, 자살위험도, 기질적 특성 등 관련 지표 도출을 하고 감정 예측 서비스 및 맞춤 서비스를 지원하는 텍스트-감정 모델화부(44)를 포함할 수 있다.

도 5a내지 도 5c는 룰 베이스 모델(Rule based model)에 의한 감정사전 데이터베이스 구축 및 감정 분류/분석 모델 구축을 나타낸 구성도이다.

누적된 상담 데이터를 이용하여 내담자의 감정 상태를 분석하기 위해서는 상담 내역 데이터 내부의 대화 텍스트에서 감정별 지표를 파악할 필요가 있다.

이를 위해 대화 텍스트와 감정 사이의 관계를 모델링한 감정 사전 데이터베이스를 구현한다.

도 5a는 감정 사전 데이터베이스의 개요을 나타낸 것이다.

감정 온톨로지는 각 감정과 감정 유발 어휘의 연관성을 표현하여, 상담사 - 내담자 간의 상담 내역 텍스트에서 내담자가 갖는 감정을 도출하고 정량화하는데 이용된다.

온톨로지의 정의를 위해서 감정과 감정 유발 어휘를 표현하기 위한 개념을 정리하고, 각 개념간 연관성을 표현하기 위한 관계를 구축한다.

가장 먼저 선행해야 할 것은 세분화된 감정을 구분하고 이것을 명세화하는 것이다. 기본 감정의 강도 변화형을 수치로 제시하며 기본 감정과 조합 감정을 구분하고 각 감정별 대립되는 감정을 명시한다.

필요한 감정과 감정 유발 어휘는 Emotion, Emotional Word 개념으로 표현된다. 두 개념은 정해진 감정만큼의 하위 개념을 갖고, Emotional Word 개념의 각 하위 개념들은 기본 감정을 유발할 수 있는 어휘들을 객체로 갖는다.

한국어 텍스트에서 실제로 언어학적 기준을 모두 충족시키는 감정 어휘의 수는 상당히 제한적이기 때문에, 실제적 활용도가 높은 시스템의 구현을 위해서는 언어학적 조건을 잘 충족시키는 기본형 감정 어휘를 우선적으로 확보해야 할 필요가 있다. 수집된 기본형 감정 어휘를 충분히 확보한 후, 이를 기초로 한 확장형 감정 어휘를 수집한다.

확장형 감정 어휘는 상황에 따라 감정을 잘 드러내지 못하고 감정 어휘의 언어학적 조건을 모두 충족시키지 못하지만 감정 어휘를 필요로 하는 영역에서의 현실적 필요 충족을 위해 수집한다.

따라서, 보편적으로 모든 상황에서 감정을 잘 드러내는 기본형 감정 어휘와 제한된 상황에서 감정을 드러내는 확장형 감정 어휘를 명확히 구분하고 수집을 시행하며, 이러한 어휘 구분이 실제 감정 지표 값에도 반영될 수 있도록 해야 한다.

본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법에 적용되는 감정 어휘 수집 방안은 집단지성을 이용한 폭소노미(Forlksonomy)식 어휘 구분, 국어사전 내 의미를 이용한 확장형 감정 어휘 확보, 선행 연구 자료의 감정 사전 구축 방안 이용을 통한 어휘 확보일 수 있고 이로 제한되지 않는다.

감정 분석 모델링 및 지표 도출을 설명하면 다음과 같다.

감정 분석 모델링을 위하여 구축한 감정 사전을 기반으로 내담자의 대화 내용에서 감정 상태를 분류할 수 있는 단어를 추출하여 내담자의 심적 상황을 분석할 수 있는 모델을 생성한다.

상담에서 제공되는 데이터는 표 1에서와 같이 상담사와 내담자의 대화 기록과 상담 전 내담자가 입력하는 기본 정보(프로파일)가 있다.

대화 기록은 내담자 별 상담 일자에 따라 존재하며 화자별로 분류되어 있다.

내담자 입력 정보는 나이/성별, 직업, 현재 느끼는 감정, 고민의 대상, 고민의 종류이다.

따라서, 상담 대화 기록 분석을 위해, 내담자의 대화 기록 분석, 상담사-내담자의 대화 기록 쌍 분석, 대화 시간/기간별 분석과 같은 접근법이 있고 이로 제한되지 않는다.

표 1은 상담 대화 기록 예시 및 내담자 입력 정보의 예를 나타낸 것이다.

본 발명에 따른 감정 분류 모델 생성에 관하여 설명하면 다음과 같다.

도 5b는 감정 분류 모델 생성에 관한 구성도이다.

감정 분류 모델을 생성하기 위해 대화 텍스트 데이터의 전처리, 텍스트 데이터 표현, 출현 감정 키워드의 통계화 수치 도출, 기계학습 알고리즘을 이용한 분류 모델 생성 과정을 거친다.

대화 텍스트 데이터의 전처리는 텍스트의 정형화 표현을 위해 쓸모 없는 단어 제거, 중요 키워드 추출, 오류 예방을 위한 과정이다.

'그, 그녀, 저것, 어디'와 같은 불용어(stop word) 제거, 형태소 분석을 통한 동사/명사/조사 분리, 문법 교정과 같은 과정이 있다.

텍스트 데이터를 정량화하기 위한 표현 방법으로 문장에서 출현하는 키워드에 대한 BOW(Back of Word), TF-IDF(Term Frequency - Inverse Document Frequency)와 같은 단어 표현(Word Embedding) 방법과 LDA(Latent Dirichlet allocation) 등과 같은 통계적 특성 정보와 텍스트 마이닝을 통해 획득할 수 있는 언어학적 특성 정보가 있다.

감정 키워드에 대한 정량적인 값을 도출하기 위해, 감정 사전을 이용해 대화 텍스트에서 출현하는 감정 키워드의 통계화 수치를 도출한다.

대화 텍스트의 감정을 분류하기 위해, 위에서 표현한 데이터와 NBC(Naive Bayes Classifier), DT(Decision Tree), RF(Random Forest), ANN(Artificial Neural Network) 등과 같은 머신러닝 알고리즘을 이용하여 분류 모델을 생성/학습한다.

감정 분석 모델 생성에 관하여 설명하면 다음과 같다.

도 5c는 감정 분석 모델 생성에 관한 구성도이다.

감정 분류기를 사용하여 상담 대화 데이터를 분석한다.

상담 중에 내담자의 감정을 분석하기 위해, 내담자의 대화 기록 분석, 상담사-내담자의 대화 기록 쌍 분석, 대화 시간/기간별 분석과 같은 접근법이 있다.

예를 들어, 상담 1일차 내담자의 대화 기록 데이터에서 각 대화 문장에 대해 분류기가 감정을 분류한다 그리고 내담자의 감정 상태에 대해 FSM(Finite State Machine), HMM(Hidden Markov Model)을 이용해 내담자의 1일차 최종 감정 상태를 분석 할 수 있다.

이와 같은 방법으로 상담 기간 동안의 감정 상태에 대해 기간별 분석이 가능하며, 감정의 변화에 대한 패턴을 알 수 있다.

추가적으로 감정 상태 분석을 위해 날짜 단위, 시간 단위의 분석으로 다양한 결과를 제공할 수 있다.

그리고 감정 지표로는 심리 건강 지수, 자살 위험도 등이 있다. 심리 건강 지수와 자살 위험도와 같은 감정 지표는 심리 상담가의 전문 지식을 통해 정의할 수 있다.

추출된 텍스트의 감정 강도 지정에 관하여 설명하면 다음과 같다.

도 6a와 도 6b는 추출된 텍스트의 감정 강도 지정 방법을 나타낸 구성도이다.

추출된 어휘의 감정 강도 지정은 '다차원척도분석' 방법을 이용할 수 있다.

일련의 코딩값을 가지고 다차원척도분석을 실시하면 감정단어들이 최종 결과값을 가지고 도 6a에서와 같이, 2차원의 사분면 중 어느 영역에 모여서 나타나게 된다.

이때, 각 감정이 위치한 가로세로축의 점수를 그 감정의 강도로 볼 수 있다.

예를 들어, 가로축은 개인지향-타인지향 감정수준(마이너스로 갈수록 개인 내적인 감정, 플러스로 갈수록 타인이나 대상에 관련된 감정), 세로축은 활성화 수준(마이너스로 갈수록 활성화 수준이 낮은 감정, 플러스로 갈수록 활성화 수준이 높은 감정)으로 정의될 수 있다.

표 2는 본 발명의 일 실시 예에 따른 감정축의 의미를 나타낸 테이블이다.

도 6b는 감정 강도 지정을 위한 코딩 자료에 대한 설명을 위한 것으로, 아래와 같은 원칙에 의해 이루어질 수 있다.

(1)어떤 사례에서도 출현 빈도가 1번이 안 되는, 즉 0인 감정 단어는 삭제한다.

(2)가로와 세로에 똑같은 순서로 감정단어들을 기입한다.

(3)이전에 준 0, 1 코딩자료를 가지고 도 6b에서와 같은 표를 만든다. 일단, 가로와 세로가 교차하는 지점은 같은 단어이므로 전체 사례수가 된다.

(4)가로와 세로가 교차하는 지점에, 가로에 있는 감정과 세로에 있는 감정이 공통으로 출현한 사례횟수를 기입한다.(예, '평온하다'와 '편안하다'가 함께 출현한 사례수는 4개임.)

(5)같은 방법으로 대표 감정으로 정해진 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)의 테이블을 작성한다.

도 7a내지 도 7h는 본 발명의 일 실시 예에 따른 대표 감정으로 분류된 텍스트들의 감정 강도 지정을 나타낸 테이블이다.

도 7a내지 도 7h의 테이블은 대표 감정으로 정해진 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)의 텍스트들의 감정 강도 지정의 일부를 나타낸 것으로, 더 많은 감정어휘에 대한 감정 강도 지정이 이루어질 수 있음은 당연하다.

본 발명에 따른 룰 베이스 모델(Rule based model)에 의한 텍스트 내의 감정 어휘를 추출하여 대표감정 및 감정강도를 추출하는 과정을 구체적으로 설명하면 다음과 같다.

도 8은 본 발명에 따른 룰 베이스 모델(Rule based model)에 의한 텍스트 내의 감정 어휘를 추출하여 대표감정 및 감정강도를 추출하는 과정을 나타낸 상세 구성도이다.

룰 베이스 모델(Rule based model)에 의한 텍스트 내의 감정 어휘를 추출하여 대표감정 및 감정강도를 추출하기 위하여 입력받은 텍스트로부터 감정어휘를 추출하는 감정어휘 추출부(71)와, 감정어휘 추출부(71)가 추출한 감정어휘를 8가지 대표감정으로 분류하는 대표감정 분류부(72)와, 대표감정 분류부(72)가 분류한 대표감정의 감정강도를 추출하는 감정강도 추출부(73)와, 대표감정 분류부(72) 및 감정감도 추출부(73)로부터의 대표감정 및 감정강도에 따라 피상담자의 감정을 분석하는 감정상태 분석부(74)를 포함한다.

여기서, 감정어휘 추출부(71)는 상기 텍스트에서 감정에 해당하는 어휘를 사전에 저장된 심리상담 데이터의 감정어휘와 비교하여 추출한다.

특히, 감정어휘 추출부(71)는 자체 보유한 심리상담 데이터 뿐만 아니라 SNS에서 등장하는 신규 어휘, 줄임어, 은어와 같이 현재 반영되지 않은 감정어휘를 실시간으로 수집하고, 수집한 데이터와 심리상담 데이터를 기반으로 감정어휘를 추출할 수 있다.

감정어휘 추출 과정을 구체적으로 설명하면 다음과 같다.

본 발명에 따른 감정어휘 추출은 문장 내 주어(subject) 판단 및 주체 판단 결과 저장에 의한 방법 및 감정 데이터 베이스 기반 문장내 감정 키워드 여부 확인을 통한 방법을 사용할 수 있다.

'문장 내 주어(subject) 판단 및 주체 판단 결과 저장에 의한 방법'은 문장내 주어가 내담자가 아닌 경우에는 감정 클래스 분류를 하지 않고, 주어가 내담자인 경우에는 부정문,희망문 어휘 존재 확인 및 문장내 위치 확인 단계, 부정문,희망문 규칙 판단 단계, 부정 감정 추가 확인 단계를 진행하여 감정 어휘 추출을 한다.

즉, 부정문(않,안, 못하 ..등등), 희망문(싶다..등등) 어휘 존재 확인 및 문장 내 위치 판단을 하여 해당 어휘가 문장 내 존재 할 경우 벡터 값 업데이트를 한다.

그리고 부정문, 희망문 규칙 판단 과정에서의 규칙은,

(삭제 규칙 1) 긍정 감정 + 희망문 어휘*

(삭제 규칙 2) 긍/부정 감정 + 부정문 어휘, 부정문 어휘(안) + 긍/부정 감정이고, 이와 같은 규칙 발견 시에는 계산에 쓰일 감정 사전에서 감정 값 삭제를 하여 사전 업데이트를 한다.

예외적으로 '부정 감정 + 희망문 어휘 + 부정문 어휘' 해당 패턴 발견 시 감정을 삭제하지 않는다.

감정 데이터 베이스에서 부정 감정(체크해야 되는 감정 들) 추가 확인을 하여 부정인데도 불구하고 삭제하지 않고 추가되어야 하는 감정을 추가하여 사전 업데이트를 한다.

그리고 '감정 데이터 베이스 기반 문장내 감정 키워드 여부 확인 방법'은 문장내 감정 키워드가 존재하면 문장 벡터(sentence_vec)에 해당 감정 위치 표현을 한다.

표 3 및 표 4에서와 같이, 문장 내 해당 개체(문자, 감정 단어, 부정문 표현 단어 등)의 위치를 표현한다.

이와 같은 방법으로 도출된 감정 데이터를 기반으로 프로그램 내 감정 사전 생성 및 규칙 기반 사전 업데이트를 하고 최종 감정 사전 도출을 한다.

그리고 대표감정 분류부(72)는 상기 감정어휘 추출부(71)로부터 추출된 감정어휘를 대표 감정으로 정해진 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)으로 분류한다.

이와 같이 대표감정 분류부(72)는 추출된 감정어휘를 8가지 대표감정으로 분류하고, 정확한 분류가 힘든 경우에는 중복 분류를 하거나 심리 상담 전문가가 추후 분류할 수 있도록 대표감정이 아닌 기타감정으로 분류할 수도 있다.

그리고 감정강도 추출부(73)는 텍스트에서 각 대표감정에 해당하는 감정어휘의 사용 횟수를 감정 강도에 반영한다.

감정강도 추출부(73)는 대표감정 분류부가 중복 분류하거나 기타감정으로 분류된 감정 어휘의 갯수에 근거하여 감정강도를 추출할 수 있다.

이와 같이 방법으로 대표감정 분류 및 감정감도 추출 결과에 기반하여, 감정상태 분석부(74)는 피상담자의 감정 상태를 분석하여 판단한다. 상기 판단 결과에 따라, 피상담자는 본인의 감정 상태를 정확하게 알고, 이후 감정 컨트롤 및 치료를 받을 수 있다.

이상에서 설명한 본 발명에 따른 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템 및 방법은 피상담자가 작성한 텍스트 만으로도 피상담자의 대표감정과 감정강도를 추출할 수 있도록 한 것으로, 전문 심리상담사와 내담자(상담 신청자)가 연결되어 문자를 주고받으며 상담을 진행하는 온라인 심리상담 서비스에서 누적된 방대한 텍스트 테라피 데이터를 이용하여 내담자의 감정 분석을 할 수 있도록 한 것이다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10. 자료 입력부 20. 자료 전처리부
30. 데이터 셋 구축부 40. 한국어 임베딩 DB
50. 데이터 셋 분할부 60. 심리상담 데이터 학습부
70. 감정분석 예측부

Claims

심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 텍스트 입력을 하고 전처리된 자연어 자료 구축을 하는 자료 전처리부;
상기 자료 전처리부에 의해 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 감정분석 예측모델 구축 및 학습을 수행하는 감정분석 예측모델 학습부;
상기 감정분석 예측모델 학습부에 의해 구축된 감정사전 데이터베이스 및 감정 분석 예측 모델을 이용하여 내담자의 감정 분석을 수행하는 감정분석 예측부;를 포함하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 1 항에 있어서, 상기 자료 전처리부는,
심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 태깅 자료의 문장 전처리를 하고, 레이블 오류 교정, 레이블된 문장 추출, 대화/SNS 통합을 하여 전처리된 자연어 자료 구축을 하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 1 항에 있어서, 상기 감정분석 예측모델 학습부는,
구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 데이터 셋을 구축하는 데이터 셋 구축부와,
랜덤 샘플링으로 심리상담 데이터의 학습 환경을 구성하기 위한 데이터 셋 분할을 수행하는 데이터 셋 분할부와,
감정 분석의 정확도를 높이기 위하여 구축된 데이터 셋 및 분할된 데이터 셋을 이용한 학습을 수행하는 심리상담 데이터 학습부를 포함하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 1 항에 있어서, 상기 감정분석 예측모델 학습부에서의 감정 강도 레이블링은,
감정 어휘에 대한 다차원척도분석을 시행하여 기준이 되는 가로축과 세로축의 이름을 정해 축의 점수를 통해 각 감정 단어별 강도를 알 수 있는 테이블을 구축하여 피상담자의 대표감정과 감정강도 추출시에 활용될 수 있도록 하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 1 항에 있어서, 룰 베이스 모델(Rule based model)에 의한 감정사전 데이터베이스 구축 및 감정 분류/분석 모델 구축을 위하여,
입력받은 텍스트로부터 감정어휘를 추출하는 감정어휘 추출부와,
상기 감정어휘 추출부가 추출한 감정어휘를 대표감정으로 분류하는 대표감정 분류부와,
상기 대표감정 분류부가 분류한 대표감정의 감정강도를 추출하는 감정강도 추출부와,
상기 대표감정 분류부 및 감정감도 추출부로부터의 대표감정 및 감정강도에 따라 피상담자의 감정을 분석하는 감정상태 분석부;를 포함하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 5 항에 있어서, 상기 대표감정 분류부는,
추출된 감정어휘를 분노(Angry),좌절(Frustration),행복(Happy),사랑(Love),슬픔(Sad),공포(Scary),수치(Shame),연민(Sympathy)의 대표감정으로 구분하여 분류하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 5 항에 있어서, 상기 감정어휘 추출부는,
상기 텍스트에서 감정에 해당하는 어휘를 감정사전 데이터베이스에 저장된 심리상담 데이터의 감정어휘와 비교하여 추출하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
제 5 항에 있어서, 상기 감정강도 추출부는,
상기 텍스트에서 각 대표감정에 해당하는 감정어휘가 가진 사용 횟수를 고려하여 최종 감정강도값을 추출하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 시스템.
자료 전처리부에서 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 텍스트 입력을 하고 전처리된 자연어 자료 구축을 하는 자료 전처리 단계;
감정분석 예측모델 학습부에서 상기 자료 전처리 단계에 의해 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 감정분석 예측모델 구축 및 학습을 수행하는 감정분석 예측모델 학습 단계;
감정분석 예측부에서 상기 감정분석 예측모델 학습 단계에 의해 구축된 감정사전 데이터베이스 및 감정 분석 예측 모델을 이용하여 내담자의 감정 분석을 수행하는 감정분석 예측 단계;를 포함하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 방법.
제 9 항에 있어서, 상기 자료 전처리 단계는,
심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 태깅 자료의 문장 전처리를 하고, 레이블 오류 교정, 레이블된 문장 추출, 대화/SNS 통합을 하여 전처리된 자연어 자료 구축을 하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 방법.
제 9 항에 있어서, 상기 감정분석 예측모델 학습 단계는,
감정분석 예측모델 학습부의 데이터 셋 구축부에서 구축된 자연어 자료의 임베딩 시퀀스를 구하고, 감정 강도를 레이블링하는 벡터변환을 하여 데이터 셋을 구축하는 데이터 셋 구축 단계와,
감정분석 예측모델 학습부의 데이터 셋 분할부에서 랜덤 샘플링으로 심리상담 데이터의 학습 환경을 구성하기 위한 데이터 셋 분할을 수행하는 데이터 셋 분할 단계와,
감정분석 예측모델 학습부의 심리상담 데이터 학습부에서 감정 분석의 정확도를 높이기 위하여 구축된 데이터 셋 및 분할된 데이터 셋을 이용한 학습을 수행하는 심리상담 데이터 학습 단계를 포함하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 방법.
제 9 항에 있어서, 상기 감정분석 예측 단계를 수행하고,
텍스트-감정 모델화부에서 텍스트와 감정 간 상관관계 모델링을 하고, 심리건강 지수, 자살위험도, 기질적 특성을 포함하는 지표 도출을 하고 내담자의 감정 예측 서비스 및 맞춤 서비스를 지원하는 텍스트-감정 모델화 단계를 더 진행하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 방법.
제 9 항에 있어서, 상기 감정분석 예측 단계는,
감정어휘 추출부에서 입력받은 텍스트로부터 감정어휘를 추출하는 감정어휘 추출 단계와,
대표감정 분류부에서 상기 감정어휘 추출 단계에서 추출한 감정어휘를 대표감정으로 분류하는 대표감정 분류 단계와,
감정강도 추출부에서 상기 대표감정 분류 단계에서 분류한 대표감정의 감정강도를 추출하는 감정강도 추출 단계와,
감정상태 분석부에서 상기 대표감정 및 감정강도에 따라 피상담자의 감정을 분석하는 감정상태 분석 단계;를 포함하는 것을 특징으로 하는 심리상담 데이터를 이용한 텍스트 내 감정 분석을 위한 방법.