KR20220106029A - Method and apparatus for psychological counselingusing artificial intelligence - Google Patents

Method and apparatus for psychological counselingusing artificial intelligence Download PDF

Info

Publication number
KR20220106029A
KR20220106029A KR1020210147616A KR20210147616A KR20220106029A KR 20220106029 A KR20220106029 A KR 20220106029A KR 1020210147616 A KR1020210147616 A KR 1020210147616A KR 20210147616 A KR20210147616 A KR 20210147616A KR 20220106029 A KR20220106029 A KR 20220106029A
Authority
KR
South Korea
Prior art keywords
data
psychological
text
emotion
user
Prior art date
Application number
KR1020210147616A
Other languages
Korean (ko)
Inventor
한상욱
Original Assignee
주식회사 에스알유니버스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에스알유니버스 filed Critical 주식회사 에스알유니버스
Publication of KR20220106029A publication Critical patent/KR20220106029A/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0002Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

The present invention relates to a psychological counseling method using artificial intelligence and a device thereof which receive image and audio data of a user, measure biorhythms of the user in the image data received through a first deep learning model, measure and classify an emotion in the image and audio data through a second deep learning model, perform analysis based on an emotion measurement index and text through text data extracted from the audio data and survey response result text data inputted from the user, and derive a comprehensive psychological state result based on the measured biorhythms, a classified emotion and a text analysis result.

Description

인공지능을 활용한 심리 상담 방법 및 장치{Method and apparatus for psychological counselingusing artificial intelligence}Psychological counseling method and apparatus using artificial intelligence {Method and apparatus for psychological counselingusing artificial intelligence}

본 발명의 실시예들은 인공지능 기술을 활용하여 화자의 실제 감정 상태를 파악하고 조언해주기 위한 인공지능을 활용한 심리 상담 방법 및 장치에 관한 것이다.Embodiments of the present invention relate to a psychological counseling method and apparatus using artificial intelligence for identifying and giving advice to a speaker's actual emotional state by using artificial intelligence technology.

일반적으로 종래의 심리 상담은 심리 상담 전문가 또는 심리 상담 치료사와의 일대일 대면 상담을 통해 사용자가 현재의 일상 생활, 고민 거리 등을 심리 상담 전문가와 서로 이야기를 나누면서 상담자는 내담자의 감정, 심리 상태 등을 파악한 후, 조언을 해주면서 고민거리를 공동으로 해결해 나아가며 치료를 수행하게 된다. 다만, 이러한 대면 상담은 많은 소요 시간, 직접 만나야 한다는 부담감, 적지 않은 비용 부담이 있으며, 최근에는 코로나19 팬데믹으로 인하여 대면 상담 등은 더욱 어려워 지거나 꺼려지고 있는 실정이다. In general, in the conventional psychological counseling, the user discusses the current daily life and concerns with a psychological counselor through one-on-one face-to-face counseling with a psychological counselor or a psychotherapist, while the counselor analyzes the client's feelings and psychological state. After identifying them, they provide advice and jointly resolve their concerns and carry out treatment. However, such face-to-face counseling takes a lot of time, there is a burden of having to meet in person, and there is a considerable cost burden.

이에 스마트폰 또는 컴퓨팅 장치를 통해 사람의 감정 상태를 실시간으로 파악하고 그에 따른 맞춤형 서비스를 제공하기 위한 다양한 연구가 이루어지고 있다. 한가지 예로, 사람의 얼굴 이미지를 이용한 방법으로서, 인공지능을 이용하여 다양한 감정을 포함하는 얼굴 이미지를 훈련시켜 사람의 얼굴 이미지에 대한 특정 감정에 대한 확률을 도출하게 된다.Accordingly, various studies are being conducted to identify a person's emotional state in real time through a smart phone or a computing device and provide a customized service accordingly. As one example, as a method using a human face image, a facial image including various emotions is trained using artificial intelligence to derive a probability of a specific emotion for the human face image.

다만, 이러한 사람의 얼굴 이미지를 이용한 감정 분석은 추출한 하나의 이미지만을 사용하여 결과값을 도출하고 있다. 하지만 이미지로 표정을 식별하려는 연구는 말하는 순간의 모습과 표정을 파악하기 어렵다는 문제점이 있고, 단순한 얼굴의 표정과 입모양의 패턴만을 가지고 감정을 추론하기 때문에 실제 시간의 변화나 대화내용에 따른 감정변화는 예측하기 힘들다는 문제점도 존재하였다.However, emotion analysis using such a person's face image derives a result value using only one extracted image. However, studies that try to identify facial expressions by images have a problem in that it is difficult to grasp the appearance and expression at the moment of speaking. There was also the problem of being difficult to predict.

또한 음성 데이터를 추가하더라도 얼굴의 표정과 음성의 톤을 인의적으로 조절하여서 보이는 표정과 실제 감정의 상태가 다른 감정 절제 혹은 포커페이스 등의 데이터에 대해서는 예측이 잘 안된다는 단점이 존재하며 인공지능을 통한 감정 분석은 특정 감정에 대해 분류를 수행하는 수준에서 멈춰져 있기에 실제 화자의 감정에 대한 세부 내용으로서, 감정상태의 원인, 감정의 기복의 정도 등은 파악이 불가능한 상태이다.In addition, even if voice data is added, facial expressions and tones of voice are artificially adjusted, so the data such as emotional restraint or poker face that shows different facial expressions and actual emotional states are not well predicted. Since emotion analysis is stopped at the level of performing classification for a specific emotion, it is impossible to grasp the cause of the emotional state and the degree of ups and downs of the emotion as the details of the actual speaker's emotion.

전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.The above-mentioned background art is technical information possessed by the inventor for the derivation of the present invention or acquired in the process of derivation of the present invention, and cannot necessarily be said to be a known technique disclosed to the general public prior to the filing of the present invention.

대한민국 공개특허 제2020-0085696호Republic of Korea Patent Publication No. 2020-0085696

종래 기술의 문제점을 해결하기 위한 본 발명의 일 실시예는, 인공지능 기술을 활용하여 화자의 실제 감정 상태를 파악하고 조언해주기 위한 인공지능을 활용한 심리 상담 방법 및 장치를 제공한다.An embodiment of the present invention for solving the problems of the prior art provides a psychological counseling method and apparatus using artificial intelligence for identifying and giving advice to a speaker's actual emotional state using artificial intelligence technology.

본 발명의 다른 실시예는, 인공지능의 한 분야 인 딥러닝(deep learning) 기술을 활용하여 사용자의 영상과 음성 데이터를 사용하여 감정, 생체리듬, 텍스트 분석 결과 값을 도출하고, 설문데이터를 통하여 사용자의 감정 상태를 심리학적 수치로 나온 결과 값과 함께 분석하여 화자의 실제 감정상태를 파악하고 조언해주기 위한 인공지능을 활용한 심리 상담 방법 및 장치를 제공한다.Another embodiment of the present invention utilizes deep learning technology, which is a field of artificial intelligence, to derive emotion, biorhythm, and text analysis result values using the user's image and voice data, and through questionnaire data It provides a psychological counseling method and apparatus using artificial intelligence to analyze the emotional state of the user along with the result value obtained as a psychological value to understand the actual emotional state of the speaker and give advice.

본 발명의 일 측면은, 사용자의 영상 및 음성 데이터를 입력 받는 단계; 제1 딥러닝 모델을 통하여 입력된 영상 데이터에서 사용자의 생체 리듬을 측정하는 단계; 제2 딥러닝 모델을 통하여 상기 영상 및 음성 데이터에서 감정을 측정하여 분류하는 단계; 상기 음성 데이터에서 추출된 텍스트 데이터와, 상기 사용자로부터 입력된 설문 응답 결과 텍스트 데이터를 통하여 감정 측정 지표와 텍스트 기반의 분석을 수행하는 단계; 및 측정된 생체 리듬, 분류 감정, 텍스트 분석 결과를 토대로 심리 상태 종합 결과를 도출한다.One aspect of the present invention, the step of receiving a user's video and audio data; Measuring the user's biorhythm from the image data input through the first deep learning model; measuring and classifying emotions in the video and audio data through a second deep learning model; performing an emotion measurement index and text-based analysis based on the text data extracted from the voice data and the text data of the questionnaire response input from the user; And based on the measured biorhythm, classification emotion, and text analysis results, a comprehensive psychological state result is derived.

또한, 상기 생체 리듬을 측정하는 단계는, 상기 영상데이터에서 6가지의 감정 중 하나의 감정을 예측하는 단계; 예측된 감정에 대한 수치 값을 산출하고 산출된 수치 값에 대응하는 심박수 및 혈류량을 산출하는 단계를 포함한다.In addition, the measuring of the biorhythm may include predicting one of six emotions from the image data; and calculating a numerical value for the predicted emotion and calculating a heart rate and blood flow corresponding to the calculated numerical value.

또한, 상기 감정을 측정하여 분류하는 단계는, 상기 영상 및 음성 데이터에서 말할때의 얼굴 표정과 음성의 톤을 통하여 감정 상태를 예측하여 산출하는 것을 특징으로 한다.In addition, the step of measuring and classifying the emotion is characterized in that it is calculated by predicting the emotional state through the facial expression and tone of voice when speaking from the video and audio data.

또한, 상기 감정 측정 지표와 텍스트 기반의 분석을 수행하는 단계는, 설문 응답 결과에 따라 대응되는 감정 측정 지표를 산출하는 단계; 동영상 데이터 추출 텍스트 데이터 및 설문 응답 결과 텍스트 데이터를 토대로 문장에 포함되어 있는 텍스트들 간의 상관관계 값을 산출하는 단계; 및 상기 감정 측정 지표 및 상관관계 값을 토대로 심리 상태 분석 결과를 출력하는 단계를 포함한다.In addition, the step of performing the analysis based on the emotion measurement index and the text may include: calculating a corresponding emotion measurement index according to a survey response result; calculating a correlation value between texts included in a sentence based on the moving image data extraction text data and the questionnaire response result text data; and outputting a psychological state analysis result based on the emotion measurement index and the correlation value.

또한, 상기 설문 응답 결과 텍스트 데이터는, 컴퓨팅 장치에서 사용자 단말로 심리 상담용 설문지를 전송하는 단계; 상기 사용자 단말로부터 설문지에 대한 응답으로 텍스트 데이터를 입력 받는 단계 및 상기 텍스트 데이터와 동영상에서 추출된 텍스트 데이터에 대한 텍스트 상관관계 지표를 산출하는 단계를 포함한다.In addition, the text data as a result of the questionnaire response may include: transmitting a psychological counseling questionnaire from a computing device to a user terminal; receiving text data as a response to the questionnaire from the user terminal; and calculating a text correlation index for the text data and the text data extracted from the video.

본 발명의 다른 측면은, 사용자의 영상 및 음성 데이터를 입력 받는 입력부와, 제1 딥러닝 모델을 통하여 입력된 영상 데이터에서 사용자의 생체 리듬을 측정하는 생체 리듬 예측 결과 산출부와, 제2 딥러닝 모델을 통하여 상기 영상 및 음성 데이터에서 감정을 측정하여 분류하는 감정 상태 예측 결과 산출부와, 상기 음성 데이터에서 추출된 텍스트 데이터와, 상기 사용자로부터 입력된 설문 응답 결과 텍스트 데이터를 통하여 감정 측정 지표와 텍스트 기반의 분석을 수행하는 심리 상태 분석 결과 산출부 및 측정된 생체 리듬, 분류 감정, 텍스트 분석 결과를 토대로 심리 상태 종합 결과를 도출하는 심리 상태 결과 도출부를 포함한다.Another aspect of the present invention includes an input unit for receiving the user's image and audio data, a biorhythm prediction result calculation unit for measuring the user's biorhythm from the image data input through the first deep learning model, and a second deep learning model An emotional state prediction result calculation unit for measuring and classifying emotions from the video and audio data through a model, an emotion measurement index and text through the text data extracted from the voice data and the questionnaire response result text data input from the user It includes a psychological state analysis result calculation unit for performing a basic analysis and a psychological state result derivation unit for deriving a comprehensive psychological state result based on the measured biorhythm, classification emotion, and text analysis results.

또한, 상기 생체 리듬 예측 결과 산출부는, 상기 영상데이터에서 6가지의 감정 중 하나의 감정을 예측하고, 예측된 감정에 대한 수치 값을 산출하고 산출된 수치 값에 대응하는 심박수 및 혈류량을 산출한다.In addition, the biorhythm prediction result calculator predicts one of six emotions from the image data, calculates a numerical value for the predicted emotion, and calculates a heart rate and blood flow corresponding to the calculated numerical value.

또한, 상기 감정 상태 예측 결과 산출부는, 상기 영상 및 음성 데이터에서 말할때의 얼굴 표정과 음성의 톤을 통하여 감정 상태를 예측하여 산출한다.In addition, the emotional state prediction result calculation unit predicts and calculates the emotional state based on the facial expression and voice tone when speaking from the video and audio data.

또한, 상기 심리 상태 분석 결과 산출부는, 설문 응답 결과에 따라 대응되는 감정 측정 지표를 산출하고, 동영상 데이터 추출 텍스트 데이터 및 설문 응답 결과 텍스트 데이터를 토대로 문장에 포함되어 있는 텍스트들 간의 상관관계 값을 산출하고, 상기 감정 측정 지표 및 상관관계 값을 토대로 심리 상태 분석 결과를 출력한다.In addition, the psychological state analysis result calculation unit calculates a corresponding emotion measurement index according to a questionnaire response result, and calculates a correlation value between texts included in a sentence based on the moving image data extraction text data and the questionnaire response result text data and output a psychological state analysis result based on the emotion measurement index and correlation value.

또한, 상기 상기 설문 응답 결과 텍스트 데이터는, 컴퓨팅 장치에서 사용자 단말로 심리 상담용 설문지를 전송하고, 상기 사용자 단말로부터 설문지에 대한 응답으로 텍스트 데이터를 입력 받고, 상기 텍스트 데이터와 동영상에서 추출된 텍스트 데이터에 대한 텍스트 상관관계 지표를 산출한다.In addition, the text data as a result of the questionnaire response is transmitted from a computing device to a user terminal for psychological counseling, receives text data in response to the questionnaire from the user terminal, and text data extracted from the text data and the video. Calculate the text correlation index for .

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.Other aspects, features and advantages other than those described above will become apparent from the following drawings, claims, and detailed description of the invention.

본 발명의 일 실시예에 따른 인공지능을 활용한 심리 상담 방법 및 장치는, 사용자의 생체리듬, 측정된 감정 및 설문조사 결과를 토대로 실제 감정상태와 심리 상태를 정확하게 예측하고 예측된 값을 토대로 사용자에게 심리적 조언을 가능하게 할 수 있다.A psychological counseling method and apparatus using artificial intelligence according to an embodiment of the present invention accurately predicts the actual emotional state and psychological state based on the user's biological rhythm, measured emotions, and survey results, and based on the predicted values, the user psychological advice may be available.

그리고 사용자는 자신의 감정 상태와 생체 리듬을 알 수 있을 뿐만 아니라 심리적으로 조언을 제공받게 되어 심리적 완화 서비스를 받을 수 있다. 이를 통해 감정노동이나 심리적 스트레스를 받는 사람들이 병원이나 사람과의 대면을 통해서가 아닌 실시간으로 자가 진단을 받을 수 있다.In addition, users can not only know their emotional state and biorhythm, but also receive psychological advice and receive psychological relief services. Through this, people who are subjected to emotional labor or psychological stress can receive self-diagnosis in real time rather than in a hospital or face-to-face with people.

도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 심리 상담 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 심리 상담을 위한 컴퓨팅 장치를 구체적으로 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 인공지능을 이용한 심리 상담 방법을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 모델에 입력되는 데이터 및 출력 결과를 도시한 도면이다.
1 is a diagram illustrating a psychological counseling system using artificial intelligence according to an embodiment of the present invention.
2 is a diagram specifically illustrating a computing device for psychological counseling according to an embodiment of the present invention.
3 is a flowchart illustrating a psychological counseling method using artificial intelligence according to an embodiment of the present invention.
4 is a diagram illustrating data input to a deep learning model and output results according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. Since the present invention can apply various transformations and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. Effects and features of the present invention, and a method of achieving them, will become apparent with reference to the embodiments described below in detail in conjunction with the drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various forms.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, and when described with reference to the drawings, the same or corresponding components are given the same reference numerals, and the overlapping description thereof will be omitted. .

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. In the following embodiments, terms such as first, second, etc. are used for the purpose of distinguishing one component from another, not in a limiting sense.

이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.In the following examples, the singular expression includes the plural expression unless the context clearly dictates otherwise.

이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. In the following embodiments, terms such as include or have means that the features or components described in the specification are present, and the possibility that one or more other features or components may be added is not excluded in advance.

이하의 실시예에서, 막, 영역, 구성 요소 등의 부분이 다른 부분 위에 또는 상에 있다고 할 때, 다른 부분의 바로 위에 있는 경우뿐만 아니라, 그 중간에 다른 막, 영역, 구성 요소 등이 개재되어 있는 경우도 포함한다. In the following embodiments, when it is said that a part such as a film, region, or component is on or on another part, not only when it is directly on the other part, but also another film, region, component, etc. is interposed therebetween. Including cases where there is

도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.In the drawings, the size of the components may be exaggerated or reduced for convenience of description. For example, since the size and thickness of each component shown in the drawings are arbitrarily indicated for convenience of description, the present invention is not necessarily limited to the illustrated bar.

본 발명은 인공지능 기술을 활용하여 화자의 실제 감정 상태를 파악하고 조언해주기 위한 방법 및 장치를 제공하기 위한 것이다.An object of the present invention is to provide a method and apparatus for identifying and giving advice to a speaker's actual emotional state using artificial intelligence technology.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하도록 한다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 인공지능을 이용한 심리 상담 시스템을 도시한 도면이다.1 is a diagram illustrating a psychological counseling system using artificial intelligence according to an embodiment of the present invention.

도 1을 참조하면, 심리 상담 시스템(100)은 사용자로부터 입력 받은 데이터들을 토대로 심리적 조언을 수행하기 위한 것으로서, 사용자 단말(200) 및 컴퓨팅 장치(300) 등을 포함할 수 있다. 사용자 단말(200)은 입력부(202), 제어부(204), 데이터송수신부(206), 디스플레이부(208), 저장부(210) 등을 포함할 수 있다. 사용자 단말(200)은 컴퓨팅 장치(300)와 유무선 네트워크로 연결되어 데이터송수신부(206)를 통해 데이터의 송수신을 수행할 수 있다. 그리고 사용자 단말(200)은 입력부(202)를 통해 사용자에 대한 영상 및 음성 데이터가 포함된 동영상 데이터를 입력 받을 수 있다. 동영상 데이터는 사용자의 일상적인 시간대별 사진 및 영상, 심리 상담을 위해 촬영한 사진 및 영상이 될 수 있으며, 입력된 데이터는 저장부(210)에 저장되고, 데이터송수신부(206)를 통해 컴퓨팅 장치(300)로 전송될 수 있다. Referring to FIG. 1 , the psychological counseling system 100 is for performing psychological advice based on data received from a user, and may include a user terminal 200 and a computing device 300 . The user terminal 200 may include an input unit 202 , a control unit 204 , a data transmission/reception unit 206 , a display unit 208 , a storage unit 210 , and the like. The user terminal 200 may be connected to the computing device 300 through a wired/wireless network to transmit/receive data through the data transmission/reception unit 206 . In addition, the user terminal 200 may receive video data including video and audio data for the user through the input unit 202 . The moving image data may be photos and images taken for a user's daily time zone and psychological counseling, and the input data is stored in the storage unit 210 and a computing device through the data transmission/reception unit 206 . may be transmitted to 300 .

제어부(204)는 사용자 단말(200)의 구성요소들을 제어하며, 컴퓨팅 장치(300)를 통해 연결된 심리 상담 전문가와 화상 상담 또는 음성 상담을 수행할 수 있고, 문서 혹은 이미지로 된 설문지를 송수신할 수 있다. 디스플레이부(208)는 입력된 동영상을 재생하거나, 심리 상담 전문가와 상담하는 내용을 출력할 수 있다.The control unit 204 controls the components of the user terminal 200, can perform video or voice counseling with a psychological counseling expert connected through the computing device 300, and can transmit and receive a document or image questionnaire. have. The display unit 208 may reproduce the input video or output the contents of consultation with a psychological counseling expert.

컴퓨팅 장치(300)는 데이터 입력부(302), 전처리부(304), 제어부(306) 및 출력부(308) 등을 포함할 수 있다. 컴퓨팅 장치(300)는 적어도 하나의 사용자 단말(200)과 연결될 수 있으며, 데이터 입력부(302)에서 연결된 사용자 단말(200)로부터 데이터를 수신하고, 전처리부(304)에서 사용자 단말(200)로부터 수신한 데이터를 제어부(306)로 전달하기 위해 영상 데이터, 음성 데이터 및 텍스트 데이터를 추출할 수 있다.The computing device 300 may include a data input unit 302 , a preprocessor 304 , a control unit 306 , an output unit 308 , and the like. The computing device 300 may be connected to at least one user terminal 200 , and receives data from the connected user terminal 200 in the data input unit 302 , and receives data from the user terminal 200 in the preprocessor 304 . In order to transmit one data to the controller 306 , image data, audio data, and text data may be extracted.

제어부(306)는 컴퓨팅 장치(300)의 각 구성요소를 제어하고, 사용자의 영상, 음성, 텍스트 데이터를 토대로 생체리듬, 감정 상태 및 심리 상태에 대한 분석을 수행하고, 수행된 결과를 토대로 사용자의 최종 심리 상태 결과를 도출함으로써, 도출된 결과를 출력부(308)를 통해 제공하거나, 도출된 결과에 매칭되는 조언에 대한 피드백을 수행할 수 있다.The control unit 306 controls each component of the computing device 300 , analyzes the biological rhythm, emotional state, and psychological state based on the user's image, voice, and text data, and based on the performed result, the user's By deriving the final mental state result, the derived result may be provided through the output unit 308 , or feedback on advice matching the derived result may be performed.

한편, 도 1에서 심리 상담 시스템(100)은 적어도 하나의 사용자 단말(200)과, 컴퓨팅 장치(300)로 구성되어 있으나, 사용자는 사용자 단말(200)이 아닌 컴퓨팅 장치(300)에 직접 데이터를 입력할 수도 있다. 즉, 컴퓨팅 장치(300)는 개인용 컴퓨터, 노트북, 테블릿 컴퓨터 등이 될 수 있고, 연동된 복수의 컴퓨터, 서버, 클라우드가 모두 포함될 수 있는 장치이다.On the other hand, although the psychological counseling system 100 in FIG. 1 is composed of at least one user terminal 200 and a computing device 300 , the user directly transmits data to the computing device 300 rather than the user terminal 200 . You can also enter That is, the computing device 300 may be a personal computer, a notebook computer, a tablet computer, or the like, and may include a plurality of interlocked computers, servers, and clouds.

도 2는 본 발명의 일 실시예에 따른 심리 상담을 위한 컴퓨팅 장치를 구체적으로 도시한 도면이다.2 is a diagram specifically illustrating a computing device for psychological counseling according to an embodiment of the present invention.

도 2를 참조하면, 컴퓨팅 장치(300)의 데이터 입력부(302)에서는 연결된 사용자 단말(200)로부터 데이터를 수신하고, 전처리부(304)에서 사용자 단말(200)로부터 수신한 데이터를 제어부(306)로 전달하기 위해 영상 데이터, 음성 데이터 및 텍스트 데이터를 추출할 수 있다. 구체적으로 전처리부(304)는 동영상 데이터에서 사용자의 얼굴이 포함된 영상 데이터를 추출하고, 시간대별 얼굴, 몸짓, 손동작 영상 및 이미지를 추출하고, 필요한 경우 리사이징하여 제어부(306)로 출력하고, 동영상 데이터에서 시간대별 음성 데이터를 추출하여 출력할 수 있다. 그리고 동영상 데이터에서 음성에 해당하는 텍스트 데이터를 시간대 별로 출력하여 제어부(306)로 출력하게 된다.Referring to FIG. 2 , the data input unit 302 of the computing device 300 receives data from the connected user terminal 200 , and the preprocessor 304 receives the data received from the user terminal 200 from the control unit 306 . Image data, audio data, and text data can be extracted for delivery to the . Specifically, the pre-processing unit 304 extracts image data including the user's face from the moving picture data, extracts face, gesture, and hand motion images and images for each time period, resizes if necessary, and outputs the image to the control unit 306 , It is possible to extract and output voice data for each time period from the data. Then, text data corresponding to voice in the video data is output for each time period and output to the controller 306 .

제어부(306)는 컴퓨팅 장치(300)의 각 구성요소들을 제어하고, 사용자의 영상, 음성, 텍스트 데이터를 토대로 생체리듬, 감정 상태 및 심리 상태에 대한 분석을 수행하여, 수행된 결과를 토대로 사용자의 최종 심리 상태 결과값을 도출함으로써, 도출된 결과값을 출력부(308)로 전달하여 출력하거나, 도출된 결과에 매칭되는 조언에 대한 피드백을 사용자에게 수행할 수 있다.The control unit 306 controls each component of the computing device 300, analyzes the biological rhythm, emotional state, and psychological state based on the user's image, voice, and text data, and based on the performed result, the user's By deriving the final psychological state result value, the derived result value may be transmitted to the output unit 308 and output, or feedback on advice matching the derived result may be performed to the user.

구체적으로 제어부(306)에서는 전처리부(304)로부터 출력된 영상 데이터(3000), 음성 데이터(3010) 및 텍스트 데이터(3020)를 입력 받을 수 있다. 그리고 이중 영상 데이터(3000)를 제1 딥러닝 모델(3030)에 통과시킨다. 제1 딥러닝 모델(3030)은 컨볼루션 신경망(CNN: Convolution Neural Network)을 이용한 방법으로서, 컨볼루션 레이어(convolution layer)를 이용하여 이미지의 픽셀들이 컨볼루션 레이어를 통과하면서 이미지의 특징 값들을 찾아내는 특징을 가진다.Specifically, the controller 306 may receive the image data 3000 , the audio data 3010 , and the text data 3020 output from the preprocessor 304 . Then, the double image data 3000 is passed through the first deep learning model 3030 . The first deep learning model 3030 is a method using a convolutional neural network (CNN), which uses a convolution layer to find feature values of the image while pixels of the image pass through the convolution layer. have characteristics.

이에 감정 분류에서는 영상에서 이미지를 추출하고 추출되어진 이미지는 컨볼루션망을 통과하면서 예를 들어, 6가지의 특정 감정 라벨(label)로서 기쁨, 슬픔, 분노, 행복, 침착함, 덤덤함 등 을 가지고 있을 때의 고유 벡터를 찾아 내어 영상에서 대표하는 감정 라벨을 예측할 수 있으며, 생체 리듬 예측 결과 산출부(3060)를 통해 산출된 값을 출력할 수 있다.Accordingly, in emotion classification, an image is extracted from an image, and the extracted image passes through a convolutional network, for example, as six specific emotion labels, joy, sadness, anger, happiness, calmness, dullness, etc. It is possible to predict the emotion label represented in the image by finding the eigenvector of the time, and output the calculated value through the biorhythm prediction result calculation unit 3060 .

그리고 생체 리듬 예측 결과 산출부(3060)에서는 감정에 해당하는 라벨을 토대로 감정적 생체 리듬을 측정할 수 있다. 즉, 감정에 대한 예측한 값은 라벨 또는 수치 값으로 산출될 수 있으며, 산출된 수치 값에 대응하는 심박수, 혈류량 등을 예측할 수 있다. 이러한 감정적 생체 리듬은 하루, 한달, 계절 주기별 감정에 대한 생체 리듬을 포함할 수 있다. In addition, the biorhythm prediction result calculator 3060 may measure the emotional biorhythm based on the label corresponding to the emotion. That is, the predicted value for emotion may be calculated as a label or a numerical value, and a heart rate, blood flow, etc. corresponding to the calculated numerical value may be predicted. Such emotional biorhythms may include biorhythms for emotions for each day, month, and season cycle.

도 4는 본 발명의 일 실시예에 따른 딥러닝 모델에 입력되는 데이터 및 출력 결과를 도시한 도면이다.4 is a diagram illustrating data input to a deep learning model and output results according to an embodiment of the present invention.

도 4를 참조하면, 예를 들어, (a)와 같은 이미지 데이터를 딥러닝 모델에 통과시키는 경우, (b)의 표 및 (c)와 같은 결과를 출력할 수 있다. (b)의 Video_label은 학습 시 데이터가 대표하는 감정의 값을 의미하고, predict_label은 딥러닝 모델에서 예측한 감정의 값이다.Referring to FIG. 4 , for example, when image data such as (a) is passed through the deep learning model, results such as the table of (b) and (c) may be output. Video_label in (b) means the emotion value represented by the data during training, and predict_label is the emotion value predicted by the deep learning model.

그리고 (c)의 Video_label은 학습 시 데이터가 대표하는 감정의 값을 의미하고, predict_label은 딥러닝 모델이 예측한 감정의 값을 의미한다. HR_label은 학습 시 데이터가 실제로 대표하는 심박수를 의미하며 HR_predict는 딥러닝 모델이 예측한 심박수를 의미한다. HR_MAE/BPM은 실제 정답 데이터와 딥러닝 모델이 예측한 값의 오차를 의미한다. BR_label은 학습 시 데이터가 실제로 대표하는 혈류량을 의미하며, BR_predict는 실제 모델이 예측한 혈류량을 의미한다. BR_MAE/BPM은 실제 정답 데이터와 딥러닝 모델이 예측한 값의 오차를 의미한다.And Video_label in (c) means the emotion value represented by the data during training, and predict_label means the emotion value predicted by the deep learning model. HR_label means the heart rate that the data actually represents during training, and HR_predict means the heart rate predicted by the deep learning model. HR_MAE/BPM means the error between the actual correct answer data and the value predicted by the deep learning model. BR_label means the blood flow actually represented by the data during training, and BR_predict means the blood flow predicted by the actual model. BR_MAE/BPM means the error between the actual correct answer data and the value predicted by the deep learning model.

그리고 제어부(306)에서는 영상 데이터(3000)와 음성 데이터(3010)를 제2 딥러닝 모델(3040)에 통과시켜, 감정 상태에 대한 예측 결과를 도출하여 감정 상태 예측 결과 산출부(3070)를 통해 감정 상태를 산출하여 출력할 수 있다. 음성의 정보는 적은 수의 문장만으로도 감정 분석이 가능하며 때로는 얼굴 표정을 읽는 것 보다 정확하며 특히 높은 음의 목소리는 분노와 두려움과 같은 활동적인 감정을 나타내는 반면, 낮은 음의 목소리는 슬픔과 무관심을 나타낸다. 이에 제2 딥러닝 모델(3040)은 동영상 데이터에 포함된 사용자의 억양, 목소리의 높낮이 등의 음성 데이터를 추가로 활용한 감정분석을 수행하기 위한 것으로서, CNN과 순환 신경망(RNN: Recurrent Neural Network)을 활용하여 영상 데이터에서 감정 라벨을 측정하고, 음성 데이터를 그래프로 바꾸어서 화자의 목소리의 높낮이와 세기를 이용한 화자의 감정 상태를 분류할 수 있다.In addition, the control unit 306 passes the image data 3000 and the audio data 3010 through the second deep learning model 3040, derives the prediction result for the emotional state, and through the emotional state prediction result calculation unit 3070 The emotional state can be calculated and output. Speech information can be analyzed with only a small number of sentences, and is sometimes more accurate than reading facial expressions, and especially high-pitched voices indicate active emotions such as anger and fear, while low-pitched voices indicate sadness and indifference. indicates. Accordingly, the second deep learning model 3040 is to perform emotion analysis by additionally using voice data such as the user's intonation and the pitch of the voice included in the video data. CNN and Recurrent Neural Network (RNN) can be used to measure emotional labels from image data, and convert the voice data into graphs to classify the speaker's emotional state using the pitch and intensity of the speaker's voice.

이에 영상 데이터(3000) 및 음성 데이터(3010)를 제2 딥러닝 모델(3040)에 통과시키는 경우, 얼굴의 표정과 입모양이나 말하는 순간의 모습과 표정, 얼굴의 표정과 음성의 톤을 측정하여 감정 상태를 예측할 수 있다.Accordingly, when the image data 3000 and the audio data 3010 are passed through the second deep learning model 3040, the facial expression and mouth shape, the appearance and expression at the moment of speaking, the facial expression and the tone of the voice are measured. You can predict your emotional state.

한편, 영상데이터에 대한 딥러닝 신경망으로 RNN과 장기기억(LSTM: Long Shot Term Memory)을 이용한 딥러닝 모델을 적용할 수 있다. RNN/LSTM은 시퀀스 데이터를 위한 모델로서 기존의 신경망들과 다른 점은 시간 단위의 입력값에 대한 기억이 가능하기 때문에 영상 또는 음성처럼 시간의 흐름에 따라 내용이 변화 되는 데이터에 적용이 가능할 수 있다.Meanwhile, as a deep learning neural network for image data, a deep learning model using RNN and Long Shot Term Memory (LSTM) can be applied. As a model for sequence data, RNN/LSTM is different from existing neural networks because it can memorize input values in units of time, so it can be applied to data whose contents change over time, such as video or audio. .

이에 제1, 제2 딥러닝 모델에 RNN/LSTM을 적용할 경우 영상을 각 프레임 별로 RNN/LSTM 신경망을 통해서 최종적으로 화자의 심리 상태의 변화에 대해 실제 시간의 변화나 대화내용에 따른 감정변화, 감정상태의 원인, 감정의 기복의 정도에 대한 측정을 가능하게 할 수 있다.Therefore, when RNN/LSTM is applied to the first and second deep learning models, the image is finally processed through the RNN/LSTM neural network for each frame. It may be possible to measure the cause of the emotional state and the degree of ups and downs of the emotion.

그리고 제어부(306)에서는 전처리부(304)로부터 출력된 텍스트 데이터(3020)를 입력 받아 텍스트 상관관계 지표 산출부(3050)로 전달할 수 있다. 즉, 사용자가 동영상 데이터 촬영 시 음성에 대해 텍스트로 변환된 데이터로서 문장에 포함되어 있는 텍스트들 간의 상관관계값들을 구하고 문장분석을 통해 심리 상태를 평가할 수 있다.In addition, the control unit 306 may receive the text data 3020 output from the preprocessor 304 and transmit it to the text correlation index calculation unit 3050 . That is, the user can obtain correlation values between texts included in sentences as data converted from voice to text when shooting video data, and evaluate the psychological state through sentence analysis.

이에 제어부(306)에서는 생체 리듬 예측 결과 산출부(3060), 감정 상태 예측 결과 산출부(3070) 및 심리 상태 분석 결과 산출부(3080)에서 각각 산출된 예측 결과가 데이터 프레임 형태로 나오면 이를 CSV 파일로 저장하여 심리 상태 결과 도출부(3090)로 전달하고, 심리 상태 결과 도출부(3090)에서는 생체 리듬 예측 결과, 감정 상태 예측 결과 및 심리 상태 예측 결과를 토대로 종합 분석 결과 도출할 수 있다. 그리고 종합 분석 결과에 대응하는 조언 문구, 조언 글귀, 심리 완화를 위한 맞춤형 서비스를 출력부(308)를 통해 사용자 단말(200)로 피드백하여 제공할 수도 있다.Accordingly, in the control unit 306, when the prediction results calculated by the biorhythm prediction result calculation unit 3060, the emotional state prediction result calculation unit 3070, and the psychological state analysis result calculation unit 3080 are in the form of a data frame, it is converted into a CSV file. to the psychological state result derivation unit 3090 , and the psychological state result derivation unit 3090 may derive a comprehensive analysis result based on the biorhythm prediction result, the emotional state prediction result, and the psychological state prediction result. In addition, advice phrases corresponding to the results of the comprehensive analysis, advice texts, and customized services for psychological relief may be fed back to the user terminal 200 through the output unit 308 and provided.

한편, 데이터 입력부(302)에서는 동영상 데이터 외에 설문지 응답 결과에 대한 텍스트 데이터를 입력 받을 수 있다. 그리고 입력된 텍스트 데이터는 텍스트 상관관계 지표 산출부(3050)로 입력될 수 있다.Meanwhile, the data input unit 302 may receive text data for a questionnaire response result in addition to video data. In addition, the input text data may be input to the text correlation index calculator 3050 .

사용자가 동영상 데이터 입력 전후로 심리 상담 전문가에게 의뢰를 하여 심리 상담을 위한 설문지를 작성하고 설문 응답을 사용자 단말(200)로 전송하여 컴퓨팅 장치(300)로 입력될 수 있다. 심리 상담 전문가는 컴퓨팅 장치(300) 또는 컴퓨팅 장치(300)와 연동된 다른 사용자 단말을 이용하여 사용자 단말(200)에 접속한 후, 화상 또는 음성을 통해 심리 상담을 진행 할 수 있으며, 이때 입력된 데이터를 통해 심리 상태 평가를 수행할 수 있고, 사용자의 음성을 추출하여 텍스트 데이터로서 텍스트 상관관계 지표 산출부(3050)에 입력될 수 있다.The user may request a psychological counseling expert before and after inputting the video data to fill out a questionnaire for psychological counseling, and transmit the questionnaire response to the user terminal 200 to be input to the computing device 300 . After accessing the user terminal 200 using the computing device 300 or another user terminal interlocked with the computing device 300, the psychological counseling expert may conduct psychological counseling through video or voice, and at this time, The psychological state evaluation may be performed through the data, and the user's voice may be extracted and input to the text correlation index calculator 3050 as text data.

또는 심리 상담을 위한 설문지를 온오프라인을 통해 사용자가 확인하고, 이에 대한 응답을 텍스트 데이터로 추출하여 텍스트 상관관계 지표 산출부(3050)로 입력할 수도 있다. 심리 상담 전문가는 심리 상담 설문을 통해 사용자의 응답된 결과를 토대로 이에 대응하는 심리 상태에 대해 도출된 값을 텍스트 상관관계 지표 산출부(3050)에 입력할 수 있다. 이때, 심리 상담 설문을 객관화하여 이에 대한 설문 응답을 입력 받는 경우에는 텍스트 상관관계 지표 산출부(3050)에서 객관식에 해당하는 응답을 토대로 이에 대응하는 심리 상태 평가표를 통해 심리 상태를 도출할 수도 있다.Alternatively, the user may check a questionnaire for psychological counseling through on/offline, extract the response as text data, and input it into the text correlation index calculation unit 3050 . The psychological counseling expert may input a value derived for a corresponding psychological state based on the user's response result through the psychological counseling questionnaire into the text correlation indicator calculating unit 3050 . In this case, when the psychological counseling questionnaire is objectively received and a response to the questionnaire is received, the psychological state may be derived through the corresponding psychological state evaluation table based on the response corresponding to the multiple choice in the text correlation index calculation unit 3050 .

설문은 가족, 학업, 친구, 생활/거주, 건강관리/운동, 직장생활 등과 같이 감정적이나 심리적으로 고민이나, 걱정거리가 있는 지 살펴보는 방식으로 객관식 또는 주관식 응답을 회신 받는 방식으로 진행할 수 있으며, 동영상 데이터에서 확인된 주요 감정이나 심리 상태에 대해 구체적인 의견을 응답 받기 위해 수행 할 수 있다.The questionnaire can be conducted in a way that receives multiple-choice or subjective responses in a way that examines whether there are emotional or psychological concerns or concerns such as family, study, friends, living/residence, health care/exercise, work life, etc. This can be done in order to receive specific comments about the key emotional or psychological states identified in the data.

이에 제어부(306)에서는 설문 응답에 따른 감정 측정 지표와 텍스트를 기반으로 하여 문장에 포함되어 있는 텍스트들 간의 상관관계값 들을 구하고 문장분석을 통해 심리 상태 평가와 감정 상태에 따른 조언의 내용들을 바탕으로 사용자는 간단한 설문지와 사용자의 영상에서 추출되어진 텍스트들에 대한 분석을 수행한다.Accordingly, the control unit 306 obtains correlation values between texts included in a sentence based on the emotion measurement index according to the questionnaire response and the text, and evaluates the psychological state through sentence analysis and based on the content of advice according to the emotional state. The user analyzes the texts extracted from the simple questionnaire and the user's image.

이와 같이 본 발명에서는 딥러닝 모델을 이용하여 영상 데이터, 영상 및 음성 데이터를 사용한 감정예측을 각각 수행하여 이를 텍스트 데이터를 이용한 감정 예측 결과와 통합하여 사용하고자 한다. 또한, 사용자의 영상데이터에서 추출된 데이터 뿐만 아니라 사용자의 실제 심리 상태를 심리 전문 상담자와의 설문 조사 피드백을 통해 조사된 텍스트 데이터를 추가로 활용함으로써, 사용자에 대한 더욱 정확한 심리 예측을 가능하게 할 수 있다.As described above, in the present invention, emotion prediction using image data, video and audio data is performed using a deep learning model, respectively, and the emotion prediction result using text data is integrated and used. In addition, by additionally utilizing the data extracted from the user's image data as well as the actual psychological state of the user through the survey feedback with a psychological counselor, it is possible to make more accurate psychological predictions for the user. have.

이를 통해 사용자는 심리 상담 전문가와의 직접 대면 없이도 사용자 단말이나 컴퓨팅 장치를 사용하여 사용자가 현재상태에 대한 영상을 입력하고, 영상 데이터 입력 전후로 심리 상담 전문가와의 영상 통화, 사용자 단말이나 컴퓨팅 장치로부터 출력된 디지털 설문지, 오프라인 설문지 중 적어도 하나의 방법으로 설문지에 대한 응답을 통해 심리 상담을 수행할 수 있다.Through this, the user inputs an image of the current state of the user using a user terminal or computing device without direct face-to-face with a psychological counseling expert, video call with a psychological counseling expert before and after inputting image data, and outputs from the user terminal or computing device Psychological counseling can be performed by responding to the questionnaire using at least one of the digital questionnaire and the offline questionnaire.

심리 상담 시스템에서는 입력된 영상데이터에서 얼굴이미지를 포함하는 영상데이터, 음성데이터 및 텍스트 데이터를 추출하고, 영상 데이터와, 영상 및 음성데이터를 각각의 딥러닝 모델에 통과시켜 생체 리듬 및 감정 예측 결과를 도출할 수 있다. 그리고 영상데이터에서 추출한 텍스트 데이터를 토대로 텍스트 상관관계 지표를 통해 심리 상태 분석을 수행하여 감정 예측 결과를 도출한 후, 딥러닝 모델을 통과한 감정 예측 결과와 텍스트 데이터를 이용한 감정 예측 결과를 통합하여 사용자에 대한 종합적인 심리 상태 결과를 도출할 수 있다.The psychological counseling system extracts video data, audio data and text data including face images from the input video data, and passes the video data, video and audio data through each deep learning model to predict biorhythms and emotions. can be derived Then, based on the text data extracted from the image data, the emotional state analysis is performed through the text correlation index to derive the emotion prediction result, and then the emotion prediction result passed through the deep learning model and the emotion prediction result using the text data are integrated. Comprehensive psychological state results can be derived for

이때, 영상데이터에서 추출한 텍스트 데이터에 추가적으로 사용자로부터 응답 받은 설문지의 텍스트 데이터를 포함시켜 이를 토대로 텍스트 상관관계 지표를 분석할 수도 있다. 즉, 심리 상담 전문가를 통해 사용자에게 대한 심리 상태를 좀더 이해한 상태에서 감정 예측을 수행함으로써, 실시간으로 좀 더 정확한 감정 예측 결과의 도출을 가능하게 할 수 있다.In this case, the text correlation index may be analyzed based on the text data of the questionnaire received from the user in addition to the text data extracted from the image data. That is, it is possible to derive a more accurate emotion prediction result in real time by performing emotion prediction in a state in which the psychological state of the user is more understood through a psychological counseling expert.

도 3은 본 발명의 일 실시예에 따른 인공지능을 이용한 심리 상담 방법을 도시한 흐름도이다.3 is a flowchart illustrating a psychological counseling method using artificial intelligence according to an embodiment of the present invention.

도 3을 참조하면, S300단계에서 사용자 단말(200) 또는 컴퓨팅 장치(300)에서 사용자로부터 사용자의 감정 포함 영상 데이터 및 설문 데이터 입력받게 된다. 입력된 영상 데이터에서 영상, 이미지, 음성, 텍스트 데이터가 추출되어 S310단계에서 컴퓨팅 장치(300)의 제어부(306)는 제1 딥러닝 모델(3030)을 통해 영상 데이터의 이미지 데이터로부터 사용자의 생체 리듬을 측정하게 된다. 그리고 S320단계에서 컴퓨팅 장치(300)의 제어부(306)는 제2 딥러닝 모델(3040)을 통해 영상과 음성 데이터로부터 사용자의 감성 상태를 측정하게 된다.Referring to FIG. 3 , in step S300 , the user terminal 200 or the computing device 300 receives the user's emotion-containing image data and questionnaire data input from the user. Image, image, voice, and text data are extracted from the input image data, and in step S310 , the control unit 306 of the computing device 300 uses the first deep learning model 3030 to obtain the user's biorhythm from the image data of the image data. will measure In step S320 , the control unit 306 of the computing device 300 measures the emotional state of the user from the image and audio data through the second deep learning model 3040 .

S330단계에서 컴퓨팅 장치(300)의 제어부(306)는 입력된 텍스트 데이터와 설문지 텍스트로부터 텍스트 상관관계 지표를 분석하여 심리 상태를 측정하고, S340단계에서 컴퓨팅 장치(300)의 제어부(306)는 측정된 생체 리듬, 감성 상태 및 심리 상태를 토대로 종합적인 심리 상태 결과를 도출하여 출력하고, 이에 따른 맞춤형 조언을 사용자에게 피드백하게 된다.In step S330, the control unit 306 of the computing device 300 analyzes the text correlation index from the input text data and the questionnaire text to measure the psychological state, and in step S340, the control unit 306 of the computing device 300 measures Based on the biorhythm, emotional state and psychological state, a comprehensive psychological state result is derived and output, and customized advice is fed back to the user.

이와 같이 사용자의 동영상에서 추출된 영상, 얼굴 이미지와 음성 그리고 텍스트의 데이터와 보다 세밀한 심리 측정을 위해 심리 전문 인력이 구축해 놓은 질문지를 바탕으로 심리 분석을 진행하여 심리적 완화를 가능하게 할 수 있으며, 이에 사용자는 자신의 감정 상태와 생체 리듬을 알 수 있을 뿐만 아니라 심리적으로 조언을 제공받게 되어 심리적 완화 서비스를 받을 수 있다.In this way, psychological relief can be made possible by conducting psychological analysis based on the data of the video, face image, voice, and text extracted from the user's video, as well as a questionnaire built by a psychological expert for more detailed psychological measurement. Users can not only know their emotional state and biorhythm, but also receive psychological advice and receive psychological relief services.

본 발명의 일 실시예에 따른 인공지능을 활용한 심리 상담 방법은, 인공지능의 한 분야 인 딥러닝 기술을 활용하여 사용자의 영상과 음성 데이터를 토대로 사용자의 감정, 생체리듬 및 텍스트 분석 결과 값을 도출하고, 설문데이터를 통하여 사용자의 감정 상태를 심리학적 수치로 나온 결과값과 함께 분석하여 사용자의 실제 감정상태를 파악하고 조언해 줄 수 있는 이점이 있다.The psychological counseling method using artificial intelligence according to an embodiment of the present invention utilizes deep learning technology, which is a field of artificial intelligence, based on the user's image and voice data, and analyzes the user's emotions, biorhythms, and text analysis result values. There is an advantage in that the user's emotional state can be analyzed together with the psychological numerical result value through the questionnaire data to understand the user's actual emotional state and give advice.

한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장 장치 등이 있다.Meanwhile, the present invention can be implemented as computer-readable codes on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage device.

또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.In addition, the computer-readable recording medium may be distributed in a network-connected computer system, and the computer-readable code may be stored and executed in a distributed manner. And functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers in the technical field to which the present invention pertains.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다.The steps constituting the method according to the present invention may be performed in an appropriate order, unless the order is explicitly stated or there is no description to the contrary. The present invention is not necessarily limited to the order in which the steps are described.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.The use of all examples or exemplary terminology (eg, etc.) in the present invention is merely for the purpose of describing the present invention in detail, and the scope of the present invention is not limited by the examples or exemplary terms unless limited by the appended claims. It is not limited. In addition, those skilled in the art can appreciate that various modifications, combinations and changes can be made according to design conditions and factors within the scope of the appended claims or equivalents thereof.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라, 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다. Therefore, the spirit of the present invention should not be limited to the above-described embodiments, and not only the claims described below, but also all ranges equivalent to or changed from these claims are of the spirit of the present invention. would be said to belong to the category.

이와 같이 본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.As such, the present invention has been described with reference to one embodiment shown in the drawings, but this is merely exemplary, and those skilled in the art will understand that various modifications and variations of the embodiments are possible therefrom. Accordingly, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

100: 심리 상담 시스템
200: 사용자 단말
300: 컴퓨팅 장치
100: psychological counseling system
200: user terminal
300: computing device

Claims (10)

사용자의 영상 및 음성 데이터를 입력 받는 단계;
제1 딥러닝 모델을 통하여 입력된 영상 데이터에서 사용자의 생체 리듬을 측정하는 단계;
제2 딥러닝 모델을 통하여 상기 영상 및 음성 데이터에서 감정을 측정하여 분류하는 단계;
상기 음성 데이터에서 추출된 텍스트 데이터와, 상기 사용자로부터 입력된 설문 응답 결과 텍스트 데이터를 통하여 감정 측정 지표와 텍스트 기반의 분석을 수행하는 단계; 및
측정된 생체 리듬, 분류 감정, 텍스트 분석 결과를 토대로 심리 상태 종합 결과를 도출하는 인공지능을 이용한 심리 상담 방법.
receiving user's video and audio data;
measuring the user's biorhythm from the image data input through the first deep learning model;
measuring and classifying emotions in the video and audio data through a second deep learning model;
performing an emotion measurement index and text-based analysis based on the text data extracted from the voice data and the text data of the questionnaire response input from the user; and
A psychological counseling method using artificial intelligence that derives comprehensive psychological state results based on measured biorhythms, classification emotions, and text analysis results.
제1항에 있어서,
상기 생체 리듬을 측정하는 단계는,
상기 영상데이터에서 6가지의 감정 중 하나의 감정을 예측하는 단계; 및
예측된 감정에 대한 수치 값을 산출하고 산출된 수치 값에 대응하는 심박수 및 혈류량을 산출하는 단계;
를 포함하는 인공지능을 이용한 심리 상담 방법.
According to claim 1,
Measuring the biorhythm comprises:
predicting one of six emotions from the image data; and
calculating a numerical value for the predicted emotion and calculating a heart rate and blood flow corresponding to the calculated numerical value;
A psychological counseling method using artificial intelligence, including
제1항에 있어서,
상기 감정을 측정하여 분류하는 단계는,
상기 영상 및 음성 데이터에서 말할때의 얼굴 표정과 음성의 톤을 통하여 감정 상태를 예측하여 산출하는 것을 특징으로 하는 인공지능을 이용한 심리 상담 방법.
According to claim 1,
The step of measuring and classifying the emotion is
A psychological counseling method using artificial intelligence, characterized in that predicting and calculating an emotional state through facial expressions and voice tones when speaking from the video and audio data.
제 1항에 있어서,
상기 감정 측정 지표와 텍스트 기반의 분석을 수행하는 단계는,
설문 응답 결과에 따라 대응되는 감정 측정 지표를 산출하는 단계;
동영상 데이터 추출 텍스트 데이터 및 설문 응답 결과 텍스트 데이터를 토대로 문장에 포함되어 있는 텍스트들 간의 상관관계 값을 산출하는 단계; 및
상기 감정 측정 지표 및 상관관계 값을 토대로 심리 상태 분석 결과를 출력하는 단계;
를 포함하는 인공지능을 이용한 심리 상담 방법.
The method of claim 1,
The step of performing the analysis based on the emotion measurement index and the text,
calculating a corresponding emotion measurement index according to the survey response result;
calculating a correlation value between texts included in a sentence based on the moving image data extraction text data and the questionnaire response result text data; and
outputting a psychological state analysis result based on the emotion measurement index and the correlation value;
A psychological counseling method using artificial intelligence, including
제1항에 있어서,
상기 설문 응답 결과 텍스트 데이터는,
컴퓨팅 장치에서 사용자 단말로 심리 상담용 설문지를 전송하는 단계;
상기 사용자 단말로부터 설문지에 대한 응답으로 텍스트 데이터를 입력 받는 단계; 및
상기 텍스트 데이터와 동영상에서 추출된 텍스트 데이터에 대한 텍스트 상관관계 지표를 산출하는 단계;
를 포함하는 인공지능을 이용한 심리 상담 방법.
The method of claim 1,
The text data of the survey response result is,
transmitting a psychological counseling questionnaire from the computing device to the user terminal;
receiving text data as a response to the questionnaire from the user terminal; and
calculating a text correlation index for the text data and the text data extracted from the video;
A psychological counseling method using artificial intelligence, including
사용자의 영상 및 음성 데이터를 입력 받는 입력부와,
제1 딥러닝 모델을 통하여 입력된 영상 데이터에서 사용자의 생체 리듬을 측정하는 생체 리듬 예측 결과 산출부와,
제2 딥러닝 모델을 통하여 상기 영상 및 음성 데이터에서 감정을 측정하여 분류하는 감정 상태 예측 결과 산출부와,
상기 음성 데이터에서 추출된 텍스트 데이터와, 상기 사용자로부터 입력된 설문 응답 결과 텍스트 데이터를 통하여 감정 측정 지표와 텍스트 기반의 분석을 수행하는 심리 상태 분석 결과 산출부 및
측정된 생체 리듬, 분류 감정, 텍스트 분석 결과를 토대로 심리 상태 종합 결과를 도출하는 심리 상태 결과 도출부
를 포함하는 인공지능을 이용한 심리 상담 장치.
an input unit for receiving user's video and audio data;
a biorhythm prediction result calculator for measuring the user's biorhythm from the image data input through the first deep learning model;
an emotional state prediction result calculation unit for measuring and classifying emotions in the video and audio data through a second deep learning model;
a psychological state analysis result calculation unit for performing an emotion measurement index and text-based analysis through the text data extracted from the voice data and the questionnaire response result text data input from the user; and
A psychological state result derivation unit that derives a comprehensive psychological state result based on the measured biorhythm, classification emotion, and text analysis result
A psychological counseling device using artificial intelligence, including a.
제6항에 있어서,
상기 생체 리듬 예측 결과 산출부는,
상기 영상데이터에서 6가지의 감정 중 하나의 감정을 예측하고,
예측된 감정에 대한 수치 값을 산출하고 산출된 수치 값에 대응하는 심박수 및 혈류량을 산출하는 것을 특징으로 하는 인공지능을 이용한 심리 상담 장치.
7. The method of claim 6,
The biorhythm prediction result calculation unit,
Predicting one of six emotions from the image data,
A psychological counseling apparatus using artificial intelligence, characterized in that it calculates a numerical value for a predicted emotion and calculates a heart rate and blood flow corresponding to the calculated numerical value.
제6항에 있어서,
상기 감정 상태 예측 결과 산출부는,
상기 영상 및 음성 데이터에서 말할때의 얼굴 표정과 음성의 톤을 통하여 감정 상태를 예측하여 산출하는 것을 특징으로 하는 인공지능을 이용한 심리 상담 장치.
7. The method of claim 6,
The emotional state prediction result calculation unit,
Psychological counseling apparatus using artificial intelligence, characterized in that predicting and calculating the emotional state through the facial expression and tone of voice when speaking from the video and audio data.
제 6항에 있어서,
상기 심리 상태 분석 결과 산출부는,
설문 응답 결과에 따라 대응되는 감정 측정 지표를 산출하고,
동영상 데이터 추출 텍스트 데이터 및 설문 응답 결과 텍스트 데이터를 토대로 문장에 포함되어 있는 텍스트들 간의 상관관계 값을 산출하고,
상기 감정 측정 지표 및 상관관계 값을 토대로 심리 상태 분석 결과를 출력하는 것을 특징으로 하는 인공지능을 이용한 심리 상담 장치.
7. The method of claim 6,
The psychological state analysis result calculation unit,
Calculate the corresponding emotion measurement index according to the survey response result,
Based on the video data extraction text data and the questionnaire response result text data, a correlation value between texts included in a sentence is calculated,
Psychological counseling apparatus using artificial intelligence, characterized in that outputting a psychological state analysis result based on the emotion measurement index and the correlation value.
제6항에 있어서,
상기 상기 설문 응답 결과 텍스트 데이터는,
컴퓨팅 장치에서 사용자 단말로 심리 상담용 설문지를 전송하고,
상기 사용자 단말로부터 설문지에 대한 응답으로 텍스트 데이터를 입력 받고,
상기 텍스트 데이터와 동영상에서 추출된 텍스트 데이터에 대한 텍스트 상관관계 지표를 산출하는 것을 특징으로 하는 인공지능을 이용한 심리 상담 장치.
7. The method of claim 6,
The text data of the survey response result is,
Transmitting the psychological counseling questionnaire from the computing device to the user terminal,
receiving text data as a response to the questionnaire from the user terminal;
Psychological counseling apparatus using artificial intelligence, characterized in that for calculating a text correlation index for the text data and the text data extracted from the video.
KR1020210147616A 2021-01-21 2021-11-01 Method and apparatus for psychological counselingusing artificial intelligence KR20220106029A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210008421 2021-01-21
KR20210008421 2021-01-21

Publications (1)

Publication Number Publication Date
KR20220106029A true KR20220106029A (en) 2022-07-28

Family

ID=82607641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210147616A KR20220106029A (en) 2021-01-21 2021-11-01 Method and apparatus for psychological counselingusing artificial intelligence

Country Status (1)

Country Link
KR (1) KR20220106029A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631446A (en) * 2023-07-26 2023-08-22 上海迎智正能文化发展有限公司 Behavior mode analysis method and system based on speech analysis

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085696A (en) 2018-01-02 2020-07-15 주식회사 제네시스랩 Method of processing video for determining emotion of a person

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085696A (en) 2018-01-02 2020-07-15 주식회사 제네시스랩 Method of processing video for determining emotion of a person

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631446A (en) * 2023-07-26 2023-08-22 上海迎智正能文化发展有限公司 Behavior mode analysis method and system based on speech analysis
CN116631446B (en) * 2023-07-26 2023-11-03 上海迎智正能文化发展有限公司 Behavior mode analysis method and system based on speech analysis

Similar Documents

Publication Publication Date Title
CN110556129B (en) Bimodal emotion recognition model training method and bimodal emotion recognition method
CN106663383B (en) Method and system for analyzing a subject
Bachorowski Vocal expression and perception of emotion
Sauter et al. Perceptual cues in nonverbal vocal expressions of emotion
CA3155809A1 (en) Acoustic and natural language processing models for speech-based screening and monitoring of behavioral health conditions
Bahreini et al. Data fusion for real-time multimodal emotion recognition through webcams and microphones in e-learning
JP2017156854A (en) Speech semantic analysis program, apparatus and method for improving comprehension accuracy of context semantic through emotion classification
US10610109B2 (en) Emotion representative image to derive health rating
EP4052262A1 (en) Method and system for an interface to provide activity recommendations
US20190013092A1 (en) System and method for facilitating determination of a course of action for an individual
JP6715410B2 (en) Evaluation method, evaluation device, evaluation program, and evaluation system
CN115862868A (en) Psychological assessment system, psychological assessment platform, electronic device and storage medium
WO2022174161A1 (en) Systems and methods for psychotherapy using artificial intelligence
Villegas-Ch et al. Identification of emotions from facial gestures in a teaching environment with the use of machine learning techniques
KR20220106029A (en) Method and apparatus for psychological counselingusing artificial intelligence
Shanthi et al. An integrated approach for mental health assessment using emotion analysis and scales
US20230290505A1 (en) Context Aware Assessment
Bahreini et al. Improved multimodal emotion recognition for better game-based learning
JP6285377B2 (en) Communication skill evaluation feedback device, communication skill evaluation feedback method, and communication skill evaluation feedback program
Guhan et al. Developing an effective and automated patient engagement estimator for telehealth: A machine learning approach
Bahreini et al. FILTWAM and voice emotion recognition
Chhabra An approach for the transformation of human emotion and energy-field using sound therapy
De Carolis et al. Recognizing signals of social attitude in interacting with ambient conversational systems
Buz et al. Assessing automatic VOT annotation using unimpaired and impaired speech
US20230316812A1 (en) Sign language sentiment analysis

Legal Events

Date Code Title Description
E902 Notification of reason for refusal