WO2023146030A1 - 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램 - Google Patents

감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램 Download PDF

Info

Publication number
WO2023146030A1
WO2023146030A1 PCT/KR2022/007402 KR2022007402W WO2023146030A1 WO 2023146030 A1 WO2023146030 A1 WO 2023146030A1 KR 2022007402 W KR2022007402 W KR 2022007402W WO 2023146030 A1 WO2023146030 A1 WO 2023146030A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
concentration
emotion classification
data
degree
Prior art date
Application number
PCT/KR2022/007402
Other languages
English (en)
French (fr)
Inventor
나현석
Original Assignee
주식회사 마블러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마블러스 filed Critical 주식회사 마블러스
Publication of WO2023146030A1 publication Critical patent/WO2023146030A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/50Business processes related to the communications industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to an artificial intelligence-based interaction device, method, and program integrating emotion, concentration, and conversation.
  • the metaverse is emerging as a global trend, and accordingly, it is the time when metaverse-related contents are being created.
  • Users in this metaverse virtual reality create avatars in virtual reality and engage in social and cultural activities just like reality.
  • the education sector is recently receiving increased interest due to the need for non-face-to-face education, and discussions on education using the metaverse are in full swing. Therefore, the development of technology is required to maximize the efficiency of learning by grafting the metaverse education system to non-face-to-face education and learning and utilizing and analyzing contents such as emotion and concentration generated by mobile phones or tablet PCs.
  • An object of the present invention is to provide an artificial intelligence-based interactive device, method, and program that integrate emotion, concentration, and conversation.
  • an artificial intelligence-based interaction method integrating emotion, concentration, and conversation by a computing device includes performing emotion classification from a face image, performing emotion classification from voice data, and voice data.
  • Emotion classification from conversation data, emotion classification from conversation data, final emotion classification by integrating emotion classification performed on face image, voice, and conversation data using an integrated model, real-time face video image Determining the degree of concentration based on the level of concentration, analyzing the degree of similarity using past conversation data, determining the feedback category based on the emotion classification value, degree of concentration, emotion classification, degree of concentration, and degree of similarity, and delivering the generated feedback sentence to the user It includes steps to
  • emotion classification may be performed by transferring a pretrained convolutional neural network (CNN) model that derives a face recognition result value from the face image.
  • CNN convolutional neural network
  • a face emotion data set is collected
  • facial images and emotion labeling are matched, features are extracted through a convolutional neural network model based on the matched input data, and facial emotions are derived by classifying the extracted features through a classifier.
  • a classifier may be a step.
  • a voice dataset is collected
  • It may be a step of converting the collected voice data set into spectogram image data, deriving a feature map from the converted image data through a convolutional neural network model, and classifying the feature map to perform emotion classification.
  • the step of classifying the final emotion by integrating the emotion classification performed on the face image and voice data using the integrated model
  • It may be a step of integrating based on an ensemble technique.
  • the second degree of concentration is determined based on the position where the gaze stays through image-based eye-tracking
  • It may be a step of integrating the first degree of concentration and the second degree of concentration to determine the final degree of concentration.
  • It may be a step of determining a feedback category by inputting emotion classification results, concentration results, and similarity results into a feedback table.
  • an electronic device includes a memory, a transceiver, and at least one processor, wherein the processor performs emotion classification from a face image, emotion classification from voice data, Classifying the final emotion by integrating the emotion classification performed on the face image and voice data using an integrated model, determining the degree of concentration based on the real-time face image, analyzing the degree of similarity using past conversation data, The steps of determining a feedback category based on emotion classification, degree of concentration, and degree of similarity and delivering the generated feedback sentence to the user are performed.
  • a computer program recorded on a computer-readable storage medium is configured to perform the above-described method through an electronic device.
  • the interaction method according to the present invention can generate and utilize an AI model that can detect the emotion of a target by recognizing a person's expression, voice, and voice content.
  • Emotion classification obtained through each model can be used as an indicator of an integrated emotion classification model.
  • Emotion classification types are divided into positive, negative, and neutral.
  • voice can be extracted as text, and the extracted data can be used as context-based feedback generation and emotion classification data.
  • a value used as context-based feedback may be used as a basic value for an avatar's interaction.
  • the acquired text and emotion prediction result can be stored as history data.
  • the interaction method according to the present invention may generate an artificial intelligence model capable of obtaining a degree of concentration of an object by using a person's image-based vital signs, eye movements, and the like as indicators.
  • the interaction method according to the present invention may generate context-based feedback using conversation contents and emotions, facial expressions and voices, past conversation history, and user's concentration level analyzed during user interaction.
  • the interaction method according to the present invention is applied to the interaction module of an avatar to provide feedback capable of improving emotion/self-regulation when necessary.
  • type of feedback and keywords are set by analyzing emotion classification, concentration, and similarity value of past conversations.
  • FIG. 1 illustrates a network system including electronic devices according to various embodiments of the present disclosure.
  • FIG. 2 shows a block diagram of a configuration of an electronic device according to various embodiments of the present disclosure.
  • Figure 3 shows a block diagram of the configuration of a server according to various embodiments of the present invention.
  • Figure 4 shows a block diagram of the configuration of a CNN system and transfer learning system for deriving emotions from face images.
  • FIG. 5 shows a block diagram of a speech learning system for deriving emotion from speech data.
  • FIG. 6 is a diagram exemplarily illustrating a method of integrating a plurality of emotion classifications.
  • FIG. 7 is a diagram illustrating an exemplary method of deriving a degree of concentration from a real-time face image.
  • FIG. 8 is a diagram showing a detailed configuration and data flow according to an interaction method performed by a processor of an interaction device according to the present invention.
  • FIG. 9 is a flowchart illustrating an interaction method according to various embodiments of the present disclosure.
  • FIG. 1 illustrates a network system including electronic devices according to various embodiments of the present disclosure.
  • a network system includes an electronic device 110, a wired/wireless communication network 120, and a server 130.
  • the server 130 obtains image data from the user's electronic device 110 through the wired/wireless communication network 120, derives an emotional state and a concentration state, and then displays a chatbot message UI corresponding to the corresponding state. It is transmitted back to the electronic device 110 of the user through the wireless communication network 120 .
  • the electronic device 110 captures and transmits image data including face and posture information for the learning state of the user according to a request of the server 130 through the wired/wireless communication network 120 .
  • the electronic device 110 includes a memory that can store information, a transceiver that can transmit and receive information, and at least one processor that can perform information calculation, such as a personal computer, a cellular phone, a smart phone, and a tablet computer. It may be an electronic device including.
  • the type of electronic device 110 is not limited.
  • the wired/wireless communication network 120 provides a communication path through which the electronic device 110 and the server 130 can transmit and receive signals and data to each other.
  • the wired/wireless communication network 120 is not limited to a communication method according to a specific communication protocol, and an appropriate communication method may be used according to an implementation example.
  • IP Internet Protocol
  • the wired/wireless communication network 120 may be implemented as a wired/wireless Internet network, and the electronic device 110 and the server 130 are implemented as mobile communication terminals.
  • the wired/wireless communication network 120 may be implemented as a wireless network such as a cellular network or a wireless local area network (WLAN) network.
  • WLAN wireless local area network
  • the server 130 receives image data including face and posture information for the learning state of the user from the electronic device 110 through the wired/wireless communication network 120 .
  • the server 130 may be an electronic device including a memory capable of storing information, a transmitting/receiving unit capable of transmitting and receiving information, and at least one processor capable of performing information calculation.
  • FIG. 2 shows a block diagram of a configuration of an electronic device according to various embodiments of the present disclosure.
  • an electronic device 110 includes a memory 111, a transceiver 112, and a processor 113.
  • the memory 111 may include volatile memory, non-volatile memory, or a combination of volatile and non-volatile memories. Also, the memory 111 may provide stored data according to a request of the processor 113 .
  • the transceiver 112 is connected to the processor 113 and transmits and/or receives signals. All or part of the transceiver 113 may be referred to as a transmitter, a receiver, or a transceiver.
  • the transceiver 112 is a wired access system and a wireless access system, such as an institute of electrical and electronics engineers (IEEE) 802.xx system, an IEEE Wi-Fi system, a 3rd generation partnership project (3GPP) system, and a 3GPP long term evolution (LTE) system. , 3GPP 5G new radio (NR) system, 3GPP2 system, at least one of various wireless communication standards such as Bluetooth may be supported.
  • IEEE institute of electrical and electronics engineers
  • 3GPP 3rd generation partnership project
  • LTE 3GPP long term evolution
  • NR 3GPP 5G new radio
  • 3GPP2 system at least one of various wireless communication standards such as Bluetooth may be supported.
  • the processor 113 may be configured to implement the procedures and/or methods proposed in the present invention.
  • the processor 113 controls overall operations of the electronic device 110 to provide content based on machine learning analysis of biometric information. For example, the processor 113 transmits or receives information or the like through the transceiver 115 . Also, the processor 113 writes data to and reads data from the memory 112 .
  • the processor 113 may include at least one processor. Detailed configuration and control of the processor 113 will be described below.
  • the processor 113 performs emotion classification from face images, emotion classification from voice data, classifies final emotions by integrating emotion classification performed on face images and voice data using an integrated model, and , Concentration can be determined based on real-time face image, similarity can be analyzed using past conversation data, feedback categories can be determined based on the similarity, and generated feedback sentences can be delivered to the user.
  • the processor 113 may perform emotion classification by transfer learning of a pretrained convolutional neural network (CNN) model that derives a face recognition result value from a face image.
  • CNN convolutional neural network
  • the processor 113 collects facial emotion data sets, matches facial images and emotion labels based on the collected facial emotion data sets, extracts features through a convolutional neural network model based on the matched input data, and extracts Facial emotions can be derived by classifying the identified features through a classifier.
  • the processor 113 collects a voice dataset, converts the collected voice dataset into spectogram image data, derives a feature map from the converted image data through a convolutional neural network model, classifies the feature map, and Sentiment classification can be performed.
  • the processor 113 may integrate based on an ensemble technique.
  • the processor 113 determines a first degree of concentration by detecting a face position, recognizing a heart rate and a state, determining a second degree of concentration based on a position where the gaze stays through image-based eye-tracking, and determining a first degree of concentration.
  • the final degree of concentration may be determined by integrating the degree of concentration and the degree of second concentration.
  • the processor 113 may obtain a sentence similarity based on past conversation data of the user based on a Bert model.
  • the processor 113 may determine a feedback category by inputting emotion classification results, concentration results, and similarity results into a feedback table.
  • Figure 3 shows a block diagram of the configuration of a server according to various embodiments of the present invention.
  • a server 130 includes a memory 131 , a transceiver 132 and a processor 133 .
  • the server 130 may be a type of electronic device.
  • the memory 131 is connected to the transceiver 132 and may store information received through communication.
  • the memory 131 is connected to the processor 133 and may store data such as a basic program for operation of the processor 133, an application program, setting information, and information generated by operation of the processor 133.
  • the memory 131 may include volatile memory, non-volatile memory, or a combination of volatile and non-volatile memories. Also, the memory 131 may provide stored data according to a request of the processor 133 .
  • the transceiver 132 is connected to the processor 133 and transmits and/or receives signals. All or part of the transceiver 132 may be referred to as a transmitter, a receiver, or a transceiver.
  • the transceiver 132 is a wired access system and a wireless access system, such as an institute of electrical and electronics engineers (IEEE) 802.xx system, an IEEE Wi-Fi system, a 3rd generation partnership project (3GPP) system, and a 3GPP long term evolution (LTE) system. , 3GPP 5G new radio (NR) system, 3GPP2 system, at least one of various wireless communication standards such as Bluetooth may be supported.
  • Figure 4 shows a block diagram of the configuration of a CNN system and transfer learning system for deriving emotions from face images.
  • the pre-trained CNN system 200 labels 220 a face image and an identification (ID) result value based on face recognition data 210, and then converts the corresponding information to an input value. can be input to the CNN module 230 to derive the ID classification result 240.
  • ID identification
  • the transfer learning system 300 labels a separate facial emotion dataset 310 with facial images and resultant emotion values 320, and then inputs the corresponding information to the CNN module 330 as an input value. can do.
  • the CNN module 330 may be learned by transferring the configuration of the CNN module 230 pre-trained with the face image and the ID result value.
  • the CNN module 330 may derive the emotion classification result 350 by inserting the derived result value into the classifier 340 .
  • the voice learning system 400 converts voice data into voice spectrogram image data 420 based on the voice dataset 410, and converts the converted image data into CNN module ( 430), a feature map 440 may be derived.
  • the feature map 440 may be inserted into the classifier 450 again to derive voice data as an emotion classification result 460 .
  • FIG. 6 is a diagram exemplarily illustrating a method of integrating a plurality of emotion classifications.
  • a method and model for integrating a plurality of emotion classifications are illustratively divided into 6(a) and 6(b), but this is only an example and is not limited thereto.
  • a model capable of recognizing a target's emotion may collect emotion classification values for facial expression, voice, and text for each emotion of a person, and create a model that integrates emotion classification values for each data.
  • the ensemble technique according to FIG. 6 (a) can be utilized by applying a staking technique or the like to integrate results for other features.
  • the formula substitution method according to 6(b) generates a final model for classifying emotions by applying a methodology with good predictive power when substituting each result into an applied formula.
  • emotion prediction values for different methods are derived for an input dataset, and new data values are generated by applying new input values to the emotion prediction values, Based on this, a meta model may be generated to derive a final emotion prediction value.
  • FIG. 7 is a diagram illustrating an exemplary method of deriving a degree of concentration from a real-time face image.
  • a first concentration model that acquires concentration and degree by detecting a face position from an image and recognizing a heart rate and a state.
  • image-based eye-tracking technology where and how the user's gaze is located is identified (heat map) to generate a second concentration model that obtains whether and how much attention is given.
  • a final concentration may be calculated from a real-time face image with reference to FIG. 6 .
  • the final concentration may be calculated according to the ensemble method.
  • FIG. 8 is a diagram showing a detailed configuration and data flow according to an interaction method performed by a processor 700 of an interaction device according to the present invention.
  • the processor 700 may prepare original data 710 composed of video and audio as pre-processed data 730 through an STT conversion module 720 .
  • Pre-processing data 730 can be divided into three types of data: voice, image, and text.
  • Text data may be derived from voice data. Specifically, it may be obtained as text through the STT conversion module 720 or a separate API module.
  • Voice data is converted into voice spectogram 741 as described above in FIG. 5, video images are input to convolutional neural network 742 as described above in FIG. 4, and text data is converted into natural language processing module 743 ) can be entered.
  • a transfer learning 744 system may be utilized to derive the image emotion classification as described above in FIG. 4 .
  • An emotion classification model 745 may be generated from the image.
  • a transfer learning model may be created using a Korean pre-learning model as a backbone in the natural language processing module 743 whose performance has been verified to derive emotion classification of text data.
  • a sentiment classification model 745 of the text may be generated by fine-tuning the transfer learning model.
  • the concentration model 746 may determine the degree of concentration by detecting the position of the face based on the real-time face image and recognizing the heart rate and condition, or may determine the degree of concentration through eye tracking.
  • the similarity model 747 may acquire sentence similarity based on user's past conversation data based on a Bert model.
  • the similarity model 747 may determine similarity with conversations stored in the STT data store 735 in which past conversation details are stored to determine whether similar texts have been received.
  • a result 748 may be presented through an integrated model through different models.
  • the keyword setter 749 may set a keyword value for each situation by using the integrated emotion (facial expression, voice, text) classification value obtained from the models, concentration, and similarity value with past conversation data.
  • Priority emotion classification Concentration similarity in the past Feedback category One Positive Concentration - Empathize 2 positive or negative - - to listen 4 positive or neutral commonly - expression help 3 denial Concentration - to comfort 5 - Concentration Similarity past conversation 6 - - - daily conversation
  • the feedback generator 750 may generate a feedback sentence by transmitting the user's original text extracted by STT and set keywords to the GPT-3 natural language generation model.
  • the processor may deliver feedback sentences generated according to user analysis data and speech content to the user as sound through an avatar separately controlled by the user terminal, etc., but is not limited thereto.
  • the method includes performing emotion classification from face images, performing emotion classification from voice data (S110), integrating emotion classification performed on face images and voice data using an integrated model, Classifying the final emotion (S120), determining the degree of concentration based on the real-time face video image (S130), analyzing the degree of similarity using past conversation data (S140), based on the emotion classification, degree of concentration, and degree of similarity It includes determining a feedback category (S150) and delivering the generated feedback sentence to a user (S160).
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • the above-described method can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable medium.
  • the structure of data used in the above-described method may be recorded on a computer-readable storage medium through various means.
  • Program storage devices which may be used to describe a storage device containing executable computer code for performing various methods of the present invention, should not be construed as including transitory objects such as carrier waves or signals. do.
  • the computer-readable storage media includes storage media such as magnetic storage media (eg, ROM, floppy disk, hard disk, etc.) and optical reading media (eg, CD-ROM, DVD, etc.).
  • the interaction method according to the present invention utilizes conversation content and emotion, facial expression and voice, past conversation history, and user's concentration and generates context-based feedback, which are analyzed during user interaction, thereby interacting with the user. It has the potential to be widely used in the field of IT technology.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)
  • Operations Research (AREA)

Abstract

본 발명은 컴퓨팅 장치에 의해 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 방법으로, 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계, 과거 대화 데이터를 활용하여 유사도를 분석하는 단계, 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계 및 생성된 피드백 문장을 사용자에게 전달하는 단계를 포함한다.

Description

감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
본 발명은 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램에 관한 것이다.
전세계적 유행으로 메타버스가 대두되고 있으며, 이에 따라 메타버스 관련 컨텐츠가 생성되고 있는 시점이다. 기술이 발달하며 화면을 통해 가상 세계를 보는 것을 넘어 직접 가상 세계에 참여할 수 있게 되면서 메타버스 산업은 앞으로 더욱 확대될 것으로 보인다. 이런 메타버스 가상현실 속 사용자들은 가상현실에서 아바타를 만들어 현실과 같은 사회·문화적 활동을 한다. 메타버스에 포함되어 활용할 수 있는 서비스 중 교육 분야는 최근 비대면 교육의 필요성으로 관심이 증가하면서 메타버스 활용 교육에 대한 논의가 본격화되고 있는 실정이다. 따라서, 비대면 교육 학습에 메타버스 교육 시스템을 접목시키고 휴대폰 또는 태블릿 PC로 생성되는 감성, 집중도 등의 컨텐츠를 활용 분석하여 학습의 효율화를 극대화시키기 위한 기술의 발전이 요구된다.
본 발명은 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램에 관한 것을 제공하고자 한다.
본 발명은 일 실시예에 따른 컴퓨팅 장치에 의해 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 방법은, 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 대화 데이터로부터 감정 분류를 수행하는 단계, 통합 모델을 이용하여 얼굴 이미지, 음성, 대화 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계, 과거 대화 데이터를 활용하여 유사도를 분석하는 단계, 감정 분류 값, 집중도, 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계 및 생성된 피드백 문장을 사용자에게 전달하는 단계를 포함한다.
상기 얼굴 이미지로부터 감정 분류를 수행하는 단계는, 얼굴 이미지로부터 얼굴 인식 결과값을 도출하는 사전학습 된 컨벌루션 뉴럴 네트워크(CNN) 모델을 전이학습(transfer learning)하여 감정 분류를 수행할 수 있다.
상기 전이학습 하여 감정 분류를 수행하는 단계는,얼굴 감정 데이터 셋을 수집하고,
수집된 얼굴 감정 데이터셋을 바탕으로 얼굴 이미지와 감정 라벨링을 매칭하고, 매칭된 입력 데이터를 바탕으로 컨벌루션 뉴럴 네트워크 모델을 통해 특징을 추출하고,추출된 특징을 분류기를 통해 분류하여 얼굴 감정을 도출하는 단계일 수 있다.
상기 음성 데이터로부터 감정 분류를 수행하는 단계는, 음성 데이터셋을 수집하고,
수집된 음성 데이터셋을 스펙토그램 이미지 데이터로 변환하고, 변환된 이미지데이터를 컨벌루션 뉴럴 네트워크 모델을 통해 피쳐맵을 도출하고, 상기 피쳐맵을 분류하여 감정 분류를 수행하는 단계일 수 있다.
상기 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계는,
앙상블 기법을 기반으로 통합하는 단계일 수 있다.
상기 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계는,
얼굴 위치를 검출하고 심박수 및 상태를 인식하여 제1 집중도를 판별하고,
영상 기반 시선 추적(eye-tracking)을 통해 시선이 머무르는 위치를 기반으로 제2 집중도를 판별하고,
제1 집중도와 제2 집중도를 통합하여 최종 집중도를 판별하는 단계일 수 있다.
상기 과거 대화 데이터를 활용하여 유사도를 분석하는 단계는,
버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득하는 단계일 수 있다.
상기 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계는,
감정 분류 결과, 집중도 결과, 유사도 결과를 피드백 테이블에 입력하여 피드백 카테고리를 결정하는 단계일 수 있다.
본 발명의 일 실시예에 따른, 전자 장치에 있어서, 메모리, 송수신기 및 적어도 하나의 프로세서를 포함하고, 상기 프로세서는, 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계, 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계, 과거 대화 데이터를 활용하여 유사도를 분석하는 단계, 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계 및 생성된 피드백 문장을 사용자에게 전달하는 단계를 수행한다.
컴퓨터 판독 가능한 저장 매체에 기록된 컴퓨터 프로그램은, 전술한 방법을 전자 장치를 통해 수행하도록 구성된다.
본 발명에 따른 상호작용 방법은, 사람의 표정과 음성 그리고 음성 내용을 인식하여 대상의 감정을 알아낼 수 있는 AI 모델을 생성하고 활용할 수 있다. 각 모델을 통해 획득한 감정 분류는 통합 감정 분류 모델의 지표로 활용될 수 있다. 감정 분류 유형은 긍정적, 부정적, 중립적으로 나누어진다.
본 발명에 따른 상호작용 방법은, 음성을 텍스트(text)로 추출할 수 있으며 추출 데이터는 컨텍스트(Context) 기반 피드백 생성과 감정 분류 데이터로 사용할 수 있다. 컨텍스트 기반 피드백으로 사용되는 값은 아바타의 상호작용 기본 값으로 활용될 수 있다. 또한 획득한 텍스트와 감정 예측 결과를 히스토리 데이터로 저장할 수 있다.
본 발명에 따른 상호작용 방법은, 사람의 영상 기반 생체 신호, 안구의 움직임 등을 지표로 사용해 대상의 집중도를 획득할 수 있는 인공지능 모델을 생성할 수 있다.
본 발명에 따른 상호작용 방법은, 사용자의 상호작용 시 분석되는 대화 내용과 감정, 표정과 음성, 과거 대화내용 History, 사용자의 집중도 등을 활용하고 컨텍스트 기반 피드백을 생성할 수 있다.
본 발명에 따른 상호작용 방법은, 아바타의 상호작용 모듈에 적용하여 필요시 감정/자기 조절력을 향상시킬 수 있는 피드백을 제공한다. 피드백은 감정 분류, 집중 여부, 과거 대화내용 유사도 값을 분석하여 피드백 종류와 키워드를 설정한다.
도 1은 본 발명의 다양한 실시 예들에 따른 전자장치가 포함되는 네트워크 시스템을 도시한다.
도 2는 본 발명의 다양한 실시 예들에 따른 전자장치의 구성에 대한 블록도를 도시한다.
도 3은 본 발명의 다양한 실시 예들에 따른 서버의 구성에 대한 블록도를 도시한다.
도 4는 얼굴 이미지에서 감정을 도출하는 CNN 시스템 및 전이학습 시스템의 구성에 대한 블록도를 도시한다.
도 5는 음성 데이터에서 감정을 도출하는 음성학습 시스템에 대한 블록도를 도시한다.
도 6은 복수개의 감정 분류를 통합하는 방법을 예시적으로 도시한 도면이다.
도 7은 실시간 얼굴 이미지로부터 집중도를 도출하는 예시적인 방법을 도시한 도면이다.
도 8은 본 발명에 따른 상호작용 장치의 프로세서에 의해 수행되는 상호작용 방법 따른 세부적 구성 및 데이터 흐름을 도시한 도면이다.
도 9는 본 발명의 다양한 실시 예들에 따른 상호작용 방법을 도시한 순서도이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
도 1은 본 발명의 다양한 실시 예들에 따른 전자장치가 포함되는 네트워크 시스템을 도시한다.
도 1을 참고하면, 본 발명의 다양한 실시 예들에 따른 네트워크 시스템은 전자 장치(110), 유/무선 통신 네트워크(120), 서버(130)를 포함한다. 서버(130)는 이미지 데이터를 유/무선통신 네트워크(120)를 통해 사용자의 전자 장치(110)로 부터 획득하고, 감성상태 및 집중상태를 도출한 뒤 해당 상태에 대응하는 챗봇 메시지 UI를 유/무선통신 네트워크(120)를 통해 사용자의 전자 장치(110)에 다시 송신한다.
전자 장치(110)는, 유/무선 통신 네트워크(120)를 통하여 서버(130)의 요청에 따라 사용자의 학습 상태에 대한 얼굴 및 자세 정보를 포함하는 이미지 데이터를 촬영하여 송신한다. 전자 장치(110)는 퍼스널 컴퓨터, 셀룰러 폰, 스마트 폰 및 태블릿 컴퓨터 등과 같이, 정보를 저장할 수 있는 메모리, 정보의 송수신을 수행할 수 있는 송수신부, 정보의 연산을 수행할 수 있는 적어도 하나의 프로세서를 포함하는 전자 장치일 수 있다. 전자 장치(110)의 종류는 한정되지 않는다.
유/무선 통신 네트워크(120)는, 전자 장치(110) 및 서버(130)가 서로 신호 및 데이터를 송수신할 수 있는 통신 경로를 제공한다. 유/무선 통신 네트워크(120)는 특정한 통신 프로토콜에 따른 통신 방식에 한정되지 않으며, 구현 예에 따라 적절한 통신 방식이 사용될 수 있다. 예를 들어, 인터넷 프로토콜(IP) 기초의 시스템으로 구성되는 경우 유/무선 통신 네트워크(120)는 유무선 인터넷망으로 구현될 수 있으며, 전자 장치(110) 및 서버(130)가 이동 통신 단말로서 구현되는 경우 유/무선 통신 네트워크(120)는 셀룰러 네트워크 또는 WLAN(wireless local area network) 네트워크와 같은 무선망으로 구현될 수 있다.
서버(130)는, 유/무선 통신 네트워크(120)를 통하여 전자 장치(110)로부터 사용자의 학습 상태에 대한 얼굴 및 자세 정보를 포함하는 이미지 데이터를 수신한다. 서버(130)는 정보를 저장할 수 있는 메모리, 정보의 송수신을 수행할 수 있는 송수신부, 정보의 연산을 수행할 수 있는 적어도 하나의 프로세서를 포함하는 전자 장치일 수 있다.
도 2는 본 발명의 다양한 실시 예들에 따른 전자장치의 구성에 대한 블록도를 도시한다.
도 2를 참고하면, 본 발명의 다양한 실시 예들에 따른 전자 장치(110)는 메모리(111), 송수신부(112) 및 프로세서(113)를 포함한다.
메모리(111)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 메모리(111)는 프로세서(113)의 요청에 따라 저장된 데이터를 제공할 수 있다.
송수신부(112)는, 프로세서(113)와 연결되고 신호를 전송 및/또는 수신한다. 송수신부(113)의 전부 또는 일부는 송신기(transmitter), 수신기(receiver), 또는 송수신기(transceiver)로 지칭될 수 있다. 송수신기(112)는 유선 접속 시스템 및 무선 접속 시스템들인 IEEE(institute of electrical and electronics engineers) 802.xx 시스템, IEEE Wi-Fi 시스템, 3GPP(3rd generation partnership project) 시스템, 3GPP LTE(long term evolution) 시스템, 3GPP 5G NR(new radio) 시스템, 3GPP2 시스템, 블루투스(bluetooth) 등 다양한 무선 통신 규격 중 적어도 하나를 지원할 수 있다.
프로세서(113)는, 본 발명에서 제안한 절차 및/또는 방법들을 구현하도록 구성될 수 있다. 프로세서(113)는 생체 정보의 기계 학습 분석에 기반하여 컨텐츠를 제공하기 위한 전자 장치(110)의 전반적인 동작들을 제어한다. 예를 들어, 프로세서(113)는 송수신부(115)를 통해 정보 등을 전송 또는 수신한다. 또한, 프로세서(113)는 메모리(112)에 데이터를 기록하고, 읽는다. 프로세서(113)는 적어도 하나의 프로세서(processor)를 포함할 수 있다. 프로세서(113)의 세부적인 구성 및 제어에 대한 내용은 이하 후술한다.
프로세서(113)는 상기 프로세서는, 얼굴 이미지로부터 감정 분류를 수행하고, 음성 데이터로부터 감정 분류를 수행하고, 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하고, 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하고, 과거 대화 데이터를 활용하여 유사도를 분석하고, 유사도를 기반으로 피드백 카테고리를 결정하고, 생성된 피드백 문장을 사용자에게 전달할 수 있다.
프로세서(113)는 얼굴 이미지로부터 얼굴 인식 결과값을 도출하는 사전학습 된 컨벌루션 뉴럴 네트워크(CNN) 모델을 전이학습(transfer learning)하여 감정 분류를 수행할 수 있다.
프로세서(113)는 얼굴 감정 데이터 셋을 수집하고, 수집된 얼굴 감정 데이터셋을 바탕으로 얼굴 이미지와 감정 라벨링을 매칭하고, 매칭된 입력 데이터를 바탕으로 컨벌루션 뉴럴 네트워크 모델을 통해 특징을 추출하고, 추출된 특징을 분류기를 통해 분류하여 얼굴 감정을 도출할 수 있다.
프로세서(113)는 음성 데이터셋을 수집하고, 수집된 음성 데이터셋을 스펙토그램 이미지 데이터로 변환하고, 변환된 이미지데이터를 컨벌루션 뉴럴 네트워크 모델을 통해 피쳐맵을 도출하고, 상기 피쳐맵을 분류하여 감정 분류를 수행할 수 있다.
프로세서(113)는 앙상블 기법을 기반으로 통합할 수 있다.
프로세서(113)는 얼굴 위치를 검출하고 심박수 및 상태를 인식하여 제1 집중도를 판별하고, 영상 기반 시선 추적(eye-tracking)을 통해 시선이 머무르는 위치를 기반으로 제2 집중도를 판별하고, 제1 집중도와 제2 집중도를 통합하여 최종 집중도를 판별할 수 있다.
프로세서(113)는 버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득할 수 있다.
프로세서(113)는 감정 분류 결과, 집중도 결과, 유사도 결과를 피드백 테이블에 입력하여 피드백 카테고리를 결정할 수 있다.
도 3은 본 발명의 다양한 실시 예들에 따른 서버의 구성에 대한 블록도를 도시한다.
도 3을 참고하면, 본 발명의 다양한 실시 예들에 따른 서버(130)는 메모리(131), 송수신부(132) 및 프로세서(133)를 포함한다. 서버(130)는 전자 장치의 일종일 수 있다.
메모리(131)는, 송수신부(132)와 연결되고 통신을 통해 수신한 정보 등을 저장할 수 있다. 또한, 메모리(131)는, 프로세서(133)와 연결되고 프로세서(133)의 동작을 위한 기본 프로그램, 응용 프로그램, 설정 정보, 프로세서(133)의 연산에 의하여 생성된 정보 등의 데이터를 저장할 수 있다. 메모리(131)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 메모리(131)는 프로세서(133)의 요청에 따라 저장된 데이터를 제공할 수 있다.
송수신부(132)는, 프로세서(133)와 연결되고 신호를 전송 및/또는 수신한다. 송수신부(132)의 전부 또는 일부는 송신기(transmitter), 수신기(receiver), 또는 송수신기(transceiver)로 지칭될 수 있다. 송수신기(132)는 유선 접속 시스템 및 무선 접속 시스템들인 IEEE(institute of electrical and electronics engineers) 802.xx 시스템, IEEE Wi-Fi 시스템, 3GPP(3rd generation partnership project) 시스템, 3GPP LTE(long term evolution) 시스템, 3GPP 5G NR(new radio) 시스템, 3GPP2 시스템, 블루투스(bluetooth) 등 다양한 무선 통신 규격 중 적어도 하나를 지원할 수 있다.
도 4는 얼굴 이미지에서 감정을 도출하는 CNN 시스템 및 전이학습 시스템의 구성에 대한 블록도를 도시한다.
도 4를 참조하면, 사전학습된 CNN 시스템(200)은 얼굴 인식 데이터(210)을 바탕으로 얼굴 이미지 및 결과물인 식별(ID;indentificaion) 결과값을 라벨링(220)한 뒤, 해당 정보를 입력값으로 CNN 모듈(230)에 입력하여 ID 분류 결과(240)를 도출할 수 있다.
도 4를 참조하면, 전이학습 시스템(300)은 별도의 얼굴 감정 데이터셋(310)을 얼굴 이미지 및 결과물인 감정값을 라벨링(320)한 뒤 해당 정보를 입력값으로 CNN 모듈(330)에 입력할 수 있다. CNN 모듈(330)은 얼굴 이미지와 ID 결과값으로 사전학습된 CNN 모듈(230)의 구성이 전이되어 학습될 수 있다.
CNN 모듈(330)은 도출된 결과값을 분류기(340)에 삽입하여 감정 분류 결과(350)를 도출할 수 있다.
도 5는 음성 데이터에서 감정을 도출하는 음성학습 시스템에 대한 블록도를 도시한다. 도 5를 참조하면, 음성학습 시스템(400)은 음성 데이터셋(410)을 바탕으로, 음성 데이터를 음성 스펙토그램(spectrogram) 이미지 데이터(420)로 변환하고, 변환된 이미지 데이터를 CNN 모듈(430)에 삽입하여, 피쳐맵(440)을 도출할 수 있다.
피쳐맵(440)을 다시 분류기(450)에 삽입하여 음성 데이터를 감정 분류 결과(460)으로 도출할 수 있다.
도 6은 복수개의 감정 분류를 통합하는 방법을 예시적으로 도시한 도면이다. 도 6을 참조하면, 복수개의 감정 분류를 통합하는 방법 및 모델이 예시적으로 6(a) 및 6(b)로 나누어 도시되었으나 이는 예시에 불과하며 한정되는 것은 아니다.
대상의 감정을 알아낼 수 있는 모델은 사람의 감정 별 얼굴 표정과 음성, 텍스트에 대한 감정 분류 값을 수집하여 각 데이터 별 감정 분류 값을 통합하는 모델을 생성할 수 있다. 이때 도 6(a)에 따른 앙상블 기법은 다른 특징(Feature)에 대한 결과 통합을 스택킹(Staking) 기법 등을 응용하여 활용할 수 있다. 이때 6(b)에 따른 수식 대입법은, 각 결과를 적용시키는 수식에 대입할 때 예측력이 좋은 방법론을 적용하여 감정을 분류하는 최종 모델을 생성한다.
도 6(a)를 구체적으로 참조하면, 입력 데이터셋에 대하여 각기 다른 방식(얼굴, 음성, 텍스트)에 대한 감정 예측값을 도출하고, 감정 예측값에 새로운 인풋값을 적용하여 새로운 데이터 값을 생성하고, 이를 바탕으로 메타 모델(meta model)을 생성하여 최종 감정 예측값을 도출할 수 있다.
도 7은 실시간 얼굴 이미지로부터 집중도를 도출하는 예시적인 방법을 도시한 도면이다.
도 7을 참조하면, 영상으로부터 얼굴 위치를 검출하고 심박수 및 상태를 인식하여 집중 여부 및 정도를 획득하는 제1 집중도 모델을 생성할 수 있다. 영상 기반 시선 추적(eye-tracking) 기술을 활용해 사용자의 시선이 어디에 어떻게 머물고 있는지를 파악(히트 맵)하여 집중 여부 및 정도를 획득하는 제2 집중도 모델을 생성한다.
각 집중도 모델을 통합하기 위해 도 6을 참조하여 최종 집중도를 실시간 얼굴 이미지로부터 산출할 수 있다. 예를 들어, 앙상블 방법에 따라 최종 집중도가 산출될 수 있다.
도 8은 본 발명에 따른 상호작용 장치의 프로세서(700)에 의해 수행되는 상호작용 방법 따른 세부적 구성 및 데이터 흐름을 도시한 도면이다.
도 8을 참조하면, 프로세서(700)는 영상과 음성으로 구성된 원본 데이터(710)를 STT 변환 모듈(720)을 통해 전가공 데이터(730)로 마련할 수 있다. 전가공 데이터(730)은 음성, 이미지, 텍스트의 3종류 데이터로 구분될 수 있다.
텍스트 데이터는 음성 데이터로부터 도출될 수 있다. 구체적으로는 STT 변환 모듈(720) 또는 별도의 API 모듈을 통해 텍스트로 획득될 수 있다.
음성 데이터는 도 5에서 전술한 바와 같이, 음성 스펙토그램(741)으로 변환되고, 영상 이미지는 도 4에서 전술한바와 같이 컨벌루션 뉴럴 네트워크(742)에 입력되고, 텍스트 데이터는 자연어 처리 모듈(743)에 입력될 수 있다. 이 단계에서, 도 4에서 전술한바와 같이 이미지 감정 분류를 도출하기 위해 전이학습(744) 시스템이 활용될 수 있다. 이미지 로부터 감정 분류 모델(745)을 생성할 수 있다.
이 단계에서, 텍스트 데이터의 감정 분류를 도출하기 위해 성능이 검증된 자연어 처리 모듈(743)에서 한국어 사전학습 모델을 백본(Backbone)으로 전이 학습 모델을 생성할 수 있다. 전이 학습 모델을 파인튜닝(finetuning)하여 텍스트의 감정 분류 모델(745)을 생성할 수 있다.
집중도 모델(746)은 실시간 얼굴 이미지를 바탕으로 얼굴 위치를 검출하고 심박수 및 상태를 인식하여 집중도를 판별하거나 시선 추적을 통해 집중도를 판별할 수 있다.
유사도 모델(747)은 버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득할 수 있다. 유사도 모델(747)은 과거 대 화내역이 저장된 STT 데이터 스토어(735)에서 저장된 대화와의 유사도를 판단하여 유사한 텍스트가 수신된 적이 있는지 여부를 판단할 수 있다.
최종적으로 각기 다른 모델을 통해 통합 모델을 통해 결과(748)를 제시할 수 있다.
키워드 세터(749)는 상기 모델 들에서 획득한 통합 감정(얼굴 표정, 음성, text) 분류 값과 집중 여부, 과거 대화 데이터와의 유사도 값을 사용하여 상황 별로 키워드 값을 설정할 수 있다.
우선순위 감정 분류 집중도 과거 유사도 피드백 카테고리
1 긍정 집중 - 공감하기
2 긍정 or 부정 - - 경청하기
4 긍정 or 중립 보통 - 표현 돕기
3 부정 집중 - 위로 하기
5 - 집중 유사 과거 대화
6 - - - 일상 대화
표 1을 참조하면, 감정 분류 모델에서 분석한 감정 분류, 집중도 분류 모델에서 분석한 집중도 분류, 유사도 분류 모델에 분석한 과거 유사도에 따라 공감하기, 경청하기 등에 해당하는 피드백 카테고리 및 해당 카테고리에 해당되는 키워드이 설정될 수 있다. 예를 들어, 키워드는 어린이 감정/자기 조절력 케어의 목적을 위한 것이며, 상기 표는 각 분류 모델 결과에 따라 매핑 되는 피드백 카테고리를 예시적으로 설명할 수 있다.키워드의 설정은 공감하기는 “진짜요?”, ”맞는 말”, “좋은 생각”등을 예를 들 수 있으며, 표현 돕기는 “왜 그럴까요?”, “더 구체적으로”등의 예가 제시될 수 있으나 이에 한정되는 것은 아니다. 피드백 생성기(750)는 GPT-3 자연어 생성 모델에 STT로 추출한 사용자 원본 텍스트와 설정한 키워드를 전달하여 피드백 문장을 생성할 수 있다. 프로세서는 별도로 사용자 단말 등에서 제어하는 아바타를 통해 사용자 분석 데이터와 speech 내용에 따라 생성된 피드백 문장을 사용자에게 소리로 전달할 수 있으나 이에 한정되는 것은 아니다.
도 9는 본 발명의 다양한 실시 예들에 따른 상호작용 방법을 도시한 순서도이다. 도 9를 참조하면, 본 방법은 얼굴 이미지로부터 감정 분류를 수행하는 단계, 음성 데이터로부터 감정 분류를 수행하는 단계(S110), 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계(S120), 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계(S130), 과거 대화 데이터를 활용하여 유사도를 분석하는 단계(S140), 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계(S150) 및 생성된 피드백 문장을 사용자에게 전달하는 단계(S160)을 포함한다.
본 단계는 도 8 및 도 1 등에서 전술된 바와 같으므로 중복되는 설명은 생략한다.
하드웨어를 이용하여 본 발명의 실시 예를 구현하는 경우에는, 본 발명을 수행하도록 구성된 ASICs(application specific integrated circuits) 또는 DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays) 등이 본 발명의 프로세서에 구비될 수 있다.
한편, 상술한 방법은, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능한 저장 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 코드를 포함하는 저장 디바이스를 설명하기 위해 사용될 수 있는 프로그램 저장 디바이스들은, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능한 저장 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함한다.
이상에서 설명된 실시 예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려되어야 한다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시 예를 구성하는 것도 가능하다. 발명의 실시 예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시 예의 일부 구성이나 특징은 다른 실시 예에 포함될 수 있고, 또는 다른 실시 예의 대응하는 구성 또는 특징과 교체될 수 있다. 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시 예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.
본 발명이 본 발명의 기술적 사상 및 본질적인 특징을 벗어나지 않고 다른 형태로 구체화될 수 있음은 본 발명이 속한 분야 통상의 기술자에게 명백할 것이다. 따라서, 상기 실시 예는 제한적인 것이 아니라 예시적인 모든 관점에서 고려되어야 한다. 본 발명의 권리범위는 첨부된 청구항의 합리적 해석 및 본 발명의 균등한 범위 내 가능한 모든 변화에 의하여 결정되어야 한다.
본 발명에 따른 상호작용 방법은, 사용자의 상호작용 시 분석되는 대화 내용과 감정, 표정과 음성, 과거 대화내용 History, 사용자의 집중도 등을 활용하고 컨텍스트 기반 피드백을 생성할 수 있어, 사용자와 상호작용하는 IT 기술 분야에서 널리 활용될 이용가능성이 있다.

Claims (11)

  1. 컴퓨팅 장치에 의해 수행되는 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 방법에 있어서,
    얼굴 이미지로부터 감정 분류를 수행하는 단계;
    음성 데이터로부터 감정 분류를 수행하는 단계;
    통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계;
    실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계;
    과거 대화 데이터를 활용하여 유사도를 분석하는 단계;
    감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계; 및
    생성된 피드백 문장을 사용자에게 전달하는 단계;를 포함하는 상호작용 방법.
  2. 제1 항에 있어서,
    상기 얼굴 이미지로부터 감정 분류를 수행하는 단계는,
    얼굴 이미지로부터 얼굴 인식 결과값을 도출하는 사전학습 된 컨벌루션 뉴럴 네트워크(CNN) 모델을 전이학습(transfer learning)하여 감정 분류를 수행하는 단계인 것을 특징으로 하는 상호작용 방법.
  3. 제2 항에 있어서,
    상기 전이학습 하여 감정 분류를 수행하는 단계는,
    얼굴 감정 데이터 셋을 수집하고,
    수집된 얼굴 감정 데이터셋을 바탕으로 얼굴 이미지와 감정 라벨링을 매칭하고,
    매칭된 입력 데이터를 바탕으로 컨벌루션 뉴럴 네트워크 모델을 통해 특징을 추출하고,
    추출된 특징을 분류기를 통해 분류하여 얼굴 감정을 도출하는 단계인 것을 특징으로 하는 상호작용 방법.
  4. 제1 항에 있어서,
    상기 음성 데이터로부터 감정 분류를 수행하는 단계는,
    음성 데이터셋을 수집하고,
    수집된 음성 데이터셋을 스펙토그램 이미지 데이터로 변환하고,
    변환된 이미지데이터를 컨벌루션 뉴럴 네트워크 모델을 통해 피쳐맵을 도출하고,
    상기 피쳐맵을 분류하여 감정 분류를 수행하는 단계인 것을 특징으로 하는 상호작용 방법.
  5. 제1 항에 있어서,
    상기 통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하는 단계는,
    앙상블 기법을 기반으로 통합하는 단계인 것을 특징으로 하는 상호작용 방법.
  6. 제1 항에 있어서,
    상기 실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하는 단계는,
    얼굴 위치를 검출하고 심박수 및 상태를 인식하여 제1 집중도를 판별하고,
    영상 기반 시선 추적(eye-tracking)을 통해 시선이 머무르는 위치를 기반으로 제2 집중도를 판별하고,
    제1 집중도와 제2 집중도를 통합하여 최종 집중도를 판별하는 단계인 것을 특징으로 하는 상호작용 방법.
  7. 제1 항에 있어서,
    상기 과거 대화 데이터를 활용하여 유사도를 분석하는 단계는,
    버트(Bert) 모델을 기반으로 사용자의 과거 대화 데이터를 바탕으로 문장 유사도를 획득하는 것을 특징으로 하는 상호작용 방법.
  8. 제1 항에 있어서,
    상기 감성 분류, 집중도, 유사도를 기반으로 피드백 카테고리를 결정하는 단계는,
    감정 분류 결과, 집중도 결과, 유사도 결과를 피드백 테이블에 입력하여 피드백 카테고리를 결정하는 단계인 것을 특징으로 하는 상호작용 방법.
  9. 제1 항에 있어서,
    상기 생성된 피드백 문장을 사용자에게 전달하는 단계는,
    상기 결정된 피드백 카테고리에 대응되는 키워드를 결정하고,
    사용자 단말에서 수신한 원본 텍스트와 상기 키워드를 입력 값으로 하여 자연어 생성 모델에서 생성된 피드백 문장을 사용자에게 전달하는 단계인 것을 특징으로 하는 상호작용 방법.
  10. 전자 장치에 있어서,
    메모리, 송수신기 및 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 프로세서는,
    얼굴 이미지로부터 감정 분류를 수행하고,
    음성 데이터로부터 감정 분류를 수행하고,
    통합 모델을 이용하여 얼굴 이미지 및 음성 데이터에서 수행된 감정 분류를 통합하여 최종 감정을 분류하고,
    실시간 얼굴 영상 이미지를 기반으로 집중도를 판별하고,
    과거 대화 데이터를 활용하여 유사도를 분석하고,
    유사도를 기반으로 피드백 카테고리를 결정하고,
    생성된 피드백 문장을 사용자에게 전달하는 전자 장치.
  11. 제1 항 내지 제9 항 중 어느 한 항에 따른 맞춤형 컨텐츠 제공 방법을 전자 장치를 통해 수행하도록 구성되며, 컴퓨터 판독 가능한 저장 매체에 기록된 컴퓨터 프로그램.
PCT/KR2022/007402 2022-01-28 2022-05-25 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램 WO2023146030A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220013765A KR20230116605A (ko) 2022-01-28 2022-01-28 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
KR10-2022-0013765 2022-01-28

Publications (1)

Publication Number Publication Date
WO2023146030A1 true WO2023146030A1 (ko) 2023-08-03

Family

ID=87472169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/007402 WO2023146030A1 (ko) 2022-01-28 2022-05-25 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램

Country Status (2)

Country Link
KR (1) KR20230116605A (ko)
WO (1) WO2023146030A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708312A (zh) * 2023-12-16 2024-03-15 浙江开悟智能科技有限公司 一种基于交互设备的数字人处理方法、系统及存储介质
CN117708312B (zh) * 2023-12-16 2024-05-24 浙江开悟智能科技有限公司 一种基于交互设备的数字人处理方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005237668A (ja) * 2004-02-26 2005-09-08 Kazuya Mera コンピュータネットワークにおける感情を考慮した対話装置
KR101749706B1 (ko) * 2016-06-02 2017-06-22 충남대학교산학협력단 사용자 장치를 사용하여 획득된 상황 정보 및 생체 정보를 기반으로 사용자의 감정을 예측하는 방법 및 시스템
KR20170092603A (ko) * 2014-12-04 2017-08-11 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 인터랙티브 다이얼로그 시스템을 위한 감정 유형 분류
JP2019029984A (ja) * 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
KR20200092166A (ko) * 2019-01-24 2020-08-03 주식회사 케이티 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램
KR102285482B1 (ko) * 2020-08-28 2021-08-03 주식회사 마블러스 생체 정보의 기계 학습 분석에 기반하여 컨텐츠를 제공하기 위한 방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005237668A (ja) * 2004-02-26 2005-09-08 Kazuya Mera コンピュータネットワークにおける感情を考慮した対話装置
KR20170092603A (ko) * 2014-12-04 2017-08-11 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 인터랙티브 다이얼로그 시스템을 위한 감정 유형 분류
KR101749706B1 (ko) * 2016-06-02 2017-06-22 충남대학교산학협력단 사용자 장치를 사용하여 획득된 상황 정보 및 생체 정보를 기반으로 사용자의 감정을 예측하는 방법 및 시스템
JP2019029984A (ja) * 2017-07-27 2019-02-21 大日本印刷株式会社 情報処理装置、情報処理方法、映像データ、プログラム、及び情報処理システム
KR20200092166A (ko) * 2019-01-24 2020-08-03 주식회사 케이티 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램
KR102285482B1 (ko) * 2020-08-28 2021-08-03 주식회사 마블러스 생체 정보의 기계 학습 분석에 기반하여 컨텐츠를 제공하기 위한 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708312A (zh) * 2023-12-16 2024-03-15 浙江开悟智能科技有限公司 一种基于交互设备的数字人处理方法、系统及存储介质
CN117708312B (zh) * 2023-12-16 2024-05-24 浙江开悟智能科技有限公司 一种基于交互设备的数字人处理方法、系统及存储介质

Also Published As

Publication number Publication date
KR20230116605A (ko) 2023-08-04

Similar Documents

Publication Publication Date Title
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
US11138903B2 (en) Method, apparatus, device and system for sign language translation
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
WO2021034038A1 (en) Method and system for context association and personalization using a wake-word in virtual personal assistants
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
WO2017138766A1 (ko) 하이브리드 기반의 영상 클러스터링 방법 및 이를 운용하는 서버
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN109151225A (zh) 通话处理方法、装置和通话设备
WO2019190076A1 (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
CN111063355A (zh) 会议记录的生成方法及记录终端
CN111586469A (zh) 弹幕显示方法、装置及电子设备
US11900270B2 (en) System and method for message reaction analysis
WO2018169276A1 (ko) 언어 정보를 처리하기 위한 방법 및 그 전자 장치
WO2020159140A1 (ko) 전자 장치 및 이의 제어 방법
WO2023146030A1 (ko) 감성, 집중도, 대화를 통합한 인공지능 기반 상호작용 장치, 방법 및 프로그램
CN111833907B (zh) 一种人机交互方法与终端、计算机可读存储介质
TW202211077A (zh) 多國語言語音辨識及翻譯方法與相關的系統
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
CN113299309A (zh) 语音翻译方法及装置、计算机可读介质和电子设备
CN115510457A (zh) 数据识别方法、装置、设备及计算机程序产品
KR20220034396A (ko) 얼굴 영상 생성 장치, 방법 및 컴퓨터 프로그램
WO2023229117A1 (ko) 대화형 가상 아바타의 구현 방법
WO2022270669A1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22922553

Country of ref document: EP

Kind code of ref document: A1