WO2019225801A1 - 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템 - Google Patents

사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템 Download PDF

Info

Publication number
WO2019225801A1
WO2019225801A1 PCT/KR2018/007163 KR2018007163W WO2019225801A1 WO 2019225801 A1 WO2019225801 A1 WO 2019225801A1 KR 2018007163 W KR2018007163 W KR 2018007163W WO 2019225801 A1 WO2019225801 A1 WO 2019225801A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
characteristic information
user characteristic
learning
emotion
Prior art date
Application number
PCT/KR2018/007163
Other languages
English (en)
French (fr)
Inventor
이수영
채명수
신영훈
김태호
김준우
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180071462A external-priority patent/KR102106700B1/ko
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2019225801A1 publication Critical patent/WO2019225801A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • Embodiments of the present invention relate to a technology for recognizing a user's emotion, age, and gender, and more particularly, to a technology for recognizing a user's emotion, age, and gender based on deep learning.
  • Emotion recognition technology using voice signals may be utilized in various fields. For example, when the user is in an emotional state that is expected to be angry, an intelligent response to the service may be made by suggesting a service in a tone, calm tone, etc., for calming the heightened emotion. In addition, when the emotional state of the user is predicted to be sad, services such as suggesting music such as a sad ballad and intelligent correspondence are possible.
  • knowing information about a user's emotion, age, and gender can provide a service suitable for a user's condition.
  • Korean Patent Laid-Open Publication No. 10-2011-0011969 relates to a method for constructing a speech emotion recognition model based on a loss function and a maximum margin technique based on WTM. Constructing an emotion recognition model that quantifies the difference between each emotion, calculates a loss function based on the set values, and calculates parameters of each speech emotion model based on the obtained loss function. The technique is disclosed.
  • the present invention relates to a technique for recognizing a user's emotion, age and gender from a user's voice signal based on deep learning.
  • the present invention also relates to a technology for providing a service suitable for a recognized user's emotion, age, and gender.
  • a method for recognizing user characteristic information executed by a computer comprising: dividing a frame according to a plurality of predetermined characteristics for an input data set corresponding to a voice signal, for each of the divided characteristics Performing learning based on a convolution neural network based on a convolutional neural network for a frame, and performing a learning on an input speech signal based on a learning model generated through the learning. Recognizing a plurality of different user characteristic information corresponding to.
  • the performing of the learning may include calculating a loss for each of the plurality of characteristics based on a softmax function, and based on the calculated sum of the losses for the plurality of characteristics. And setting the criteria for final learning.
  • the step of classifying the frame by the plurality of characteristics, targeting the input data set (input data set), the user's emotion (emotion), age (age) and gender (gender) Can be divided into frames.
  • the performing of the learning may include performing max pooling to perform sampling on each convolutional layer based on the convolutional neural network.
  • the recognizing of the user characteristic information may simultaneously recognize the emotion, age, and gender of the user from the input voice signal.
  • the emotional state of the user is neutral, joy, sadness, anger, disgust, surprise, surprise, from the input voice signal. It can be recognized whether it corresponds to at least one of fear.
  • the method may further include providing a service corresponding to the current state of the user based on the recognized user characteristic information.
  • a frame separator for classifying a frame for each of a plurality of characteristics specified in advance, and a frame for each characteristic according to the input data set corresponding to a voice signal
  • a learning controller performing learning based on a loss function for each of the plurality of characteristics based on a convolution neural network, and a speech signal input based on a learning model generated through the learning. It may include a user characteristic recognition unit for recognizing a plurality of different user characteristic information.
  • the learning control unit calculates a loss for each of the plurality of characteristics based on a softmax function, and based on the calculated sum of the plurality of characteristics, the final learning criterion. Can be set.
  • the frame separator may classify the input data set into frames for an emotion, an age, and a gender of the user.
  • the learning controller may perform max pooling to perform sampling on each convolutional layer based on the convolutional neural network.
  • the user characteristic recognition unit may simultaneously recognize the emotion, age and gender of the user from the input voice signal.
  • the user characteristic recognition unit when the user characteristic information corresponds to the emotion, the emotional state of the user from the input voice signal is at least one of neutral, joy, sad, angry, disgust, surprise, fear It can be recognized whether or not.
  • the method may further include a service providing unit that provides a service corresponding to the current state of the user based on the recognized user characteristic information.
  • the present invention can simultaneously recognize a user's emotion, age and gender from a user's voice signal using a learning based on a convolutional neural network among deep learning based learning algorithms.
  • FIG. 1 is a block diagram showing an internal configuration of a system for recognizing user characteristic information according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a method for recognizing user characteristic information according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a convolutional neural network structure according to an embodiment of the present invention.
  • the embodiments of the present invention relate to a technology for simultaneously recognizing a user's emotion, age, and gender based on a user's voice signal, and in particular, inputs using a learning model generated by learning based on a convolutional neural network among deep learning techniques.
  • the present invention relates to a technology for simultaneously recognizing a user's current emotional state, age, and gender based on a voice signal of a user.
  • “user characteristic information” may indicate a user's state such as the user's emotion, age, and gender.
  • “convolutional neural network based learning” may indicate that learning proceeds such that the joint loss converges to a minimum value.
  • FIG. 1 is a block diagram illustrating an internal configuration of a system for recognizing user characteristic information according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating a method for recognizing user characteristic information according to an embodiment of the present invention.
  • the user characteristic information recognition system 100 may include a processor 110, a bus 120, a network interface 130, and a memory 140.
  • the memory 140 may include an operating system 141 and a service providing routine 142.
  • the processor 110 may include a frame separator 111, a learning controller 112, a user characteristic recognizer 113, and a service provider 114.
  • the user characteristic information recognition system 100 may include more components than the components of FIG. 1. However, it is not necessary to clearly show most of the prior art components.
  • the user characteristic information recognition system 100 may include other components such as a display or a transceiver.
  • the memory 140 is a computer-readable recording medium, and may include a permanent mass storage device such as random access memory (RAM), read only memory (ROM), and a disk drive.
  • the memory 140 may store program codes for the operating system 141 and the service providing routine 142.
  • These software components may be loaded from a computer readable recording medium separate from the memory 140 using a drive mechanism (not shown).
  • a separate computer-readable recording medium may include a computer-readable recording medium (not shown) such as a floppy drive, a disk, a tape, a DVD / CD-ROM drive, a memory card, and the like.
  • software components may be loaded into memory 140 via network interface 130 rather than on a computer readable recording medium.
  • the bus 120 may enable communication and data transmission between components of the user characteristic information recognition system 100.
  • the bus 120 may be configured using a high-speed serial bus, a parallel bus, a storage area network and / or other suitable communication technology.
  • the network interface 130 may be a computer hardware component for connecting the user characteristic information recognition system 100 to a computer network.
  • the network interface 130 may connect the user characteristic information recognition system 100 to a computer network through a wireless or wired connection.
  • the user characteristic information recognition system 100 recognizes user characteristic information such as emotion, age and gender of a user based on a user's voice signal to a user terminal connected to a server, and provides a service corresponding to the recognized characteristic.
  • the application may be implemented in a form of a platform, and recognizes user characteristic information such as emotion, age, and gender of the user based on a voice signal input through a speaker provided in the user terminal. It may be implemented as.
  • the user characteristic information recognized by the user terminal may be delivered to the service provider terminal which is a server through the application, and the service provider terminal may apply a service corresponding to the received user characteristic information. It can be provided to the user terminal through.
  • the processor 110 may be configured to process instructions of a computer program by performing input / output operations of the basic arithmetic, logic, and user characteristic information recognition system 100.
  • the instructions may be provided to the processor 110 by the memory 140 or the network interface 130 and via the bus 120.
  • the processor 110 may be configured to execute program codes for the frame separator 111, the learning controller 112, the user characteristic recognition unit 113, and the service provider 114.
  • Such program code may be stored in a recording device, such as memory 140.
  • the frame separator 111, the learning controller 112, the user characteristic recognition unit 113, and the service provider 114 may be configured to perform the steps 210 to 240 of FIG. 2.
  • the frame separator 111 may classify frames according to a plurality of predetermined characteristics, targeting input data sets corresponding to voice signals. For example, if a user wants to generate a learning model for simultaneously recognizing a user's emotion, age, and gender, the frame separator 111 inputs an input data set corresponding to voice signals of various different users, which are collected in advance. It may be divided into a frame corresponding to emotion, a frame corresponding to age, and a frame corresponding to gender.
  • the frame separator 111 may extract a feature corresponding to a predetermined valid sound from an input data set corresponding to a voice signal based on a Mel Frequency Cepstral Coefficient (MFC).
  • MFC Mel Frequency Cepstral Coefficient
  • the frame separator 111 does not extract a feature for the entire input data set, but separates a predetermined section, that is, a predetermined frame, and extracts a feature through spectrum analysis for each frame. Can be.
  • MFC Mel Frequency Cepstral Coefficient
  • the frame separator 111 may calculate a power spectrum (ie, frequency) for each frame.
  • the power spectrum calculated for each frame may be extracted as a feature, that is, a feature vector.
  • the neural frequency is calculated, it is possible to know how much energy exists in each section.
  • the learning controller 112 may perform the learning based on a plurality of feature-specific loss functions based on a convolutional neural network with respect to the classified feature-specific frames. That is, the frames to which the power spectrum calculated by the frame separator 111 belongs may be set as input values of an input layer of a convolutional neural network. For example, 25 frames per characteristic (gender, age, emotion, etc.) may be set in the input layer for learning. In this way, learning may be performed by receiving input power spectrums, that is, feature vectors corresponding to respective characteristics (gender, age, emotion).
  • the learning control unit 112 may perform a learning to a desired value with respect to a value presented by an output layer in a convolutional neural network structure composed of an input layer, a hidden layer, and an output layer. Can be controlled.
  • each layer may be connected to a weight value crossing each other, and the learning controller 112 controls to perform learning by adjusting individual weights for each layer so that a desired value for the same input layer is output. can do.
  • the learning controller 112 may perform max pooling for sampling the convolutional layer CNN_ReLU for each property belonging to at least one hidden layer. For example, when at least 25 frames are set for each characteristic, the learning control unit 112 assigns the largest value among feature vectors corresponding to the 25 frames to the weight by the characteristic (eg, by gender, age, and emotion). Max pooling can be performed.
  • the learning controller 112 may calculate a loss for each of a plurality of features based on a softmax function, and the criterion of the final learning based on the sum of the losses for each of the plurality of features. Can be set. That is, the learning controller 112 may calculate a loss corresponding to each of emotion, age, and gender, and calculate a joint loss by combining the calculated loss based on Equation 1 below. And, joint loss can be set as a criterion of final learning. In other words, learning may be performed such that a loss corresponding to each of emotion, age, and gender is calculated so that learning is performed to minimize joint loss.
  • joint loss ⁇ L gender + ⁇ L age + ⁇ L emotion
  • L gender may represent a loss corresponding to a gender calculated based on a softmax function
  • L age may correspond to a loss corresponding to age
  • L emotion may indicate a loss corresponding to emotion
  • the loss corresponding to each emotion, age, and gender is calculated using the softmax function, and the joint loss is calculated as the sum of the calculated losses and set as a criterion of the final learning.
  • Multi-task learning may be performed to simultaneously recognize the emotion, age, and gender of a user corresponding to various tasks with respect to the voice signal.
  • the learning controller 112 may set the weighted sum as a criterion of final learning by learning by varying the weight rather than simply adding weights for each task (gender, emotion, age).
  • the user characteristic recognition unit 113 may simultaneously recognize a plurality of different user characteristic information corresponding to the input voice signal based on the learning model generated through the learning. For example, a speech signal input through a speaker of a user terminal may be set as an input to a learning model generated by setting a joint loss calculated based on Equation 1 as a criterion of final learning.
  • a learning model generated by setting a joint loss calculated based on Equation 1 as a criterion of final learning.
  • an age and a gender of the user recognized as the input voice signal may be output. In this case, the current emotional state of the user together with the age and gender may be simultaneously recognized and output.
  • the range and intensity of the voice may be different according to the age and gender of the user.
  • the female band shows a higher frequency band than a male, and a young child may have a higher frequency band than an adult.
  • the gender and age of the user may be recognized in the learning model, and the current emotional state of the user may be recognized and output in detail.
  • the frequency corresponding to the extracted feature vector corresponds to the joy, but in the case of a man in the 40s, the voice signal may be different from each other, such as anger or surprise.
  • the voice signal may be different from each other, such as anger or surprise.
  • the user's actual emotional state is reflected by reflecting physiological voice characteristics that vary according to the user's age and gender.
  • a case corresponding to joy has been described as an example, but may be recognized as corresponding to two or more emotional states.
  • the service provider 114 may provide a service suitable for the user's state based on the recognized age, gender, and emotion.
  • the service provider 114 may provide a service in consideration of the emotion, age, and gender of the user.
  • the service provider 114 may determine the user's recognition in the predetermined customer response manual. Corresponding methods corresponding to emotion, age and gender may be provided to the terminal of the customer center or the telephone counselor. In this case, the recognized user's emotion, age and gender information may be provided together. Then, a customer service representative or a telephone counselor can help the user effectively respond to the user's request in accordance with the user's current state by referring to the user's emotion, age and gender information, and the corresponding response method.
  • the service provider 114 may provide a corresponding method along with the recognized user's age, gender, and emotional state, so that the representative of the customer center may appropriately respond to the user. For example, if you are an elderly male and you are feeling angry, you can have your requirements heard quickly without spending a lot of time or raising your anger gauge, so that older men can call you at a perceptible tone and speed. It is possible to provide a corresponding method for responding to the.
  • FIG. 3 is a diagram illustrating a convolutional neural network structure according to an embodiment of the present invention.
  • the convolutional neural network 300 may include an input layer 310, a hidden layer 320, and an output layer 330.
  • the hidden layer 320 may be composed of a plurality of layers.
  • mel spectrogram In FIG. 3, twenty five mel spectrograms of 40 dimensions may be set as inputs of an input layer. In this case, 25 frames (that is, mel spectrogram * 25) may be set as inputs for each characteristic (emotion, age, gender).
  • Mel spectrogram is a 2D representation optimized for human auditory perception, and represents a speech signal representation technique that preserves the most important information by compressing the Short Time Fourier Transform (STFT) on the frequency axis.
  • STFT Short Time Fourier Transform
  • weights may be multiplied for each feature vector corresponding to each frame, and max pooling for collecting the maximum value of the multiplied weights for each characteristic may be performed.
  • the loss of each characteristic is calculated based on the softmax function of the max pooled values, and the calculated loss is summed based on Equation 1 to simultaneously recognize emotion, gender, and age in the speech signal.
  • the learning may be performed to set the final learning criterion so that the joint loss converges to the minimum value for the input data set.
  • the feature vector extracted from the input specific voice signal is set as an input of the learning model to correspond to the voice signal.
  • the age, gender and emotion of the user may be recognized and output as an output value.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템이 개시된다. 컴퓨터에 의해 실행되는 사용자 특성 정보 인식 방법에 있어서, 음성 신호에 해당하는 입력 데이터 셋(input data set)을 대상으로, 미리 지정된 복수의 특성 별로 프레임(frame)을 구분하는 단계, 구분된 상기 특성 별 프레임을 대상으로, 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반으로 상기 복수의 특성 별 손실 함수에 기초하여 학습을 수행하는 단계, 및 상기 학습을 통해 생성된 학습 모델에 기초하여 입력된 음성 신호에 해당하는 서로 다른 복수의 사용자 특성 정보를 인식하는 단계를 포함할 수 있다.

Description

사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템
본 발명의 실시예들은 사용자의 감정, 나이 및 성별을 인식하는 기술에 관한 것으로서, 더욱 상세하게는 딥러닝(deep learning)을 기반으로 사용자의 감정, 나이 및 성별을 인식하는 기술에 관한 것이다.
인공지능 비서, 생체 인식 기반 보안 등 사용자와 기계 간의 인터페이스 기술에 대한 관심이 증대되면서, 음성 및 얼굴 표정을 비롯한 생체 데이터로부터 인간의 감정 등의 특성을 인식하는 기술들이 활발하게 연구되고 있다.
음성 신호를 이용한 감정 인식 기술은 여러 분야에서 활용될 수 있다. 예를 들면, 사용자가 화가 난 것으로 예상되는 감정 상태인 경우, 격양된 감정을 진정시키는 어조, 차분한 말투 등으로 서비스를 제안하도록 하여 해당 서비스와 연결하는 지능형 대응이 가능하다. 또한, 사용자의 감정 상태가 슬픔으로 예측되는 경우, 슬픈 발라드 등의 음악을 제안하는 등의 서비스와 지능형 대응이 가능하다.
고객센터, 전화상담, 전화 교육 등의 스마트폰(smartphone) 기반 서비스를 이용하는 과정에 있어서 사용자의 감정, 나이, 성별에 대한 정보를 알면 사용자의 상태에 적합한 서비스의 제공이 가능해진다.
한국공개특허 제10-2011-0011969호는 WTM을 기반으로 손실함수와 최대마진기법을 통한 음성 감정 인식 모델 구축 방법에 관한 것으로, WTM(Watson-Tellegen Emotional Model)의 감정군들 사이의 기하학적 거리를 사용하여 각 감정 사이의 차이를 수치화하고, 설정한 값들을 기초로 하여 손실함수(loss function)의 값을 구하고, 구해진 손실함수를 기초로 하여 각 음성 감정 모델의 파라미터를 구하는 감정 인식 모델을 구축하는 기술을 개시하고 있다.
본 발명은 딥 러닝(deep learning)을 기반으로 사용자의 음성 신호로부터 사용자의 감정, 나이 및 성별을 인식하는 기술에 관한 것이다.
또한, 인식된 사용자의 감정, 나이 및 성별에 적합한 서비스를 제공하는 기술에 관한 것이다.
컴퓨터에 의해 실행되는 사용자 특성 정보 인식 방법에 있어서, 음성 신호에 해당하는 입력 데이터 셋(input data set)을 대상으로, 미리 지정된 복수의 특성 별로 프레임(frame)을 구분하는 단계, 구분된 상기 특성 별 프레임을 대상으로, 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반으로 상기 복수의 특성 별 손실 함수에 기초하여 학습을 수행하는 단계, 및 상기 학습을 통해 생성된 학습 모델에 기초하여 입력된 음성 신호에 해당하는 서로 다른 복수의 사용자 특성 정보를 인식하는 단계를 포함할 수 있다.
일측면에 따르면, 상기 학습을 수행하는 단계는, 소프트맥스(softmax) 함수에 기초하여 상기 복수의 특성 별로 손실(loss)을 계산하는 단계, 및 계산된 상기 복수의 특성 별 손실의 합에 기초하여 최종 학습의 기준을 설정하는 단계를 포함할 수 있다.
다른 측면에 따르면, 상기 복수의 특성 별로 프레임(frame)을 구분하는 단계는, 상기 입력 데이터 셋(input data set)을 대상으로, 사용자의 감정(emotion), 나이(age) 및 성별(gender)을 위한 프레임으로 구분할 수 있다.
또 다른 측면에 따르면, 상기 학습을 수행하는 단계는, 상기 컨볼루션 뉴럴 네트워크에 기반하는 각 컨볼루션 레이어를 대상으로 샘플링(sampling)을 수행하는 맥스 풀링(max pooling)을 수행하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 사용자 특성 정보를 인식하는 단계는, 상기 입력된 음성 신호로부터 사용자의 감정, 나이 및 성별을 동시에 인식할 수 있다.
또 다른 측면에 따르면, 상기 사용자 특성 정보를 인식하는 단계는, 상기 사용자 특성 정보가 감정에 해당하는 경우, 상기 입력된 음성 신호로부터 사용자의 감정 상태가 중립, 기쁨, 슬픔, 분노, 혐오, 놀람, 공포 중 적어도 하나에 해당하는지 여부를 인식할 수 있다.
또 다른 측면에 따르면, 인식된 상기 사용자 특성 정보를 기반으로 사용자의 현재 상태에 해당하는 서비스를 제공하는 단계를 더 포함할 수 있다.
사용자 특성 정보 인식 시스템에 있어서, 음성 신호에 해당하는 입력 데이터 셋(input data set)을 대상으로, 미리 지정된 복수의 특성 별로 프레임(frame)을 구분하는 프레임 구분부, 구분된 상기 특성 별 프레임을 대상으로, 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반으로 상기 복수의 특성 별 손실 함수에 기초하여 학습을 수행하는 학습 제어부, 및 상기 학습을 통해 생성된 학습 모델에 기초하여 입력된 음성 신호에 해당하는 서로 다른 복수의 사용자 특성 정보를 인식하는 사용자 특성 인식부를 포함할 수 있다.
일측면에 따르면, 상기 학습 제어부는, 소프트맥스(softmax) 함수에 기초하여 상기 복수의 특성 별로 손실(loss)을 계산하고, 계산된 상기 복수의 특성 별 손실의 합에 기초하여 최종 학습의 기준을 설정할 수 있다.
다른 측면에 따르면, 상기 프레임 구분부는, 상기 입력 데이터 셋(input data set)을 대상으로, 사용자의 감정(emotion), 나이(age) 및 성별(gender)을 위한 프레임으로 구분할 수 있다.
또 다른 측면에 따르면, 상기 학습 제어부는, 상기 컨볼루션 뉴럴 네트워크에 기반하는 각 컨볼루션 레이어를 대상으로 샘플링(sampling)을 수행하는 맥스 풀링(max pooling)을 수행할 수 있다.
또 다른 측면에 따르면, 상기 사용자 특성 인식부는, 상기 입력된 음성 신호로부터 사용자의 감정, 나이 및 성별을 동시에 인식할 수 있다.
또 다른 측면에 따르면, 상기 사용자 특성 인식부는, 상기 사용자 특성 정보가 감정에 해당하는 경우, 상기 입력된 음성 신호로부터 사용자의 감정 상태가 중립, 기쁨, 슬픔, 분노, 혐오, 놀람, 공포 중 적어도 하나에 해당하는지 여부를 인식할 수 있다.
또 다른 측면에 따르면, 인식된 상기 사용자 특성 정보를 기반으로 사용자의 현재 상태에 해당하는 서비스를 제공하는 서비스 제공부를 더 포함할 수 있다.
본 발명은 딥 러닝(deep learning) 기반 학습 알고리즘 중 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반 학습을 이용하여 사용자의 음성 신호로부터 사용자의 감정, 나이 및 성별을 동시에 인식할 수 있다.
또한, 사용자의 나이 및 성별과 함께 사용자의 감정을 인식함으로써, 성별에 따라, 그리고 나이에 따라 서로 다른 음역대, 톤, 속도 등의 변화를 반영하여 보다 정확하게 사용자의 감정 상태를 인식할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 사용자 특성 정보 인식 시스템의 내부 구성을 도시한 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 사용자 특성 정보 인식 방법을 도시한 흐름도이다.
도 3은 본 발명의 일실시예에 있어서, 컨볼루션 뉴럴 네트워크 구조를 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 실시예들은 사용자의 음성 신호를 기반으로 사용자의 감정, 나이, 성별을 동시에 인식하는 기술에 관한 것으로서, 특히, 딥러닝 기법 중 컨볼루션 뉴럴 네트워크를 기반으로 학습하여 생성된 학습 모델을 이용하여 입력된 사용자의 음성 신호에 기초하여 사용자의 현재 감정 상태, 나이, 및 성별을 동시에 인식하는 기술에 관한 것이다.
본 실시예들에서, "사용자 특성 정보"는, 사용자의 감정, 나이 및 성별 등의 사용자의 상태를 나타낼 수 있다.
본 실시예들에서, "컨볼루션 뉴럴 네트워크 기반 학습"은 손실 함수(joint loss)가 최소화 값으로 수렴되도록 학습이 진행되는 것을 나타낼 수 있다.
도 1은 본 발명의 일실시예에 있어서, 사용자 특성 정보 인식 시스템의 내부 구성을 도시한 블록도이고, 도 2는 본 발명의 일실시예에 있어서, 사용자 특성 정보 인식 방법을 도시한 흐름도이다.
본 실시예에 따른 사용자 특성 정보 인식 시스템(100)은 프로세서(110), 버스(120), 네트워크 인터페이스(130), 및 메모리(140)를 포함할 수 있다. 메모리(140)는 운영체제(141) 및 서비스 제공 루틴(142)를 포함할 수 있다. 프로세서(110)는 프레임 구분부(111), 학습 제어부(112), 사용자 특성 인식부(113) 및 서비스 제공부(114)를 포함할 수 있다. 다른 실시예들에서 사용자 특성 정보 인식 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 사용자 특성 정보 인식 시스템(100)은 디스플레이나 트랜시버(transceiver)와 같은 다른 구성요소들을 포함할 수도 있다.
메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(140)에는 운영체제(141)와 서비스 제공 루틴(142)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(130)를 통해 메모리(140)에 로딩될 수도 있다.
버스(120)는 사용자 특성 정보 인식 시스템(100)의 구성요소들 간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(120)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.
네트워크 인터페이스(130)는 사용자 특성 정보 인식 시스템(100)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(130)는 사용자 특성 정보 인식 시스템(100)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.
사용자 특성 정보 인식 시스템(100)은 서버에 접속한 사용자 단말로 사용자의 음성 신호를 기반으로 사용자의 감정, 나이 및 성별 등의 사용자 특성 정보를 인식하고, 인식된 특성에 해당하는 서비스를 제공하도록 플랫폼(platform) 형태로 구현될 수도 있고, 사용자 단말에 마련된 스피커 등을 통해 입력된 음성 신호를 기반으로 사용자의 감정, 나이 및 성별 등의 사용자 특성 정보를 인식하는 어플리케이션(application, 즉, 서비스 앱) 형태로 구현될 수도 있다. 이때, 사용자 단말에 어플리케이션 형태로 구현된 경우, 사용자 단말에서 인식된 사용자 특성 정보는 어플리케이션을 통해 서버인 서비스 제공자 단말로 전달될 수 있으며, 서비스 제공자 단말은 수신된 사용자 특성 정보에 해당하는 서비스를 어플리케이션을 통해 사용자 단말로 제공할 수 있다.
프로세서(110)는 기본적인 산술, 로직 및 사용자 특성 정보 인식 시스템(100)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 네트워크 인터페이스(130)에 의해, 그리고 버스(120)를 통해 프로세서(110)로 제공될 수 있다. 프로세서(110)는 프레임 구분부(111), 학습 제어부(112), 사용자 특성 인식부(113) 및 서비스 제공부(114)를 위한 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(140)와 같은 기록 장치에 저장될 수 있다.
프레임 구분부(111), 학습 제어부(112), 사용자 특성 인식부(113) 및 서비스 제공부(114)는 도 2의 단계들(210 내지 240 단계)을 수행하기 위해 구성될 수 있다.
210 단계에서, 프레임 구분부(111)는 음성 신호에 해당하는 입력 데이터 셋(input data set)을 대상으로, 미리 지정된 복수의 특성 별로 프레임(frame)을 구분할 수 있다. 예를 들어, 사용자의 감정, 나이 및 성별을 동시에 인식하기 위한 학습 모델을 생성하고자 하는 경우, 프레임 구분부(111)는 미리 수집된 서로 다른 다양한 사용자들의 음성 신호에 해당하는 입력 데이터 셋을 사용자의 감정에 해당하는 프레임, 나이에 해당하는 프레임, 성별에 해당하는 프레임으로 구분할 수 있다.
일례로, 프레임 구분부(111)는 MFC(Mel Frequency Cepstral Coefficient)에 기초하여 음성 신호에 해당하는 입력 데이터 셋에서 미리 지정된 유효한 소리에 해당하는 특징(feature)을 추출할 수 있다. 이때, 프레임 구분부(111)는 입력 데이터 셋 전체를 대상으로 특징을 추출하는 것이 아니라, 일정 구간, 즉, 일정 프레임씩 구분하고, 프레임 별로 스펙트럼(spectrum) 분석을 통해 특징(feature)을 추출할 수 있다. 예컨대, 시간 영역에서 음성 신호는 지속적으로 변화하므로, 변화하는 소리를 대상으로 특징을 추출하기 위해 미리 지정된 짧은 시간 내에서는 음성 신호가 많이 변화지 않는다고 가정할 수 있다. 즉, 오차 범위 내에서 실제로 음성 신호의 변화가 거의 없다고 해석할 수 있다. 그러면, 프레임 구분부(111)는 각 프레임 별로 파워 스펙트럼(즉, 주파수)를 계산할 수 있다. 여기서, 프레임 별로 계산된 파워 스펙트럼이 특징(feature), 즉, 특징 벡터로서 추출될 수 있다. 이처럼, 뉴럴 주파수 주파수가 계산되면, 각 구간에서 얼마만큼의 에너지가 존재하는지 여부를 알 수 있다.
220 단계에서, 학습 제어부(112)는 상기 구분된 특성 별 프레임들을 대상으로, 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반으로 복수의 특성 별 손실 함수에 기초하여 학습을 수행할 수 있다. 즉, 프레임 구분부(111)에서 계산된 파워 스펙트럼이 속하는 프레임들이 컨볼루션 뉴럴 네트워크의 입력층(input layer)의 입력값으로 설정될 수 있다. 예컨대, 특성(성별, 나이, 감정 등) 별로 25개의 프레임들이 학습을 위해 입력층에 설정될 수 있다. 이처럼, 입력된 프레임 별 파워 스펙트럼, 즉, 각 특성(성별, 나이, 감정)에 해당하는 특징 벡터들을 입력으로 받아 학습을 수행할 수 있다. 이때, 학습 제어부(112)는 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)으로 구성된 컨볼루션 뉴럴 네트워크 구조에서, 출력층에서 제시한 값에 대해 실제 원하는 값으로 학습이 수행되도록 제어할 수 있다. 여기서, 각 층은 서로 교차되는 가중치(weight) 값으로 연결되어 있을 수 있으며, 학습 제어부(112)는 동일한 입력층에 대한 원하는 값이 출력되도록 각 층 별로 개개의 가중치를 조정하여 학습을 수행되도록 제어할 수 있다.
구체적으로, 학습 제어부(112)는 적어도 하나의 은닉층에 속하는 특성 별 각 콘볼루션 레이어(CNN_ReLU)를 대상으로 샘플링(sampling)을 수행하는 맥스 풀링(max pooling)을 수행할 수 있다. 예컨대, 학습 제어부(112)는 적어도 특성 별로 25장의 프레임이 설정된 경우, 25장의 프레임들에 해당하는 특징 벡터들에 가중치를 곱한 값 중 가장 큰 값을 특성 별(예컨대, 성별, 나이, 감정 별)로 모으는 맥스 풀링을 수행할 수 있다.
맥스 풀링이 수행되면, 학습 제어부(112)는 소프트맥스(softmax) 함수에 기초하여 복수의 특성 별로 손실(loss)을 계산할 수 있으며, 계산된 복수의 특성 별 손실의 합에 기초하여 최종 학습의 기준을 설정할 수 있다. 즉, 학습 제어부(112)는 감정, 나이, 성별 각각에 해당하는 손실을 계산하고, 계산된 손실(loss)을 아래의 수학식 1에 기초하여 합쳐 조인트 손실(joint loss)을 계산할 수 있다. 그리고, 조인트 손실을 최종 학습의 기준으로 설정할 수 있다. 다시 말해, 조인트 손실을 최소화하도록 학습이 수행되도록 감정, 나이, 성별 각각에 해당하는 손실(loss)이 계산되도록 학습이 수행될 수 있다.
[수학식 1]
joint loss=αLgender + βLage+ γLemotion
수학식 1에서, Lgender는 소프트맥스(softmax) 함수에 기초하여 계산된 성별에 해당하는 손실, Lage는 나이에 해당하는 손실, Lemotion은 감정에 해당하는 손실을 나타낼 수 있다.
이처럼, 소프트맥스 함수를 이용하여 감정, 나이, 성별 각각에 해당하는 손실(loss)을 계산하고, 계산된 손실의 합으로써 조인트 손실(joint loss)를 계산하여 최종 학습의 기준으로 설정함으로써, 하나의 음성 신호를 대상으로 여러 가지 태스크(task)에 해당하는 사용자의 감정, 나이, 성별을 동시에 인식하기 위한 멀티 태스크 학습(multi-task learning)이 수행될 수 있다.
수학식 1에 따르면, 학습 제어부(112)는 각 태스크(성별, 감정, 나이) 별로 가중치를 단순하게 더하는 것이 아니라, 변수화하여 학습시켜 weighted sum을 최종 학습의 기준으로 설정할 수 있다.
230 단계에서, 사용자 특성 인식부(113)는 학습을 통해 생성된 학습 모델에 기초하여 입력된 음성 신호에 해당하는 서로 다른 복수의 사용자 특성 정보를 동시에 인식할 수 있다. 예컨대, 수학식 1에 기초하여 계산된 조인트 손실(joint loss)을 최종 학습의 기준으로 설정하여 생성된 학습 모델에 사용자 단말의 스피커 등을 통해 입력된 음성 신호를 입력으로 설정할 수 있다. 그리고, 학습 모델의 출력으로서, 상기 입력된 음성 신호를 대상으로 인식된 사용자의 나이 및 성별이 출력될 수 있다. 이때, 나이 및 성별과 함께 사용자의 현재 감정 상태가 동시에 인식되어 출력될 수 있다.
일례로, 사용자의 나이와 성별에 따라 음성의 음역대와 강도가 상이할 수 있다. 예컨대, 여성의 음역대가 남성보다 고주파 대역으로 차이를 보이며, 어린 아이일수록 주파수 대역이 어른보다 상대적으로 높은 차이점을 가질 수 있다. 이처럼, 학습 모델에서 사용자의 성별 및 나이가 인식됨과 동시에 사용자의 현재 감정 상태가 세부적으로 인식되어 출력될 수 있다. 감정의 상태에 따라 음성의 톤, 속도, 떨림 등의 변화가 존재하며, 톤, 속도, 떨림 등을 나타내는 특징 벡터들, 음성 신호의 음역대 및 강도에 해당하는 특징 벡터들을 기반으로 해당 성별의 해당 나이의 사용자의 감정 상태가 미리 지정된 복수의 감정 상태 중 어디에 해당하는지 여부가 인식될 수 있다. 예컨대, 사용자의 감정 상태가 중립, 기쁨, 슬픔, 분노, 혐오, 놀람, 공포 등 7가지 감정 중 적어도 하나에 해당하는지 여부가 인식될 수 있다.
예컨대, 20대 여성이나 7세 이하의 아이의 음성 신호의 경우, 추출된 특징 벡터에 해당하는 주파가 기쁨에 해당하나, 40대 남성의 경우, 분노, 놀람에 해당하는 것과 같이 서로 상이할 수 있다. 이에 따라, 학습 모델로 입력되는 하나의 음성 신호를 대상으로 사용자의 나이, 성별 및 감정이라는 세 가지 특성을 동시에 인식함으로써, 사용자의 나이 및 성별에 따라 달라지는 생리적 음성 특성을 반영하여 사용자의 실제 감정 상태를 보다 잘 인식할 수 있다. 여기서는 기쁨에 해당하는 경우를 예로 들어 설명하였으나, 둘 이상의 감정 상태에 해당하는 것으로 인식될 수도 있다. 예컨대, 놀람 및 공포에 해당하는 감정 상태, 놀람, 공포 및 분노의 감정 상태 등으로 인식되는 것 역시 가능할 수 있다.
240 단계에서, 사용자의 나이, 성별 및 감정이 인식되면, 서비스 제공부(114)는 인식된 나이, 성별 및 감정을 기반으로 사용자의 상태에 적합한 서비스를 제공할 수 있다.
예를 들어, 음악 서비스를 제공하는 경우, 사용자의 감정이 기쁨에 해당하고 7세 이하의 여아에 해당하는 경우, 생일 축하 동요를 제공할 수 있다. 사용자의 감정이 기쁨에 해당하고 7세 이하의 남아에 해당하는 경우, 미리 지정된 해당 나이대에서 인기 있는 만화 엔딩곡이나 오프닝곡 등을 제공할 수 있다. 사용자의 감정이 기쁨에 해당하고 20대의 남성에 해당하는 경우, 미리 지정된 해당 나이대에서 인기 있는 KPOP 등을 제공할 수 있다. 영화 서비스를 제공하는 경우에도 마찬가지로, 서비스 제공부(114)는 사용자의 감정, 나이 및 성별을 고려하여, 서비스를 제공할 수 있다.
이외에, 고객 센터, 전화 상담 시, 연결된 상대방 단말을 통해 입력된 음성 신호를 기반으로 사용자의 감정, 나이 및 성별이 인식되면, 서비스 제공부(114)는 미리 지정된 고객 대응 매뉴얼에서 상기 인식된 사용자의 감정, 나이 및 성별에 해당하는 대응 방법을 고객 센터나 전화 상담사의 단말로 제공할 수 있다. 이때, 인식된 사용자의 감정, 나이 및 성별 정보가 함께 제공될 수 있다. 그러면, 고객 센터 담당자나 전화 상담사가 사용자의 감정, 나이 및 성별 정보, 상기 제공된 대응 방법을 참고하여 사용자의 현재 상태에 알맞게 사용자의 요청 사항에 효과적으로 대응하도록 도움을 줄 수 있다. 예컨대, 사용자가 제품 고장, 오배송으로 인해 고객 센터로 전화한 경우, 감정 상태가 분노인 사용자가 있을 수도 있고, 중립인 사용자가 존재할 수도 있다. 이때, 서비스 제공부(114)는 인식된 사용자의 나이, 성별 및 감정 상태와 함께 해당하는 대응방법을 제공함으로써, 고객 센터 담당자가 해당 사용자에게 적절한 대응을 하도록 할 수 있다. 예컨대, 고령인 남성이고, 감정이 분노 상태인 경우, 많은 시간을 소비하거나 분노 게이지를 높이지 않고 신속하게 요구 사항을 들어주도록 할 수 있으며, 이때, 고령의 남성이 인지하기 쉬운 말투 및 속도로 전화에 응대하도록 하는 대응 방법을 제공할 수 있다.
도 3은 본 발명의 일실시예에 있어서, 컨볼루션 뉴럴 네트워크 구조를 도시한 도면이다.
도 3을 참고하면, 컨볼루션 뉴럴 네트워크(300)는 입력층(310), 은닉층(320) 및 출력층(330)을 포함할 수 있다. 은닉층(320)는 복수개의 레이어(layer)로 구성될 수 있다.
도 3에서, 40차원의 멜 스펙트로그램(mel spectrogram) 25개가 입력층의 입력으로 설정될 수 있다. 이때, 특성(감정, 나이, 성별) 별로, 25개의 프레임들(즉, mel spectrogram*25)이 입력으로 설정될 수 있다. 멜 스펙트로그램은 인간의 청각적 지각 방식에 최적화된 2D 표현 방식으로, 주파수 축에서 STFT(Short Time Fourier Transform)을 압축하여 가장 중요한 정보를 보존하는 음성 신호 표현 기법을 나타낼 수 있다.
이처럼, 입력층에 특성 별로 복수개의 프레임들이 설정되면, 각 프레임에 해당하는 특징 벡터 별로 가중치가 곱해지고, 가중치가 곱해진 값들 중 최대값을 특성 별로 모으는 맥스 풀링(max pooling)이 수행될 수 있다.
맥스 풀링된 값들을 대상으로 소프트맥스 함수에 기초하여 특성 별 손실(loss)이 계산되고, 계산된 손실을 상기 수학식 1에 기초하여 합함으로써, 음성 신호에서 감정, 성별, 나이를 동시에 인식하기 위한 학습 모델을 생성하는 조인트 손실(joint loss) 계산할 수 있다. 이처럼, 조인트 손실이 계산되면, 최종 학습 기준으로 설정하고, 입력 데이터 셋을 대상으로 상기 조인트 손실이 최소값에 수렴하도록 학습이 수행될 수 있다. 그러면, 특정 음성 신호가 입력되면, 상기 학습이 수행됨에 따라 생성된 학습 모델을 기반으로, 상기 입력된 특정 음성 신호에서 추출된 특징 벡터를 상기 학습 모델의 입력으로 설정하여, 상기 음성 신호에 해당하는 사용자의 나이, 성별 및 감정이 인식되어 출력값으로 출력될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (14)

  1. 컴퓨터에 의해 실행되는 사용자 특성 정보 인식 방법에 있어서,
    음성 신호에 해당하는 입력 데이터 셋(input data set)을 대상으로, 미리 지정된 복수의 특성 별로 프레임(frame)을 구분하는 단계;
    구분된 상기 특성 별 프레임을 대상으로, 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반으로 상기 복수의 특성 별 손실 함수에 기초하여 학습을 수행하는 단계; 및
    상기 학습을 통해 생성된 학습 모델에 기초하여 입력된 음성 신호에 해당하는 서로 다른 복수의 사용자 특성 정보를 인식하는 단계
    를 포함하는 사용자 특성 정보 인식 방법.
  2. 제1항에 있어서,
    상기 학습을 수행하는 단계는,
    소프트맥스(softmax) 함수에 기초하여 상기 복수의 특성 별로 손실(loss)을 계산하는 단계; 및
    계산된 상기 복수의 특성 별 손실의 합에 기초하여 최종 학습의 기준을 설정하는 단계
    를 포함하는 사용자 특성 정보 인식 방법.
  3. 제1항에 있어서,
    상기 복수의 특성 별로 프레임(frame)을 구분하는 단계는,
    상기 입력 데이터 셋(input data set)을 대상으로, 사용자의 감정(emotion), 나이(age) 및 성별(gender)을 위한 프레임으로 구분하는 것
    을 특징으로 하는 사용자 특성 정보 인식 방법.
  4. 제1항에 있어서,
    상기 학습을 수행하는 단계는,
    상기 컨볼루션 뉴럴 네트워크에 기반하는 각 컨볼루션 레이어를 대상으로 샘플링(sampling)을 수행하는 맥스 풀링(max pooling)을 수행하는 단계
    를 포함하는 사용자 특성 정보 인식 방법.
  5. 제1항에 있어서,
    상기 사용자 특성 정보를 인식하는 단계는,
    상기 입력된 음성 신호로부터 사용자의 감정, 나이 및 성별을 동시에 인식하는 것
    을 특징으로 하는 사용자 특성 정보 인식 방법.
  6. 제1항에 있어서,
    상기 사용자 특성 정보를 인식하는 단계는,
    상기 사용자 특성 정보가 감정에 해당하는 경우, 상기 입력된 음성 신호로부터 사용자의 감정 상태가 중립, 기쁨, 슬픔, 분노, 혐오, 놀람, 공포 중 어느 하나에 해당하는지 여부를 인식하는 것
    을 특징으로 하는 사용자 특성 정보 인식 방법.
  7. 제1항에 있어서,
    인식된 상기 사용자 특성 정보를 기반으로 사용자의 현재 상태에 해당하는 서비스를 제공하는 단계
    를 더 포함하는 사용자 특성 정보 인식 방법.
  8. 사용자 특성 정보 인식 시스템에 있어서,
    음성 신호에 해당하는 입력 데이터 셋(input data set)을 대상으로, 미리 지정된 복수의 특성 별로 프레임(frame)을 구분하는 프레임 구분부;
    구분된 상기 특성 별 프레임을 대상으로, 컨볼루션 뉴럴 네트워크(convolution neural network)를 기반으로 상기 복수의 특성 별 손실 함수에 기초하여 학습을 수행하는 학습 제어부; 및
    상기 학습을 통해 생성된 학습 모델에 기초하여 입력된 음성 신호에 해당하는 서로 다른 복수의 사용자 특성 정보를 인식하는 사용자 특성 인식부
    를 포함하는 사용자 특성 정보 인식 시스템.
  9. 제8항에 있어서,
    상기 학습 제어부는,
    소프트맥스(softmax) 함수에 기초하여 상기 복수의 특성 별로 손실(loss)을 계산하고, 계산된 상기 복수의 특성 별 손실의 합에 기초하여 최종 학습의 기준을 설정하는 것
    을 특징으로 하는 사용자 특성 정보 인식 시스템.
  10. 제8항에 있어서,
    상기 프레임 구분부는,
    상기 입력 데이터 셋(input data set)을 대상으로, 사용자의 감정(emotion), 나이(age) 및 성별(gender)을 위한 프레임으로 구분하는 것
    을 특징으로 하는 사용자 특성 정보 인식 시스템.
  11. 제8항에 있어서,
    상기 학습 제어부는,
    상기 컨볼루션 뉴럴 네트워크에 기반하는 각 컨볼루션 레이어를 대상으로 샘플링(sampling)을 수행하는 맥스 풀링(max pooling)을 수행하는 것
    을 특징으로 하는 사용자 특성 정보 인식 시스템.
  12. 제8항에 있어서,
    상기 사용자 특성 인식부는,
    상기 입력된 음성 신호로부터 사용자의 감정, 나이 및 성별을 동시에 인식하는 것
    을 특징으로 하는 사용자 특성 정보 인식 시스템.
  13. 제8항에 있어서,
    상기 사용자 특성 인식부는,
    상기 사용자 특성 정보가 감정에 해당하는 경우, 상기 입력된 음성 신호로부터 사용자의 감정 상태가 중립, 기쁨, 슬픔, 분노, 혐오, 놀람, 공포 중 어느 하나에 해당하는지 여부를 인식하는 것
    을 특징으로 하는 사용자 특성 정보 인식 시스템.
  14. 제8항에 있어서,
    인식된 상기 사용자 특성 정보를 기반으로 사용자의 현재 상태에 해당하는 서비스를 제공하는 서비스 제공부
    를 더 포함하는 사용자 특성 정보 인식 시스템.
PCT/KR2018/007163 2018-05-23 2018-06-25 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템 WO2019225801A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20180058120 2018-05-23
KR10-2018-0058120 2018-05-23
KR1020180071462A KR102106700B1 (ko) 2018-05-23 2018-06-21 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템
KR10-2018-0071462 2018-06-21

Publications (1)

Publication Number Publication Date
WO2019225801A1 true WO2019225801A1 (ko) 2019-11-28

Family

ID=68617107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/007163 WO2019225801A1 (ko) 2018-05-23 2018-06-25 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템

Country Status (1)

Country Link
WO (1) WO2019225801A1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111023470A (zh) * 2019-12-06 2020-04-17 厦门快商通科技股份有限公司 空调温度调节方法、介质、设备及装置
CN111210844A (zh) * 2020-02-03 2020-05-29 北京达佳互联信息技术有限公司 语音情感识别模型的确定方法、装置、设备及存储介质
CN111312286A (zh) * 2020-02-12 2020-06-19 深圳壹账通智能科技有限公司 年龄识别方法、装置、设备及计算机可读存储介质
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备
CN112331187A (zh) * 2020-11-24 2021-02-05 苏州思必驰信息科技有限公司 多任务语音识别模型训练方法、多任务语音识别方法
CN113113048A (zh) * 2021-04-09 2021-07-13 平安科技(深圳)有限公司 语音情绪识别方法、装置、计算机设备及介质
CN113223507A (zh) * 2021-04-14 2021-08-06 重庆交通大学 基于双输入互干扰卷积神经网络的异常语音识别方法
WO2022198923A1 (zh) * 2021-03-26 2022-09-29 之江实验室 一种融合人群信息的语音情感识别方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DASGUPTA, POORNA BANERJEE: "Detection and Analysis of Human Emotions through Voice and Speech Pattern Processing", INTERNATIONAL JOURNAL OF COMPUTER TRENDS AND TECHNOLOGY (IJCTT, vol. 52, no. 1, October 2017 (2017-10-01), pages 1 - 3, XP055657080 *
EDUARD FRANTI: "Voice Based Emotion Recognition with Convolutional Neural Networks for Companion Robots", ROMANIAN JOURNAL OF INFORMATION SCIENCE AND TECHNOLOGY, vol. 20, no. 3, December 2017 (2017-12-01), pages 222 - 240, XP055657067 *
HASAN EROKYAR: "Age and Gender Recognition for Speech Applications based on Support Vector Machines", A THESIS SUBMITTED IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF MASTER OF SCIENCE IN ELECTRICAL ENGINEERING DEPARTMENT OF ELECTRICAL ENGINEERING COLLEGE OF ENGINEERING UNIVERSITY OF SOUTH FLORIDA, 30 October 2014 (2014-10-30), pages 1 - 69, XP055657072 *
NIU, YAFENG: "A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks", ARXIV:1707.09917, 12 July 2017 (2017-07-12), pages 1 - 7, XP055657103 *
SHAHSAVARANI, SOMAYEH: "Speech Emotion Recognition using Convolutional Neural Networks", A THESIS PRESENTED TO THE FACULTY OF THE GRADUATE COLLEGE AT THE UNIVERSITY OF NEBRASKA IN PARTIAL FULFILLMENT OF REQUIREMENTS FOR THE DEGREE OF MASTER OF SCIENCE MAJOR: COMPUTER SCIENCE, March 2018 (2018-03-01), Lincoln, pages 1 - 75, XP055657090 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111023470A (zh) * 2019-12-06 2020-04-17 厦门快商通科技股份有限公司 空调温度调节方法、介质、设备及装置
CN111210844A (zh) * 2020-02-03 2020-05-29 北京达佳互联信息技术有限公司 语音情感识别模型的确定方法、装置、设备及存储介质
CN111312286A (zh) * 2020-02-12 2020-06-19 深圳壹账通智能科技有限公司 年龄识别方法、装置、设备及计算机可读存储介质
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备
CN112331187A (zh) * 2020-11-24 2021-02-05 苏州思必驰信息科技有限公司 多任务语音识别模型训练方法、多任务语音识别方法
WO2022198923A1 (zh) * 2021-03-26 2022-09-29 之江实验室 一种融合人群信息的语音情感识别方法和系统
CN113113048A (zh) * 2021-04-09 2021-07-13 平安科技(深圳)有限公司 语音情绪识别方法、装置、计算机设备及介质
CN113113048B (zh) * 2021-04-09 2023-03-10 平安科技(深圳)有限公司 语音情绪识别方法、装置、计算机设备及介质
CN113223507A (zh) * 2021-04-14 2021-08-06 重庆交通大学 基于双输入互干扰卷积神经网络的异常语音识别方法
CN113223507B (zh) * 2021-04-14 2022-06-24 重庆交通大学 基于双输入互干扰卷积神经网络的异常语音识别方法

Similar Documents

Publication Publication Date Title
WO2019225801A1 (ko) 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
JP2022529641A (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
CN108427939A (zh) 模型生成方法和装置
CN107622770A (zh) 语音唤醒方法及装置
CN108597509A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
CN110310647A (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
KR20190129580A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
CN110444229A (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
KR20200044388A (ko) 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
CN110248021A (zh) 一种智能设备音量控制方法及系统
KR20190133580A (ko) 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템
CN113555032B (zh) 多说话人场景识别及网络训练方法、装置
CN112562681B (zh) 语音识别方法和装置、存储介质
CN113823304A (zh) 语音信号的处理方法、装置、电子设备及可读存储介质
CN111274412A (zh) 信息提取方法、信息提取模型训练方法、装置及存储介质
KR20200025750A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
WO2011065686A2 (en) Communication interface apparatus and method for multi-user and system
CN113611318A (zh) 一种音频数据增强方法及相关设备
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
Mian Qaisar Isolated speech recognition and its transformation in visual signs
WO2019031621A1 (ko) 통화 중 감정을 인식하여 인식된 감정을 활용하는 방법 및 시스템
Darekar et al. A hybrid meta-heuristic ensemble based classification technique speech emotion recognition
JP2023549411A (ja) 音声通話の制御方法、装置、コンピュータプログラム及び電子機器

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18919965

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18919965

Country of ref document: EP

Kind code of ref document: A1