KR102541660B1 - 음성 신호에 기반한 감정 인식 장치 및 방법 - Google Patents
음성 신호에 기반한 감정 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR102541660B1 KR102541660B1 KR1020210000952A KR20210000952A KR102541660B1 KR 102541660 B1 KR102541660 B1 KR 102541660B1 KR 1020210000952 A KR1020210000952 A KR 1020210000952A KR 20210000952 A KR20210000952 A KR 20210000952A KR 102541660 B1 KR102541660 B1 KR 102541660B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- voice
- voice data
- speaker
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000008451 emotion Effects 0.000 claims abstract description 60
- 230000008909 emotion recognition Effects 0.000 claims abstract description 53
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000015654 memory Effects 0.000 claims abstract description 17
- 230000000306 recurrent effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 장치를 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 음성 기반 감정 인식 방법에 사용되는 감정 분류 모델의 구축 과정을 설명하기 위한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 ConvLSTM 계층의 구체적인 구성을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 글로벌 특징 추출부에 사용되는 GRU의 구성을 도시한 것이다.
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
Claims (8)
- 음성 신호에 기반하여 발화자의 감정을 인식하는 감정 인식 장치에 있어서,
음성 기반 감정 인식 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하며,
상기 음성 기반 감정 인식 프로그램은, 발화자의 음성 데이터를 수신하고, 수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류하되,
상기 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류하며,
상기 로컬 특징 추출부는,
복수의 로컬 기능 학습 블록이 순차적으로 연결된 구조를 갖되, 각각의 로컬 기능 학습 블록은 ConvLSTM 계층, BN 계층 및 풀링 계층이 순차적으로 연결된 구조를 가지고,
상기 글로벌 특징 추출부는,
적층된 2개의 GRU(gated recurrent unit)를 각각 포함하는 복수의 단위 레이어를 포함하며,
상기 감정 분류 모델은,
중심 손실 함수와 소프트 맥스 손실함수를 기초로 하는 융합 손실 함수를 통해 상기 로컬 특징 추출부와 상기 글로벌 특징 추출부의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 음성 기반 감정 인식 장치. - 삭제
- 삭제
- 삭제
- 음성 기반 감정 인식 장치를 이용한 감정 인식 방법에 있어서,
발화자의 음성 데이터를 수신하는 단계, 및
수신한 음성 데이터를 감정 분류 모델에 입력하여 발화자의 감정을 분류하는 단계를 포함하되,
상기 감정 분류 모델은 ConvLSTM을 통해 음성 데이터의 로컬 특징을 추출하는 로컬 특징 추출부, GRU(gated Recurren Unit)를 통해 음성 데이터의 글로벌 특징을 추출하는 글로벌 특징 추출부를 포함하고, 상기 로컬 특징과 글로벌 특징에 기반하여 발화자의 감정을 분류하고,
상기 로컬 특징 추출부는,
복수의 로컬 기능 학습 블록이 순차적으로 연결된 구조를 갖되, 각각의 로컬 기능 학습 블록은 ConvLSTM 계층, BN 계층 및 풀링 계층이 순차적으로 연결된 구조를 갖고,
상기 글로벌 특징 추출부는,
적층된 2개의 GRU(gated recurrent unit)를 각각 포함하는 복수의 단위 레이어를 포함하며,
상기 감정 분류 모델은,
중심 손실 함수와 소프트 맥스 손실함수를 기초로 하는 융합 손실 함수를 통해 상기 로컬 특징 추출부와 상기 글로벌 특징 추출부의 출력에 대한 손실을 산출하고, 상기 손실을 최소화하는 방향으로 가중치 업데이트를 수행하는 것인, 음성 기반 감정 인식 방법. - 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210000952A KR102541660B1 (ko) | 2021-01-05 | 2021-01-05 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210000952A KR102541660B1 (ko) | 2021-01-05 | 2021-01-05 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220098991A KR20220098991A (ko) | 2022-07-12 |
KR102541660B1 true KR102541660B1 (ko) | 2023-06-12 |
Family
ID=82419979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210000952A Active KR102541660B1 (ko) | 2021-01-05 | 2021-01-05 | 음성 신호에 기반한 감정 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102541660B1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827856B (zh) * | 2022-07-26 | 2023-06-20 | 国家国防科技工业局军工项目审核中心 | 一种基于计算机的军工领域消息的传递方法 |
KR20240018060A (ko) * | 2022-08-02 | 2024-02-13 | 에스케이텔레콤 주식회사 | 감정 인식 장치 및 방법 |
CN115497507A (zh) * | 2022-08-10 | 2022-12-20 | 东南大学 | 基于渐进式迁移神经网络的跨库语音情感识别方法及装置 |
CN116226702B (zh) * | 2022-09-09 | 2024-04-26 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
CN115527522A (zh) * | 2022-09-21 | 2022-12-27 | 厦门快商通科技股份有限公司 | 一种vit声纹识别方法、装置及存储介质 |
CN116434787B (zh) * | 2023-06-14 | 2023-09-08 | 之江实验室 | 一种语音情感识别的方法、装置、存储介质及电子设备 |
CN119400209B (zh) * | 2024-12-31 | 2025-03-14 | 贵州合谷信息科技有限公司 | 基于人工智能的语音情绪识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6732703B2 (ja) | 2017-07-21 | 2020-07-29 | 日本電信電話株式会社 | 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム |
-
2021
- 2021-01-05 KR KR1020210000952A patent/KR102541660B1/ko active Active
Non-Patent Citations (4)
Title |
---|
Bakhshi, Ali, Aaron SW Wong, and Stephan Chalup. "End-to-end speech emotion recognition based on time and frequency information using deep neural networks." ECAI 2020. IOS Press, 2020. 969-975.* |
Kurpukdee,Nattapong et.al, Speech emotion recognition using convolutional long short-term memory neural network and support vector machines, APSIPA ASC, 2017, IEEE, Dec. 2017, Vol.2017, no.12, pp.1744-1749* |
Mustaqeem, et.al, CLSTM: Deep Feature-Based Speech Emotion Recognition Using the Hierarchical ConvLSTM Network, Mathematics, MDPI AG, Dec. 2020, Vol.8, no.12, pp.2133* |
이상현, 김재동, 고한석, 강인한 감정 특징 추출을 위한 End-to-end 기반의CRNN-GLU-ATT 모델, 전자공학회논문지(2020, vol.57, no.10, pp. 45-55 (11 pages), Oct. 2020* |
Also Published As
Publication number | Publication date |
---|---|
KR20220098991A (ko) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102541660B1 (ko) | 음성 신호에 기반한 감정 인식 장치 및 방법 | |
US11189302B2 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
Zhang et al. | Towards end-to-end speech recognition with deep convolutional neural networks | |
US10332510B2 (en) | Method and apparatus for training language model and recognizing speech | |
US10957309B2 (en) | Neural network method and apparatus | |
KR102033411B1 (ko) | 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법 | |
KR102313028B1 (ko) | 음성 인식 시스템 및 방법 | |
US11908457B2 (en) | Orthogonally constrained multi-head attention for speech tasks | |
CN111653275B (zh) | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 | |
US10825445B2 (en) | Method and apparatus for training acoustic model | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN112967739A (zh) | 一种基于长短期记忆网络的语音端点检测方法及系统 | |
KR20190099930A (ko) | 완전 연결 네트워크의 데이터 입력 및 출력을 제어하는 방법 및 장치 | |
WO2019138897A1 (ja) | 学習装置および方法、並びにプログラム | |
KR102549122B1 (ko) | 음성 신호에 기반한 발화자의 감정 인식 장치 및 방법 | |
Palangi et al. | Learning input and recurrent weight matrices in echo state networks | |
CN113196385B (zh) | 用于音频信号处理的方法和系统及计算机可读存储介质 | |
KR20240100864A (ko) | 멀티모달 데이터 융합 기반의 감정인식 시스템 및 방법 | |
CN116975617A (zh) | 自监督学习框架的训练方法、装置、设备及存储介质 | |
Karras et al. | A Hybrid Ensemble Deep Learning Approach for Emotion Classification | |
CN115101050A (zh) | 语音识别模型训练方法和装置、语音识别方法、介质 | |
US20250036681A1 (en) | On-device artificial intelligence video search | |
KR20240113235A (ko) | 인간의 감정 판단 장치 및 방법 | |
Rochford | Visual Speech Recognition Using a 3D Convolutional Neural Network | |
KR20250026904A (ko) | 확산 확률 모델에서 생성한 잠재 피쳐를 활용한 음성 인식 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20210105 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220822 Patent event code: PE09021S01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20230131 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20220822 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
AMND | Amendment | ||
PX0701 | Decision of registration after re-examination |
Patent event date: 20230530 Comment text: Decision to Grant Registration Patent event code: PX07013S01D Patent event date: 20230427 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I Patent event date: 20230131 Comment text: Decision to Refuse Application Patent event code: PX07011S01I |
|
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230605 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230607 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |