KR102382191B1 - 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 - Google Patents
음성 감정 인식 및 합성의 반복 학습 방법 및 장치 Download PDFInfo
- Publication number
- KR102382191B1 KR102382191B1 KR1020200081881A KR20200081881A KR102382191B1 KR 102382191 B1 KR102382191 B1 KR 102382191B1 KR 1020200081881 A KR1020200081881 A KR 1020200081881A KR 20200081881 A KR20200081881 A KR 20200081881A KR 102382191 B1 KR102382191 B1 KR 102382191B1
- Authority
- KR
- South Korea
- Prior art keywords
- module
- speech
- recognition
- voice
- text
- Prior art date
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 121
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 117
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 45
- 125000004122 cyclic group Chemical group 0.000 title claims description 11
- 230000008451 emotion Effects 0.000 claims abstract description 75
- 238000013135 deep learning Methods 0.000 claims abstract description 30
- 230000003190 augmentative effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013434 data augmentation Methods 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
음성 감정 인식 및 합성의 반복 학습 방법 및 장치가 제시된다. 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법은, 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈에 입력하는 단계; 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계; 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계; 및 상기 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계를 포함하여 이루어질 수 있다.
Description
아래의 실시예들은 음성 감정 인식 및 합성의 반복 학습 방법 및 장치에 관한 것으로, 더욱 상세하게는 반복 일관성(Cyclic Consistency) 갖는 음성 감정 인식 및 합성의 반복 학습 방법 및 장치에 관한 것이다.
음성 신호에서 다양한 특징(feature)을 추출하여 감정을 인식하는 음성 감정 인식 장치가 개발되어 왔다. 최근에는 딥러닝(Deep Learning) 기법을 이용하여 특징을 추출하고 감정을 인식하는 연구가 진행되고 있다.
음성 인식(Speech-to-Text; STT)은 사람의 목소리 음성을 입력으로 받아 문자열로 변환해주는 작업을 의미한다. 현재 음성 인식 기술은 감정의 변화에 따른 다양한 음성의 변화에 반응하지 못하는 단점이 있다.
텍스트 음성 합성(Text-to-Speech; TTS)은 문자열을 음성으로 변환하는 작업을 의미한다. 현재 다양한 사람의 목소리, 감정을 포함시킨 감정 음성 합성 등 다양한 음성 변화를 반영한 음성 합성이 가능하다. 하지만, 음성 합성을 가능하게 하기 위해서 각 감정 별로 사람의 음성을 녹음하여 이용해야 하는 어려움이 있다. 또한, 중립 음성만 녹음된 화자의 음성과, 감정 음성이 녹음된 화자의 음성을 활용해 중립 감정의 화자의 목소리를 감정적으로 변화시키는 연구가 진행되고 있다. 하지만, 현재 감정이 매우 약하게 표현이 된다.
음성 감정 인식(Speech Emotion Recognition; SER)은 사람의 목소리에서 감정을 추론하는 작업을 의미한다. 감정 추론 정확도를 높이기 위해서는 사람의 감정 별 목소리를 대량으로 수집해야 한다는 어려움이 있다.
음성 화자 인식(Speaker Identification; SI)은 사람의 목소리를 듣고 어떤 사람인지 추론하는 기술이다. 현재 음성 화자 인식은 상기 기술들에 비해 인식률이 높은 상황이다.
현재까지 딥러닝 기술에 있어 각 기술은 상기 이유로 어려움을 겪고 있는 상황이다.
한국공개특허 10-2015-0087671호는 이러한 음성 감정 인식 시스템 및 방법에 관한 것으로, 음성 데이터의 변화를 분석하여 정보를 담고 있는 프레임들을 검출하고 이를 이용하여 감정을 인식하는 기술을 기재하고 있다.
실시예들은 음성 감정 인식 및 합성의 반복 학습 방법 및 장치에 관하여 기술하며, 보다 구체적으로 음성 합성과 음성 인식이 서로 반복(Cycle) 형태를 이룰 수 있다는 점에 착안해 반복 일관성(Cyclic Consistency)을 지닐 수 있도록 딥러닝 모델을 설계해 학습하는 기술을 제공한다.
실시예들은 딥러닝 기반으로 음성 합성 및 음성 인식을 반복 학습하고, 학습 시 손실(Loss)을 활용하여 반복 일관성을 가질 수 있도록 함으로써, 음성 합성 및 음성 인식 효율을 높일 수 있는 음성 감정 인식 및 합성의 반복 학습 방법 및 장치를 제공하는데 있다.
실시예들은 음성 감정 인식(SER) 및 음성 인식(STT)의 경우 감정을 학습시킬 음성 데이터의 양이 부족하였으나, 텍스트 음성 합성(TTS)이 다양한 음성을 생성해주어 간접적으로 Data augmentation의 효과를 나타내는 음성 감정 인식 및 합성의 반복 학습 방법 및 장치를 제공하는데 있다.
일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법은, 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈에 입력하는 단계; 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계; 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계; 및 상기 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계를 포함하여 이루어질 수 있다.
상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계는, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시킬 수 있다.
상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계는, 상기 텍스트 음성 합성(TTS) 모듈을 통해 변환된 상기 음성 정보를 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈의 학습에 활용할 수 있다.
상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계는, 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 상기 음성 인식(STT) 모듈 및 상기 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시킬 수 있다.
변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계는, 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력하고, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계는, 상기 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 상기 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 상기 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성할 수 있다.
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 단계; 및 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계를 더 포함할 수 있다.
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 단계; 및 학습된 상기 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계를 더 포함할 수 있다.
다른 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치는, 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 입력 받아 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈을 통해 음성 정보로 변환하는 음성 합성부; 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에서 입력 받아 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 음성 인식부를 포함하여 이루어질 수 있다.
상기 음성 인식부는, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시킬 수 있다.
상기 음성 합성부는, 상기 텍스트 음성 합성(TTS) 모듈을 통해 변환된 상기 입력 음성은 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈의 학습에 활용할 수 있다.
상기 음성 합성부는, 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 상기 음성 인식(STT) 모듈 및 상기 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시킬 수 있다.
상기 음성 인식부는, 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력하고, 상기 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 상기 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 상기 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성할 수 있다.
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 학습부; 및 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 미세 조정부를 더 포함할 수 있다.
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 학습부; 및 학습된 상기 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 미세 조정부를 더 포함할 수 있다.
실시예들에 따르면 딥러닝 기반으로 음성 합성 및 음성 인식을 반복 학습하고, 학습 시 손실(Loss)을 활용하여 반복 일관성을 가질 수 있도록 함으로써, 음성 합성 및 음성 인식 효율을 높일 수 있는 음성 감정 인식 및 합성의 반복 학습 방법 및 장치를 제공할 수 있다.
실시예들에 따르면 음성 감정 인식(SER) 및 음성 인식(STT)의 경우 감정을 학습시킬 음성 데이터의 양이 부족하였으나, 텍스트 음성 합성(TTS)이 다양한 음성을 생성해주어 간접적으로 Data augmentation의 효과를 나타내는 음성 감정 인식 및 합성의 반복 학습 방법 및 장치를 제공할 수 있다.
도 1a 및 도 1b는 일 실시예에 따른 반복 일관성 손실을 설명하기 위한 도면이다.
도 2는 일 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 3은 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치를 나타내는 블록도이다.
도 4는 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치를 개략적으로 나타내는 도면이다.
도 5는 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법을 나타내는 흐름도이다.
도 2는 일 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 3은 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치를 나타내는 블록도이다.
도 4는 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치를 개략적으로 나타내는 도면이다.
도 5는 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법을 나타내는 흐름도이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
현재 음성 인식 기술은 감정의 변화에 따른 다양한 음성의 변화에 반응하지 못하며, 음성 합성 기술은 다양한 사람의 목소리 및 감정을 포함시킨 다양한 음성 변화를 반영한 음성 합성이 가능하나, 각 감정 별로 사람의 음성을 녹음하여 이용해야 하는 어려움이 있다.
한편, Data augmentation이란 수집한 데이터를 이용해 더 많은 데이터를 확보할 수 있도록 데이터를 증강하는 기술이다. 예를 들어, 수집된 음성에 잡음을 섞거나, 피치(pitch)를 변경하는 등의 기법이 음성에서 활용할 수 있는 데이터 증강 기술이다.
도 1a 및 도 1b는 일 실시예에 따른 반복 일관성 손실을 설명하기 위한 도면이다.
도 1a 및 도 1b을 참조하면, 반복 일관성 손실(Cyclic-consistency loss)은 발생기(Generator, G) 에 입력으로 들어가는 X와, 발생기(Generator)의 출력으로 생성된 를 비교하여, 둘의 관계가 유지되도록 설정하는 손실(loss)이다.
아래의 실시예들은 음성 감정 인식 및 합성의 반복 학습 방법 및 장치에 관한 것으로, 음성 합성과 음성 인식이 서로 반복(Cycle) 형태를 이룰 수 있다는 점에 착안해 반복 일관성(Cyclic Consistency)을 지닐 수 있도록 딥러닝 모델을 설계해 학습하는 방법을 제안한다.
도 2는 일 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2를 참조하면, 일 실시예들에 따른 전자 장치(200)는 입력 모듈(210), 출력 모듈(220), 메모리(230) 또는 프로세서(240) 중 적어도 어느 하나 이상을 포함할 수 있다.
입력 모듈(210)은 전자 장치(200)의 구성 요소에 사용될 명령 또는 데이터를 전자 장치(200)의 외부로부터 수신할 수 있다. 입력 모듈(210)은, 사용자가 전자 장치(200)에 직접적으로 명령 또는 데이터를 입력하도록 구성되는 입력 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 명령 또는 데이터를 수신하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse), 키보드(keyboard) 또는 카메라(camera) 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
출력 모듈(220)은 전자 장치(200)의 외부로 정보를 제공할 수 있다. 출력 모듈(220)은 정보를 청각적으로 출력하도록 구성되는 오디오 출력 장치, 정보를 시각적으로 출력하도록 구성되는 표시 장치 또는 외부 전자 장치와 유선 또는 무선으로 통신하여 정보를 전송하도록 구성되는 통신 장치 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 통신 장치는 유선 통신 장치 또는 무선 통신 장치 중 적어도 어느 하나를 포함하며, 무선 통신 장치는 근거리 통신 장치 또는 원거리 통신 장치 중 적어도 어느 하나를 포함할 수 있다.
메모리(230)는 전자 장치(200)의 구성 요소에 의해 사용되는 데이터를 저장할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들면, 메모리(230)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다.
프로세서(240)는 메모리(230)의 프로그램을 실행하여, 전자 장치(200)의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(240)는 음성 합성부 및 음성 인식부를 포함하여 이루어질 수 있고, 실시예에 따라 학습부 및 미세 조정부를 더 포함할 수 있다. 이를 통해 프로세서(240)는 음성 감정 인식 및 합성의 반복 학습을 수행할 수 있다.
도 3은 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치를 나타내는 블록도이다.
도 3을 참조하면, 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치(300)는 음성 합성부(310) 및 음성 인식부(320)를 포함하여 이루어질 수 있다. 실시예에 따라 음성 감정 인식 및 합성의 반복 학습 장치(300)는 학습부(330) 및 미세 조정부(340)를 더 포함할 수 있다. 여기서, 음성 감정 인식 및 합성의 반복 학습 장치(300)는 도 2의 프로세서(240)에 포함할 수 있다.
음성 합성부(310)는 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 입력 받아 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈을 통해 음성 정보로 변환할 수 있다. 여기서, 음성 합성부(310)는 텍스트 음성 합성(TTS) 모듈을 통해 변환된 입력 음성은 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈의 학습에 활용할 수 있다. 음성 합성부(310)는 입력 정보를 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 음성 인식(STT) 모듈 및 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시킬 수 있다.
텍스트 음성 합성(TTS)은 텍스트 또는 음성 정보를 음성 파형으로 변환하는 작업이며, 풍부한 seq2seq 기반 연구가 활발하게 진행되었다. 텍스트 음성 합성(TTS)은 음성 합성(Voice Conversion; VC)과 매우 관련이 깊은 작업이다. 음성 합성과 텍스트 음성 합성(TTS)은 입력 도메인만 다를 뿐, 음성 정보를 음향 형상으로 변환하는 디코더의 역할은 매우 동일하다. 텍스트 음성 합성(TTS)의 임베딩 공간은 음성 정보와 높은 상관관계가 있으며, 음성 합성은 멀티태스크 학습을 통해 텍스트 음성 합성(TTS)와 가까운 임베딩 공간을 학습할 것으로 기대된다. 본 발명에서는 성능 향상을 위해 텍스트 음성 합성(TTS)을 음성 합성에 음성 정보를 제공하는 데 활용한다.
실시예들에 따르면, 이러한 작업을 감정적 음성 합성으로 확장할 수 있다. 스타일 참조 음성을 고려할 때 스타일 인코더는 감정 정보만을 추출하고 언어적 내용을 제거한다. 스타일 인코더는 언어적 내용에 관계없이 감정을 추출하도록 설계되어 있어 복수의 입력 스타일 도메인을 처리할 수 있다. 또한 추출된 감정이 디코더에 주입되면 다양한 감정을 생성할 수 있다. 따라서 제안된 모델은 다대다의 감정적 음성 합성을 처리할 수 있다.
음성 합성(VC)은 언어적 내용을 보존하면서 사람의 목소리를 다른 스타일로 바꾸는 작업이다. 음성 합성(VC)은 시퀀스 대 시퀀스(seq2seq) 모델을 기반으로 할 수 있다. 또한, 텍스트 음성 합성(TTS) 모듈을 이용한 멀티태스크 학습을 이용하여 음성 합성을 수행할 수 있다. seq2seq 기반 텍스트 음성 합성(TTS) 모듈의 임베딩(embedding)은 텍스트에 대한 풍부한 정보를 가지고 있다. 텍스트 음성 합성(TTS) 디코더의 역할은 내장 공간을 음성 합성(VC)과 같은 음성으로 변환하는 것이다. 제안된 모델에서, 전체 네트워크는 음성 합성(VC)과 텍스트 음성 합성(TTS) 모듈의 손실을 최소화하도록 학습된다. 음성 합성(VC)은 더 많은 언어 정보를 포착하고 멀티태스크 학습에 의해 학습 안정성을 보존할 것으로 기대된다.
예를 들어, 음성 합성부(310)에서의 음성 합성 방법은 입력 음성의 페어가 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램(Mel spectrogram) 및 스타일 참조 음성의 로그 멜 스펙트로그램(Mel spectrogram)일 경우, 음성 합성(VC)을 수행하는 단계, 입력 음성의 페어가 원-핫(one-hot) 대표 텍스트 및 스타일 참조 음성의 로그 멜 스펙트로그램(Mel spectrogram)일 경우, 텍스트 음성 합성(TTS)을 수행하는 단계, 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 원-핫(one-hot) 대표 텍스트 모두 동일한 공간에 매핑된 후 멜 스펙트로그램으로 디코딩되는 단계, 및 디코딩된 멜 스펙트로그램으로부터 전처리부를 통해 선형 스펙트럼을 획득하는 단계를 포함할 수 있다. 실시예들에 따르면 스타일 참조 음성을 고려할 때 스타일 인코더는 감정 정보만을 추출하고 언어적 내용을 제거하며, 언어적 내용에 관계없이 감정을 추출하도록 설계되어 복수의 입력 스타일 도메인을 처리하고, 추출된 감정이 디코더에 주입되면 다양한 감정을 생성함으로써 다대다의 감정적 음성 합성을 처리한다.
음성 인식부(320)는 변환된 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에서 입력 받아 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성할 수 있다. 여기서, 음성 인식부(320)는 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시킬 수 있다. 예컨대, 음성 인식부(320)는 변환된 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력함에 따라 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성할 수 있다.
한편, 감정과 관련된 음성 특징이 음성 정보(음성 신호)로부터 추출될 수 있다. 일 예로, 음성 특징은 음성 신호의 전체 구간에서 추출될 수 있다. 여기서, 음성 특징은 음성 신호의 운율적(prosodic) 흐름, 예컨대 억양과 강세의 변화를 나타낼 수 있다. 다른 예로, 음성 특징은 음성 신호의 단위 구간들로부터 추출될 수 있다. 여기서, 단위 구간들은 미리 정해진 시간 간격으로 결정되며, 음성 신호의 전체 구간들로부터 구분될 수 있다. 여기서, 음성 특징은 단위 구간들 각각에서의 여기원(excitation source) 또는 성도(vocal tract) 중 적어도 어느 하나를 나타낼 수 있다.
음성 감정 인식(SER) 모듈은 음성 특징에 기반하여 음성 신호의 감정을 인식할 수 있다. 이 때 음성 감정 인식(SER) 모듈은 음성 특징에 기반하여, 감정을 분류하도록 정해진 복수 개의 감정 라벨들 중 어느 하나를 선택할 수 있다. 예를 들면, 감정 라벨들은 anger, disgust, fear, happy, neutral, sad 또는 surprise 중 적어도 어느 하나를 포함할 수 있다.
예를 들어, 음성 감정 인식(SER) 모듈은 딥러닝 기법을 이용한 음성 감정 인식에서는 주로 입력(input)을 전처리(preprocessing)를 수행한 음성을 멜-스펙토그램(mel-spectrogram)으로 변환한 후 사용할 수 있다. 음성 신호를 컨볼루션 레이어(convolution layer)와 맥스 풀링 레이어(max pooling layer)를 통과시킨 후, 두 개의 상향식 및 하향식 주의집중을 통한 값을 곱하거나 더하고, 다음 컨볼루션 레이어(convolution layer)를 통과시킬 수 있다. 이 때, 맥스 풀링 레이어(max pooling layer)의 특징(feature)은 공간적인(spatial) 방향과 채널(channel) 방향의 3 차원(dimension)의 값을 가지게 된다. 곱셈 또는 덧셈 연산을 위한 주의집중의 결과값은 공간적인(spatial) 방향과 채널(channel) 방향으로 모두 다른 값을 가질 수도 있고, 공간적인(spatial) 방향으로 일정한 값을 가지거나 채널(channel) 방향으로 일정한 값을 가질 수도 있다.
입력층에 특징 별로 복수개의 프레임들이 설정되면, 각 프레임에 해당하는 특징 벡터 별로 가중치가 곱해지고, 가중치가 곱해진 값들 중 최대값을 특징 별로 모으는 맥스 풀링(max pooling)이 수행될 수 있다. 맥스 풀링된 값들을 대상으로 소프트맥스 함수에 기초하여 특징 별 손실(loss)이 계산되고, 계산된 손실을 통해 음성 신호에서 감정을 인식할 수 있다.
이처럼, 감정을 인식하기 위한 학습 모델을 생성하는 손실이 계산되면, 최종 학습 기준으로 설정하고, 입력 데이터 셋을 대상으로 손실이 최소값에 수렴하도록 학습이 수행될 수 있다. 특정 음성 신호가 입력되면, 상기 학습이 수행됨에 따라 생성된 학습 모델을 기반으로 상기 입력된 특정 음성 신호에서 추출된 특징 벡터를 상기 학습 모델의 입력으로 설정하여, 상기 음성 신호에 해당하는 사용자의 감정이 인식되어 출력값으로 출력될 수 있다.
여기에서는 음성 감정 인식(SER) 모듈의 학습 방법을 예를 들어 설명하였으나, 음성 인식(Speech-to-Text; STT) 모듈 및 음성 화자 인식(Speaker Identification; SI) 모듈 또한 이러한 방식으로 학습될 수 있다.
또한, 음성 감정 인식 및 합성의 반복 학습 장치(300)는 학습부(330) 및 미세 조정부(340)를 더 포함할 수 있다.
학습부(330)는 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 개별적으로 학습시킬 수 있다.
그리고, 미세 조정부(340)는 학습된 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 미세 조정(fine tuning)할 수 있다. 이 때, 미세 조정부(340)는 학습된 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 미세 조정(fine tuning)할 수 있다.
도 4는 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치를 개략적으로 나타내는 도면이다.
도 4를 참조하면, 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치(400)에 적용되는 딥러닝 모델을 개략적으로 나타낸다.
딥러닝 모델의 입력으로는 텍스트(Text, 401), 화자(ID, 402) 및 감정(Style, 403)이 활용되고, 텍스트 음성 합성(TTS) 모듈(410)은 이를 적절한 음성 정보로 변환할 수 있다.
변환된 음성 정보는 음성 인식(STT) 모듈(420), 음성 화자 인식(SI) 모듈(430) 및 음성 감정 인식(SER) 모듈(440)의 입력으로 사용되고, 각 모듈은 텍스트(Text, 405), 화자(ID, 406) 및 감정(Style, 407)을 출력할 수 있다.
출력된 텍스트(Text, 405), 화자(ID, 406) 및 감정(Style, 407)은 입력에 사용된 텍스트(Text, 401), 화자(ID, 402) 및 감정(Style, 403)과 비교되어 이를 유지할 수 있도록 손실(Loss)을 활용할 수 있다.
중간에 생성된 음성 정보(Wav, 404)는 학습 시 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈 학습에 활용할 수 있다.
여기서, 텍스트 음성 합성(TTS) 모듈(410)은 문자열을 입력으로 받아 음성 신호를 출력하는 모듈을 의미하며, 문자열은 음소, 음절 등 다양한 형태의 단위로 입력이 가능하다. 입력은 원 핫 벡터(one-hot vector)의 형태로 치환한 뒤, 캐릭터 임베딩(Character embedding)으로 매핑(mapping)될 수 있다. 매핑된 임베딩(embedding)은 텍스트 인코더(text encoder)를 통해 텍스트 임베딩(text embedding)으로 변환되고, 텍스트 임베딩은 CNN 혹은 RNN 디코더(decoder)를 이용해 멜 스펙트로그램(Mel spectrogram)의 형태로 변환될 수 있다. 이 때, 디코더는 매 디코딩 타임 스텝(decoding time step)마다 어텐션(attention)을 이용해 텍스트 임베딩 중 어떤 텍스트에 집중할 지를 결정하게 된다. 추론된 멜 스펙트로그램(Mel spectrogram)과 정답 멜 스펙트로그램(Mel spectrogram) 사이의 L2 거리 손실(distance loss)을 이용해 텍스트 음성 합성(TTS)을 구성하는 모듈들의 파라미터가 업데이트될 수 있다. 멜 스펙트로그램(Mel spectrogram)은 보코더(vocoder)를 통해 음성 신호로 변환되며, 이 때 보코더는 trainable 할 수도, rule based 일 수도 있다.
음성 인식(STT) 모듈(420)은 음성 신호를 입력으로 받아 문자열을 출력하는 모듈을 의미한다. RNN 기반의 Seq2seq 모듈로 구성될 수도 있고, Acoustic model과 Language model로 구성된 DNN-HMM 기반의 음성 인식기로 구성될 수도 있다. 여기에서는 전체 시스템이 동시에 학습될 수 있어야 하기 때문에, RNN 기반의 seq2seq 모듈이 이용될 수 있다. 멜 스펙트로그램(Mel spectrogram)을 입력으로 받아 Connectionist temporal classification(CTC) 손실(loss)을 활용하여 학습이 되며, seq2seq를 학습할 시에 어텐션(attention)을 이용할 수 있다.
음성 화자 인식(SI) 모듈(430)은 음성 신호를 입력으로 받아 어떤 화자인지 구분하는 모듈을 의미한다. 음성 신호는 멜 스펙트로그램(Mel spectrogram)이 이용되며, 입력된 신호는 CNN + 맥스 풀링(max pooling) 혹은 RNN의 마지막 타임 스텝(time step)을 입력으로 받아 그 상단에 Fully connected layer가 연결되어 분류(classification)를 수행할 수 있다. 소프트맥스(Softmax) 상단에 크로스 엔트로피 손실(cross entropy loss)을 이용해 모듈이 학습될 수 있다.
음성 감정 인식(SER) 모듈(440)은 음성 감정 인식으로 음성 신호를 입력으로 받아 어떤 감정인지 구분하는 모듈을 의미한다. 모듈 구조는 음성 화자 인식(SI) 모듈(430)과 기본적으로 동일하게 구성될 수 있다.
학습의 순서는 각 모듈(410, 420, 430, 440)을 개별적으로 학습시킨 뒤 전체 모델을 미세 조정(fine tuning)할 수도 있고, 음성 화자 인식(SI) 모듈(430)의 경우에는 미세 조정(fine tuning)하지 않고 고정시킨 상태에서 나머지 모듈(410, 420, 440) 부분만 미세 조정(fine tuning)할 수 있다.
기존의 텍스트 음성 합성(TTS)은 감정이 약하게 표현되는 것이 문제점이었으나, 실시예들에 따르면 반복 손실(cyclic loss)로 인해서 생성되는 음성의 텍스트(Text), 화자(ID) 및 감정(Style)이 제대로 반영될 수 있다. 또한, 실시예들에 따르면 음성 감정 인식(SER) 및 음성 인식(STT)의 경우 감정을 학습시킬 음성 데이터의 양이 부족하였으나, 텍스트 음성 합성(TTS)이 다양한 음성을 생성해주어 Data augmentation의 효과를 간접적으로 볼 수 있다.
기존의 딥러닝 연구 및 개발은 주로 각 테스크(Task) 별로 진행된다. 즉, 음성 인식(STT), 텍스트 음성 합성(TTS), 음성 감정 인식(SER) 등의 모듈이 개별적으로 연구된다. 실시예들에 따르면 다양한 테스크(Task)를 연결함으로써 다른 모듈 간의 시너지를 발휘할 수 있다.
도 5는 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법을 나타내는 흐름도이다.
도 5를 참조하면, 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 방법은, 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(TTS) 모듈에 입력하는 단계(S110), 입력 정보를 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계(S120), 변환된 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계(S130), 및 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계(S140)를 포함하여 이루어질 수 있다.
다른 실시예에 따르면, 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 개별적으로 학습시키는 단계, 및 학습된 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계를 더 포함할 수 있다.
또 다른 실시예에 따르면, 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 개별적으로 학습시키는 단계, 및 학습된 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계를 더 포함할 수 있다.
여기서, 음성 감정 인식 및 합성의 반복 학습 방법은 아래에서 설명되는 컴퓨터를 통해 구현되는 음성 감정 인식 및 합성의 반복 학습 장치를 통해 수행될 수 있다. 아래에서 음성 감정 인식 및 합성의 반복 학습 방법의 각 단계에 대해 보다 상세히 설명한다.
음성 감정 인식 및 합성의 반복 학습 방법은 도 3에서 설명한 음성 감정 인식 및 합성의 반복 학습 장치를 예를 들어 설명할 수 있다. 일 실시예에 따른 음성 감정 인식 및 합성의 반복 학습 장치는 음성 합성부 및 음성 인식부를 포함하여 이루어질 수 있다. 실시예에 따라 음성 감정 인식 및 합성의 반복 학습 장치는 학습부 및 미세 조정부를 더 포함할 수 있다.
단계(S110)에서, 음성 합성부는 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(TTS) 모듈에 입력할 수 있다.
단계(S120)에서, 음성 합성부는 입력 정보를 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환할 수 있다. 여기서, 음성 합성부는 텍스트 음성 합성(TTS) 모듈을 통해 변환된 입력 음성은 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈의 학습에 활용할 수 있다. 음성 합성부는 입력 정보를 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 음성 인식(STT) 모듈 및 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시킬 수 있다.
단계(S130)에서, 음성 인식부는 변환된 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상에 입력할 수 있다.
단계(S140)에서, 음성 인식부는 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성할 수 있다. 여기서, 음성 인식부는 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시킬 수 있다.
예컨대, 음성 인식부는 변환된 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력함에 따라 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성할 수 있다.
또한, 음성 감정 인식 및 합성의 반복 학습 장치는 학습부 및 미세 조정부를 더 포함할 수 있다.
학습부는 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 개별적으로 학습시킬 수 있다. 여기서, 학습부는 단계(S110) 내지 단계(S140)을 반복 수행함에 따라 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 개별적으로 학습시킬 수 있다.
그리고, 미세 조정부는 학습된 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 미세 조정(fine tuning)할 수 있다. 이 때, 미세 조정부는 학습된 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 텍스트 음성 합성(TTS) 모듈, 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식 모듈을 미세 조정(fine tuning)할 수 있다.
이상과 같이, 실시예들에 따르면 딥러닝 기반으로 음성 합성 및 음성 인식을 반복 학습하고, 학습 시 손실(Loss)을 활용하여 반복 일관성을 가질 수 있도록 함으로써 음성 합성 및 음성 인식 효율을 높일 수 있다. 또한, 기존의 음성 감정 인식(SER) 및 음성 인식(STT)의 경우 감정을 학습시킬 음성 데이터의 양이 부족하였으나, 텍스트 음성 합성(TTS)이 다양한 음성을 생성해주어 간접적으로 Data augmentation의 효과를 나타낼 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (14)
- 음성 감정 인식 및 합성의 반복 학습 장치를 이용한 음성 감정 인식 및 합성의 반복 학습 방법에 있어서,
텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈에 입력하는 단계;
상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계;
변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계; 및
상기 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계
를 포함하고,
상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계는,
상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 상기 음성 인식(STT) 모듈 및 상기 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시키고, 상기 텍스트 음성 합성(TTS) 모듈을 통해 변환된 상기 음성 정보를 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈의 학습에 활용하는 단계
를 포함하고,
상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계는,
상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시키는 단계
를 포함하는, 음성 감정 인식 및 합성의 반복 학습 방법. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계는,
변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력하고,
상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계는,
상기 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 상기 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 상기 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성하는 것
을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 방법. - 제1항에 있어서,
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 단계; 및
학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계
를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 방법. - 제1항에 있어서,
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 단계; 및
학습된 상기 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계
를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 방법. - 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 입력 받아 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈을 통해 음성 정보로 변환하는 음성 합성부; 및
변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에서 입력 받아 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 음성 인식부
를 포함하고,
상기 음성 합성부는,
상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 상기 음성 인식(STT) 모듈 및 상기 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시키고, 상기 텍스트 음성 합성(TTS) 모듈을 통해 변환된 상기 입력 음성은 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈 학습에 활용하는 것을 포함하고,
상기 음성 인식부는,
상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시키는 것
을 포함하는, 음성 감정 인식 및 합성의 반복 학습 장치. - 삭제
- 삭제
- 삭제
- 제8항에 있어서,
상기 음성 인식부는,
변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력하고, 상기 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 상기 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 상기 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성하는 것
을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 장치. - 제8항에 있어서,
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 학습부; 및
학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 미세 조정부
를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 장치. - 제8항에 있어서,
상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 학습부; 및
학습된 상기 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 미세 조정부
를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200081881A KR102382191B1 (ko) | 2020-07-03 | 2020-07-03 | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200081881A KR102382191B1 (ko) | 2020-07-03 | 2020-07-03 | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220004272A KR20220004272A (ko) | 2022-01-11 |
KR102382191B1 true KR102382191B1 (ko) | 2022-04-04 |
Family
ID=79355871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200081881A KR102382191B1 (ko) | 2020-07-03 | 2020-07-03 | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102382191B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102709425B1 (ko) * | 2022-12-13 | 2024-09-24 | 고려대학교산학협력단 | 발화 상상 시 뇌파 기반 음성 합성 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101594057B1 (ko) | 2009-08-19 | 2016-02-15 | 삼성전자주식회사 | 텍스트 데이터의 처리 방법 및 장치 |
KR102057927B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
JP2020071676A (ja) | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102191306B1 (ko) | 2014-01-22 | 2020-12-15 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
KR102171559B1 (ko) * | 2018-10-30 | 2020-10-29 | 주식회사 셀바스에이아이 | 음성 합성 모델의 학습용 데이터 생성 방법 및 음성 합성 모델의 학습 방법 |
-
2020
- 2020-07-03 KR KR1020200081881A patent/KR102382191B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101594057B1 (ko) | 2009-08-19 | 2016-02-15 | 삼성전자주식회사 | 텍스트 데이터의 처리 방법 및 장치 |
JP2020071676A (ja) | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
KR102057927B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
Non-Patent Citations (2)
Title |
---|
Convolutional MKL Based Multimodal Emotion Recognition and Sentiment Analysis. Soujanya Poria et al. 2016. |
Self-Attentive Feature-level Fusion for Multimodal Emotion Detection. IEEE. Devamanyu Hazarika et al. Date of Conference : 2018.04.12. |
Also Published As
Publication number | Publication date |
---|---|
KR20220004272A (ko) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3895159B1 (en) | Multi-speaker neural text-to-speech synthesis | |
JP7355306B2 (ja) | 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
KR102677459B1 (ko) | 2-레벨 스피치 운율 전송 | |
US20220068255A1 (en) | Speech Recognition Using Unspoken Text and Speech Synthesis | |
US11538455B2 (en) | Speech style transfer | |
EP3752964B1 (en) | Speech style transfer | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
US11392833B2 (en) | Neural acoustic model | |
US11475874B2 (en) | Generating diverse and natural text-to-speech samples | |
GB2591245A (en) | An expressive text-to-speech system | |
CN113761841B (zh) | 将文本数据转换为声学特征的方法 | |
CN111681641B (zh) | 基于短语的端对端文本到语音(tts)合成 | |
CN117373431A (zh) | 音频合成方法、训练方法、装置、设备及存储介质 | |
KR102382191B1 (ko) | 음성 감정 인식 및 합성의 반복 학습 방법 및 장치 | |
CN113270091A (zh) | 音频处理系统和方法 | |
JP7291099B2 (ja) | 音声認識方法及び装置 | |
KR102295860B1 (ko) | 상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치 | |
KR102277205B1 (ko) | 오디오 변환 장치 및 방법 | |
CN113763924A (zh) | 声学深度学习模型训练方法、语音生成方法及设备 | |
KR102426020B1 (ko) | 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치 | |
CN118366430B (zh) | 一种拟人化的语音合成方法、装置及可读存储介质 | |
CN113192483B (zh) | 一种文本转换为语音的方法、装置、存储介质和设备 | |
CN118411979B (zh) | 合成语音的调整方法、训练方法及相关装置 | |
Sharma | Speech and Text-Based Emotion Recognizer | |
CN118411979A (zh) | 合成语音的调整方法、训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |