KR102159988B1 - 음성 몽타주 생성 방법 및 시스템 - Google Patents
음성 몽타주 생성 방법 및 시스템 Download PDFInfo
- Publication number
- KR102159988B1 KR102159988B1 KR1020180167980A KR20180167980A KR102159988B1 KR 102159988 B1 KR102159988 B1 KR 102159988B1 KR 1020180167980 A KR1020180167980 A KR 1020180167980A KR 20180167980 A KR20180167980 A KR 20180167980A KR 102159988 B1 KR102159988 B1 KR 102159988B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- montage
- speaker
- speech
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013135 deep learning Methods 0.000 claims abstract description 25
- 230000008451 emotion Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 6
- 239000010410 layer Substances 0.000 description 44
- 238000010586 diagram Methods 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000000946 synaptic effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
또한, 본 발명은 음성 몽타주 생성 시스템(10)에 관한 것으로서, 보다 구체적으로는 다화자 음성 합성기를 이용한 음성 몽타주 생성 시스템으로서, 문장을 입력하는 입력부(100); 상기 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부(200); 상기 파라미터 설정부(200)에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부(300); 및 상기 음성 몽타주 생성부(300)에 의해 생성된 음성 몽타주를 출력하는 출력부(400)를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 다화자 음성 합성기를 기반으로 각 화자의 각기 다른 특징 파라미터를 설정함으로써, 찾고자하는 용의자의 목소리와 유사한 음성을 합성하여 출력할 수 있다.
또한, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)을 이용하여 다화자 음성 합성기를 학습시킴으로써, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다.
뿐만 아니라, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)으로 학습된 다화자 음성 합성기를 사용함으로써, 각 화자의 음성을 만들 수 있을 뿐만 아니라, 두 개 이상의 음색을 혼합하여 목적으로 하는 화자의 음색을 효과적으로 합성하여 출력할 수 있다.
Description
도 2는 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 4는 은닉 마르코프 모델(Hidden Markov Model, HMM)을 설명하기 위해 도시한 도면.
도 5는 인공신경망 모델 중 MLP(Multi-Layer Perceptron) 모델을 설명하기 위해 도시한 도면.
도 6은 딥 러닝(Deep Learning) 모델 중 RNN(Recurrent Neural Networks) 모델을 설명하기 위해 도시한 도면.
도 7은 딥 러닝(Deep Learning) 모델 중 LSTM(Long Short Term Memory) 모델을 설명하기 위해 도시한 도면.
도 8은 딥 러닝(Deep Learning) 모델 중 CNN(Convolutional Neural Network) 모델을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템의 구성을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템에 있어서, 파라미터 설정부의 세부적인 구성을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템에 있어서, 음성 몽타주 생성부의 세부적인 구성을 도시한 도면.
100: 입력부
200: 파라미터 설정부
210: 화자 설정 모듈
220: 감정 설정 모듈
230: 음성 스타일 설정 모듈
300: 음성 몽타주 생성부
310: 학습 모듈
320: 음성 몽타주 생성 모듈
400: 출력부
S100: 문장을 입력하는 단계
S200: 단계 S100에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계
S210: 단계 S100에서 입력된 문장에 대해 화자를 설정하는 단계
S220: 단계 S210에서 화자가 설정된 문장에 대해 감정을 설정하는 단계
S230: 단계 S220에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계
S300: 단계 S200에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계
S310: 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계
S320: 단계 S210 내지 단계 S230을 통해 설정된 특징 파라미터와 단계 S310에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계
S400: 단계 S300에서 생성된 음성 몽타주를 출력하는 단계
Claims (10)
- 다화자가 등록되어 있는 음성 합성기를 이용하여 여러 화자의 음성 및 음성 신호 특징을 혼합하여 특정 사람의 목소리와 유사한 새로운 음성을 만들어 내는 음성 몽타주 생성 방법으로서,
(1) 문장을 입력하는 단계;
(2) 상기 단계 (1)에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계;
(3) 상기 단계 (2)에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계; 및
(4) 상기 단계 (3)에서 생성된 음성 몽타주를 출력하는 단계를 포함하되,
상기 단계 (2)에서의 특징 파라미터는, 화자, 감정 및 음성 스타일이고,
상기 단계 (2)는,
(2-1) 상기 단계 (1)에서 입력된 문장에 대해 화자를 설정하되, 설정된 화자의 음성 특징들을 평균적으로 반영하여 생성한 합성음을 사용자에게 들려주고, 생성할 합성음이 설정된 화자들 중 어느 화자에 얼마나 더 가까워야 하는지에 대한 질의에 대한 답변을 사용자로부터 입력받으며, 입력받은 답변에 따라 화자 선택의 가중치를 결정하고, 결정된 가중치에 따라 다시 생성한 합성음을 사용자에게 들려주는 과정을, 가중치가 올바로 선택되었다고 판단될 때까지 반복하는 단계;
(2-2) 상기 단계 (2-1)에서 화자가 설정된 문장에 대해 음성 몽타주 사용자가 기억하는 상황의 감정을 설정하는 단계; 및
(2-3) 상기 단계 (2-2)에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계를 포함하며,
상기 단계 (3)은,
(3-1) 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계; 및
(3-2) 상기 단계 (2-1) 내지 상기 단계 (2-3)을 통해 설정된 특징 파라미터와 상기 단계 (3-1)에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계를 포함하는 것을 특징으로 하는, 음성 몽타주 생성 방법.
- 삭제
- 제1항에 있어서, 상기 음성 스타일은,
음성의 높낮이, 음성의 속도, 음성의 크기 및 발음인 것을 특징으로 하는, 음성 몽타주 생성 방법.
- 삭제
- 삭제
- 다화자가 등록되어 있는 음성 합성기를 이용하여 여러 화자의 음성 및 음성 신호 특징을 혼합하여 특정 사람의 목소리와 유사한 새로운 음성을 만들어 내는 음성 몽타주 생성 시스템으로서,
문장을 입력하는 입력부(100);
상기 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부(200);
상기 파라미터 설정부(200)에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부(300); 및
상기 음성 몽타주 생성부(300)에 의해 생성된 음성 몽타주를 출력하는 출력부(400)를 포함하되,
상기 특징 파라미터는, 화자, 감정 및 음성 스타일이고,
상기 파라미터 설정부(200)는,
상기 입력부(100)에 의해 입력된 문장에 대해 화자를 설정하되, 설정된 화자의 음성 특징들을 평균적으로 반영하여 생성한 합성음을 사용자에게 들려주고, 생성할 합성음이 설정된 화자들 중 어느 화자에 얼마나 더 가까워야 하는지에 대한 질의에 대한 답변을 사용자로부터 입력받으며, 입력받은 답변에 따라 화자 선택의 가중치를 결정하고, 결정된 가중치에 따라 다시 생성한 합성음을 사용자에게 들려주는 과정을, 가중치가 올바로 선택되었다고 판단될 때까지 반복하는 화자 설정 모듈(210);
상기 화자 설정 모듈(210)에 의해 화자가 설정된 문장에 대해 음성 몽타주 사용자가 기억하는 상황의 감정을 설정하는 감정 설정 모듈(220); 및
상기 감정 설정 모듈(220)에 의해 감정이 설정된 문장에 대해 음성 스타일을 설정하는 음성 스타일 설정 모듈(230)을 포함하며,
상기 음성 몽타주 생성부(300)는,
은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 학습 모듈; 및
상기 화자 설정 모듈, 상기 감정 설정 모듈 및 상기 음성 스타일 설정 모듈을 통해 설정된 특징 파라미터와 상기 학습 모듈에 의해 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성 모듈을 포함하는 것을 특징으로 하는, 음성 몽타주 생성 시스템.
- 삭제
- 제6항에 있어서, 상기 음성 스타일은,
음성의 높낮이, 음성의 속도, 음성의 크기 및 발음인 것을 특징으로 하는, 음성 몽타주 생성 시스템. - 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180167980A KR102159988B1 (ko) | 2018-12-21 | 2018-12-21 | 음성 몽타주 생성 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180167980A KR102159988B1 (ko) | 2018-12-21 | 2018-12-21 | 음성 몽타주 생성 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200084414A KR20200084414A (ko) | 2020-07-13 |
KR102159988B1 true KR102159988B1 (ko) | 2020-09-25 |
Family
ID=71571029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180167980A Active KR102159988B1 (ko) | 2018-12-21 | 2018-12-21 | 음성 몽타주 생성 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102159988B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450764B (zh) * | 2021-07-08 | 2024-02-06 | 平安科技(深圳)有限公司 | 文本语音识别方法、装置、设备及存储介质 |
CN116259312A (zh) * | 2021-12-21 | 2023-06-13 | 上海理工大学 | 一种针对语音自动剪辑任务的方法及神经网络模型训练方法 |
CN116510249A (zh) * | 2023-05-09 | 2023-08-01 | 福州大学 | 一种基于肌电信号的手部虚拟康复训练系统及训练方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101221188B1 (ko) * | 2011-04-26 | 2013-01-10 | 한국과학기술원 | 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체 |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
-
2018
- 2018-12-21 KR KR1020180167980A patent/KR102159988B1/ko active Active
Also Published As
Publication number | Publication date |
---|---|
KR20200084414A (ko) | 2020-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Venkataramanan et al. | Emotion recognition from speech | |
CN111081230B (zh) | 语音识别方法和设备 | |
KR102159988B1 (ko) | 음성 몽타주 생성 방법 및 시스템 | |
Farhadipour et al. | Dysarthric speaker identification with different degrees of dysarthria severity using deep belief networks | |
Joshy et al. | Dysarthria severity assessment using squeeze-and-excitation networks | |
US10741184B2 (en) | Arithmetic operation apparatus, arithmetic operation method, and computer program product | |
KR20010002997A (ko) | 신경회로망을 이용한 선택적 주의집중 방법 | |
Sarma et al. | Phoneme-based speech segmentation using hybrid soft computing framework | |
Mahfood et al. | Emotion recognition from speech using convolutional neural networks | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
Mirhassani et al. | Fuzzy-based discriminative feature representation for children's speech recognition | |
Vlasenko et al. | Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition | |
Nikitin et al. | Automated sound generation based on image colour spectrum with using the recurrent neural network | |
Li et al. | An improved method of speech recognition based on probabilistic neural network ensembles | |
Ferrat et al. | Classification of the Arabic emphatic consonants using time delay neural network | |
Patel et al. | Machine learning for automatic speech recognition | |
Dave | An approach to increase word recognition accuracy in Gujarati language | |
Shahriar et al. | On the Impact of Deep Learning and Feature Extraction for Arabic Audio Classification and Speaker Identification | |
Balogun et al. | Exploring the Influence of Noise on Voice Recognition Systems: A Case Study of Supervised Learning Algorithms | |
Raut et al. | Emotion Recognition on Speech Attributes Using Machine Learning | |
CN118173082B (zh) | 语音生成的方法、装置、计算机设备和存储介质 | |
Muneer et al. | Convolutional neural network-based automatic speech emotion recognition system for malayalam | |
Yaser et al. | Speech Emotion Recognition using Transfer Learning Approach and Real-Time Evaluation in English and Bengali Language | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning | |
Meintrup | Detection and Classification of Sound Events in Automatic Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20181221 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200324 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20200828 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20200921 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20200922 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20230823 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20240823 Start annual number: 5 End annual number: 5 |