KR102159988B1 - 음성 몽타주 생성 방법 및 시스템 - Google Patents
음성 몽타주 생성 방법 및 시스템 Download PDFInfo
- Publication number
- KR102159988B1 KR102159988B1 KR1020180167980A KR20180167980A KR102159988B1 KR 102159988 B1 KR102159988 B1 KR 102159988B1 KR 1020180167980 A KR1020180167980 A KR 1020180167980A KR 20180167980 A KR20180167980 A KR 20180167980A KR 102159988 B1 KR102159988 B1 KR 102159988B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- montage
- speaker
- speech
- sentence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013135 deep learning Methods 0.000 claims abstract description 25
- 230000008451 emotion Effects 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 6
- 239000010410 layer Substances 0.000 description 44
- 238000010586 diagram Methods 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000000946 synaptic effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 음성 몽타주 생성 방법에 관한 것으로서, 보다 구체적으로는 다화자 음성 합성기를 이용한 음성 몽타주 생성 방법으로서, (1) 문장을 입력하는 단계; (2) 상기 단계 (1)에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계; (3) 상기 단계 (2)에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계; 및 (4) 상기 단계 (3)에서 생성된 음성 몽타주를 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 음성 몽타주 생성 시스템(10)에 관한 것으로서, 보다 구체적으로는 다화자 음성 합성기를 이용한 음성 몽타주 생성 시스템으로서, 문장을 입력하는 입력부(100); 상기 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부(200); 상기 파라미터 설정부(200)에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부(300); 및 상기 음성 몽타주 생성부(300)에 의해 생성된 음성 몽타주를 출력하는 출력부(400)를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 다화자 음성 합성기를 기반으로 각 화자의 각기 다른 특징 파라미터를 설정함으로써, 찾고자하는 용의자의 목소리와 유사한 음성을 합성하여 출력할 수 있다.
또한, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)을 이용하여 다화자 음성 합성기를 학습시킴으로써, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다.
뿐만 아니라, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)으로 학습된 다화자 음성 합성기를 사용함으로써, 각 화자의 음성을 만들 수 있을 뿐만 아니라, 두 개 이상의 음색을 혼합하여 목적으로 하는 화자의 음색을 효과적으로 합성하여 출력할 수 있다.
또한, 본 발명은 음성 몽타주 생성 시스템(10)에 관한 것으로서, 보다 구체적으로는 다화자 음성 합성기를 이용한 음성 몽타주 생성 시스템으로서, 문장을 입력하는 입력부(100); 상기 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부(200); 상기 파라미터 설정부(200)에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부(300); 및 상기 음성 몽타주 생성부(300)에 의해 생성된 음성 몽타주를 출력하는 출력부(400)를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 다화자 음성 합성기를 기반으로 각 화자의 각기 다른 특징 파라미터를 설정함으로써, 찾고자하는 용의자의 목소리와 유사한 음성을 합성하여 출력할 수 있다.
또한, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)을 이용하여 다화자 음성 합성기를 학습시킴으로써, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다.
뿐만 아니라, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)으로 학습된 다화자 음성 합성기를 사용함으로써, 각 화자의 음성을 만들 수 있을 뿐만 아니라, 두 개 이상의 음색을 혼합하여 목적으로 하는 화자의 음색을 효과적으로 합성하여 출력할 수 있다.
Description
본 발명은 음성 몽타주 생성 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 다화자 음성 합성기를 이용한 음성 몽타주 생성 방법 및 시스템에 관한 것이다.
몽타주(montage)는 프랑스어 monter(모으다, 조합하다)에서 유래한 용어로서, 영상, 사진 등 시각적인 매체를 떼어 붙여 새로운 영상, 이미지, 그림 등을 만들어내는데 사용된다. 이러한 몽타주의 개념은 범죄수사학적인 관점에서 경찰의 수사과정에서 도주한 용의자의 인상착의 등을 피해자의 기억에 의존한 설명만으로 재구성하여 그려내는 방식에도 사용된다.
음성 몽타주(voice montage)는 기존의 다화자가 등록되어 있는 음성 합성기를 이용하여 여러 화자의 음성 및 음성 신호 특징을 혼합하여 특정 사람의 목소리와 유사한 새로운 음성을 만들어 내는 것을 의미한다.
음성 합성(speech synthesis)이란, 주어진 텍스트로부터 해당하는 사람의 음성을 만들어 내는 기술을 의미한다. 기존의 음편 조합 방식의 음성 합성 기법은, 수집된 음성 데이터베이스로부터 짧은 단위의 음편들을 저장한 후, 발화하고자 하는 문장의 텍스트에 해당하는 음편들을 연결하여 합성음을 만들어낸다. 음편 조합 방식은 음질이 좋다는 장점이 있지만, 수집된 음성 데이터베이스에 존재하지 않는 음편을 처리하기 어렵고, 음편 사이의 구간이 부자연스러우며, 음성 데이터베이스에 등록된 화자의 목소리만 사용할 수 있다는 단점이 있다.
따라서, 데이터베이스에 존재하지 않는 화자의 목소리를 사용할 수 있는 음성 몽타주 생성 방법 및 시스템의 개발이 요구되고 있는 실정이다.
한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-1420557호(발명의 명칭: 파라미터 음성 합성 방법 및 시스템) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 다화자 음성 합성기를 기반으로 각 화자의 각기 다른 특징 파라미터를 설정함으로써, 찾고자하는 용의자의 목소리와 유사한 음성을 합성하여 출력할 수 있는, 음성 몽타주 생성 방법 및 시스템을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)을 이용하여 다화자 음성 합성기를 학습시킴으로써, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있는, 음성 몽타주 생성 방법 및 시스템을 제공하는 것을 다른 목적으로 한다.
뿐만 아니라, 본 발명은, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)으로 학습된 다화자 음성 합성기를 사용함으로써, 각 화자의 음성을 만들 수 있을 뿐만 아니라, 두 개 이상의 음색을 혼합하여 목적으로 하는 화자의 음색을 효과적으로 합성하여 출력할 수 있는, 음성 몽타주 생성 방법 및 시스템을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 음성 몽타주 생성 방법은,
음성 몽타주 생성 방법으로서,
(1) 문장을 입력하는 단계;
(2) 상기 단계 (1)에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계;
(3) 상기 단계 (2)에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계; 및
(4) 상기 단계 (3)에서 생성된 음성 몽타주를 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (2)에서의 특징 파라미터는,
화자, 감정 및 음성 스타일일 수 있다.
더욱 바람직하게는, 상기 음성 스타일은,
음성의 높낮이, 음성의 속도, 음성의 크기 및 발음일 수 있다.
더욱 바람직하게는, 상기 단계 (2)는,
(2-1) 상기 단계 (1)에서 입력된 문장에 대해 화자를 설정하는 단계;
(2-2) 상기 단계 (2-1)에서 화자가 설정된 문장에 대해 감정을 설정하는 단계; 및
(2-3) 상기 단계 (2-2)에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계를 포함할 수 있다.
더더욱 바람직하게는, 상기 단계 (3)은,
(3-1) 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계; 및
(3-2) 상기 단계 (2-1) 내지 상기 단계 (2-3)을 통해 설정된 특징 파라미터와 상기 단계 (3-1)에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계를 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 음성 몽타주 생성 시스템은,
음성 몽타주 생성 시스템으로서,
문장을 입력하는 입력부;
상기 입력부에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부;
상기 파라미터 설정부에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부; 및
상기 음성 몽타주 생성부에 의해 생성된 음성 몽타주를 출력하는 출력부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 특징 파라미터는,
화자, 감정 및 음성 스타일일 수 있다.
더욱 바람직하게는, 상기 음성 스타일은,
음성의 높낮이, 음성의 속도, 음성의 크기 및 발음일 수 있다.
더욱 바람직하게는, 상기 파라미터 설정부는,
상기 입력부에 의해 입력된 문장에 대해 화자를 설정하는 화자 설정 모듈;
상기 화자 설정 모듈에 의해 화자가 설정된 문장에 대해 감정을 설정하는 감정 설정 모듈; 및
상기 감정 설정 모듈에 의해 감정이 설정된 문장에 대해 음성 스타일을 설정하는 음성 스타일 설정 모듈을 포함할 수 있다.
더더욱 바람직하게는, 상기 음성 몽타주 생성부는,
은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 학습 모듈; 및
상기 화자 설정 모듈, 상기 감정 설정 모듈 및 상기 음성 스타일 설정 모듈을 통해 설정된 특징 파라미터와 상기 학습 모듈에 의해 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성 모듈을 포함할 수 있다.
본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템에 따르면, 다화자 음성 합성기를 기반으로 각 화자의 각기 다른 특징 파라미터를 설정함으로써, 찾고자하는 용의자의 목소리와 유사한 음성을 합성하여 출력할 수 있다.
또한, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)을 이용하여 다화자 음성 합성기를 학습시킴으로써, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다.
뿐만 아니라, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)으로 학습된 다화자 음성 합성기를 사용함으로써, 각 화자의 음성을 만들 수 있을 뿐만 아니라, 두 개 이상의 음색을 혼합하여 목적으로 하는 화자의 음색을 효과적으로 합성하여 출력할 수 있다.
도 1은 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 흐름도를 도시한 도면.
도 2는 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 4는 은닉 마르코프 모델(Hidden Markov Model, HMM)을 설명하기 위해 도시한 도면.
도 5는 인공신경망 모델 중 MLP(Multi-Layer Perceptron) 모델을 설명하기 위해 도시한 도면.
도 6은 딥 러닝(Deep Learning) 모델 중 RNN(Recurrent Neural Networks) 모델을 설명하기 위해 도시한 도면.
도 7은 딥 러닝(Deep Learning) 모델 중 LSTM(Long Short Term Memory) 모델을 설명하기 위해 도시한 도면.
도 8은 딥 러닝(Deep Learning) 모델 중 CNN(Convolutional Neural Network) 모델을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템의 구성을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템에 있어서, 파라미터 설정부의 세부적인 구성을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템에 있어서, 음성 몽타주 생성부의 세부적인 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 4는 은닉 마르코프 모델(Hidden Markov Model, HMM)을 설명하기 위해 도시한 도면.
도 5는 인공신경망 모델 중 MLP(Multi-Layer Perceptron) 모델을 설명하기 위해 도시한 도면.
도 6은 딥 러닝(Deep Learning) 모델 중 RNN(Recurrent Neural Networks) 모델을 설명하기 위해 도시한 도면.
도 7은 딥 러닝(Deep Learning) 모델 중 LSTM(Long Short Term Memory) 모델을 설명하기 위해 도시한 도면.
도 8은 딥 러닝(Deep Learning) 모델 중 CNN(Convolutional Neural Network) 모델을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템의 구성을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템에 있어서, 파라미터 설정부의 세부적인 구성을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템에 있어서, 음성 몽타주 생성부의 세부적인 구성을 도시한 도면.
이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 각각의 단계는 컴퓨터 장치에 의해 수행될 수 있다. 이하에서는 설명의 편의를 위해 각각의 단계에서 수행 주체가 생략될 수도 있다.
도 1은 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법은, 음성 몽타주 생성 방법으로서, 문장을 입력하는 단계(S100), 단계 S100에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계(S200), 단계 S200에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계(S300), 및 단계 S300에서 생성된 음성 몽타주를 출력하는 단계(S400)를 포함하여 구현될 수 있다.
이하에서는, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 각각의 단계에 대해 상세히 설명하도록 한다.
단계 S100에서는, 문장을 입력할 수 있다. 보다 구체적으로는, 단계 S100에서는, 음성 몽타주로 출력하고자 하는 목소리의 문장을 입력할 수 있다. 이때, 음성 몽타주 사용자의 기억과 유사하게 음성 몽타주를 생성하기 위해서 기억하는 상황의 문장을 음성 합성 샘플로 활용하여 입력할 수 있다.
단계 S200에서는, 단계 S100에서 입력된 문장에 대해 특징 파라미터를 설정할 수 있다. 도 2는 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S200은, 단계 S100에서 입력된 문장에 대해 화자를 설정하는 단계(S210), 단계 S210에서 화자가 설정된 문장에 대해 감정을 설정하는 단계(S220), 및 단계 S220에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계(S230)를 포함하여 구현될 수 있다.
본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S200에서의 특징 파라미터는, 화자, 감정 및 음성 스타일일 수 있으며, 보다 구체적으로는, 특징 파라미터는 화자, 감정, 음성의 높낮이, 음성의 속도, 음성의 크기 및 발음일 수 있다. 다만, 상기의 화자, 감정, 음성의 높낮이, 음성의 속도, 음성의 크기 및 발음으로 특징 파라미터를 한정하는 것은 아니다.
단계 S210에서는, 단계 S100에서 입력된 문장에 대해 화자를 설정할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S210에서는, 음색에 중점을 두며, 설정된 화자의 음성 특징들을 평균적으로 반영하고, 가중치를 활용하여 단계 S100에서 입력된 문장에 대해 화자를 설정할 수 있다. 예를 들면, 성별, 나이대 등으로 단계 S100에서 입력된 문장에 대해 화자를 설정할 수 있다.
보다 구체적으로, 단계 S210에서는, 설정된 화자의 음성 특징들을 평균적으로 반영하여 생성한 합성음을 사용자에게 들려주고, 생성할 합성음이 선택된 화자들 중 어느 화자에 얼마나 더 가까워야 하는지에 대한 질의에 대한 답변을 사용자로부터 입력받으며, 입력받은 답변에 따라 화자 선택의 가중치를 결정할 수 있다. 이렇게 결정된 가중치를 반영하여 다시 생성한 합성음을 사용자에게 다시 들려주고, 가중치가 올바로 선택되었다고 판단될 때까지 반복적으로 시도함으로써, 사용자가 원하는 음성에 가까운 음성을 생성할 수 있다.
단계 S220에서는, 단계 S210에서 화자가 설정된 문장에 대해 감정을 설정할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S220에서는, 음성 몽타주 사용자가 기억하는 상황의 감정을 설정하여, 최종적으로 출력되는 음성 몽타주가 목표하는 용의자의 음성과 비슷하도록 유도할 수 있다. 예를 들면, 분노, 슬픔, 기쁨 등의 감정을 설정할 수 있으며, 또한, 여러 감정을 혼합하여 단계 S210에서 화자가 설정된 문장에 대해 감정을 설정할 수 있다.
단계 S230에서는, 단계 S220에서 감정이 설정된 문장에 대해 음성 스타일을 설정할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S230에서는, 단계 S210 및 단계 S220에서 화자 및 감정이 설정된 문장에 대해, 음성의 높낮이, 음성의 속도, 음성의 크기 및 발음을 설정할 수 있다.
단계 S300에서는, 단계 S200에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성할 수 있다. 도 3은 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S300은, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계(S310), 및 단계 S210 내지 단계 S230을 통해 설정된 특징 파라미터와 단계 S310에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계(S320)를 포함하여 구현될 수 있다.
단계 S310에서는, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시킬 수 있다.
이하에서는, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서 사용되는 은닉 마르코프 모델(Hidden Markov Model, HMM) 및 딥 러닝(Deep Learning)에 대하여 설명하도록 한다.
은닉 마르코프 모델(Hidden Markov Model, HMM)은 통계적 마르코프 모델의 하나로, 시스템이 은닉된 상태와 관찰 가능한 결과의 두 가지 요소로 이루어졌다고 보는 모델이다. 관찰 가능한 결과를 야기하는 직접적인 원인은 관측될 수 없는 은닉 상태들이고, 오직 그 상태들이 마르코프 과정을 통해 도출된 결과들만이 관찰될 수 있기 때문에 ‘은닉’이라는 단어가 붙게 되었다.
도 4는 은닉 마르코프 모델(Hidden Markov Model, HMM)을 설명하기 위해 도시한 도면이다. 도 4에서 x는 상태들, y는 얻을 수 있는 관측값들, a는 상태 전이 확률들, 및 b는 출력 확률들을 의미한다. 도 4에 도시된 바와 같이, 관찰자는 각 상태에서 뽑혀 나온 y1, y2, y3 및 y4만을 관측할 수 있으며, 심지어 관찰자가 내부의 공들의 비율을 알고 있고 y1, y2, y3을 관찰 했더라도, 관찰자는 여전히 내부 상태를 알 수 없으며, 다만 가능도와 같은 정보들에 대해서 계산할 수 있을 뿐이다.
은닉 마르코프 모델의 학습은 해당 결과가 나올 확률을 극대화 시키는 전이 확률과 출력 확률을 구하는 것으로서 이루어질 수 있다. 이 과정은 대체로 주어진 관찰 결과에 기반을 두어 최대 가능도 방법을 유도함으로써 이루어질 수 있다.
인공신경망(Artificial Neural Network, ANN)은 기계학습과 인지과학에서 사용되며, 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. 좁은 의미에서는 오차역전파법을 이용한 다층 퍼셉트론을 가리키는 경우도 있지만, 이것은 잘못된 용법으로, 인공신경망은 이에 국한되지 않는다.
딥 러닝(Deep Learning)은, 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합으로 정의되며, 큰 들에서는 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야이다.
도 5는 인공신경망 모델 중 MLP(Multi-Layer Perceptron) 모델을 설명하기 위해 도시한 도면이다. 도 5에 도시된 바와 같이, MLP 모델은 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망으로, 입력층과 출력층 사이에 중간층을 은닉층(hidden layer)라고 부른다. 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있으며, 각 층 내의 연결과 출력층에서 입력층으로의 직접적인 연결은 존재하지 않는 전방향(Feedforward) 네트워크이다.
MLP 모델은, 단층 perceptron과 유사한 구조를 가지고 있지만 중간층과 각 unit의 입출력 특성을 비선형으로 함으로써, 네트워크의 능력을 향상시켜 단층 perceptron의 여러 가지 단점을 극복하였다. MLP 모델은 층의 개수가 증가할수록 perceptron이 형성하는 결정 구역의 특성은 더욱 고급화된다. 보다 구체적으로는, 단층일 경우 패턴공간을 두 구역으로 나누어주고, 2층인 경우 볼록한(convex) 개구역 또는 오목한 폐구역을 형성하며, 3층인 경우에는 이론상 어떠한 형태의 구역도 형성할 수 있다.
일반적으로, 입력층의 각 unit에 입력 데이터를 제시하면, 이 신호는 각 unit에서 변환되어 중간층에 전달되고, 최종적으로 출력층으로 출력되게 되는데, 이 출력값과 원하는 출력값을 비교하여 그 차이를 감소시키는 방향으로 연결강도를 조절하여 MLP 모델을 학습시킬 수 있다.
도 6은 딥 러닝(Deep Learning) 모델 중 RNN(Recurrent Neural Networks) 모델을 설명하기 위해 도시한 도면이다. 도 6에 도시된 바와 같이, RNN 모델은 A라고 표시된 부분이 hidden state로서, hidden state가 방향을 가진 엣지로 연결돼 순환구조(directed cycle)를 이루는 딥 러닝(Deep Learning)의 한 종류로서, 음성, 문자 등 순차적으로 등장하는 데이터 처리에 적합한 모델로 알려져 있다.
RNN 모델은, 시퀀스 길이에 관계없이 인풋과 아웃풋을 받아들일 수 있는 네트워크 구조이기 때문에, 필요에 따라 다양하고 유연하게 구조를 만들 수 있다는 장점이 있다.
또한, RNN 모델은, 순환 구조를 이루고 있고, hidden layer가 여러 개로 펼쳐져 있는 것으로서, 현재 상태의 hidden state는 직전 시점의 hidden state를 받아 갱신될 수 있으며, state 활성함수(activation function)로는 비선형 함수인 하이퍼볼릭탄젠트를 사용할 수 있다.
뿐만 아니라, RNN 모델은, 인풋에서 hidden layer로 보내는 값, 이전 hidden layer에서 다음 hidden layer로 보내는 값, 및 hidden layer에서 아웃풋으로 보내는 값을 통해 학습될 수 있다.
하지만, RNN 모델은, 관련 정보와 그 정보를 사용하는 지점 사이 거리가 멀 경우 역전파시 그래디언트가 점차 줄어드는 현상인 vanishing gradient problem이 발생하여 학습 능력이 크게 저하되는 것으로 알려져 있다. 이를 극복하기 위하여 고안된 것이 바로 LSTM(Long Short Term Memory) 모델이다.
도 7은 딥 러닝(Deep Learning) 모델 중 LSTM(Long Short Term Memory) 모델을 설명하기 위해 도시한 도면이다. 도 7에 도시된 바와 같이, LSTM 모델은, 기존의 RNN 모델의 hidden state에 cell-state를 추가한 구조로서, 추가된 cell-state는 일종의 컨베이어 벨트 역할을 할 수 있어, 오랜 시간이 경과하여도 state로 그래디언트가 잘 전파될 수 있다.
LSTM 모델은, RNN 모델과 마찬가지로 순환 구조를 갖기고 있지만, 단일 뉴럴 네트워크 레이어를 가지는 RNN 모델과는 달리, 4개의 상호작용이 가능한 특별한 방식의 구조를 가질 수 있다.
또한, LSTM 모델은, 마이너한 연산과정을 거치고 전체 체인을 관통하는 cell-state, 정보들이 선택적으로 cell-state로 들어갈 수 있도록 하는 gate, 및 각 구성요소가 얼마만큼의 영향을 주게 될지를 결정하는 sigmoid layer를 포함하여 구성될 수 있다. 이때, sigmoid layer은, 0과 1을 출력하는데, 0이라는 값을 가지게 된다면, 해당 구성요소가 미래의 결과에 아무런 영향을 주지 않도록 만드는 것이고, 반면에, 1이라는 값은 해당 구성요소가 확실히 미래의 예측결과에 영향을 주도록 데이터가 흘러가게 만들 수 있으며, gate는 sigmoid 또는 tanh function으로 구성될 수 있다.
뿐만 아니라, LSTM 모델은, cell state의 값을 바꾸고 기억하거나 잊어버리는 단계, 어떤 정보를 cell state에 담을 것인지 결정하는 단계, 및 어떤 값을 출력으로 할지 결정하는 단계를 통해 결과값을 출력할 수 있다.
cell state의 값을 바꾸고 기억하거나 잊어버리는 단계에서는, LSTM 모델은 cell state 값을 잊어버릴지 가져갈지 결정하는 forget gate layer을 가질 수 있는데, forget gate layer은 입력값을 보고 sigmoid function을 통과시켜서 0에서 1 사이의 값을 가지게 하여, cell state 값을 잊어버릴지 가져갈지 결정할 수 있다.
어떤 정보를 cell state에 담을 것인지 결정하는 단계에서는, input gate layer 라고 불리는 sigmoid layer가 어떤 값을 업데이트 할 지 결정하고, tanh layer가 어떤 후보 값들을 만들어내어, 이렇게 만들어진 두 개의 값을 서로 곱하여, 어떤 정보를 cell state에 담을 것인지 결정할 수 있다.
어떤 값을 출력으로 할지 결정하는 단계에서는, cell state에 tanh를 씌워서 -1에서 1 사이의 값을 만들고, 입력된 값에서 나온 activation 값을 tanh layer에서 나온 값과 곱해서 출력할 수 있다.
CNN(Convolutional Neural Network) 모델은, 하나 또는 여러 개의 콘볼루션 계층(convolutional layer)과 통합 계층(pooling layer), 완전하게 연결된 계층(fully connected layer)들로 구성된 신경망 모델이다. CNN 모델은, 2차원 데이터의 학습에 적합한 구조를 가지고 있으며, 역전파 알고리즘(Backpropagation algorithm)을 통해 훈련될 수 있어, 영상 내 객체 분류, 객체 탐지 등 다양한 응용 분야에 폭넓게 활용될 수 있다.
콘볼루션 계층은, 입력 데이터로부터 특징을 추출하는 역할을 할 수 있다. 콘볼루션 계층은 특징을 추출하는 기능을 하는 필터(filter)와, 필터에서 추출된 값을 비선형 값으로 바꾸어주는 액티베이션 함수(activation function)로 이루어질 수 있다.
도 8은 딥 러닝(Deep Learning) 모델 중 CNN(Convolutional Neural Network) 모델을 설명하기 위해 도시한 도면이다. 도 8에 도시된 바와 같이, CNN 모델은, 첫 번째로, 3개의 필터 사이즈 2, 3, 4를 각 두 개씩 총 6개를 문장 매트릭스에 합성곱을 수행하고 피쳐 맵을 생성하고, 두 번째로, 각 맵에 대해 맥스 풀링을 진행하여 각 피쳐 맵으로부터 가장 큰 수를 남긴 후, 세 번째로, 이들 6개 맵에서 단변량(univariate) 벡터가 생성되고, 이들 6개 피쳐는 두 번째 레이어를 위한 피쳐 벡터로 연결되는데, 마지막으로 소프트맥스 레이어는 피쳐 값을 받아 문장, 사진, 음성 등을 분류할 수 있다.
CNN 모델은, 경사하강법(gradient descent)와 역전파(backpropagation) 알고리즘을 통해 학습시킬 수 있다. 이때, 경사하강법은 1차 근사값 발견용 최적화 알고리즘으로서, 함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜서 극값에 이를 때까지 반복시키는 방법이고, 역전파 알고리즘은, 다층 퍼셉트론 학습에 사용되는 통계적 기법을 의미하는 것으로서, 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight를 조정하는 방법이다.
본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S310에서는, 전술한 바와 같은, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시킬 수 있어, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다.
단계 S320에서는, 단계 S210 내지 단계 S230을 통해 설정된 특징 파라미터와 단계 S310에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S320에서는, 단계 S210 내지 단계 S230을 통해 설정된 화자, 감정 및 음성 스타일과 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)으로 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성할 수 있다.
본 발명에서는, 파라미터 방식의 음성 합성 기법을 이용하여, 음편을 바로 사용하지 않고, 각 음편을 특징 파라미터로 변환하고 모델링을 통해 대푯값을 생성한 후, 음성을 합성하여 화자, 감정 및 음성 스타일이 설정된 음성 몽타주를 생성할 수 있다.
본 발명의 일실시예에 따른 음성 몽타주 생성 방법에서 이용되는 다화자 음성 합성기는 음성 몽타주를 생성하기 위한 음성 합성기이며, 여러 화자로 학습이 이루어지기 때문에, 각 화자의 음성을 생성할 수 있을 뿐만 아니라, 두 개 이상의 음성을 혼합하여 새로운 음성을 생성할 수 있다.
단계 S400에서는, 단계 S300에서 생성된 음성 몽타주를 출력할 수 있다. 보다 구체적으로, 본 발명의 일실시예에 따른 음성 몽타주 생성 방법의 단계 S400에서는, 단계 S100 내지 단계 S300을 통해 생성된 음성 몽타주를 출력할 수 있다.
도 9는 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 구성을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)은, 음성 몽타주 생성 시스템(10)으로서, 문장을 입력하는 입력부(100), 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부(200), 파라미터 설정부(200)에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부(300), 및 음성 몽타주 생성부(300)에 의해 생성된 음성 몽타주를 출력하는 출력부(400)를 포함하여 구성될 수 있다.
입력부(100)는, 문장을 입력할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 입력부(100)는, 음성 몽타주로 출력하고자 하는 목소리의 문장을 입력할 수 있다. 이때, 음성 몽타주 사용자의 기억과 유사하게 음성 몽타주를 생성하기 위해서 기억하는 상황의 문장을 음성 합성 샘플로 활용하여 입력할 수 있다.
파라미터 설정부(200)는, 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정할 수 있다. 도 10은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)에 있어서 파라미터 설정부(200)의 세부적인 구성을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 파라미터 설정부(200)는, 입력부(100)에 의해 입력된 문장에 대해 화자를 설정하는 화자 설정 모듈(210), 화자 설정 모듈(210)에 의해 화자가 설정된 문장에 대해 감정을 설정하는 감정 설정 모듈(220), 및 감정 설정 모듈(220)에 의해 감정이 설정된 문장에 대해 음성 스타일을 설정하는 음성 스타일 설정 모듈(230)을 포함하여 구성될 수 있다.
본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 파라미터 설정부(200)에서의 특징 파라미터는, 화자, 감정 및 음성 스타일일 수 있으며, 보다 구체적으로는, 특징 파라미터는, 화자, 감정, 음성의 높낮이, 음성의 속도, 음성의 크기 및 발음일 수 있다. 다만, 상기의 화자, 감정, 음성의 높낮이, 음성의 속도, 음성의 크기 및 발음으로 특징 파라미터를 한정하는 것은 아니다.
화자 설정 모듈(210)은, 입력부(100)에서 입력된 문장에 대해 화자를 설정할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 화자 설정 모듈(210)은, 음색에 중점을 두며, 설정된 화자의 음성 특징들을 평균적으로 반영하고, 가중치를 활용하여 입력부(100)에서 입력된 문장에 대해 화자를 설정할 수 있다. 예를 들면, 성별, 나이대 등을 이용하여 입력부(100)에서 입력된 문장에 대해 화자를 설정할 수 있다.
보다 구체적으로, 화자 설정 모듈(210)은, 설정된 화자의 음성 특징들을 평균적으로 반영하여 생성한 합성음을 사용자에게 들려주고, 생성할 합성음이 선택된 화자들 중 어느 화자에 얼마나 더 가까워야 하는지에 대한 질의에 대한 답변을 사용자로부터 입력받으며, 입력받은 답변에 따라 화자 선택의 가중치를 결정할 수 있다. 이렇게 결정된 가중치를 반영하여 다시 생성한 합성음을 사용자에게 다시 들려주고, 가중치가 올바로 선택되었다고 판단될 때까지 반복적으로 시도함으로써, 사용자가 원하는 음성에 가까운 음성을 생성할 수 있다.
감정 설정 모듈(220)은, 화자 설정 모듈(210)에 의해 화자가 설정된 문장에 대해 감정을 설정할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 감정 설정 모듈(220)은, 음성 몽타주 사용자가 기억하는 상황의 감정을 설정하여, 최종적으로 출력되는 음성 몽타주가 목표하는 용의자의 음성과 비슷하도록 유도할 수 있다. 예를 들면, 분노, 슬픔, 기쁨 등의 감정을 설정할 수 있으며, 또한, 여러 감정을 혼합하여 화자 설정 모듈(210)에 의해 화자가 설정된 문장에 대해 감정을 설정할 수 있다.
음성 스타일 설정 모듈(230)은, 감정 설정 모듈(220)에 의해 감정이 설정된 문장에 대해 음성 스타일을 설정할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 음성 스타일 설정 모듈(230)은, 화자 설정 모듈(210) 및 감정 설정 모듈(220)에 의해 화자 및 감정이 설정된 문장에 대해, 음성의 높낮이, 음성의 속도, 음성의 크기 및 발음을 설정할 수 있다.
음성 몽타주 생성부(300)는, 파라미터 설정부(200)에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성할 수 있다. 도 11은 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)에 있어서, 음성 몽타주 생성부(300)의 세부적인 구성을 도시한 도면이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 음성 몽타주 생성부(300)는, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 학습 모듈(310), 및 화자 설정 모듈(210), 감정 설정 모듈(220) 및 음성 스타일 설정 모듈(230)을 통해 설정된 특징 파라미터와 학습 모듈(310)에 의해 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성 모듈(320)을 포함하여 구성될 수 있다.
학습 모듈(310)은, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시킬 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 학습 모듈(310)은, 전술한 바와 같은, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시킬 수 있어, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다.
음성 몽타주 생성 모듈(320)은, 화자 설정 모듈(210), 감정 설정 모듈(220) 및 음성 스타일 설정 모듈(230)을 통해 설정된 특징 파라미터와 학습 모듈(310)에 의해 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 음성 몽타주 생성 모듈(320)은, 화자 설정 모듈(210), 감정 설정 모듈(220) 및 음성 스타일 설정 모듈(230)을 통해 설정된 화자, 감정 및 음성 스타일과 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)으로 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성할 수 있다.
출력부(400)는, 음성 몽타주 생성부(300)에서 생성된 음성 몽타주를 출력할 수 있다. 보다 구체적으로, 본 발명의 일실시예에 따른 음성 몽타주 생성 시스템(10)의 출력부(400)는, 입력부(100) 내지 음성 몽타주 생성부(300)을 통해 생성된 음성 몽타주를 출력할 수 있다.
전술한 바와 같이, 본 발명에서 제안하고 있는 음성 몽타주 생성 방법 및 시스템(10)에 따르면, 다화자 음성 합성기를 기반으로 각 화자의 각기 다른 특징 파라미터를 설정함으로써, 찾고자하는 용의자의 목소리와 유사한 음성을 합성하여 출력할 수 있다. 또한, 본 발명에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)을 이용하여 다화자 음성 합성기를 학습시킴으로써, 빠르게 다화자 음성 합성기를 학습시키고, 출력되는 음성 몽타주의 정확도를 높일 수 있다. 뿐만 아니라, 본 발명에 따르면, 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(Deep Learning)으로 학습된 다화자 음성 합성기를 사용함으로써, 각 화자의 음성을 만들 수 있을 뿐만 아니라, 두 개 이상의 음색을 혼합하여 목적으로 하는 화자의 음색을 효과적으로 합성하여 출력할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
10: 음성 몽타주 생성 시스템
100: 입력부
200: 파라미터 설정부
210: 화자 설정 모듈
220: 감정 설정 모듈
230: 음성 스타일 설정 모듈
300: 음성 몽타주 생성부
310: 학습 모듈
320: 음성 몽타주 생성 모듈
400: 출력부
S100: 문장을 입력하는 단계
S200: 단계 S100에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계
S210: 단계 S100에서 입력된 문장에 대해 화자를 설정하는 단계
S220: 단계 S210에서 화자가 설정된 문장에 대해 감정을 설정하는 단계
S230: 단계 S220에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계
S300: 단계 S200에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계
S310: 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계
S320: 단계 S210 내지 단계 S230을 통해 설정된 특징 파라미터와 단계 S310에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계
S400: 단계 S300에서 생성된 음성 몽타주를 출력하는 단계
100: 입력부
200: 파라미터 설정부
210: 화자 설정 모듈
220: 감정 설정 모듈
230: 음성 스타일 설정 모듈
300: 음성 몽타주 생성부
310: 학습 모듈
320: 음성 몽타주 생성 모듈
400: 출력부
S100: 문장을 입력하는 단계
S200: 단계 S100에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계
S210: 단계 S100에서 입력된 문장에 대해 화자를 설정하는 단계
S220: 단계 S210에서 화자가 설정된 문장에 대해 감정을 설정하는 단계
S230: 단계 S220에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계
S300: 단계 S200에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계
S310: 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계
S320: 단계 S210 내지 단계 S230을 통해 설정된 특징 파라미터와 단계 S310에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계
S400: 단계 S300에서 생성된 음성 몽타주를 출력하는 단계
Claims (10)
- 다화자가 등록되어 있는 음성 합성기를 이용하여 여러 화자의 음성 및 음성 신호 특징을 혼합하여 특정 사람의 목소리와 유사한 새로운 음성을 만들어 내는 음성 몽타주 생성 방법으로서,
(1) 문장을 입력하는 단계;
(2) 상기 단계 (1)에서 입력된 문장에 대해 특징 파라미터를 설정하는 단계;
(3) 상기 단계 (2)에서 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계; 및
(4) 상기 단계 (3)에서 생성된 음성 몽타주를 출력하는 단계를 포함하되,
상기 단계 (2)에서의 특징 파라미터는, 화자, 감정 및 음성 스타일이고,
상기 단계 (2)는,
(2-1) 상기 단계 (1)에서 입력된 문장에 대해 화자를 설정하되, 설정된 화자의 음성 특징들을 평균적으로 반영하여 생성한 합성음을 사용자에게 들려주고, 생성할 합성음이 설정된 화자들 중 어느 화자에 얼마나 더 가까워야 하는지에 대한 질의에 대한 답변을 사용자로부터 입력받으며, 입력받은 답변에 따라 화자 선택의 가중치를 결정하고, 결정된 가중치에 따라 다시 생성한 합성음을 사용자에게 들려주는 과정을, 가중치가 올바로 선택되었다고 판단될 때까지 반복하는 단계;
(2-2) 상기 단계 (2-1)에서 화자가 설정된 문장에 대해 음성 몽타주 사용자가 기억하는 상황의 감정을 설정하는 단계; 및
(2-3) 상기 단계 (2-2)에서 감정이 설정된 문장에 대해 음성 스타일을 설정하는 단계를 포함하며,
상기 단계 (3)은,
(3-1) 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 단계; 및
(3-2) 상기 단계 (2-1) 내지 상기 단계 (2-3)을 통해 설정된 특징 파라미터와 상기 단계 (3-1)에서 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 단계를 포함하는 것을 특징으로 하는, 음성 몽타주 생성 방법.
- 삭제
- 제1항에 있어서, 상기 음성 스타일은,
음성의 높낮이, 음성의 속도, 음성의 크기 및 발음인 것을 특징으로 하는, 음성 몽타주 생성 방법.
- 삭제
- 삭제
- 다화자가 등록되어 있는 음성 합성기를 이용하여 여러 화자의 음성 및 음성 신호 특징을 혼합하여 특정 사람의 목소리와 유사한 새로운 음성을 만들어 내는 음성 몽타주 생성 시스템으로서,
문장을 입력하는 입력부(100);
상기 입력부(100)에 의해 입력된 문장에 대해 특징 파라미터를 설정하는 파라미터 설정부(200);
상기 파라미터 설정부(200)에 의해 설정된 특징 파라미터 및 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성부(300); 및
상기 음성 몽타주 생성부(300)에 의해 생성된 음성 몽타주를 출력하는 출력부(400)를 포함하되,
상기 특징 파라미터는, 화자, 감정 및 음성 스타일이고,
상기 파라미터 설정부(200)는,
상기 입력부(100)에 의해 입력된 문장에 대해 화자를 설정하되, 설정된 화자의 음성 특징들을 평균적으로 반영하여 생성한 합성음을 사용자에게 들려주고, 생성할 합성음이 설정된 화자들 중 어느 화자에 얼마나 더 가까워야 하는지에 대한 질의에 대한 답변을 사용자로부터 입력받으며, 입력받은 답변에 따라 화자 선택의 가중치를 결정하고, 결정된 가중치에 따라 다시 생성한 합성음을 사용자에게 들려주는 과정을, 가중치가 올바로 선택되었다고 판단될 때까지 반복하는 화자 설정 모듈(210);
상기 화자 설정 모듈(210)에 의해 화자가 설정된 문장에 대해 음성 몽타주 사용자가 기억하는 상황의 감정을 설정하는 감정 설정 모듈(220); 및
상기 감정 설정 모듈(220)에 의해 감정이 설정된 문장에 대해 음성 스타일을 설정하는 음성 스타일 설정 모듈(230)을 포함하며,
상기 음성 몽타주 생성부(300)는,
은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 딥 러닝(deep learning)을 이용하여 다화자 음성 합성기를 학습시키는 학습 모듈; 및
상기 화자 설정 모듈, 상기 감정 설정 모듈 및 상기 음성 스타일 설정 모듈을 통해 설정된 특징 파라미터와 상기 학습 모듈에 의해 학습된 다화자 음성 합성기를 이용하여 음성 몽타주를 생성하는 음성 몽타주 생성 모듈을 포함하는 것을 특징으로 하는, 음성 몽타주 생성 시스템.
- 삭제
- 제6항에 있어서, 상기 음성 스타일은,
음성의 높낮이, 음성의 속도, 음성의 크기 및 발음인 것을 특징으로 하는, 음성 몽타주 생성 시스템. - 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180167980A KR102159988B1 (ko) | 2018-12-21 | 2018-12-21 | 음성 몽타주 생성 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180167980A KR102159988B1 (ko) | 2018-12-21 | 2018-12-21 | 음성 몽타주 생성 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200084414A KR20200084414A (ko) | 2020-07-13 |
KR102159988B1 true KR102159988B1 (ko) | 2020-09-25 |
Family
ID=71571029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180167980A KR102159988B1 (ko) | 2018-12-21 | 2018-12-21 | 음성 몽타주 생성 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102159988B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113450764B (zh) * | 2021-07-08 | 2024-02-06 | 平安科技(深圳)有限公司 | 文本语音识别方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101221188B1 (ko) * | 2011-04-26 | 2013-01-10 | 한국과학기술원 | 감정 음성 합성 기능을 가지는 보조 로봇 및 보조 로봇용 감정 음성 합성 방법 및 기록 매체 |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
-
2018
- 2018-12-21 KR KR1020180167980A patent/KR102159988B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20200084414A (ko) | 2020-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mesaros et al. | Sound event detection: A tutorial | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN111081230B (zh) | 语音识别方法和设备 | |
US10741184B2 (en) | Arithmetic operation apparatus, arithmetic operation method, and computer program product | |
Farhadipour et al. | Dysarthric speaker identification with different degrees of dysarthria severity using deep belief networks | |
JP7332024B2 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
Sarma et al. | Phoneme-based speech segmentation using hybrid soft computing framework | |
Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
KR102159988B1 (ko) | 음성 몽타주 생성 방법 및 시스템 | |
Vlasenko et al. | Fusion of acoustic and linguistic information using supervised autoencoder for improved emotion recognition | |
Mirhassani et al. | Fuzzy-based discriminative feature representation for children's speech recognition | |
Gade et al. | A comprehensive study on automatic speaker recognition by using deep learning techniques | |
Mahfood et al. | Emotion Recognition from Speech Using Convolutional Neural Networks | |
Nikitin et al. | Automated sound generation based on image colour spectrum with using the recurrent neural network | |
Kilimci et al. | Evaluating raw waveforms with deep learning frameworks for speech emotion recognition | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
Li et al. | An improved method of speech recognition based on probabilistic neural network ensembles | |
Ferrat et al. | Classification of the Arabic emphatic consonants using time delay neural network | |
Shahriar et al. | On the Impact of Deep Learning and Feature Extraction for Arabic Audio Classification and Speaker Identification | |
Patel et al. | Machine Learning for Automatic Speech Recognition | |
CN118173082B (zh) | 语音生成的方法、装置、计算机设备和存储介质 | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning | |
Guha | Detecting User Emotions From Audio Conversations With the Smart Assistants | |
Rahman et al. | Deep neural network for speaker identification using static and dynamic prosodic feature for spontaneous and dictated data | |
Bernardy et al. | Modelling prosodic structure using Artificial Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |