KR102168529B1 - 인공신경망을 이용한 가창음성 합성 방법 및 장치 - Google Patents
인공신경망을 이용한 가창음성 합성 방법 및 장치 Download PDFInfo
- Publication number
- KR102168529B1 KR102168529B1 KR1020200065019A KR20200065019A KR102168529B1 KR 102168529 B1 KR102168529 B1 KR 102168529B1 KR 1020200065019 A KR1020200065019 A KR 1020200065019A KR 20200065019 A KR20200065019 A KR 20200065019A KR 102168529 B1 KR102168529 B1 KR 102168529B1
- Authority
- KR
- South Korea
- Prior art keywords
- song
- feature vector
- pitch
- data
- singer
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000013528 artificial neural network Methods 0.000 title claims description 85
- 230000002194 synthesizing effect Effects 0.000 title claims description 37
- 239000013598 vector Substances 0.000 claims abstract description 201
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 181
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 181
- 238000001308 synthesis method Methods 0.000 claims abstract description 16
- 230000001755 vocal effect Effects 0.000 claims description 101
- 238000002910 structure generation Methods 0.000 claims description 71
- 239000002131 composite material Substances 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 39
- 238000007781 pre-processing Methods 0.000 claims description 27
- 238000013526 transfer learning Methods 0.000 claims description 17
- 238000012546 transfer Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 description 22
- 238000000605 extraction Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법에 관한 것으로, 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하고, 획득된 가창음성 합성요청에 기초하여 합성대상가수의 가창음성 데이터, 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 가창음성 데이터, 운율 데이터 및 가사텍스트 데이터에 기초하여 합성대상가수의 음색을 나타내는 음색 특징벡터, 합성대상가수의 창법을 나타내는 창법 특징벡터, 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하고, 음색 특징벡터 및 발음기호 특징벡터에 기초하여 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하고, 창법 특징벡터 및 음고 특징벡터에 기초하여 합성대상가수의 창법이 반영된 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하고, 생성된 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램에 기초하여 합성대상가수의 가창음성으로 표현된 합성대상노래에 대한 가창음성 신호를 생성함으로써, 합성대상가수의 실제 가창음성과 유사한 가창음성 신호를 생성할 수 있다.
Description
가창음성 합성 방법 및 장치에 관한 것으로, 보다 구체적으로 음색과 창법 복제가 가능한 가창음성 복제 방법 및 장치에 관한 것이다.
음성합성(TTS; Text To Speech) 기술은 컴퓨터를 이용하여 텍스트로 입력된 임의의 문장을 사람의 목소리, 즉 음성신호로 생성하는 기술을 의미한다. 종래의 음성합성 기술은 음성신호를 생성할 때 미리 녹음된 한 음절의 음성신호를 결합하여 문장 전체에 대한 음성신호를 생성하는 결합형 음성합성(Concatenative TTS) 방식과 음성의 특징이 표현된 고차원 파라미터로부터 보코더(vocoder)를 이용하여 음성신호를 생성하는 매개변수 음성합성(Parametric TTS) 방식으로 구분된다.
종래의 결합형 음성합성 방식은 입력된 텍스트에 맞추어 미리 녹음된 단어, 음절, 음소의 음성신호를 결합하여 문장에 대한 전체 음성신호를 생성한다. 이렇게 생성된 문장에 대한 음성신호는 미리 녹음된 음성신호를 합성한 것이기 때문에 음성신호에서 문장의 억양, 운율 등이 표현되지 않아 음성 사이의 연결이 어색하고 사람의 목소리와 이질감이 느껴지는 문제점이 있었다.
또한, 종래의 매개변수 음성합성 방식은 음성신호의 자연스러움을 향상시키기 위하여 기계학습을 이용한 방식으로 발전되었으며, 방대한 양의 텍스트 및 음성 데이터를 이용하여 인공신경망을 학습시키고, 학습된 인공신경망을 이용하여 입력된 문장의 텍스트에 대한 음성신호를 생성한다. 기계학습 기반의 매개변수 음성합성 방식은 인공신경망을 이용하여 입력 텍스트에 대한 음성신호를 생성하기 때문에 학습된 음성신호의 화자의 억양, 운율 등이 표현된 음성신호를 생성할 수 있다. 이에 따라, 결합형 음성합성 방식보다 자연스러운 음성신호를 생성할 수 있다. 그러나, 이러한 기계학습 기반의 매개변수 음성합성 방식은 인공신경망을 학습시키기 위하여 방대한 양의 음성 및 텍스트 데이터 세트가 필요한 단점이 존재한다.
상술한 종래의 음성합성 기술의 단점들은 가창음성 합성(SVS; Singing Voice Synthesis) 기술에서도 마찬가지이다. 여기서, 가창음성 합성 기술은 가사 텍스트 및 악보 데이터 등을 이용하여 가창음성신호를 생성하는 기술이다. 종래의 음성함성 기술 중 결합형 음성합성 방식은 사전에 녹음된 종류의 음소 발화만을 생성할 수 있고, 음의 높낮이, 음의 길이, 박자 등이 자유롭게 변형 가능한 가창음성신호를 생성할 수 없다. 이에 따라, 가창음성 합성 분야에서는 인공신경망을 이용한 매개변수 음성합성 방식이 주로 활용되고 있다.
이러한 인공신경망 기반의 매개변수 음성합성 방식은 먼저 임의의 가수에 대한 가창음성, 해당 곡에 대한 악보 및 가사 텍스트로 인공신경망을 학습시킨다. 학습된 인공신경망은 입력된 악보 및 가사 텍스트에 기초하여 학습된 가수의 가창음성(즉, 노래)과 음색과 창법이 유사한 가창음성 신호를 생성할 수 있다.
이러한 종래의 매개변수 음성합성 방식은 학습된 가수와 유사한 가창음성신호를 생성할 수 있으나, 인공신경망을 학습시키기 위하여 방대한 양의 가창음성신호, 악보 및 가사 텍스트 세트가 필요한 문제점이 있었다. 이에 따라, 가창음성신호, 악보 및 가사 텍스트 세트가 충분하지 못한 가수들의 경우에는 가수와 동일하거나 유사한 가창음성신호를 생성할 수 없다.
또한, 종래의 매개변수 음성합성 방식은 인공신경망이 학습한 가수에 대한 가창음성신호를 생성할 수 있기 때문에, 새로운 가수를 추가할 때마다 새로운 가수에 대한 데이터 세트로 인공신경망을 처음부터 다시 학습시켜야 하는 문제점이 존재한다.
인공신경망을 이용한 가창음성 합성 방법 및 장치를 제공하는 데에 있다. 또한, 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 설명으로부터 또 다른 기술적 과제가 도출될 수도 있다.
본 발명의 일 실시예에 따른 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법은, 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 단계; 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 단계; 상기 가창음성 데이터, 상기 운율 데이터 및 상기 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 단계; 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 단계; 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 단계; 및 상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 단계를 포함한다.
상기 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하고, 상기 합성대상가수는 상기 복수의 가수 중 하나이다.
상기 추출하는 단계는 상기 합성대상가수의 가창음성데이터로부터 상기 합성대상가수의 음색을 나타내는 음색 특징벡터 및 상기 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출하는 단계; 상기 합성대상노래의 가사텍스트 데이터로부터 상기 가사텍스트에 포함된 문자들의 발음에 해당하는 발음기호를 나타내는 발음기호 특징벡터를 추출하는 단계; 및 상기 합성대상노래의 운율 데이터로부터 상기 합성대상노래의 음고를 나타내는 음고특징벡터를 추출하는 단계를 포함한다.
상기 발음기호는 국제음성기호(IPA, International Phonetic Alphabet)이다.
상기 가창음성 신호를 생성하는 단계는 상기 가창음성 신호가 멜-스케일(mel-scale) 스펙트로그램으로 생성된 경우, 상기 생성된 멜 스케일 스펙트로그램의 가창음성 신호를 선형 스펙트로그램으로 변환하는 단계를 더 포함한다.
본 발명의 다른 실시예에 따른 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치는 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 입력부; 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 상기 가창음성 데이터, 상기 운율 데이터 및 상기 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 전처리부; 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 발음구조 생성부; 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 음고골격구조 생성부; 및 상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 보코더부를 포함한다.
본 발명의 또 다른 실시예에 따른 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법은 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 단계; 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 가창음성 데이터와 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득하는 단계; 상기 전이 학습용 데이터에 기초하여, 상기 가창음성 합성 장치의 인공신경망을 전이 학습하는 단계; 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 단계; 상기 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 상기 합성대상노래의 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 단계; 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 단계; 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 단계; 및 상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 단계를 포함한다.
본 발명의 또 다른 실시예에 따르면, 상기 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하고, 상기 합성대상가수는 상기 복수의 가수에 포함되지 않은 가수이다.
본 발명의 또 다른 실시예에 따른 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치는 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하고, 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 가창음성 데이터와 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득하는 입력부; 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 상기 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 상기 합성대상노래의 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 전처리부; 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 발음구조 생성부; 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 음고골격구조 생성부; 및 상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 보코더부를 포함하고, 상기 전처리부, 상기 발음구조 생성부 및 상기 음고골격구조 생성부는 상기 전이 학습용 데이터에 기초하여 전이 학습한다.
본 발명의 다른 실시예에 따른 컴퓨터 판독 가능한 기록매체는 본 발명의 일 실시예에 따른 가창음성 합성 방법을 수행하는 프로그램이 기록된다.
가창음성 합성 장치는 사전에 트레이닝된 인공신경망을 이용하여 합성대상가수의 음색 특징 및 창법 특징을 추출하고, 합성대상노래의 음고 및 가사의 발음기호를 추출한다. 가창음성 합성 장치는 추출된 음색 특징, 창법 특징, 음고 및 가사의 발음기호에 기초하여 합성대상가수의 음색 특징이 반영된 합성대상노래의 가사의 발음구조를 나타내는 발음구조 스펙트로그램을 생성하고, 합성대상가수의 창법 특징이 반영된 합성대상노래의 음고를 나타내는 음고골격구조 스펙트로그램을 생성한다. 가창음성 합성 장치는 이렇게 생성된 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램을 이용함으로써, 합성대상가수 고유의 음색 및 창법이 반영된 가창음성신호를 생성할 수 있다. 이에 따라, 합성대상가수가 실제로 부르지 않은 노래이나 마치 합성대상가수가 실제로 부른 것과 동일·유사하고 자연스러운 가창음성 신호를 합성/생성할 수 있다.
또한, 본 발명의 실시예들에 따른 가창음성 합성 방법은 발음구조 생성부와 음고골격구조 생성부를 별도의 인공신경망으로 구현함으로써, 인공신경망의 트레이닝을 위한 학습용 데이터 세트에 포함되지 않은 가수의 가창음성 데이터, 이와 연관된 노래의 운율 데이터 및 가사텍스트 데이터를 이용하여 가창음성 합성 장치의 인공신경망이 학습용 데이터 세트에 포함되지 않은 가수의 음색 특징 및 창법 특징을 추출할 수 있도록 전이 학습이 가능하다. 인공신경망을 전이학습시킴으로써, 본 발명의 실시예에 따른 가창음성 합성 방법은 인공신경망이 트레이닝되지 않은 가수의 실제 가창음성과 가까운 가창음성을 합성할 수 있다.
추가적으로, 본 발명의 실시예들에 따른 가창음성 합성 방법은 발음구조 생성부와 음고골격구조 생성부를 별도의 인공신경망으로 구현함으로써, 합성대상가수의 소정의 가창음성 데이터만으로도 인공신경망을 전이 학습시킬 수 있다. 예를 들어, 10분 이내의 소용량인 가창음성 데이터를 이용하여 인공신경망을 전이 학습시킬 수 있음에 따라, 세상을 떠나 고인이 된 가수의 생전에 녹음된 데이터만을 이용하여 가창음성을 복원할 수 있다.
도 1은 본 발명의 일 실시예에 따른 가창음성 합성 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 가창음성 합성 방법의 흐름도이다.
도 3은 도 1에 도시된 가창음성 합성 장치에서 가창음성 신호를 생성하는 과정을 도시한 예시도이다.
도 4는 도 2에 도시된 음색 특징벡터, 창법 특징벡터, 발음기호 특징벡터와 음고 특징벡터를 추출하는 단계의 상세흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 가창음성 합성 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 가창음성 합성 방법의 흐름도이다.
도 3은 도 1에 도시된 가창음성 합성 장치에서 가창음성 신호를 생성하는 과정을 도시한 예시도이다.
도 4는 도 2에 도시된 음색 특징벡터, 창법 특징벡터, 발음기호 특징벡터와 음고 특징벡터를 추출하는 단계의 상세흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 가창음성 합성 방법의 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 할 것이다.
또한, 본 실시예들을 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하의 본 발명의 실시예들에 대한 상세한 설명에서 기재된 용어는 다음과 같은 의미를 갖는다. “가창음성(singing voice)”은 사람의 목소리로 표현된 노래를 의미하고, “가창음성 신호”는 사람의 목소리로 표현된 노래를 나타내는 신호를 의미한다. 다시 말해, 가창음성은 임의의 사람의 발성기관을 통하여 발생된 노래 소리를 의미한다.
가창음성은 노래를 부른 사람(즉, 가수)에 따라 달라질 수 있으며, 이는 노래를 부른 사람의 “음색(timbre)” 및 “창법(singing style)”에 의하여 달라질 수 있다. 여기에서, “음색”은 신체 발성기관의 구조에 의해 물리적으로 결정되는 가수 고유의 목소리 특색으로 가창음성의 배음 구조(harmonic structure)에 의해 달라진다. “창법”은 후천적인 훈련을 통해 형성된 기교에 해당하는 가수 고유의 목소리 특색으로서, 바이브레이션, 음의 세기, 높낮이 등을 포함한다.
“음고골격 구조(pitch skeleton)”은 가창합성의 골격이 되고 음의 높낮이 및 음색을 결정하는 배음 구조(harmonic structure)의 시계열적 데이터를 의미한다. “발음구조(formant mask)”는 발음에 의해 결정되는 고유한 주파수 성분인 포먼트(formant)의 시계열적 데이터를 의미한다. 여기서 “포먼트”는 각 발음에 의해 결정되는 고유한 주파수 성분을 의미한다.
본 발명의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자라면, 상술한 용어에 대하여 용이하게 이해할 수 있다.
도 1은 본 발명의 일 실시예에 따른 가창음성 합성 장치의 구성도이다. 도 1을 참고하면, 가창음성 합성 장치(10)는 프로세서(101), 입력부(102), 전처리부(103), 음고골격구조 생성부(104), 발음구조 생성부(105), 보코더부(106), 출력부(107) 및 스토리지(108)를 포함한다. 프로세서(101)는 가창음성 합성 장치(10)의 일반적인 테스크를 처리한다.
가창음성 합성 장치(10)의 입력부(102)는 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득한다. 입력부(102)는 사용자로부터 가창음성의 합성을 원하는 대상 가수 및 대상 노래에 대한 입력을 수신한다. 입력부(102)의 예로는 키보드, 마우스, 터치 패널 등을 들 수 있다.
가창음성 합성 장치(10)의 전처리부(103)는 입력부(102)를 통하여 입력된 가창음성 데이터, 운율 데이터 및 가사텍스트 데이터를 인공신경망에 입력할 수 있는 형태(예를 들어, 특징벡터(feature vector))로 변환한다. 보다 구체적으로, 전처리부(103)는 가창음성 합성요청에 기초하여, 합성대상가수의 가창음성 데이터 및 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 스토리지(108)로부터 획득한다. 전처리부(103)는 획득된 가창음성 데이터, 운율 데이터 및 가사텍스트 데이터로부터 합성대상가수의 음색 특징벡터와 창법 특징벡터, 및 합성대상노래의 발음기호 특징벡터와 음고 특징벡터를 추출한다.
전처리부(103)는 가수특징추출부(1031), 발음특징추출부(1032) 및 음고추출부(1033)를 포함할 수 있다. 가수특징추출부(1031)는 합성대상가수의 가창음성 데이터로부터 합성대상가수의 음색을 나타내는 음색 특징벡터 및 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출한다. 이상에서 설명한 바와 같이 음색은 가수 고유의 목소리 특색으로 가창음성 신호의 파형에 따라 달라지고, 창법은 후천적으로 형성된 고유의 목소리 특색으로 음의 떨림(바이브레이션)을 포함한다. 음색 특징벡터는 합성대상가수의 음색을 나타내고, 창법 특징벡터는 합성대상가수의 창법을 나타낸다.
가창음성 합성 장치(10)의 발음특징추출부(1032)는 합성대상노래의 가사텍스트 데이터로부터 노래 가사의 발음기호를 나타내는 발음기호 특징벡터를 추출한다. 보다 구체적으로, 발음특징추출부(1032)는 합성대상노래의 가사텍스트 데이터에 포함된 문자들 각각을 대응되는 발음기호로 변환한다. 발음특징추출부(1032)는 노래 가사에 포함된 문자의 발음기호를 변환함으로써 발음기호 특징벡터를 추출한다. 본 발명의 실시예들에 따른 가창음성 합성 장치(10)에서, 가사텍스트에 포함된 문자들을 발음기호로 변환할 때, 국제음성기호(IPA, International Phonetic Alphabet)으로 변환한다. 국제음성기호는 언어학에서 주로 사용되는 음성기록 체계로서, 영어, 한국어, 스페인어 등 현존하는 대부분의 언어의 소리를 표시할 수 있다. 여기에서, 발음기호는 국제음성기호(IPA)일 수 있으나, 이에 한정되지 않으며 발음을 표현하기 위한 별도의 규칙일 수 있다.
가창음성 합성 장치(10)의 음고추출부(1033)는 합성대상노래의 운율 데이터로부터 합성대상노래의 음고(pitch)를 나타내는 음고 특징벡터를 추출한다. 운율 데이터는 노래의 음고와 박자를 표현하는 데이터이다. 보다 구체적으로, 운율 데이터는 노래에 포함된 음의 음고, 음의 길이(duration) 및 음의 세기(velocity)를 포함한다. 운율 데이터의 예로는 MIDI(musical instrument interface) 데이터, MusicXML 데이터 등을 포함한다. 운율 데이터는 다양한 악기 등에 의해 발생한 소리를 디지털적으로 표현하는 데이터이다.
가창음성 합성 장치(10)의 발음구조 생성부(105)는 합성대상노래의 가사 텍스트와 합성대상가수의 가창음성 입력으로부터 각기 추출된 특징 벡터들로부터 발음 구조를 나타내는 발음구조 스펙트로그램을 생성한다. 본 발명에서, 발음구조는 혀·이·입술 등을 이용하여 소리를 내기 위한 구조로서, 모음의 포먼트(formant) 성분 및 자음의 무성음 성분을 포함한다. 포먼트는 음성학에서 사용되는 용어로 각 발음에 의해 결정되는 고유한 주파수 성분을 의미하고, 무성음 성분은 공기가 치아 사이 좁은 틈을 통과하면서 발생하는 마찰음인 치찰음(sibilance) 및 폐에서 나오는 공기를 막았다가 그 막은 자리를 터뜨리면서 발생하는 파열음(plosive sound)을 포함한다.
발음구조 생성부(105)는 전처리부(103)에서 추출된 음색 특징벡터 및 발음기호 특징벡터에 기초하여 발음구조 스펙트로그램을 생성한다. 발음구조 생성부(105)는 합성대상가수의 고유의 음색을 합성대상노래의 가사에 반영함으로써, 합성대상가수의 고유한 목소리 특색이 반영된 발음구조를 생성한다. 이에 따라, 본 발명은 합성대상가수가 합성대상노래의 가사텍스트에 포함된 문자, 단어들을 발음할 때 나타나는 고유한 특징을 표현할 수 있다.
가창음성 합성 장치(10)의 음고골격구조 생성부(104)는 전처리부(103)에서 추출된 창법 특징벡터 및 음고 특징벡터에 기초하여 음고골격구조 스펙트로그램을 생성한다. 음고(pitch)는 음의 높낮이를 의미하고, 음고골격 구조(harmonic structure)는 음의 높낮이, 음의 시작점 및 길이(duration)을 나타낸다. 음고골격 구조는 가수의 가창음성의 유성음(voiced sound) 또는 악기음과 같은 단선율의 오디오 신호에서 음의 높낮이와 관련된다. 여기에서, 유성음은 직접적인 음의 높낮이를 결정하는 기본주파수(fundamental frequency) 및 기본주파수의 정수배 주파수를 갖는 배음으로 구성된다. 음고골격구조 생성부(104)는 합성대상가수의 특유의 창법을 합성대상노래의 멜로디에 반영함으로써, 합성대상가수의 특유의 창법이 반영된 음고골격구조를 생성한다.
가창음성 합성 장치(10)의 보코더부(106)는 잠재변수화된 특징 벡터들을 결합하여 음성신호로 합성한다. 보코더부(106)는 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램에 기초하여 합성대상가수의 가창음성으로 표현된 합성대상노래에 대한 가창음성 신호를 생성한다. 보코더부(106)는 발음구조 생성부(105) 및 음고골격구조 생성부(104)에서 생성된 발음구조 스펙트로그램을 이용하여 합성대상노래의 음고골격구조를 마스킹(masking)함으로써 합성대상가수의 목소리로 합성대상노래를 표현한 가창음성 신호를 생성한다.
여기에서, 생성된 가창음성 신호는 선형 또는 멜-스케일로 표현될 수 있다. 가창음성 신호가 멜 스케일로 표현된 경우, 보코더부(106)는 멜 스케일의 가창음성 신호를 선형 스케일로 변환하는 변환부를 더 포함할 수 있다.
본 실시예에 따른 가창음성 합성 장치(10)의 전처리부(103), 발음구조 생성부(105), 음고골격구조 생성부(104) 및 보코더부(106) 각각은 다수의 레이어(layer)들을 포함하는 인공신경망으로 구현될 수 있다. 여기서, 인공신경망은 여러 개의 퍼셉트론을 포함하는 다층 구조 퍼셉트론(multi layer perceptron), 다수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(convolutional neural network), 순환구조를 갖는 RNN(recurrent neural network) 등으로 구현될 수 있다.
본 발명의 실시예에 따른 가창음성 합성 장치(10)의 인공신경망은 컨볼루션 레이어를 포함하는 CNN으로 구현될 수 있고, 현재 및 과거의 스펙트로그램으로부터 미래의 스펙트로그램을 예측하도록 트레이닝되어 초기조건 입력값으로부터 다음 프레임의 스펙트로그램을 출력할 수 있다. 예를 들어, 초기 조건으로 ‘0’이 사용될 수 있으며, 본 발명의 실시예에 따른 가창음성 합성 장치(10)의 인공신경망은 인공신경망의 출력이 피드백되어 인공신경망의 입력되는 방식으로 자동 회귀적으로 생성된다. 인공신경망의 트레이닝 단계에서 인공신경망은 역전파(back-propagation) 알고리즘을 통하여 계층 사이의 가중치가 트레이닝될 수 있으며, 이때 가중치의 기울기가 잘 전파될 수 있도록 인공신경망의 각 레이어에 연결 건너뛰기(skip connection)가 추가될 수 있다.
가창음성 합성 장치(10)의 출력부(107)는 가창음성 신호를 사용자가 들을 수 있는 청각적 신호로 변환하여 출력한다. 출력부(107)의 예로는 스피커를 들 수 있다. 가창음성 합성 장치(10)의 스토리지(108)는 가창음성 합성을 위하여 필요한 데이터를 저장한다. 예를 들어, 스토리지(108)는 가창음성 합성 장치(10)를 구성하는 인공신경망을 트레이닝하기 위한 학습용 데이터 세트를 저장한다. 여기에서, 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 가사텍스트 데이터 및 운율 데이터를 포함한다. 또한, 학습용 데이터 세트는 복수의 가수의 가창음성 데이터와 복수의 노래에 대한 가사텍스트 데이터 및 운율 데이터 사이의 연관성을 포함할 수 있다.
본 발명의 실시예에 따른 가창음성 합성 장치(10)에서, 전처리부(103), 음고골격구조 생성부(104), 발음구조 생성부(105) 및 보코더부(106)는 프로세서(101)와는 다른 별개의 전용 프로세서에 의해 구현될 수 있으며, 프로세서(101)에 의해 수행되는 컴퓨터 프로그램의 실행에 의하여 구현될 수도 있다.
가창음성 합성 장치(10)는 이상에서 설명된 구성요소들 외에 추가적인 구성요소를 더 포함할 수 있다. 예를 들어, 가창음성 합성 장치(10)는 도 2에 도시된 바와 같이, 여려 구성요소들 간에 데이터를 전송하기 위한 버스를 포함하고, 도 2에는 생략되어 있으나 각 구성요소에 구동전원을 공급하는 전원부, 합성된 가창음성 신호와 실제(GT, Ground Truth) 가창음성 신호를 구별하는 구별기 및 인공신경망의 트레이닝을 위한 트레이닝부를 더 포함할 수 있다. 이와 같이, 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 구성요소에 대한 상세한 설명은 본 실시예의 특징을 흐려지게 함에 따라 생략하기로 한다. 이하에서는 본 발명의 일 실시예에 따른 가창음성 합성 방법을 설명하는 과정에서 가창음성 합성 장치(10)의 각 구성요소에 대하여 상세하게 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 가창음성 합성 방법의 흐름도이고, 도 3은 도 1에 도시된 가창음성 합성 장치에서 가창음성 신호를 생성하는 과정을 도시한 예시도이다. 도 2에 도시된 가창음성 합성 방법을 수행하는 가창음성 합성 장치는 본 발명의 일 실시예에 따른 가창음성 합성 방법을 수행하기 전에 가창음성 합성 장치에 포함된 인공신경망(예를 들어, 전처리부(103), 발음구조 생성부(105), 음고골격구조 생성부(104) 및 보코더부(106))는 복수의 가수에 대한 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하는 학습용 데이터 세트에 의해 미리 트레이닝되었다고 가정한다.
도 2 및 3을 참고하면, 201 단계에서, 가창음성 합성 장치(10)의 입력부(102)는 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득한다. 입력부(102)는 사용자로부터 사용자가 듣기를 원하는 합성대상가수 및 합성대상노래를 입력받는다. 입력부(102)는 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 전처리부(103)로 입력한다. 여기에서, 합성대상가수는 가창음성 합성 장치(10)를 구성하는 인공신경망을 트레이닝하는데 사용된 학습용 데이터 세트에 포함되는 가수이고, 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래의 운율 데이터 및 가사텍스트 데이터를 포함한다. 합성대상노래의 운율 데이터 및 가사텍스트 데이터는 스토리지(108)에 저장된 데이터일 수 있으며, 사용자에 의해 입력된 데이터일 수 있다.
202 단계에서, 가창음성 합성 장치(10)의 전처리부(103)는 가창음성 합성요청에 기초하여, 합성대상가수의 가창음성 데이터 및 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 스토리지(108)로부터 획득한다. 여기에서, 운율 데이터는 다양한 악기 등에 의해 발생한 소리를 디지털적으로 표현하는 데이터를 의미한다. 운율 데이터는 음고(pitch), 음의 길이 및 음의 세기를 포함한다. 전처리부(103)는 사용자가 가창음성 합성을 원하는 합성대상가수의 가창음성 데이터를 스토리지(108)로부터 획득하고, 가창음성 합성을 원하는 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득한다.
203 단계에서, 가창음성 합성 장치(10)의 전처리부(103)는 획득된 합성대상가수의 가창음성데이터, 합성대상노래의 운율 데이터 및 가사텍스트 데이터에 기초하여 합성대상가수의 음색 특징벡터와 창법 특징벡터, 및 합성대상노래의 가사에 대한 발음기호 특징벡터와 음고 특징벡터를 추출한다. 보다 구체적으로, 전처리부(103)의 가수특징추출부(1031)는 획득된 합성대상가수의 가창음성을 나타내는 가창음성 데이터로부터 합성대상가수의 음색을 나타내는 음색 특징벡터 및 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출한다. 여기에서, 가창음성 데이터는 주파수가 멜 스케일(Mel-scale)로 표현되는 멜-스펙트로그램일 수 있다.
본 발명의 실시예에 따른 가창음성 합성 장치(10)는 발음구조 생성부(105)로 입력되는 텍스트 특성과 오디오 특성의 시간 정렬을 위한 어텐션부(attention unit)를 더 포함할 수 있다. 본 발명의 실시예에 따른 어텐션부(미도시)는 합성대상노래의 텍스트 특성인 발음기호 특성벡터와 오디오 특성인 음고 특성벡터를 정렬한다. 어텐션부는 정렬된 음고 특성벡터를 생성한다.
도 4는 도 2에 도시된 음색 특징벡터, 창법 특징벡터, 발음기호 특징벡터와 음고 특징벡터를 추출하는 단계의 상세흐름도이다. 2031 단계에서, 전처리부(103)의 가수특징추출부(1031)는 합성대상가수의 가창음성 데이터로부터 합성대상가수의 음색을 나타내는 음색 특징벡터 및 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출한다. 가수특징추출부(1031)는 합성대상가수의 고유한 목소리 특색을 나타내는 가창음성의 파형을 분석하고, 분석 결과에 기초하여 합성대상가수의 음색을 나타내는 음색 특징벡터를 추출한다. 또한, 가수특징추출부(1031)는 합성대상가수의 가창음성에서 음성의 떨림(바이브레이션)과 같은 가수 고유의 스타일을 분석하고, 분석 결과에 기초하여 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출한다.
2032 단계에서, 전처리부(103)의 발음특징추출부(1032)는 합성대상노래의 가사텍스트 데이터로부터 노래 가사에 포함된 문자의 발음기호를 나타내는 발음기호 특징벡터를 추출한다. 발음특징추출부(1032)는 가사텍스트에 포함된 문자들을 분석하여 문자들의 발음에 해당하는 발음기호로 변환한다. 발음특징추출부(1032)는 변환된 발음기호로부터 합성대상노래의 발음을 나타내는 발음기호 특징벡터를 추출한다. 여기에서, 발음특징추출부(1032)는 문자가 아닌 발음기호를 이용하여 발음기호 특징벡터를 추출함으로써, 특정 언어에 제한되지 않고 다양한 언어를 포함하는 가사텍스트로부터 발음기호 특징벡터를 추출할 수 있다. 예를 들어, 발음특징추출부(1032)는 문자들의 발음에 해당하는 발음기호로 변환할 때 국제음성기호(IPA)로 변환할 수 있다.
2033 단계에서, 전처리부(103)의 음고추출부(1033)는 합성대상노래의 운율 데이터로부터 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출한다. 이상에서 설명한 바와 같이, 운율 데이터는 노래의 음고, 음의 길이 및 음의 세기를 포함한다. 음고추출부(1033)는 합성대상노래의 운율 데이터로부터 합성대상 노래의 음고 특징벡터를 추출한다.
여기에서, 가수특징추출부(1031), 발음특징추출부(1032) 및 음고추출부(1033)는 사전에 트레이닝된 인공신경망으로 구성된다. 가수특징추출부(1031)는 복수의 가수에 대한 복수의 가창음성 데이터를 포함하는 학습용 데이터셋으로 사전에 트레이닝되고, 발음특징추출부(1032)는 복수의 노래에 대한 가사텍스트 데이터를 포함하는 학습용 데이터셋으로 사전에 트레이닝되고, 음고추출부(1033)는 복수의 노래에 대한 운율 데이터를 포함하는 학습용 데이터셋으로 사전에 트레이닝된 인공신경망이다. 가수특징추출부(1031). 발음특징추출부(1032) 및 음고추출부(1033)는 각각 별개의 인공신경망일 수 있으나, 하나의 인공신경망일 수도 있다.
203 단계에서, 전처리부(103)는 합성대상가수의 가창음성데이터, 합성대상노래의 운율 데이터 및 가사텍스트 데이터로부터 추출된 음색 특징벡터, 창법 특징벡터, 발음기호 특징벡터 및 음고 특징벡터를 발음구조 생성부(105) 및 음고골격구조 생성부(104)로 입력한다. 보다 구체적으로, 전처리부(103)는 음색 특징벡터 및 발음기호 특징벡터를 발음구조 생성부(105)로 입력하고, 창법 특징벡터 및 음고 특징벡터를 음고골격구조 생성부(104)로 입력한다.
204 단계에서, 가창음성 합성 장치(10)의 발음구조 생성부(105)는 추출된 음색 특징벡터 및 발음기호 특징벡터에 기초하여 발음구조 스펙트로그램을 생성한다. 발음구조 생성부(105)는 음색 특징벡터 및 발음기호 특징벡터를 결합하고, 결합된 음색 특징벡터 및 발음기호 특징벡터로부터 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성한다. 보다 구체적으로, 발음구조 생성부(105)는 입력된 합성대상가수의 음색을 나타내는 음색 특징벡터와 합성대상노래의 가사텍스트의 발음을 나타내는 발음기호 특징벡터를 이용하여 합성대상가수가 합성대상노래의 가사텍스트에 포함된 문자, 단어들을 발음할 때 나타나는 고유한 특징을 나타내는 발음구조 스펙트로그램을 생성한다.
발음구조 생성부(105)는 합성대상가수의 고유한 발음 특성을 나타내는 발음구조 스펙트로그램을 생성한다. 위에서 설명한 바와 같이, 발음구조는 소리를 내기 위한 구조로서, 포먼트 성분 및 무성음 성분을 포함한다. 본 발명의 실시예들에 따른 가창음성 합성 방법은 발음구조 스펙트로그램을 생성할 때, 가수별 고유한 발음 특색을 고려하여 발음구조 스펙트로그램을 생성한다. 발음구조 생성부(105)는 생성된 발음구조 스펙트로그램을 보코더부(106)로 입력한다.
205 단계에서, 가창음성 합성 장치(10)의 음고골격구조 생성부(104)는 추출된 창법 특징벡터 및 음고 특징벡터에 기초하여 음고골격구조 스펙트로그램을 생성한다. 음고골격구조 생성부(104)는 창법 특징벡터 및 음고 특징벡터를 결합하고, 결합된 창법 특징벡터 및 음고 특징벡터로부터 합성대상가수의 창법이 반영된 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성한다. 음고골격 구조(harmonic structure) 스펙트로그램은 음의 높낮이, 음의 시작점 및 길이를 나타낸다. 음고골격 구조는 가수의 음성의 유성음(voiced sound) 또는 악기음과 같은 단선율의 오디오 신호에서의 음고음의 높낮이인 음고와 관련되고, 가수마다 상이한 창법이 반영된 특성이다. 본 발명의 실시예들에 따른 가창음성 합성 방법은 음고골격구조 스펙트로그램을 생성할 때, 합성대상노래의 음고에 가수별 고유한 창법이 반영된 음고골격구조 스펙트로그램을 생성한다. 음고골격구조 생성부(104)는 생성된 음고골격구조 스펙트로그램을 보코더부(106)로 입력한다.
여기에서, 발음구조 생성부(105) 및 음고골격구조 생성부(104)는 사전에 트레이닝된 인공신경망으로 구성된다. 발음구조 생성부(105)는 복수의 가수에 대한음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터를 포함하는 학습용 데이터셋으로 사전에 트레이닝되고, 음고골격구조 생성부(104)는 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터를 포함하는 학습용 데이터셋으로 사전에 트레이닝된 인공신경망이다. 발음구조 생성부(105) 및 음고골격구조 생성부(104)는 각각 별개의 인공신경망이다. 이에 따라, 발음구조 스펙트로그램을 생성하는 204 단계와 음고골격구조 스펙트로그램을 생성하는 205 단계는 별개의 인공신경망에 의해 수행된다.
206 단계에서, 가창음성 합성 장치(10)의 보코더부(106)는 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램에 기초하여 합성대상가수의 가창음성으로 표현된 합성대상노래에 대한 가창음성 신호를 생성한다. 보코더부(106)는 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램을 결합하여 합성대상가수 및 합성대상노래의 가창음성 신호를 생성한다. 이상에서 설명한 바와 같이, 발음구조 생성부(105)에서 합성대상가수의 발음 특색이 반영된 합성대상노래의 가사텍스트에 대한 발음구조 스펙트로그램을 생성하고, 음고골격구조 생성부(104)에서 합성대상가수의 창법이 반영된 합성대상노래의 음고골격에 대한 음고골격구조 스펙트로그램을 생성한다. 보코더부(106)는 상술한 방식으로 생성된 발음구조 스펙트로그램를 이용하여 합성대상노래의 음고골격구조를 마스킹(masking)함으로써 합성대상가수의 목소리로 합성대상노래를 표현한 가창음성 신호를 생성한다. 여기에서, 생성된 가창음성 신호는 선형 또는 멜-스케일로 표현될 수 있다. 생성된 가창음성 신호가 멜-스케일 스펙트로그램으로 생성된 경우, 본 발명의 일 실시예에 따른 가창음성 합성 방법은 생성된 멜 스케일 스펙트로그램의 가창음성 신호를 선형 스펙트로그램으로 변환하는 단계를 더 포함한다. 가창음성 신호가 멜 스케일 스펙트로그램으로 표현된 경우, 보코더부(106)는 멜 스케일 스펙트로그램의 가창음성 신호를 선형 스펙트로그램으로 변환하는 변환부(미도시)를 더 포함할 수 있다. 보코더부(106)는 생성된 가창음성 신호를 출력부(107)로 입력한다.
207 단계에서, 가창음성 합성 장치(10)의 출력부(107)는 가창음성 신호를 출력한다. 출력부(107)는 가창음성 신호를 음파(sound wave)로 변환하여 출력한다.
가창음성 합성 방법은 사용자가 입력한 합성대상가수가 합성대상노래를 부른 음파를 출력한다. 가창음성 합성 방법은 합성대상노래에 합성대상가수 특유의 음색 및 창법이 반영된 음파를 사용자에게 제공할 수 있다.
본 발명의 일 실시예에 따른 가창음성 합성 방법은 인공신경망을 복수의 가수에 대한 가창음성으로 트레이닝함으로써, 복수의 가수에 포함된 가수와 동일·유사한 음색, 창법으로 표현된 노래에 대한 가창음성을 합성할 수 있다. 이에 따라, 실제 가수가 부르지 않은 노래라고 하더라도 가수가 실제 부른 노래와 동일·유사한 가창음성을 생성할 수 있다.
다만, 상술한 본 발명의 일 실시예에 따른 가창음성 합성 방법은 인공신경망을 트레이닝하는데 사용된 학습용 데이터 세트에 포함된 가수에 한하여 가창음성을 합성할 수 있다. 인공신경망이 트레이닝되지 않은 가수의 가창음성과 동일·유사한 가창음성 신호는 생성할 수 없다.
도 5는 본 발명의 다른 실시예에 따른 가창음성 합성 방법의 흐름도이다. 도 5에 도시된 가창음성 합성 방법은 학습용 데이터 세트에 포함되지 않은 가수의 가창음성을 합성할 수 있다. 도 5에 도시된 본 발명의 다른 실시예에 따른 가창음성 합성 방법에 대하여는 이하에서 상세하게 설명하기로 한다. 도 5에 도시된 가창음성 합성 방법을 수행하는 가창음성 합성 장치는 본 발명의 다른 실시예에 따른 가창음성 합성 방법을 수행하기 전에 가창음성 합성 장치에 포함된 인공신경망(예를 들어, 전처리부(103), 발음구조 생성부(105), 음고골격구조 생성부(104) 및 보코더부(106))는 복수의 가수에 대한 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하는 학습용 데이터 세트에 의해 미리 트레이닝되었다고 가정한다.
도 5를 참고하면, 501 단계에서 가창음성 합성 장치(10)의 입력부(102)는 사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득한다. 여기에서, 합성대상가수는 가창음성 합성 장치(10)를 구성하는 인공신경망을 트레이닝하는데 사용된 학습용 데이터 세트에 포함되지 않은 가수이다.
502 단계에서, 가창음성 합성 장치(10)의 입력부(102)는 합성대상가수의 가창음성 데이터, 가창음성 데이터와 연관된 운율 데이터, 및 가창음성 데이터와 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득한다. 여기에서, 연관된 운율 데이터 및 가사텍스트 데이터 각각은 합성대상가수의 가창음성 데이터에 의해 표현되는 노래의 운율 데이터 및 가사텍스트 데이터이다. 입력부(102)는 사용자로부터 합성대상가수의 가창음성 데이터, 가창음성 데이터와 연관된 운율 데이터, 및 가창음성 데이터와 연관된 가사텍스트 데이터를 입력받는 방식으로 획득할 수 있다.
또한, 입력부(102)는 사용자로부터 입력된 가창음성 합성요청에 기초하여 스토리지(108)에 저장된 합성대상가수의 가창음성 데이터, 가창음성 데이터와 연관된 운율 데이터, 및 가창음성 데이터와 연관된 가사텍스트 데이터를 획득할 수 있다. 전이대상 데이터는 사전에 트레이닝된 인공신경망을 전이 학습(transfer learning)시키기 위한 데이터이다. 입력부(102)는 획득된 전이대상 데이터를 전처리부(103), 발음구조 생성부(105) 및 음고골격구조 생성부(104)로 입력한다.
획득된 합성대상가수의 가창음성 데이터는 최소필요시간 이상의 합성대상가수의 가창음성을 포함한다. 최소필요시간은 예를 들어, 5분, 7분 또는 10분일 수 있다. 최소필요시간은 미리 트레이닝된 인공신경망이 새로 입력된 가수의 가창음성을 합성할 수 있도록 전이학습이 가능한 최소한의 가창음성의 시간을 의미한다. 예를 들어, 최소필요시간이 5분인 경우, 가창음성 합성 장치(10)는 인공신경망을 전이학습시키기 위하여 합성대상가수의 가창음성이 5분 이상 포함된 가창음성 데이터, 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 필요로 한다.
503 단계에서, 가창음성 합성 장치(10)의 인공신경망(즉, 전처리부(103), 발음구조 생성부(105) 및 음고골격구조 생성부(104))은 입력된 전이대상 데이터에 기초하여 전이 학습한다. 인공신경망인 전처리부(103), 발음구조 생성부(105) 및 음고골격구조 생성부(104)는 전이대상 데이터에 포함된 합성대상가수의 가창음성 데이터, 가창음성 데이터와 연관된 노래의 운율 데이터 및 가사텍스트 데이터를 이용하여 전이 학습한다.
이상에서 설명한 바와 같이, 전처리부(103), 발음구조 생성부(105) 및 음고골격구조 생성부(104) 각각은 학습용 데이터 세트에 의해 트레이닝된 인공신경망이다. 여기에서, 학습용 데이터 세트에 포함되지 않은 가수의 가창음성 데이터, 가창음성 데이터와 연관된 노래의 운율 데이터 및 가사텍스트 데이터를 전처리부(103), 발음구조 생성부(105) 및 음고골격구조 생성부(104)에 입력하여 전이 학습을 수행한다. 전이 학습은 미리 트레이닝된 인공신경망에 트레이닝에 사용되지 않은 가수의 가창음성 데이터, 연관된 운율 데이터, 및 연관된 가사텍스트 데이터를 입력하여 인공신경망을 다시 트레이닝하는 과정을 의미한다.
각 인공신경망은 가창음성 데이터, 운율 데이터 및 가사텍스트 데이터로부터 음색 특징벡터, 창법특징 벡터, 발음기호 특징벡터 및 음고 특징벡터를 추출하도록 학습용 데이터 세트에 의하여 사전에 트레이닝되어 있다. 다시 말해, 각 인공신경망은 인공신경망을 구성하는 계층(layer)들 사이의 필터 및 가중치가 이미 결정되어 있기 때문에, 소정의 가창음성 데이터, 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터 세트의 입력만으로 새로운 가수에 대한 트레이닝을 완료할 수 있다. 새로 트레이닝된 인공신경망은 전이대상 데이터 세트에 포함된 가수와 유사한 가창음성 신호를 합성할 수 있다.
다시 말해, 전이학습된 전처리부(103), 발음구조 생성부(105) 및 음고골격구조 생성부(104)는 학습용 데이터 세트에 포함되지 않았던 합성대상가수의 가창음성 데이터로부터 합성대상가수의 음색특징 벡터, 창법 특징벡터, 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램을 생성할 수 있다.
504 단계에서, 가창음성 합성 장치(10)의 전처리부(103)는 가창음성 합성요청에 기초하여 합성대상가수의 가창음성 데이터 및 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 스토리지(108)로부터 획득한다. 합성대상가수의 가창음성 데이터 및 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 것에 대한 상세한 설명은 202 단계에 관한 설명으로 갈음하기로 한다.
505 단계에서, 가창음성 합성 장치(10)의 전처리부(103)는 획득된 합성대상가수의 가창음성데이터, 합성대상노래의 운율 데이터 및 가사텍스트 데이터에 기초하여 합성대상가수의 음색 특징벡터와 창법 특징벡터, 및 합성대상노래의 가사에 대한 발음기호 특징벡터와 음고 특징벡터를 추출한다. 여기에서, 전처리부(103)는 503 단계에서 전이학습된 전처리부(103)이다. 전이학습된 전처리부(103)의 가수특징추출부(1031)는 합성대상가수의 가창음성을 나타내는 가창음성 데이터로부터 합성대상가수의 음색을 나타내는 음색 특징벡터 및 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출한다.
이상에서 설명한 바와 같이, 가수특징추출부(1031)는 사용자가 요청한 합성대상가수가 학습용 데이터 세트에 포함되어 있지 않으나 전처리부(103)의 가수특징추출부(1031)가 503 단계에서 전이학습됨에 따라, 합성대상가수의 가창음성데이터로부터 합성대상가수의 음색 특징벡터 및 창법 특징벡터를 추출할 수 있다. 합성대상가수의 음색 특징벡터와 창법 특징벡터, 및 합성대상노래의 가사에 대한 발음기호 특징벡터와 음고 특징벡터를 추출하는 것에 대한 상세한 설명은 203 단계에 관한 설명으로 갈음하기로 한다.
506 단계에서, 가창음성 합성 장치(10)의 발음구조 생성부(105)는 추출된 음색 특징벡터 및 발음기호 특징벡터에 기초하여 발음구조 스펙트로그램을 생성한다. 여기에서, 발음구조 생성부(105)는 503 단계에서 전이학습된 발음구조 생성부(105)이다. 이에 따라, 발음구조 생성부(105)는 음색 특징벡터 및 발음기호 특징벡터를 결합하고, 결합된 음색 특징벡터 및 발음기호 특징벡터로부터 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성할 수 있다. 발음구조 스펙트로그램을 생성하는 것에 대한 상세한 설명은 204 단계에 관한 설명으로 갈음하기 한다.
507 단계에서, 가창음성 합성 장치(10)의 음고골격구조 생성부(104)는 추출된 창법 특징벡터 및 음고 특징벡터에 기초하여 음고골격구조 스펙트로그램을 생성한다. 여기에서, 음고골격구조 생성부(104)는 503 단계에서 전이학습된 음고골격구조 생성부(104)이다. 이에 따라, 음고골격구조 생성부(104)는 창법 특징벡터 및 음고 특징벡터를 결합하고, 결합된 창법 특징벡터 및 음고 특징벡터로부터 합성대상가수의 창법이 반영된 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성ㅎ할 수 있다. 음고골격구조 스펙트로그램을 생성하는 것에 대한 상세한 설명은 205 단계에 관한 설명으로 갈음하기로 한다.
508 단계에서, 가창음성 합성 장치(10)의 보코더부(106)는 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램에 기초하여 합성대상가수의 가창음성으로 표현된 합성대상노래에 대한 가창음성 신호를 생성한다. 가창음성 신호를 생성하는 것에 대한 상세한 설명은 206 단계에 관한 설명으로 갈음하기로 한다.
509 단계에서, 가창음성 합성 장치(10)의 출력부(107)는 가창음성 신호를 출력한다. 출력부(107)는 보코더부(106)에서 생성된 가창음성 신호를 음파로 변환하여 출력한다.
본 발명의 다른 실시예에 따른 가창음성 합성 방법은 학습용 데이터 세트로 트레이닝된 인공신경망을 학습용 데이터 세트에 포함되지 않은 가수의 소정의 가창음성 데이터, 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 이용하여 전이 학습함으로써, 학습용 데이터 세트에 포함되지 않은 가수의 가창음성을 합성할 수 있다.
이상에서 설명한 바와 같이 본 발명의 실시예들에 따른 가창음성 합성 장치(10)는 복수 개의 인공신경망을 포함한다. 가창음성 합성 장치(10)는 상술한 구성요소 이외에 구별기(discriminator)를 더 포함할 수 있다. 구별기(미도시)는 보코더부(106)에서 생성된 가창음성 신호가 진짜인지 가짜인지를 판별한다. 보다 구체적으로, 구별기는 전처리부(103), 음고골격구조 생성부(104), 발음구조 생성부(105) 및 보코더부(106)에서 생성된 가창음성 신호와 실제(ground truth) 가창음성 신호를 비교하여 오류를 측정할 수 있다. 구별기는 별개의 인공신경망으로 구성될 수 있다.
이하에서, 설명의 편의를 위하여 가창음성 신호를 생성하는 전처리부(103), 음고골격구조 생성부(104), 발음구조 생성부(105) 및 보코더부(106)를 합쳐서 생성기(generator)라고 하기로 한다. 생성기 및 구별기를 포함하는 가창음성 합성 장치(10)는 대립적 손실(adversarial loss)을 이용한 방식으로 트레이닝될 수 있다.
본 실시예에 따른 가창음성 합성 장치(10)의 대립적 손실(adversarial loss)은 다음의 수학식 1 및 2와 같다.
상기 수학식 1, 2에서, 는 구별기의 GAN 손실이고, 는 생성기의 GAN 손실이다. 은 생성기에서 생성한 가창음성 신호의 멜 스펙트로그램이고, 는 생성기에서 생성한 가창음성 신호의 선형 스펙트로그램이고, 은 실제(GT) 가창음성 신호의 멜 스펙트로그램이고, 실제(GT) 가창음성신호의 선형 스펙트로그램이다. 는 스칼라 함수이다.
가창음성 합성 장치(10)는 인공신경망의 추론 손실(inference loss)은 다음의 수학식 3과 같다.
여기에서, 첫 번째 항 은 가창음성신호의 멜 스펙트로그램 및 실제(GT) 가창음성신호의 멜 스펙트로그램 사이의 손실이고, 두 번째 항 는 유도 어텐션 손실(guided attention loss)이고, 세 번째 항 은 가창음성신호의 멜 스펙트로그램의 증분()과 실제(GT) 가창음성신호의 멜 스펙트로그램의 증분() 사이의 손실이다.
상술한 손실들을 결합하여, 가창음성 생성부 및 구별기의 총 손실은 다음의 수학식 4 및 5와 같다.
여기에서, 는 생성기의 총 손실이고, 는 구별기의 총 손실이고, 및 는 손실과 관련된 하이퍼 파라미터이다. 은 생성기에 의해 생성된 가창음성신호의 선형 스펙트로그램과 실제(GT) 가창음성신호의 선형 스펙트로그램 사이의 손실이다.
본 실시예에 따른 가창음성 합성 장치(10)는 총 손실인 , , 및 이 감소되는 방향으로 및 손실과 관련된 하이퍼 파라미터를 업데이트함으로써 생성기 및 구별기를 트레이닝 시킨다. 최초 트레이닝에서는 하이퍼파라미터 및 를 영(0)으로 설정하고 트레이닝을 한다. 최초 트레이닝의 예시에 따르면, 대립적 손실(, ) 및 손실 항목은 0이 된다. 트레이닝이 진행된 후에는 가창음성 합성 장치(10)는 0으로 설정되었던 하이퍼파라미터를 0이 아닌 값으로 설정함으로써, 모든 손실 항목을 이용하여 생성기(602) 및 구별기(604)의 파라미터를 업데이트할 수 있다.
상술한 본 발명의 실시예들에 따르면, 가창음성 합성 방법은 사전에 트레이닝된 인공신경망을 이용하여 합성대상가수의 음색 특징 및 창법 특징을 추출하고, 합성대상노래의 음고 및 가사의 발음기호를 추출한다. 가창음성 합성 장치는 추출된 음색 특징, 창법 특징, 음고 및 가사의 발음기호에 기초하여 합성대상가수의 음색 특징이 반영된 합성대상노래의 가사의 발음구조를 나타내는 발음구조 스펙트로그램을 생성하고, 합성대상가수의 창법 특징이 반영된 합성대상노래의 음고를 나타내는 음고골격구조 스펙트로그램을 생성한다. 가창음성 합성 장치는 이렇게 생성된 발음구조 스펙트로그램 및 음고골격구조 스펙트로그램에 이용함으로써, 합성대상가수 고유의 음색 및 창법이 반영된 가창음성신호를 생성할 수 있다. 이에 따라, 합성대상가수가 실제로 부르지 않은 노래이나 마치 합성대상가수가 실제로 부른 것과 동일·유사한 가창음성을 합성/생성할 수 있다.
본 발명의 실시예들에 따르면, 가창음성 신호를 합성/생성할 때 포먼트에 해당하는 발음구조와 노래의 음고에 해당하는 음고골격을 구별하여 생성하고, 이렇게 생성된 발음구조와 음고골격을 결합하여 가창음성 신호를 생성한다. 이에 따라, 본 발명은 가수의 실제 가창음성과 가까운 가창음성을 합성할 수 있다.
이에 더하여, 본 발명의 실시예들에 따르면, 가창음성 합성 장치의 보코더부에 매개변수 또는 특징 벡터가 아닌 발음구조 스펙트로그램 및 음고골격 스펙트로그램이 입력된다. 본 발명은 보코더부에 매개변수 또는 특징 벡터가 아닌 실제 오디오 파형 또는 스펙트로그램이 입력되도록 인공신경망 네트워크를 설계함으로써, 가창음성 합성 장치가 보다 자연스러운 가창음성 신호를 합성할 수 있다.
또한, 본 발명의 실시예들에 따른 가창음성 합성 방법은 발음구조 생성부와 음고골격구조 생성부를 별도의 인공신경망으로 구현함으로써, 인공신경망의 트레이닝을 위한 학습용 데이터 세트에 포함되지 않은 가수의 가창음성 데이터, 이와 연관된 노래의 운율 데이터 및 가사텍스트 데이터를 이용하여 가창음성 합성 장치의 인공신경망이 학습용 데이터 세트에 포함되지 않은 가수의 음색 특징 및 창법 특징을 추출할 수 있도록 전이 학습이 가능하다. 인공신경망을 전이학습시킴으로써, 본 발명의 실시예에 따른 가창음성 합성 방법은 트레이닝되지 않은 가수의 실제 가창음성과 가까운 가창음성을 합성할 수 있다.
추가적으로, 본 발명의 실시예들에 따른 가창음성 합성 방법은 발음구조 생성부와 음고골격구조 생성부를 별도의 인공신경망으로 구현함으로써, 소정의 가창음성 데이터만으로도 인공신경망을 전이학습시킬 수 있다. 예를 들어, 10분 이내의 소용량인 가창음성 데이터를 이용하여 인공신경망을 전이학습시킬 수 있음에 따라, 세상을 떠나 고인이 된 가수의 가창음성을 복원할 수 있다.
한편 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체 (예를 들면 롬 플로피 디스크 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)같은 저장매체를 포함한다. 컴퓨터 판독 가능한 기록매체에는 본 발명의 실시예들에 따른 가창음성 합성 방법을 수행하는 프로그램이 기록된다.
이제까지 본 발명에 대하여 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 가창음성 합성 장치
101: 프로세서 102: 입력부
103: 전처리부 104: 음고골격구조 생성부
105: 발음구조 생성부 106: 보코더부
107: 출력부 108: 스토리지
101: 프로세서 102: 입력부
103: 전처리부 104: 음고골격구조 생성부
105: 발음구조 생성부 106: 보코더부
107: 출력부 108: 스토리지
Claims (11)
- 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 단계;
상기 가창음성 데이터, 상기 운율 데이터 및 상기 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 단계;
상기 가창음성 합성 장치의 발음구조 생성부에 의해, 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 단계 ― 상기 발음구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 가창음성 합성 장치의 음고골격구조 생성부에 의해, 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 단계 ― 상기 음고골격구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 가창음성 합성 방법. - 제 1 항에 있어서,
상기 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하고,
상기 합성대상가수는 상기 복수의 가수 중 하나인 것을 특징으로 하는 가창음성 합성 방법. - 제 1 항에 있어서,
상기 추출하는 단계는
상기 합성대상가수의 가창음성데이터로부터 상기 합성대상가수의 음색을 나타내는 음색 특징벡터 및 상기 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출하는 단계;
상기 합성대상노래의 가사텍스트 데이터로부터 상기 가사텍스트에 포함된 문자들의 발음에 해당하는 발음기호를 나타내는 발음기호 특징벡터를 추출하는 단계; 및
상기 합성대상노래의 운율 데이터로부터 상기 합성대상노래의 음고를 나타내는 음고특징벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 가창음성 합성 방법. - 제 3 항에 있어서,
상기 발음기호는 국제음성기호(IPA, International Phonetic Alphabet)인 것을 특징으로 하는 가창음성 합성 방법. - 제 1 항에 있어서,
상기 가창음성 신호를 생성하는 단계는 상기 가창음성 신호가 멜-스케일(mel-scale) 스펙트로그램으로 생성된 경우, 상기 생성된 멜 스케일 스펙트로그램의 가창음성 신호를 선형 스펙트로그램으로 변환하는 단계를 더 포함하는 것을 특징으로 하는 가창음성 합성 방법. - 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 입력부(102);
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 상기 가창음성 데이터, 상기 운율 데이터 및 상기 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 전처리부(103);
상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 발음구조 생성부(105) ― 상기 발음구조 생성부(105)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 음고골격구조 생성부(104) ― 상기 음고골격구조 생성부(104)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 보코더부를 포함하는 것을 특징으로 하는 가창음성 합성 장치. - 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 가창음성 데이터와 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득하는 단계;
상기 전이대상 데이터에 기초하여, 상기 가창음성 합성 장치의 인공신경망을 전이 학습하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 단계;
상기 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 상기 합성대상노래의 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 단계;
상기 가창음성 합성 장치의 발음구조 생성부에 의해, 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 단계 ― 상기 발음구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 가창음성 합성 장치의 음고골격구조 생성부에 의해, 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 단계 ― 상기 음고골격구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 단계를 포함하는 가창음성 합성 방법. - 제 7 항에 있어서,
상기 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하고,
상기 합성대상가수는 상기 복수의 가수에 포함되지 않은 가수인 것을 특징으로 하는 가창음성 합성 방법. - 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하고, 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 가창음성 데이터와 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득하는 입력부(102);
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 상기 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 상기 합성대상노래의 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 전처리부(103);
상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 발음구조 생성부(105) ― 상기 발음구조 생성부(105)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 음고골격구조 생성부(104) ― 상기 음고골격구조 생성부(104)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 보코더부(106)를 포함하고,
상기 전처리부(103), 상기 발음구조 생성부(105) 및 상기 음고골격구조 생성부(104)는 상기 전이대상 데이터에 기초하여 전이 학습하는 것을 특징으로 하는 가창음성 합성 장치. - 제 1 항 내지 제 5 항 중 어느 한 항에 기재된 방법을 컴퓨터에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
- 제 7 항 또는 제 8 항에 기재된 방법을 컴퓨터에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200065019A KR102168529B1 (ko) | 2020-05-29 | 2020-05-29 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200065019A KR102168529B1 (ko) | 2020-05-29 | 2020-05-29 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR102168529B1 true KR102168529B1 (ko) | 2020-10-22 |
KR102168529B9 KR102168529B9 (ko) | 2021-08-19 |
Family
ID=73035548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200065019A KR102168529B1 (ko) | 2020-05-29 | 2020-05-29 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102168529B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382269A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 音频合成方法、装置、设备以及存储介质 |
CN113177635A (zh) * | 2021-04-29 | 2021-07-27 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN114360492A (zh) * | 2021-10-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 音频合成方法、装置、计算机设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063438A (ko) * | 2000-07-12 | 2000-11-06 | 백종관 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
JP2002202790A (ja) * | 2000-12-28 | 2002-07-19 | Yamaha Corp | 歌唱合成装置 |
US20090306987A1 (en) * | 2008-05-28 | 2009-12-10 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
KR20150118974A (ko) * | 2013-03-15 | 2015-10-23 | 야마하 가부시키가이샤 | 음성 처리 장치 |
US20170025115A1 (en) * | 2015-07-24 | 2017-01-26 | Yamaha Corporation | Method and Device for Editing Singing Voice Synthesis Data, and Method for Analyzing Singing |
KR101991733B1 (ko) | 2014-12-15 | 2019-06-21 | 바이두 유에스에이 엘엘씨 | 음성 전사를 위한 시스템 및 방법 |
KR102057926B1 (ko) | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR20200015418A (ko) | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
US20200302903A1 (en) * | 2017-06-20 | 2020-09-24 | Korea Advanced Institute Of Science And Technology | Singing expression transplantation system |
-
2020
- 2020-05-29 KR KR1020200065019A patent/KR102168529B1/ko active IP Right Grant
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063438A (ko) * | 2000-07-12 | 2000-11-06 | 백종관 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
JP2002202790A (ja) * | 2000-12-28 | 2002-07-19 | Yamaha Corp | 歌唱合成装置 |
US20090306987A1 (en) * | 2008-05-28 | 2009-12-10 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
KR20150118974A (ko) * | 2013-03-15 | 2015-10-23 | 야마하 가부시키가이샤 | 음성 처리 장치 |
KR101991733B1 (ko) | 2014-12-15 | 2019-06-21 | 바이두 유에스에이 엘엘씨 | 음성 전사를 위한 시스템 및 방법 |
US20170025115A1 (en) * | 2015-07-24 | 2017-01-26 | Yamaha Corporation | Method and Device for Editing Singing Voice Synthesis Data, and Method for Analyzing Singing |
US20200302903A1 (en) * | 2017-06-20 | 2020-09-24 | Korea Advanced Institute Of Science And Technology | Singing expression transplantation system |
KR20200015418A (ko) | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
KR102057926B1 (ko) | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
Non-Patent Citations (2)
Title |
---|
(비특허문헌 1) Juheon Lee, Hyeong-Seok Choi, Chang-Bin Jeon, Junghyun Koo, and Kyogu Lee, "Adversarially trained end-to-end korean singing voice synthesis system," Proc. Interspeech 2019, pp. 2588-2592, 2019. |
DeepMind, "WaveNet: A generative model for raw audio," 2016.09.08, <URL: https://deepmind.com/blog/article/wavenet-generative-model-raw-audio> * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382269A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 音频合成方法、装置、设备以及存储介质 |
CN113177635A (zh) * | 2021-04-29 | 2021-07-27 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN114360492A (zh) * | 2021-10-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 音频合成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102168529B9 (ko) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102168529B1 (ko) | 인공신경망을 이용한 가창음성 합성 방법 및 장치 | |
CN106971703A (zh) | 一种基于hmm的歌曲合成方法及装置 | |
JP2008545995A (ja) | ハイブリッド音声合成装置、方法および用途 | |
Rashad et al. | An overview of text-to-speech synthesis techniques | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
Stan et al. | Generating the Voice of the Interactive Virtual Assistant | |
TWI360108B (en) | Method for synthesizing speech | |
Gujarathi et al. | Review on unit selection-based concatenation approach in text to speech synthesis system | |
Freixes et al. | A unit selection text-to-speech-and-singing synthesis framework from neutral speech: proof of concept | |
Aoga et al. | Integration of Yoruba language into MaryTTS | |
Tsirulnik et al. | Singing voice database | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
US20240347037A1 (en) | Method and apparatus for synthesizing unified voice wave based on self-supervised learning | |
JP2020204755A (ja) | 音声処理装置、および音声処理方法 | |
JP2020204651A (ja) | 音声処理装置、および音声処理方法 | |
Cheng et al. | HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets | |
Kumar et al. | Text to speech system for telugu language | |
Adeyemo et al. | Development and integration of Text to Speech Usability Interface for Visually Impaired Users in Yoruba language. | |
Chandna | Neural networks for singing voice extraction in monaural polyphonic music signals | |
JPH037995A (ja) | 歌音声合成データの作成装置 | |
Rono et al. | Development of a Kiswahili Text-to-Speech System Based on Tacotron 2 and WaveNet Vocoder | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
KR20240151961A (ko) | 자기지도 학습기반 통합 음성 합성 방법 및 장치 | |
Chukwudi et al. | A Review of Cross-Platform Document File Reader Using Speech Synthesis | |
Mamatov et al. | Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction | ||
G170 | Publication of correction |