KR102168529B1 - 인공신경망을 이용한 가창음성 합성 방법 및 장치 - Google Patents
인공신경망을 이용한 가창음성 합성 방법 및 장치 Download PDFInfo
- Publication number
- KR102168529B1 KR102168529B1 KR1020200065019A KR20200065019A KR102168529B1 KR 102168529 B1 KR102168529 B1 KR 102168529B1 KR 1020200065019 A KR1020200065019 A KR 1020200065019A KR 20200065019 A KR20200065019 A KR 20200065019A KR 102168529 B1 KR102168529 B1 KR 102168529B1
- Authority
- KR
- South Korea
- Prior art keywords
- song
- feature vector
- pitch
- singer
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 title claims description 85
- 239000013598 vector Substances 0.000 claims abstract description 201
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 169
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 169
- 230000001755 vocal effect Effects 0.000 claims abstract description 105
- 239000002131 composite material Substances 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 40
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 238000002910 structure generation Methods 0.000 claims description 71
- 238000007781 pre-processing Methods 0.000 claims description 27
- 238000013526 transfer learning Methods 0.000 claims description 17
- 238000001308 synthesis method Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 description 22
- 238000000605 extraction Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 가창음성 합성 방법의 흐름도이다.
도 3은 도 1에 도시된 가창음성 합성 장치에서 가창음성 신호를 생성하는 과정을 도시한 예시도이다.
도 4는 도 2에 도시된 음색 특징벡터, 창법 특징벡터, 발음기호 특징벡터와 음고 특징벡터를 추출하는 단계의 상세흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 가창음성 합성 방법의 흐름도이다.
101: 프로세서 102: 입력부
103: 전처리부 104: 음고골격구조 생성부
105: 발음구조 생성부 106: 보코더부
107: 출력부 108: 스토리지
Claims (11)
- 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 단계;
상기 가창음성 데이터, 상기 운율 데이터 및 상기 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 단계;
상기 가창음성 합성 장치의 발음구조 생성부에 의해, 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 단계 ― 상기 발음구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 가창음성 합성 장치의 음고골격구조 생성부에 의해, 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 단계 ― 상기 음고골격구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 가창음성 합성 방법. - 제 1 항에 있어서,
상기 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하고,
상기 합성대상가수는 상기 복수의 가수 중 하나인 것을 특징으로 하는 가창음성 합성 방법. - 제 1 항에 있어서,
상기 추출하는 단계는
상기 합성대상가수의 가창음성데이터로부터 상기 합성대상가수의 음색을 나타내는 음색 특징벡터 및 상기 합성대상가수의 창법을 나타내는 창법 특징벡터를 추출하는 단계;
상기 합성대상노래의 가사텍스트 데이터로부터 상기 가사텍스트에 포함된 문자들의 발음에 해당하는 발음기호를 나타내는 발음기호 특징벡터를 추출하는 단계; 및
상기 합성대상노래의 운율 데이터로부터 상기 합성대상노래의 음고를 나타내는 음고특징벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 가창음성 합성 방법. - 제 3 항에 있어서,
상기 발음기호는 국제음성기호(IPA, International Phonetic Alphabet)인 것을 특징으로 하는 가창음성 합성 방법. - 제 1 항에 있어서,
상기 가창음성 신호를 생성하는 단계는 상기 가창음성 신호가 멜-스케일(mel-scale) 스펙트로그램으로 생성된 경우, 상기 생성된 멜 스케일 스펙트로그램의 가창음성 신호를 선형 스펙트로그램으로 변환하는 단계를 더 포함하는 것을 특징으로 하는 가창음성 합성 방법. - 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 입력부(102);
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 상기 가창음성 데이터, 상기 운율 데이터 및 상기 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 전처리부(103);
상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 발음구조 생성부(105) ― 상기 발음구조 생성부(105)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 음고골격구조 생성부(104) ― 상기 음고골격구조 생성부(104)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 보코더부를 포함하는 것을 특징으로 하는 가창음성 합성 장치. - 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치를 이용한 가창음성 합성 방법에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 가창음성 데이터와 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득하는 단계;
상기 전이대상 데이터에 기초하여, 상기 가창음성 합성 장치의 인공신경망을 전이 학습하는 단계;
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하는 단계;
상기 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 상기 합성대상노래의 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 단계;
상기 가창음성 합성 장치의 발음구조 생성부에 의해, 상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 단계 ― 상기 발음구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 가창음성 합성 장치의 음고골격구조 생성부에 의해, 상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 단계 ― 상기 음고골격구조 생성부는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 단계를 포함하는 가창음성 합성 방법. - 제 7 항에 있어서,
상기 학습용 데이터 세트는 복수의 가수의 가창음성 데이터, 복수의 노래에 대한 운율 데이터 및 가사텍스트 데이터를 포함하고,
상기 합성대상가수는 상기 복수의 가수에 포함되지 않은 가수인 것을 특징으로 하는 가창음성 합성 방법. - 학습용 데이터 세트에 의해 트레이닝된 가창음성 합성 장치에 있어서,
사용자로부터 합성대상가수 및 합성대상노래를 포함하는 가창음성 합성요청을 획득하고, 상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 가창음성 데이터와 연관된 운율 데이터 및 연관된 가사텍스트 데이터를 포함하는 전이대상 데이터를 획득하는 입력부(102);
상기 가창음성 합성요청에 기초하여, 상기 합성대상가수의 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 가사텍스트 데이터를 획득하고, 상기 가창음성 데이터, 상기 합성대상노래의 운율 데이터 및 상기 합성대상노래의 가사텍스트 데이터에 기초하여, 상기 합성대상가수의 음색을 나타내는 음색 특징벡터, 상기 합성대상가수의 창법을 나타내는 창법 특징벡터, 상기 합성대상노래의 발음기호를 나타내는 발음기호 특징벡터 및 상기 합성대상노래의 음고를 나타내는 음고 특징벡터를 추출하는 전처리부(103);
상기 음색 특징벡터 및 상기 발음기호 특징벡터에 기초하여, 상기 합성대상가수의 발음특성을 나타내는 발음구조 스펙트로그램을 생성하는 발음구조 생성부(105) ― 상기 발음구조 생성부(105)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 음색 특징벡터 및 복수의 노래에 대한 발음기호 특징벡터로 사전에 트레이닝된 인공신경망임 ―;
상기 창법 특징벡터 및 상기 음고 특징벡터에 기초하여, 상기 합성대상가수의 창법이 반영된 상기 합성대상노래의 음고골격을 나타내는 음고골격구조 스펙트로그램을 생성하는 음고골격구조 생성부(104) ― 상기 음고골격구조 생성부(104)는 상기 학습용 데이터 세트에 포함된 복수의 가수에 대한 창법 특징벡터 및 복수의 노래에 대한 음고 특징벡터로 사전에 트레이닝된 인공신경망임 ―; 및
상기 발음구조 스펙트로그램 및 상기 음고골격구조 스펙트로그램에 기초하여 상기 합성대상가수의 가창음성으로 표현된 상기 합성대상노래에 대한 가창음성 신호를 생성하는 보코더부(106)를 포함하고,
상기 전처리부(103), 상기 발음구조 생성부(105) 및 상기 음고골격구조 생성부(104)는 상기 전이대상 데이터에 기초하여 전이 학습하는 것을 특징으로 하는 가창음성 합성 장치. - 제 1 항 내지 제 5 항 중 어느 한 항에 기재된 방법을 컴퓨터에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
- 제 7 항 또는 제 8 항에 기재된 방법을 컴퓨터에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200065019A KR102168529B1 (ko) | 2020-05-29 | 2020-05-29 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200065019A KR102168529B1 (ko) | 2020-05-29 | 2020-05-29 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR102168529B1 true KR102168529B1 (ko) | 2020-10-22 |
KR102168529B9 KR102168529B9 (ko) | 2021-08-19 |
Family
ID=73035548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200065019A Active KR102168529B1 (ko) | 2020-05-29 | 2020-05-29 | 인공신경망을 이용한 가창음성 합성 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102168529B1 (ko) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382269A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 音频合成方法、装置、设备以及存储介质 |
CN113177635A (zh) * | 2021-04-29 | 2021-07-27 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN114203155A (zh) * | 2021-12-10 | 2022-03-18 | 北京百度网讯科技有限公司 | 训练声码器和语音合成的方法和装置 |
CN114360492A (zh) * | 2021-10-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 音频合成方法、装置、计算机设备和存储介质 |
CN115101043A (zh) * | 2022-06-16 | 2022-09-23 | 咪咕文化科技有限公司 | 音频合成方法、装置、设备及存储介质 |
CN118969013A (zh) * | 2024-07-15 | 2024-11-15 | 中国科学院声学研究所 | 一种端到端多尺度风格迁移的歌声转换方法及系统 |
KR20250057431A (ko) | 2023-10-20 | 2025-04-29 | 넷마블 주식회사 | 가창음성 오디오 생성 방법 및 장치 |
WO2025110602A1 (ko) * | 2023-11-24 | 2025-05-30 | 주식회사 오니온에이아이 | 인공지능을 이용하여 언어학 및 인지과학 기반의 음성기술이 적용된 더빙 생성 시스템 및 방법 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063438A (ko) * | 2000-07-12 | 2000-11-06 | 백종관 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
JP2002202790A (ja) * | 2000-12-28 | 2002-07-19 | Yamaha Corp | 歌唱合成装置 |
US20090306987A1 (en) * | 2008-05-28 | 2009-12-10 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
KR20150118974A (ko) * | 2013-03-15 | 2015-10-23 | 야마하 가부시키가이샤 | 음성 처리 장치 |
US20170025115A1 (en) * | 2015-07-24 | 2017-01-26 | Yamaha Corporation | Method and Device for Editing Singing Voice Synthesis Data, and Method for Analyzing Singing |
KR101991733B1 (ko) | 2014-12-15 | 2019-06-21 | 바이두 유에스에이 엘엘씨 | 음성 전사를 위한 시스템 및 방법 |
KR102057926B1 (ko) | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR20200015418A (ko) | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
US20200302903A1 (en) * | 2017-06-20 | 2020-09-24 | Korea Advanced Institute Of Science And Technology | Singing expression transplantation system |
-
2020
- 2020-05-29 KR KR1020200065019A patent/KR102168529B1/ko active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000063438A (ko) * | 2000-07-12 | 2000-11-06 | 백종관 | 음성 합성 또는 음색 변환을 이용한 노래 합성 방법 |
JP2002202790A (ja) * | 2000-12-28 | 2002-07-19 | Yamaha Corp | 歌唱合成装置 |
US20090306987A1 (en) * | 2008-05-28 | 2009-12-10 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
KR20150118974A (ko) * | 2013-03-15 | 2015-10-23 | 야마하 가부시키가이샤 | 음성 처리 장치 |
KR101991733B1 (ko) | 2014-12-15 | 2019-06-21 | 바이두 유에스에이 엘엘씨 | 음성 전사를 위한 시스템 및 방법 |
US20170025115A1 (en) * | 2015-07-24 | 2017-01-26 | Yamaha Corporation | Method and Device for Editing Singing Voice Synthesis Data, and Method for Analyzing Singing |
US20200302903A1 (en) * | 2017-06-20 | 2020-09-24 | Korea Advanced Institute Of Science And Technology | Singing expression transplantation system |
KR20200015418A (ko) | 2018-08-02 | 2020-02-12 | 네오사피엔스 주식회사 | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
KR102057926B1 (ko) | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
Non-Patent Citations (2)
Title |
---|
(비특허문헌 1) Juheon Lee, Hyeong-Seok Choi, Chang-Bin Jeon, Junghyun Koo, and Kyogu Lee, "Adversarially trained end-to-end korean singing voice synthesis system," Proc. Interspeech 2019, pp. 2588-2592, 2019. |
DeepMind, "WaveNet: A generative model for raw audio," 2016.09.08, <URL: https://deepmind.com/blog/article/wavenet-generative-model-raw-audio> * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382269A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 音频合成方法、装置、设备以及存储介质 |
CN113177635A (zh) * | 2021-04-29 | 2021-07-27 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN113177635B (zh) * | 2021-04-29 | 2025-05-09 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN114360492A (zh) * | 2021-10-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 音频合成方法、装置、计算机设备和存储介质 |
CN114203155A (zh) * | 2021-12-10 | 2022-03-18 | 北京百度网讯科技有限公司 | 训练声码器和语音合成的方法和装置 |
CN115101043A (zh) * | 2022-06-16 | 2022-09-23 | 咪咕文化科技有限公司 | 音频合成方法、装置、设备及存储介质 |
KR20250057431A (ko) | 2023-10-20 | 2025-04-29 | 넷마블 주식회사 | 가창음성 오디오 생성 방법 및 장치 |
WO2025110602A1 (ko) * | 2023-11-24 | 2025-05-30 | 주식회사 오니온에이아이 | 인공지능을 이용하여 언어학 및 인지과학 기반의 음성기술이 적용된 더빙 생성 시스템 및 방법 |
CN118969013A (zh) * | 2024-07-15 | 2024-11-15 | 中国科学院声学研究所 | 一种端到端多尺度风格迁移的歌声转换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR102168529B9 (ko) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102168529B1 (ko) | 인공신경망을 이용한 가창음성 합성 방법 및 장치 | |
Gold et al. | Speech and audio signal processing: processing and perception of speech and music | |
JP2008545995A (ja) | ハイブリッド音声合成装置、方法および用途 | |
Rashad et al. | An overview of text-to-speech synthesis techniques | |
Stan et al. | Generating the voice of the interactive virtual assistant | |
US20240347037A1 (en) | Method and apparatus for synthesizing unified voice wave based on self-supervised learning | |
TWI360108B (en) | Method for synthesizing speech | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
Aoga et al. | Integration of Yoruba language into MaryTTS | |
Gujarathi et al. | Review on unit selection-based concatenation approach in text to speech synthesis system | |
Tsirulnik et al. | Singing voice database | |
Chukwudi et al. | A Review of Cross-Platform Document File Reader Using Speech Synthesis | |
Mamatov et al. | Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems | |
Kaur et al. | Formant Text to Speech Synthesis Using Artificial Neural Networks | |
Cheng et al. | HMM-based mandarin singing voice synthesis using tailored synthesis units and question sets | |
Adeyemo et al. | Development and Integration of Text to Speech Usability Interface for Visually Impaired Users in Yoruba Language | |
Rono et al. | Development of a Kiswahili text-to-speech system based on Tacotron 2 and WaveNet vocoder | |
Narvani et al. | Text-to-Speech Conversion Using Concatenative Approach for Gujarati Language | |
KR20250018581A (ko) | 인공지능 기반 사용자 맞춤형 가창 음성 제공 방법, 장치 및 시스템 | |
JPH037995A (ja) | 歌音声合成データの作成装置 | |
Chandna | Neural networks for singing voice extraction in monaural polyphonic music signals | |
Kumar et al. | Text to speech system for telugu language | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Madaminjonov | Formation of a Speech Database in the Karakalpak Language for Speech Synthesis Systems | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200529 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20200728 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20200529 Patent event code: PA03021R01I Comment text: Patent Application |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20201008 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20201015 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20201015 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
G170 | Re-publication after modification of scope of protection [patent] | ||
PG1701 | Publication of correction |
Patent event code: PG17011E01I Patent event date: 20210722 Comment text: Request for Publication of Correction Publication date: 20210726 |
|
G170 | Re-publication after modification of scope of protection [patent] | ||
PG1701 | Publication of correction |
Patent event code: PG17011E01I Patent event date: 20210813 Comment text: Request for Publication of Correction Patent event code: PG17011E01I Patent event date: 20210722 Comment text: Request for Publication of Correction Publication date: 20210819 |
|
PR1001 | Payment of annual fee |
Payment date: 20231016 Start annual number: 4 End annual number: 6 |