KR20200094493A - 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 - Google Patents

음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 Download PDF

Info

Publication number
KR20200094493A
KR20200094493A KR1020190012042A KR20190012042A KR20200094493A KR 20200094493 A KR20200094493 A KR 20200094493A KR 1020190012042 A KR1020190012042 A KR 1020190012042A KR 20190012042 A KR20190012042 A KR 20190012042A KR 20200094493 A KR20200094493 A KR 20200094493A
Authority
KR
South Korea
Prior art keywords
voice
speech
vocoder
post
bass
Prior art date
Application number
KR1020190012042A
Other languages
English (en)
Inventor
김남형
Original Assignee
김남형
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김남형 filed Critical 김남형
Priority to KR1020190012042A priority Critical patent/KR20200094493A/ko
Publication of KR20200094493A publication Critical patent/KR20200094493A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법에 관한 것으로서 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함으로써 기존의 화자의 기저음정보를 반영하지 못하는 문제점을 해소 하도록 한 것이다.
즉 본 발명은, 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성한 것이다.
따라서, 본 발명은 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함으로써 기존의 화자의 기저음정보를 반영하지 못하는 문제점을 해소하도록 한 효과를 갖는 것이다.

Description

음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법{Operating Method for Voice-Conversion Application with Phonetic-Posteriorgram Extractor , TTS and Vocoder}
본 발명은 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법에 관한 것으로서,
더욱 상세하게는 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서,
음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성 하여서,
음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 함을 목적으로 한 것이다.
일반적으로 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 사용자 목소리를 다른사람의 목소리로 변조하는 것이다.
상기한 바와 같이 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 음성모델 부호화기, 음성모델 코드 변환기, 음성모델 복호화기, 음성합성기로 구성된 것이다.
이상과 같은 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 음성모델 부호화기, 음성모델 코드 변환기, 음성모델 복호화기, 음성합성기를 거쳐 음성을 변조하는 것이다.
그러나 상기한 바와 같은 종래의 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치는 화자의 기저음정보를 반영하지 못하는 문제점이 있었다.
대한민국 출원번호 10-2017-0044719 호
이에 본 발명은 종래의 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치가 화자의 기저음정보를 반영하지 못하는 문제점을 해결하기 위한 것이다.
즉, 본 발명은 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성한 것이다.
따라서 본 발명은 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 음성 복원부로 구성 함으로써, 음성데이터 추출기에 의하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 하고, 음성 사후 분포그램 DNN에 의하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 하고, 음성합성 DNN에 의하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 하고, 선형 기저음 변환부에 의하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 하고, 음성 복원부에 의하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 함으로써 높은품질의 음성변조 결과물을 얻게하도록 한 효과를 갖는 것이다.
도 1: 본 발명의 시스템의 흐름도
즉, 본 발명은 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 (001)음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 (002)음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 (003)음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 (004)음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 (006)음성 복원부로 구성 된 것이다.
여기서, (002)음성데이터 추출기는 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 것이다.
여기서, (003)음성 사후 분포그램 DNN은 MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 것이다.
여기서, (004)음성합성 DNN은 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 것이다.
여기서, (005)선형 기저음 변환부는 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 것이다.
여기서, (006)음성 복원부는 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 것이다.
이하, 본 발명의 사용과정에 대하여 설명하면 다음과 같다.
상기한 바와 같이 본 발명은 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서 음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 (001)음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 (002)음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 (003)음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 (004)음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 (006)음성 복원부로 구성된 본 발명을 적용하여 실시하게 되면, 화자의 기저음정보를 반영하지 못하는 문제점을 해소하도록 한 것이다.
또한 본 발명의 실시에 있어, 보코더를 이용한 (002)음성데이터 추출기로 구성한 본 발명을 적용하여 실시하게 되면, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 학습한 (003)음성 사후 분포그램 DNN으로 구성한 본 발명을 적용하여 실시하게 되면, MFCC를 음성사후 분포그램으로 바꿀 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 학습한 (004)음성합성 DNN으로 구성한 본 발명을 적용하여 실시하게 되면, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부로 구성한 본 발명을 적용하여 실시하게 되면, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 될 것이다.
또한 본 발명의 실시에 있어, 보코더를 내장한 (006)음성 복원부로 구성한 본 발명을 적용하여 실시하게 되면, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 될 것이다.
001: 음성데이터 녹음부, 002: 음성데이터 추출기, 003: 음성 사후 분포그램 DNN, 004: 음성합성 DNN, 005: 선형 기저음 변환부, 006: 음성 복원부

Claims (6)

  1. 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치에 있어서,
    음성이 컴퓨터에 저장될 수 있도록 마이크와 ADC를 구성한 (001)음성데이터 녹음부, 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용한 (002)음성데이터 추출기, MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습한 (003)음성 사후 분포그램 DNN, 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습한 (004)음성합성 DNN, 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로한 (005)선형 기저음 변환부, 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장한 (006)음성 복원부로 구성 된 것을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
  2. 제 1항에 있어서,
    (002)음성데이터 추출기를 통하여 음성 데이터에서 MFCC 및 기저음을 추출할 수 있게 보코더를 이용함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
  3. 제 1항에 있어서,
    (003)음성 사후 분포그램 DNN을 통하여 MFCC를 음성사후 분포그램으로 바꿀 수 있게 학습함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
  4. 제 1항에 있어서,
    (004)음성합성 DNN을 통하여 음성사후 분포그램으로 원하는 사람의 목소리로 바꿀 수 있게 학습함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
  5. 제 1항에 있어서,
    (005)선형 기저음 변환부를 통하여 입력된 음성의 기저음을 변환하고자 하는 음성에 맞출 수 있게 목표 화자 기저음의 평균과 분산을 이용해 선형 변환을 진행하고 이를 다시 보코더로 재합성하는 방식으로 원 화자의 음정 정보를 복원하는 것을 특징으로함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
  6. 제 1항에 있어서,
    (006)음성 복원부를 통하여 상술된 선형 기저음 변환부의 출력물과 음성합성 DNN을 받아 최종 음성 합성물을 출력할 수 있게 보코더를 내장함을 특징으로 하는 음성사후분포그램추출기와 TTS 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법.
KR1020190012042A 2019-01-30 2019-01-30 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법 KR20200094493A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190012042A KR20200094493A (ko) 2019-01-30 2019-01-30 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190012042A KR20200094493A (ko) 2019-01-30 2019-01-30 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법

Publications (1)

Publication Number Publication Date
KR20200094493A true KR20200094493A (ko) 2020-08-07

Family

ID=72049879

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190012042A KR20200094493A (ko) 2019-01-30 2019-01-30 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법

Country Status (1)

Country Link
KR (1) KR20200094493A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470622A (zh) * 2021-09-06 2021-10-01 成都启英泰伦科技有限公司 一种可将任意语音转换成多个语音的转换方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170044719A (ko) 2014-09-26 2017-04-25 화이자 인코포레이티드 Rorc2의 메틸- 및 트라이플루오로메틸-치환된 피롤로피리딘 조절인자 및 이의 사용 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170044719A (ko) 2014-09-26 2017-04-25 화이자 인코포레이티드 Rorc2의 메틸- 및 트라이플루오로메틸-치환된 피롤로피리딘 조절인자 및 이의 사용 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470622A (zh) * 2021-09-06 2021-10-01 成都启英泰伦科技有限公司 一种可将任意语音转换成多个语音的转换方法及装置

Similar Documents

Publication Publication Date Title
CN101578659B (zh) 音质转换装置及音质转换方法
JP2021502588A (ja) ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
WO2007063827A1 (ja) 声質変換システム
CN102150203A (zh) 一种用于把音频信号转换成参数化表示的装置和方法、一种用于修改参数化表示的装置和方法、一种用于合成音频信号的参数化表示的装置和方法
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN111161695B (zh) 歌曲生成方法和装置
JPWO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP2014123072A (ja) 音声合成システム及び音声合成方法
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
McLoughlin et al. Reconstruction of continuous voiced speech from whispers.
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
KR20200094493A (ko) 음성사후분포그램추출기와 tts 및 보코더를 이용한 음성 변조 어플리케이션의 동작방법
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
Chen et al. Epg2s: Speech generation and speech enhancement based on electropalatography and audio signals using multimodal learning
CN113851140A (zh) 语音转换相关方法、系统及装置
Agiomyrgiannakis et al. ARX-LF-based source-filter methods for voice modification and transformation
Zhang et al. Learning singing from speech
KR20230075340A (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
Li et al. A Two-Stage Approach to Quality Restoration of Bone-Conducted Speech
CN113555001A (zh) 歌声合成方法、装置、计算机设备及存储介质
CN114724540A (zh) 模型处理方法及装置、情感语音合成方法及装置
Kim et al. Controllable and Interpretable Singing Voice Decomposition via Assem-VC
CN116863909B (zh) 基于因子图的语音合成方法、装置及系统
CN211828113U (zh) 一种语音编解码系统和装置
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法