WO2020118521A1

WO2020118521A1 - Synthèse texte-vers-parole neuronale multilocuteurs

Info

Publication number: WO2020118521A1
Application number: PCT/CN2018/120300
Authority: WO
Inventors: Yan Deng; Lei He
Original assignee: Microsoft Technology Licensing, Llc
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2020-06-18
Also published as: EP3895159A1; US20220013106A1; CN111954903B; EP3895159A4; CN111954903A

Abstract

La présente invention concerne un procédé pour générer une parole par l'intermédiaire d'une synthèse texte-vers-parole (TTS) neuronale multilocuteurs. Une entrée de texte peut être reçue (1410). Des informations d'espace latent de locuteur d'un locuteur cible peuvent être fournies par l'intermédiaire d'au moins un modèle de locuteur (1420). Au moins une caractéristique acoustique peut être prédite par l'intermédiaire d'un dispositif de prédiction de caractéristique acoustique sur la base de l'entrée de texte et des informations d'espace latent de locuteur (1430). Une forme d'onde de parole correspondant à l'entrée de texte peut être générée par l'intermédiaire d'un vocodeur neuronal sur la base de l'au moins une caractéristique acoustique et des informations d'espace latent de locuteur (1440).