WO2022039636A1

WO2022039636A1 - Procédé de synthèse vocale avec attribution d'une intonation fiable d'un modèle à cloner

Info

Publication number: WO2022039636A1
Application number: PCT/RU2021/050284
Authority: WO
Inventors: Петр Владимирович ТАГУНОВ; Владислав Александрович ГОНТА
Priority date: 2020-08-17
Filing date: 2021-09-02
Publication date: 2022-02-24
Also published as: RU2754920C1

Abstract

L'invention se rapporte au domaine de la reconnaissance, du traitement, de l'analyse et de la synthèse vocales, et concerne notamment des procédés de synthèse vocale en utilisant un réseau neuronal artificiel. Le résultat technique de l'invention consiste en l'attribution d'une intonation fiable d'un modèle à cloner d'un locuteur choisi dans une quelconque langue naturelle, y compris dans une langue complexe, comme le russe, c'est à dire une correspondance maximale de tous les aspects de l'intonation synthétisée sur la base d'un texte aléatoire introduit par un utilisateur tiers à la voix d'un quelconque locuteur choisi dans une quelconque langue naturelle, la parole synthétisée ne pouvant ainsi être distinguée de celle naturelle. On effectue une préparation préalable d'un ensemble de données à étudier se composant d'un texte et d'un enregistrement audio lui correspondant de la voix du locuteur choisi. On effectue un apprentissage profond du réseau neuronal sur la base de l'ensemble de données à étudier, et on obtient en sortie un spectrogramme mel de la voix du locuteur choisi. On convertit le spectrogramme mel à l'aide d'un vocodeur afin d'obtenir un fichier audio en sortie. On applique de façon répétée le réseau neuronal instruit et le vocodeur afin de convertir le texte aléatoire entré par l'utilisateur en parole du locuteur choisi, de manière à obtenir en sortie un fichier audio de sonorisation de texte aléatoire avec la voix du locuteur choisi.