WO2023157066A1

WO2023157066A1 - Procédé d'apprentissage de synthèse vocale, procédé de synthèse vocale, dispositif d'apprentissage de synthèse vocale, dispositif de synthèse vocale et programme

Info

Publication number: WO2023157066A1
Application number: PCT/JP2022/005903
Authority: WO
Inventors: 裕紀金川; 勇祐井島
Original assignee: 日本電信電話株式会社
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-08-24

Abstract

Un ordinateur exécute une première procédure d'apprentissage pour apprendre un second modèle en mettant à jour un premier modèle, dans lequel sont entrés un vecteur de locuteur représentant un locuteur, un texte et une première caractéristique acoustique associée à la parole obtenue par le locuteur prononçant le texte, d'après les pertes d'une première caractéristique acoustique prédite générée par le premier modèle et la première caractéristique acoustique, ainsi qu'une seconde procédure d'apprentissage pour mettre à jour le second modèle d'après les pertes d'une seconde caractéristique acoustique prédite générée par le second modèle, dans lequel sont entrés un vecteur d'un locuteur cible et une seconde caractéristique acoustique associée à la parole prononcée par le locuteur cible. Ainsi, la seconde caractéristique acoustique, même s'il n'y a pas de texte correspondant à la parole du locuteur cible, permet une adaptation par réglage fin d'un modèle TTS à partir de la caractéristique acoustique associée à la parole.