WO2020173134A1

WO2020173134A1 - Procédé et dispositif de synthèse vocale fondée sur un mécanisme d'attention

Info

Publication number: WO2020173134A1
Application number: PCT/CN2019/117785
Authority: WO
Inventors: 房树明; 程宁; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-02-27
Filing date: 2019-11-13
Publication date: 2020-09-03
Also published as: CN109767752A; CN109767752B

Abstract

L'invention concerne un procédé et un dispositif de synthèse vocale fondée sur un mécanisme d'attention. Le procédé consiste : à déterminer, en fonction d'un texte cible, une matrice de texte codée et une matrice audio codée (S301) ; à déterminer une matrice audio décodée en fonction de la matrice de texte codée et de la matrice audio codée au moyen d'une fonction L(A) (302), la fonction L(A) constituant une fonction de perte d'un mécanisme d'attention déterminé en fonction de A _nt et W_nt ; et à déterminer un coefficient cepstral de fréquence Mel en fonction de la matrice audio décodée, et à déterminer un élément audio cible en fonction du coefficient cepstral de fréquence Mel (S303). Le procédé peut provoquer le changement linéaire de W _nt lorsqu'une force d'alignement d'un texte cible est inférieure à un seuil de force d'alignement. L'invention peut réduire considérablement la difficulté d'algorithme dans des mécanismes d'attention classiques, et ne nécessite pas de grandes quantités de données d'échantillon et de temps d'apprentissage pour effectuer un alignement forcé d'un texte et d'un signal audio évidemment décalé.