WO2022110943A1

WO2022110943A1 - Procédé et appareil de prévisualisation de la parole

Info

Publication number: WO2022110943A1
Application number: PCT/CN2021/115113
Authority: WO
Inventors: 陈翔宇; 张晨
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2020-11-26
Filing date: 2021-08-27
Publication date: 2022-06-02
Also published as: CN112562638A

Abstract

Un procédé de prévisualisation de la parole consiste : à recevoir une entrée de texte (S201) ; à réaliser une mise en mémoire tampon en temps réel sur des données de parole synthétisées, au moyen d'un service de synthèse de la parole, à partir de l'entrée de texte (S202) ; et lorsque les données de parole synthétisées sont mises en mémoire tampon pour atteindre une longueur pouvant être lue, à décoder et à lire les données de parole mises en mémoire tampon (S203). L'invention concerne également un appareil de prévisualisation de la parole (600), comprenant une unité de réception (610), une unité de mémoire tampon (620), une unité de décodage (630), une unité de lecture (640) et une unité d'envoi (650). L'invention concerne également un dispositif électronique, un système de traitement de la parole, un support de stockage lisible par ordinateur et un produit-programme informatique. Un retard est fortement réduit au moyen d'une transmission en temps réel, une prévisualisation en temps réel est démarrée quasiment sans temps d'attente lorsque très peu de données de parole sont mises en mémoire tampon. Lorsqu'un changement de timbre est effectué, un dispositif de terminal local lui-même n'effectue plus de TTS sur le texte restant qui n'a pas été soumis au TTS, ou notifie à un serveur associé, de telle sorte que le coût des services TTS est réduit, ce qui permet d'améliorer la vitesse de prévisualisation TTS d'un utilisateur lors de montages vidéo et d'optimiser l'expérience de l'utilisateur.