WO2024052372A1

WO2024052372A1 - Synthèse vocale intelligente

Info

Publication number: WO2024052372A1
Application number: PCT/EP2023/074378
Authority: WO
Inventors: Chantal Guionnet; Hélène JOUCLA
Original assignee: Orange
Priority date: 2022-09-08
Filing date: 2023-09-06
Publication date: 2024-03-14
Also published as: FR3139657A1

Abstract

Il est proposé un procédé de lecture automatique d'un texte continu composé de plusieurs groupes de mots, ainsi qu'un programme d'ordinateur, un support d'enregistrement, un lecteur automatique et un terminal utilisateur correspondants. Le procédé comporte une fourniture (7) en temps réel d'un flux sonore correspondant au texte. Le flux sonore démarre groupe de mots choisi, aussi nommé deuxième groupe de motsà partir d'un deuxième groupe de mots choisi, aussi nommé deuxième groupe de mots (6) dans le texte en fonction au moins d'un résultat d'une analyse (2) en temps réel de paroles captées (1). Le résultat de l'analyse est indicatif d'un premier groupe de mots en cours de verbalisation par un orateur, le premier groupe de mots et le deuxième groupe de mots étant des groupes de mots distincts.

Description

Synthèse vocale intelligente

La présente divulgation relève du domaine de la synthèse vocale.

Plus particulièrement, la présente divulgation porte sur un procédé de lecture automatique d’un texte et sur un programme informatique, un support d’enregistrement, un lecteur automatique et un terminal utilisateur correspondants.

La synthèse vocale à partir d’un texte, ou en anglais « Text-To-Speech », est une transformation ou une transcription d’un texte écrit en un rendu audio correspondant au même contenu. Le type de voix et la vitesse d’élocution peuvent être paramétrés.

Si l’on souhaite faire un mixage audio synchronisé entre des interventions orales d’un utilisateur qui lit ou présente un texte et des interventions de synthèse vocale relatives à ce même texte, une possibilité connue est de permettre à l’utilisateur de déclencher des interruptions et des reprises de la synthèse vocale à des endroits désirés. La gestion de l’alternance audio entre paroles humaines et synthèse vocale liées à un même contenu peut être réalisée par une intervention humaine. Ces interventions à l’aide d’interactions manuelles ou vocales par exemple peuvent déclencher diverses fonctions de lecture, de pause, d’arrêt, ou encore de passage au chapitre suivant ou précédent.

Une autre possibilité connue est de mettre en œuvre un paramétrage préétabli se rapportant à un scénario préparé à l’avance. Un tel paramétrage peut être qualifié de semi-automatisé en ce que le paramétrage est effectué par un humain avant la présentation, mais aucune intervention humaine n’est ensuite nécessaire au cours de la présentation pour activer les fonctions de lecture, de pause, d’arrêt ou autres. Un inconvénient du paramétrage préétabli est l’interactivité limitée offerte avec le public, l’orateur étant contraint de respecter le scénario préparé à l’avance.

Il existe donc un besoin pour une mise en œuvre véritablement automatique, voire contextuelle, d’une alternance audio entre des paroles humaines et une synthèse vocale se rapportant à un même texte, c’est-à-dire sans intervention humaine et sans s’appuyer sur un quelconque scénario préparé à l’avance.

Résumé

La présente divulgation vient améliorer la situation.

Il est proposé un procédé de lecture automatique d’un texte continu composé de plusieurs groupes de mots, le procédé comportant une fourniture en temps réel d’un flux sonore correspondant au texte, le flux sonore démarrant à partir d’un deuxième groupe de mots choisi, dans le texte, en fonction au moins d’un résultat d’une analyse en temps réel de paroles captées, le résultat de l’analyse étant indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le premier groupe de mots et le deuxième groupe de mots étant des groupes de mots distincts.

Le texte continu peut être un support de présentation, de discours, de narration ou autre. Il peut s’agir d’un texte préparé à l’avance et rédigé par exemple à l’aide d’un traitement de texte. Le texte continu peut aussi résulter d’un traitement automatique d’une capture d’écran ou d’une capture photographique d’une diapositive présentée par un orateur, un tel traitement automatique impliquant par exemple une reconnaissance de caractères. Un groupe de mots peut désigner par exemple une ou plusieurs phrases ou un ou plusieurs constituants d’une phrase, par exemple une ou plusieurs propositions.

Il est entendu que, selon le procédé proposé, le groupe de mots choisi, aussi nommé deuxième groupe de mots, est le fruit d’un choix automatique dans le texte continu.

Le flux sonore peut être une transcription simple ou enrichie d’une portion du texte continu débutant par le groupe de mots choisi, aussi nommé deuxième groupe de mots. Selon un exemple de transcription enrichie, le flux sonore peut comporter en préambule des mots d’introduction tels que « reprenons » , « un petit retour en arrière » ou encore « je me présente je suis l’assistant Text-To-Speech... ».

Le procédé proposé offre un rendu en synthèse vocale qui est intelligent en ce qu’il s’adapte automatiquement au déroulé d’un discours ou d’une présentation. Ce rendu intelligent résulte du choix d’un deuxième groupe de mots pertinent comme point de départ du flux sonore, ce choix découlant de l’analyse en temps réel de paroles en cours d’un utilisateur.

Les caractéristiques exposées dans les paragraphes suivants peuvent, optionnellement, être mises en œuvre. Elles peuvent être mises en œuvre indépendamment les unes des autres ou en combinaison les unes avec les autres.

Dans un exemple, la fourniture du flux sonore est déclenchée si une interruption de parole de l’orateur est détectée. La détection d’une interruption de parole désigne la détection de toute interaction explicite ou implicite de la part de l’orateur, ou de toute combinaison de telles interactions, traduisant un arrêt temporaire du discours. Un silence, une hésitation ou une posture particulière sont autant d’exemples d’interactions implicites pouvant être captées et interprétées aux fins d’une telle détection.

Dans un exemple, la fourniture du flux sonore est interrompue si une reprise de parole de l’orateur est détectée. La détection d’une reprise de parole désigne la détection de toute interaction explicite ou implicite de la part de l’orateur, ou de toute combinaison de telles interactions, traduisant une reprise du discours ou une cessation d’une interruption de parole. L’analyse en temps réel des paroles captées, seule ou combinée à d’autres analyses en temps réel, peut par exemple permettre de détecter des interruptions et des reprises de parole.

Lorsque les deux exemples ci-dessus sont combinés, la synthèse vocale est susceptible de prendre automatiquement le relais en cas d’interruption de parole impromptue et temporaire jusqu’à la reprise ultérieure de parole par l’orateur.

Dans un exemple, le groupe de mots choisi, aussi nommé deuxième groupe de mots est identique ou consécutif, dans le texte, au groupe de mots en cours de verbalisation par l’orateur, aussi nommé premier groupe de mots.

L’analyse en temps réel des paroles captées peut par exemple permettre de déterminer non seulement un groupe de mots en cours de verbalisation. Lorsque le groupe de mots en cours de verbalisation comporte plusieurs mots, l’analyse permet aussi d’indiquer si ce groupe de mots devient totalement verbalisé ou si, au contraire, il ne reste que partiellement verbalisé. Par totalement verbalisé est entendu que l’utilisateur a verbalisé tous les mots de ce premier groupe de mots, et par partiellement verbalisé est entendu que l’utilisateur a verbalisé au moins un mot de ce deuxième groupe de mots mais pas tous les mots de ce deuxième groupe de mots. Une telle indication peut avoir une incidence à la fois sur le résultat de l’analyse dont le premier groupe de mots sera respectivement le groupe de mots en cours de verbalisation totalement verbalisé ou le groupe de mots totalement verbalisé précédent le groupe de mots partiellement verbalisé, et sur le choix du deuxième groupe de mots par lequel débuter la synthèse vocale.

Pour illustrer ce point, l’exemple du déclenchement de la synthèse vocale suite à la détection d’une interruption de parole est à présent repris. Si l’interruption de parole survient au cours de la verbalisation, restée partielle, d’un groupe de mots comportant plusieurs mots, il peut être souhaitable que l’analyse indique que le premier groupe de mots est le groupe de mots précédent le groupe de mots partiellement verbalisé et de débuter la synthèse vocale par une répétition intégrale de ce même groupe de mots partielle verbalisé constituant alors le deuxième groupe de mots. Si à l’inverse l’interruption de parole survient juste après la verbalisation intégrale d’un premier groupe de mots et juste avant le début de la verbalisation d’un deuxième groupe de mots immédiatement consécutif, alors il peut être souhaitable de débuter la synthèse vocale directement par l’énoncé de ce deuxième groupe de mots.

Dans un exemple, le résultat de l’analyse en temps réel est indicatif de plusieurs premiers groupes de mots successivement verbalisés par l’orateur, et le groupe de mots choisi, aussi nommé deuxième groupe de mots est identique ou consécutif au groupe de mots le plus proche de la fin du texte parmi les premiers groupes de mots ayant été verbalisés ou étant en cours de verbalisation par l’orateur.

Il est fréquent par exemple que des propositions identiques ou similaires soient répétées dans différentes phrases, ou que des phrases identiques ou similaires soit répétées dans différents passages d’un même texte. Choisir de débuter la synthèse vocale par le deuxième groupe de mots suivant le dernier groupe de mots similaire au premier groupe de mots en cours de verbalisation, parmi ceux ayant été déjà verbalisés par l’orateur, permet d’éviter des répétitions susceptibles de gêner le public.

Dans un exemple, le procédé est mis en œuvre au cours d’une session et le groupe de mots choisi, aussi nommé deuxième groupe de mots est un groupe de mots ne figurant pas dans les paroles captées au cours de la session et/ou ne figurant pas dans un flux sonore fourni au cours de la session préalablement à la mise en œuvre du procédé.

Ainsi, il est possible, par exemple, de débuter la synthèse vocale par le groupe de mots positionné en premier dans le texte n’ayant ni été verbalisé par l’orateur ni fait l’objet d’une précédente synthèse vocale au cours de la session. Ceci permet de restituer l’intégralité du contenu du texte en évitant toute répétition.

Il est également proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant lorsque ce programme est exécuté par un processeur.

Il est également proposé un support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé ci-avant lorsque ce programme est exécuté par un processeur.

Il est également proposé un lecteur automatique comportant un fournisseur en temps réel de flux sonore,
le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’une indication d’un premier groupe de mots en cours de verbalisation par un orateur, l’indication étant issue d’un analyseur en temps réel de paroles captées.

Il est également proposé un terminal utilisateur comportant un fournisseur en temps réel de flux sonore et une carte son, le fournisseur étant connecté à la carte son et apte à fournir un flux sonore à la carte son, le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’un résultat indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le résultat étant issu d’un analyseur en temps réel de paroles captées.

Dans un exemple, la carte son est connectée à un ou plusieurs haut-parleurs parmi les suivants : un haut-parleur du terminal utilisateur, un haut-parleur d’un périphérique connecté en réseau local au terminal utilisateur.

Les connexions entre la carte son et le ou les haut-parleurs peuvent indifféremment être filaire ou par radiocommunication.

Dans un exemple, le terminal utilisateur comprend en outre un afficheur du texte.

Dans un exemple, le terminal utilisateur comprend en outre un dispositif de traitement de texte en temps réel apte à surligner un groupe de mots du texte en fonction du résultat et à fournir le texte avec le groupe de mots surligné à l’afficheur.

Fournir en temps réel à la fois le flux sonore et le texte avec le groupe de mots surligné renforce l’accessibilité de la présentation.

D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :

Fig. 1

représente un déroulé d’une alternance audio, déclenchée manuellement, entre des paroles humaines et une synthèse vocale liées à un même contenu.

Fig. 2

illustre par un ordinogramme un procédé de lecture automatique d’un texte, selon un exemple de réalisation.

Fig. 3

représente un ensemble de données considérées successivement pour opérer une transition audio automatique depuis des paroles humaines vers une synthèse vocale liées à un même contenu, selon un exemple de réalisation particulier.

Fig. 4

représente un déroulé d’une alternance audio automatique entre des paroles humaines et une synthèse vocale liées à un même contenu, selon l’exemple de réalisation particulier de .

Fig. 5

représente un ensemble de données considérées successivement pour opérer une transition audio automatique depuis des paroles humaines vers une synthèse vocale liées à un même contenu, selon un ensemble d’exemples de réalisation particuliers.

Fig. 6 Fig. 7

et représentent chacune un déroulé d’une alternance audio automatique entre des paroles humaines et une synthèse vocale liées à un même contenu, selon deux exemples de l’ensemble d’exemples de réalisation particuliers de .

Il est connu de commander un procédé de synthèse vocale au moyen d’actions manuelles. La est un exemple illustratif de l’art antérieur où une action de positionnement (102) dans le texte peut être combinée à une action de lancement (104) de la synthèse vocale afin de démarrer une diffusion d’un signal audio à partir d’un endroit désiré dans le texte. Une action de pause ou d’arrêt (106) de la synthèse vocale peut ultérieurement permettre de cesser la diffusion du signal audio à un autre endroit désiré.

L’invention se distingue de l’art antérieur et a pour objectif de mixer de façon intelligente la prise de parole de l’orateur qui lit ou présente à partir d’un support texte avec des parties appropriées du même texte restitué en synthèse vocale.

L’accompagnement automatique et en direct lors de présentations audio permet des relais en synthèse vocale en fonction du déroulement instantané de la présentation.

Ces relais offrent divers bénéfices à l’expérience partagée par l’orateur et son auditoire.

Par exemple, le choix d’une voix de synthèse distincte de celle de l’orateur permet de simuler des interventions d’un second orateur et ainsi d’obtenir un effet à deux voix.

L’orateur peut aussi être suppléé en cas de difficultés à parler longtemps, en cas d’oubli du texte, de stress, d’essoufflement, de perturbation extérieure tel qu’un appel téléphonique, etc. Le choix d’une voix de synthèse identique à celle de l’orateur peut permettre à l’auditoire de ne pas percevoir la substitution.

Un exemple particulier de réalisation est à présent décrit en référence à la qui représente visuellement un algorithme correspondant à un procédé de lecture automatique d’un texte.

Au cours d’une session correspondant à une présentation, à un discours ou à tout autre événement impliquant une restitution audio d’un support texte, les paroles d’un ou plusieurs orateurs humains sont captées (1) au moyen d’un ou plusieurs microphones.

Ces paroles sont analysées (2) en temps réel par un analyseur mettant en œuvre un algorithme de reconnaissance vocale. De tels algorithmes sont bien connus de la personne du métier et ne sont pas détaillés ici.

L’analyse en temps réel des paroles captées permet de déterminer (3), à tout instant, un premier groupe de mots en cours de verbalisation par un orateur. Le premier groupe de mots en cours de verbalisation peut se retrouver littéralement dans le support texte. Il peut aussi s’agir d’une variation pouvant être assimilée à un premier groupe de mots présent dans le support texte. Il peut enfin s’agir d’une digression à l’initiative de l’orateur, c’est-à-dire d’au moins un groupe de mots accompagnant la restitution audio du texte mais ne pouvant être rapproché d’aucun groupe de mots particulier dans le support texte.

Le premier groupe de mots en cours de verbalisation peut être stocké en mémoire. Stocker en mémoire les groupes de mots successivement en cours de verbalisation tout au long d’une intervention d’un orateur correspond à former un historique des groupes de mots verbalisés. Lorsque l’intervention de l’orateur s’écarte du support texte, il peut être utile de traiter automatiquement l’historique en le confrontant au support texte de manière à ne considérer, parmi les groupes de mots verbalisés, que des groupes de mots qui, soit, figurent effectivement dans le texte, soit, sont équivalents à des groupes de mots qui figurent effectivement dans le texte. Obtenir (8) un tel historique permet donc de recenser, à tout moment d’une intervention d’un orateur, les groupes de mots dans le texte qui ont déjà été verbalisés, littéralement ou non, par l’orateur, celui en cours de verbalisation par l’orateur et enfin ceux dans le texte qui restent à verbaliser.

Le résultat de l’analyse en temps réel des paroles captées est utilisé pour choisir (6) une position dans le texte, c’est-à-dire un deuxième groupe de mots dans le texte à partir duquel débuter une synthèse vocale de la suite du texte. Le lien logique entre le résultat de l’analyse des paroles captées et le groupe de mots choisi, aussi nommé deuxième groupe de mots est explicité à travers plusieurs exemples dans la suite de ce document.

La synthèse vocale peut alors être mise en œuvre, et un flux sonore correspondant au résultat de la synthèse vocale peut être fourni (7) par exemple sous la forme d’un signal numérique destiné à être restitué par un ou plusieurs haut-parleurs.

En complément, les groupes de mots dans le texte ayant fait l’objet de la synthèse vocale peuvent être identifiés comme tels et peuvent être stockés dans l’historique des groupes de mots verbalisés. Obtenir (8) un tel historique permet ainsi de recenser, à tout moment de la session, les groupes de mots dans le texte qui ont déjà été verbalisés ou sont en cours de verbalisation soit par l’orateur soit par synthèse vocale et ceux qui restent à verbaliser.

Dans l’exemple de la , il est prévu, optionnellement, de ne pas mettre en œuvre de lecture automatique tant que l’orateur s’exprime et de déclencher (5) la lecture automatique lorsqu’une interruption de parole de l’orateur est détectée (4).

De manière générale, il est possible de définir des situations préétablies et de prévoir de déclencher, ou d’interrompre, la lecture automatique sur détection d’une telle situation préétablie. L’interruption de parole représente ici un exemple particulier de situation préétablie utilisable comme déclencheur de la lecture automatique. De manière correspondante, une reprise de parole peut représenter un exemple de situation préétablie qui, lorsque détectée, occasionne une interruption de la lecture automatique.

Une situation préétablie peut être détectée (4) par l’interprétation de données issues d’un ou plusieurs capteurs. Ces données peuvent être indicatives d’une interaction ou d’un ensemble d’interactions de l’orateur. Ces interactions peuvent être explicites ou implicites.

Différents exemples de données pouvant être captées et interprétées de manière à conduire à la détection d’une situation préétablie sont à présent fournis.

Un bruit de fond, une défaillance technique du microphone de l’orateur ou une perte de connexion sont des exemples d’incidents relatifs à la captation des paroles. De tels incidents sont détectables par différents moyens techniques connus et correspondent à une incapacité à restituer les paroles de l’orateur, qui peut constituer un exemple de situation préétablie.

Un silence ou un ralentissement significatif du débit de parole sont des exemples d’interactions implicites de l’orateur pouvant être détectées par une analyse bas niveau des paroles captées. Ces exemples d’interactions implicites sont indicatifs d’une période temporelle au cours de laquelle aucun groupe de mots n’est en cours de verbalisation par l’orateur, ce qui correspond à une interruption littérale de parole par l’orateur. La synthèse vocale peut être déclenchée par exemple en comparant la durée de cette période temporelle avec un seuil paramétrable, de l’ordre par exemple de quelques secondes. En-dessous de ce seuil, l’interruption de parole est considérée comme une pause normale dans le discours ne justifiant pas de relais en synthèse vocale, et à l’inverse au-delà de ce seuil, l’interruption de parole est considérée comme trop longue et un relais en synthèse vocale est automatiquement assuré.

D’autres seuils de déclenchement ou d’interruption de la synthèse vocale peuvent être définis, au cas par cas, selon la nature des données captées et/ou des résultats d’analyse des données captées. Le paramétrage de ces seuils peut être manuel ou automatique.

Par exemple, le paramétrage d’un seuil relatif à la durée d’une pause dans le discours, déterminée par analyse des paroles captées, peut être fonction de résultats d’analyse passés des paroles de l’orateur considéré et/ou en fonction de critères relatifs à une qualité de restitution audio souhaitée.

Un bafouillement, une hésitation ou plus généralement une indication de fatigue ou de manque d’intelligibilité, de même qu’une digression sont d’autres exemples d’interactions implicites de l’orateur. Ces exemples d’interactions implicites peuvent être détectés par reconnaissance vocale et peuvent être interprétés comme des interruptions avérées ou souhaitées de la restitution orale du support texte par l’orateur. Lorsque par exemple des hésitations détectées dépassent un certain seuil de fréquence au cours d’une période temporelle donnée, alors il peut être automatiquement prévu d’assurer un relais en synthèse vocale pour ménager l’orateur.

En parallèle des paroles de l’orateur, il est possible de capter d’autres types de données en temps réel. Des images issues d’une capture vidéo de l’orateur par une caméra au cours de la session sont un exemple de données analysables en temps réel et le résultat d’une telle analyse peut permettre de détecter des événements correspondant à des situations prédéterminées. La détection de l’événement peut se fonder par exemple sur des indications relatives à un mouvement de l’orateur, tel qu’un mouvement de lèvres, un changement de direction de regard, une rotation de la tête, un geste, un changement de posture, un déplacement, etc.

Certaines situations prédéterminées peuvent correspondre simplement à une réception d’une ou plusieurs instructions explicites de l’orateur, par exemple par interaction de l’orateur avec un élément d’affichage ou un bouton prévu à cet effet, ou par un geste de l’orateur détectable par exemple par un capteur de mouvement, ou encore par une instruction vocale de l’orateur détectable par reconnaissance vocale.

Il est entendu que la technique proposée n’est pas limitée aux modes de réalisation où la lecture automatique est déclenchée à partir d’un événement survenu au cours de la session.

Pour illustrer ce point, dans un exemple, le flux sonore correspondant aux paroles captées et celui correspondant à la synthèse vocale peuvent être automatiquement fournis de manière continue tout au long de la durée de la session, par exemple sous la forme de deux pistes distinctes destinées chacune à être restituée de manière exclusive. Aucun déclenchement de la lecture automatique n’est donc imposé dans cet exemple. Il est toutefois à noter que la fourniture de la piste en synthèse vocale requiert un mécanisme sous-jacent de synchronisation automatique des paroles lues en synthèse vocale avec celles lues par l’orateur pour préserver l’harmonie et la fidélité au discours en temps réel. Les détails d’un tel mécanisme ne sont pas abordés dans le présent document.

La possibilité d’un basculement d’une piste à l’autre peut être prévue par exemple au moyen d’interactions manuelles et/ou de manière automatique en fonction du déroulé de la session.

Le flux sonore correspondant à la synthèse vocale peut en outre être modifié en temps réel en fonction du résultat de l’analyse des paroles captées. La modification peut notamment comprendre un choix, dans le texte, d’un deuxième groupe de mots à restituer par synthèse vocale correspondant à celui en cours de verbalisation par l’orateur. Il s’agit donc d’une adaptation de la piste en synthèse vocale par groupes de mots cohérents avec les groupes de mots successivement en cours de lecture par l’orateur.

Le but visé dans un tel exemple est d’offrir une synthèse vocale automatique et en temps réel de l’intervention de l’orateur tout en assurant que les groupes de mots ainsi synthétisés soient conformes à ceux du support texte.

Il est à présent fait référence aux figures 3 et 4 qui se réfèrent à un même exemple particulier. La illustre un cheminement logique permettant de choisir un deuxième groupe de mots par lequel débuter une synthèse vocale. La illustre un déroulé d’une alternance audio automatique entre des paroles d’un orateur et une synthèse vocale débutant par le deuxième groupe de mots ainsi choisi.

Dans cet exemple, on considère qu’un orateur a pris la parole au cours d’une session pour restituer vocalement, au moins, le contenu d’un support texte « c ». Le support texte est conceptuellement divisé en parties consécutives notées « Txt A », « Txt B »… formées chacune d’un ou plusieurs groupes de mots, les parties « Txt A » , « Txt B »… du support texte correspondant ainsi à des propositions, des phrases, ou des passages composés de plusieurs phrases.

Les paroles (100) de l’orateur, notées « Audio A’ », sont captées (1) et analysées (2) en temps réel. A un instant donné, l’analyse des paroles captées comprend une transcription en temps réel d’un premier groupe de mots en cours de verbalisation, dont le résultat est un morceau de texte noté « Txt A’ » (200) et une interprétation de la transcription ainsi obtenue.

L’analyse permet d’établir (3) une correspondance entre les paroles captées « Audio A’ » et au moins une partie « Txt A » du support texte « c ».

Dans le cas idéal où l’orateur lit strictement son texte la correspondance est facile et rapide. Dans d’autres cas, comme lors de présentations sur un sujet donné, l’orateur peut employer des synonymes, ajouter ou retirer des mots, ajouter ou enlever des détails ou des précisions.

La correspondance peut être obtenue par une comparaison du résultat de la transcription avec le support texte. Un morceau de texte « Txt A’ » donné peut par exemple être associé à une partie « Txt A » donnée du support texte par détection de similitude ou par détection d’inclusion de l’un dans l’autre (soit l’inclusion de « Txt A’ » dans « Txt A » ou à l’inverse l’inclusion de « Txt A » dans « Txt A’ »).

Lorsqu’une interruption de parole, c’est-à-dire une pause de l’orateur, est détectée (4) à un instant donné, la correspondance établie permet de déterminer (6) un endroit (600) dans le texte auquel l’orateur est arrivé. En d’autres termes, la correspondance établie permet d’identifier le prochain groupe de mots du texte à énoncer pour poursuivre le discours de manière cohérente.

Si la pause est survenue de manière abrupte dans le discours, par exemple au milieu d’une phrase, le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, peut être le groupe de mots partiellement verbalisé par l’orateur au moment de la pause. Si la pause est survenue de manière plus harmonieuse dans le discours, par exemple après la fin d’une phrase, le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, peut être le groupe de mots consécutif au premier groupe de mots verbalisé en dernier par l’orateur.

Pour assurer un relais suite à la pause de l’orateur, un flux sonore (700) est fourni (7), ce flux sonore débutant par la partie « Txt B » du support texte comprenant le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots. Il peut être prévu que, par défaut, ce flux sonore se poursuive automatiquement jusqu’à la fin du support texte. Il peut aussi être prévu que le flux sonore soit automatiquement interrompu si une reprise de parole par l’orateur est détectée.

Il est maintenant fait référence aux figures 5, 6 et 7 qui illustrent un ensemble d’exemples particuliers, plus complexe, où un support texte comporte des répétitions d’un même groupe de mots en cours de verbalisation.

La illustre un cheminement logique permettant de choisir un deuxième groupe de mots par lequel débuter la synthèse vocale dans ces cas plus complexes. Les figures 6 et 7 illustrent chacune un déroulé d’une alternance audio automatique entre des paroles d’un orateur et une synthèse vocale débutant par un deuxième groupe de mots ainsi choisi.

Comme dans l’exemple des figures 3 et 4, les paroles (100) de l’orateur, notées « Audio A’ », sont captées (1) et analysées (2) en temps réel.

A un instant donné, courant, l’analyse des paroles captées comprend une transcription en temps réel d’un premier groupe de mots en cours de verbalisation, dont le résultat est un morceau de texte noté « Txt A’ » (200) et une interprétation de la transcription ainsi obtenue.

Pour mettre en œuvre un relais automatique par synthèse vocale à compter par exemple de l’instant courant, il convient de choisir automatiquement le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, et différents paramétrages peuvent être retenus à cet effet.

Dans l’ensemble d’exemples des figures 5, 6 et 7, le morceau de texte « Txt A’ » (200) est d’abord associé (3), par similitude ou par inclusion, à plusieurs parties du support texte, par exemple trois parties notées « Txt A1 » (302), « Txt A2 » (304), et « Txt A3 » (306). Il est également supposé, dans chacun de ces exemples, que l’orateur ne lit pas le contenu, aussi nommé support texte, « c » de manière linéaire. Ainsi, les parties « Txt A1 », « Txt A2 » et Txt A3 » sont comprises dans cet ordre dans l’oratoire de la personne, c’est-à-dire que l’orateur lit d’abord la partie « Txt A1 » puis « Txt A2 » et enfin « Txt A3 ». En revanche, l’ordre d’apparition des parties dans le contenu « c » est différent. Ainsi, les parties « Txt A1 », « Txt A3 » et Txt A2 » apparaissent dans cet ordre dans le contenu c, c’est-à-dire qu’un lecteur tel que l’orateur ou le lecteur automatique lisant de manière linéaire le contenu « c » lirait d’abord la partie « Txt A1 » puis « Txt A3 » et enfin « Txt A2 ». .,

Les parties « Txt A1 » (302), « Txt A2 » (304), et « Txt A3 » (306) sont distinctes et réparties de manière discontinue dans le support texte, c’est-à-dire qu’elles ne peuvent pas être fusionnées en une seule partie continue du support texte. Dans ce cas, pour assurer un relais notamment suite à une pause détectée (4) de l’orateur, un flux sonore (700) est fourni, ce flux sonore débutant par la partie « Txt B3 » du support texte comprenant le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, suite à la partie « Txt A3 », aussi nommée premier groupe de mots, associée au texte « Txt A » verbalisé par l’orateur. Selon cette définition, les parties « Txt A3 » (premier groupe de mots) et « Txt B3 » (deuxième groupe de mots) peuvent être contiguës. Alternativement, les parties « Txt A3 » et « Txt B3 » peuvent se chevaucher très légèrement, c’est-à-dire comporter un groupe de mots commun correspondant à un groupe de mots dont la verbalisation a été interrompue par la pause de l’orateur. Il peut être prévu que, par défaut, ce flux sonore se poursuive automatiquement jusqu’à la fin du support texte. Il peut aussi être prévu que le flux sonore soit automatiquement interrompu si une reprise de parole par l’orateur est détectée.

Cette association peut relever de deux autres cas de figure différents. Dans ces deux autres cas, le résultat de l’association ne permet pas d’identifier avec certitude la partie du support texte en cours de restitution orale par l’orateur mais permet seulement d’identifier plusieurs candidats que sont, dans cet exemple, les trois parties distinctes « Txt A1 » (302), « Txt A2 » (304), et « Txt A3 » (306) du support texte « c ». Dans ces deux cas, les paroles « Txt A’ » de l’orateur ont été énoncées dans l’ordre temporel suivant : « Txt A1 » suivi de « Txt A2 » et enfin « Txt A3 ». L’analyse (2) retrouve donc à partir du « Txt A’ » les 3 groupes de mots « Txt A1 », « Txt A2 », et « Txt A3 » faisant partie du discours de référence (du support texte « c »).

A noter, comme déjà indiqué plus haut :
- « Txt A2 » correspond au groupe de mots le plus éloigné en position dans le texte de référence ou support texte « c » mais ne correspond pas au premier groupe de mots prononcé en dernier par l’orateur;
- « Txt A3 » correspond au premier groupe de mots dit en dernier par l’orateur mais est positionné en amont dans le texte de référence ou support texte « c ». Cela peut correspondre au fait que l’orateur a oublié (sauté ) le groupe de mots « Txt A3 » et soit passé de « Txt A1 » à « Txt A2 » puis s’est rendu compte de son oubli et a enchaîné oralement par « Txt A3 » ce qui ne correspond pas à l’ordre du texte de référence « c ».

Dans un premier cas illustré sur la , le choix du prochain groupe de mots à synthétiser vocalement, aussi nommé deuxième groupe de mots, peut être le groupe de mots suivant en premier la partie la plus proche de la fin du support texte, ici « Txt A2 ». Ce choix permet d’éviter des répétitions quitte à ne pas restituer l’intégralité du support texte. Par exemple, l’orateur lit le contenu « c », des capteurs tels que des microphones fournissent un signal audio capté 100, une transformation temps réel de parole en texte, notamment une reconnaissance vocale, génère le texte 200 correspondant à l’audio capté 100. Une analyse du contenu « c » permet de déterminer que le texte « Txt A » énoncé par l’orateur correspond potentiellement à une ou plusieurs parties du contenu « c », en l’occurrence dans l’ordre oratoire aux parties 302 , 304 et 306, puisque l’orateur ne lit pas le contenu c dans l’ordre d’écriture mais d’abord les parties 302 suivie de 304 et revient sur la partie 306 (placée avant 304 dans le support texte c). Dans l’exemple de la , l’interruption de la lecture par l’orateur est estimée correspondre à la fin de la partie la plus éloigné dans le support texte c, en l’occurrence la partie 304 déclenchant le démarrage de la synthèse vocale avec le début de la partie B2. Eventuellement, à un instant donné lors de la synthèse vocale du contenu « c », l’orateur peut reprendre la lecture interrompant ainsi la synthèse vocale. Cela marque la fin de la partie B2.

Dans un deuxième cas illustré sur la , le choix du prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, peut être le groupe de mots apparaissant en premier après la dernière partie 306 associée au support texte en cours de restitution orale par l’orateur, ici « Txt A3 ». Ce choix permet d’assurer une continuité du discours au risque néanmoins d’occasionner des répétitions. Par exemple, l’orateur lit le contenu « c », des capteurs tels que des microphones fournissent un signal audio capté 100, une transformation temps réel de parole en texte, notamment une reconnaissance vocale, génère le texte 200 correspondant à l’audio capté 100. Une analyse du contenu « c » permet de déterminer que le texte « Txt A’ » énoncé par l’orateur correspond potentiellement à une ou plusieurs parties du contenu « c », en l’occurrence dans l’ordre oratoire aux parties 302 , 304 et 306 car l’orateur ayant sauté le passage 306 avant de lire le passage 304, le lira après. Dans l’exemple de la , l’interruption de la lecture par l’orateur est estimée correspondre à la fin de la partie 306 déclenchant le démarrage de la synthèse vocale avec le début de la partie B3. Eventuellement, à un instant donné lors de la synthèse vocale du contenu « c », l’orateur peut reprendre la lecture interrompant ainsi la synthèse vocale. Cela marque la fin de la partie B3, qui peut alors éventuellement chevaucher ou comprendre la partie 304.

Il est également possible de prendre en compte l’ensemble des parties de texte déjà exposées, au moyen d’un historique de paroles captées et/ou de contenus précédemment fournis par synthèse vocale, afin de choisir le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots.

Trois exemples particuliers d’applications de la technique proposée sont à présent décrits à titre illustratif.

Dans un premier exemple, Pierre a prévu d’assurer avec son collègue Paul une présentation qu’ils ont préparée ensemble, en alternant leurs prises de paroles pour une meilleure dynamique mais aussi parce que chacun est un peu plus spécialiste de certains aspects que l’autre. Malheureusement au dernier moment Paul ne peut être présent et l’accompagner. Pierre fournit le support de la présentation sous la forme d’un fichier texte à un service de lecture automatique mettant en œuvre une réalisation de la technique de lecture automatique proposée. Pierre se sent ainsi à la fois rassuré et n’hésitera pas à effectuer des pauses à tout moment sachant que le relais sera assuré par le service.

Dans un deuxième exemple, Jeanne accompagne oralement, à l’aide d’un microphone, une présentation de sa dernière vidéo tutorielle dans une salle de réunion avec ses collègues. Au cours de la présentation, elle reçoit via son téléphone un message ou un appel appelant une réponse urgente. Elle ne peut pas interrompre la vidéo en cours, et il est évidemment préférable que le discours ne soit pas interrompu. Elle s’éloigne un instant dans la pièce à côté pour passer un bref appel téléphonique. Durant ce temps, selon une réalisation de la technique proposée, un service a automatiquement détecté que Jeanne ne parlait plus dans le microphone et a activé un module de synthèse vocale pour prendre le relais en diffusant la suite du discours prévu. Ainsi les auditeurs captivés par la vidéo ne se sont pratiquement pas rendu compte du remplacement, d’autant que Jeanne avait paramétré la voix de synthèse en clonage de la sienne. Dès qu’elle revient et reprend le microphone, la synthèse vocale s’interrompt automatiquement, et Jeanne poursuit ses explications.

Dans un troisième exemple, Rose fait une présentation malgré une angine, en ayant au préalable activé en arrière-plan un service mettant en œuvre une réalisation de la technique proposée. Pendant les 15 premières minutes tout se passe bien, puis sa gorge commence à l’irriter, elle n’arrive plus à s’exprimer aussi facilement qu’elle le voudrait. D’un clic, elle active la synthèse vocale le temps de récupérer. Elle se sent moins gênée et pourra reprendre dès qu’elle le souhaitera.

Claims

Procédé de lecture automatique d’un texte continu composé de plusieurs groupes de mots, le procédé comportant une fourniture (7) en temps réel d’un flux sonore correspondant au texte, le flux sonore démarrant groupe de mots choisi, aussi nommé deuxième groupe de motsà partir d’un deuxième groupe de mots choisi, aussi nommé deuxième groupe de mots (6), dans le texte, en fonction au moins d’un résultat d’une analyse (2) en temps réel de paroles captées (1), le résultat de l’analyse étant indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le premier groupe de mots et le deuxième groupe de mots étant des groupes de mots distincts.
Procédé selon la revendication 1, la fourniture (7) du flux sonore étant déclenchée (5) si une interruption de parole de l’orateur est détectée (4).
Procédé selon la revendication 2, la fourniture (7) du flux sonore étant interrompue si une reprise de parole de l’orateur est détectée.
Procédé selon l’une des revendications 1 à 3, le groupe de mots choisi, aussi nommé deuxième groupe de mots (6) étant identique ou consécutif, dans le texte, au groupe de mots en cours de verbalisation par l’orateur, aussi nommé premier groupe de mots.
Procédé selon l’une des revendications 1 à 3, dans lequel le résultat de l’analyse (2) en temps réel est indicatif de plusieurs groupes de mots successivement verbalisés par l’orateur, et le groupe de mots choisi, aussi nommé deuxième groupe de mots (6) est identique ou consécutif au groupe de mots le plus proche de la fin du texte parmi les groupes de mots ayant été verbalisés ou étant en cours de verbalisation par l’orateur.
Procédé selon l’une des revendications 1 à 5, dans lequel le procédé est mis en œuvre au cours d’une session et le groupe de mots choisi, aussi nommé deuxième groupe de mots (6) est un groupe de mots ne figurant pas dans les paroles captées au cours de la session et/ou ne figurant pas dans un flux sonore fourni au cours de la session préalablement à la mise en œuvre du procédé.
Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 6 lorsque ce programme est exécuté par un processeur.
Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon l’une des revendications 1 à 6 lorsque ce programme est exécuté par un processeur.
Lecteur automatique comportant un fournisseur en temps réel de flux sonore,
le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’une indication d’un premier groupe de mots en cours de verbalisation par un orateur, l’indication étant issue d’un analyseur en temps réel de paroles captées.
Terminal utilisateur comportant un fournisseur en temps réel de flux sonore et une carte son,
le fournisseur étant connecté à la carte son et apte à fournir un flux sonore à la carte son, le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’un résultat indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le résultat étant issu d’un analyseur en temps réel de paroles captées.
Terminal utilisateur selon la revendication 10, dans lequel la carte son est connectée à un ou plusieurs haut-parleurs parmi les suivants : un haut-parleur du terminal utilisateur, un haut-parleur d’un périphérique connecté en réseau local au terminal utilisateur.
Terminal utilisateur selon la revendication 10 ou 11, comprenant en outre un afficheur du texte.
Terminal utilisateur selon la revendication 12, comprenant en outre un dispositif de traitement de texte en temps réel apte à surligner un groupe de mots du texte en fonction du résultat et à fournir le texte avec le groupe de mots surligné à l’afficheur.