WO2024052372A1 - Synthèse vocale intelligente - Google Patents

Synthèse vocale intelligente Download PDF

Info

Publication number
WO2024052372A1
WO2024052372A1 PCT/EP2023/074378 EP2023074378W WO2024052372A1 WO 2024052372 A1 WO2024052372 A1 WO 2024052372A1 EP 2023074378 W EP2023074378 W EP 2023074378W WO 2024052372 A1 WO2024052372 A1 WO 2024052372A1
Authority
WO
WIPO (PCT)
Prior art keywords
words
group
text
speaker
verbalized
Prior art date
Application number
PCT/EP2023/074378
Other languages
English (en)
Inventor
Chantal Guionnet
Hélène JOUCLA
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2024052372A1 publication Critical patent/WO2024052372A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present disclosure relates to the field of speech synthesis.
  • the present disclosure relates to a method for automatically reading a text and to a corresponding computer program, a recording medium, an automatic reader and a user terminal.
  • Speech synthesis from text or in English “Text-To-Speech”, is a transformation or transcription of a written text into an audio rendering corresponding to the same content.
  • the voice type and speaking speed can be set.
  • Another known possibility is to implement a pre-established configuration relating to a scenario prepared in advance.
  • Such configuration can be described as semi-automated in that the configuration is carried out by a human before the presentation, but no human intervention is then necessary during the presentation to activate the play, pause, stop or others.
  • a disadvantage of pre-established settings is the limited interactivity offered with the audience, the speaker being forced to respect the scenario prepared in advance.
  • This disclosure improves the situation.
  • a method for automatically reading a continuous text composed of several groups of words comprising a real-time supply of a sound stream corresponding to the text, the sound stream starting from a second group of words chosen, in the text, based on at least one result of a real-time analysis of captured words, the result of the analysis being indicative of a first group of words being verbalized by a speaker, the first group of words and the second group of words being distinct groups of words.
  • Continuous text can be a presentation, speech, narration or other medium. It may be a text prepared in advance and written, for example, using a word processor. Continuous text can also result from automatic processing of a screenshot or a photographic capture of a slide presented by a speaker, such automatic processing involving, for example, character recognition.
  • a group of words can designate, for example, one or more sentences or one or more constituents of a sentence, for example one or more propositions.
  • the chosen group of words also called the second group of words, is the result of an automatic choice in the continuous text.
  • the sound stream can be a simple or enriched transcription of a portion of the continuous text beginning with the chosen group of words, also called the second group of words.
  • the sound stream can include introductory words such as “let's start again”, “a little step back” or even “let me introduce myself, I am the Text-To-Speech assistant”. .”.
  • the proposed method offers speech synthesis rendering which is intelligent in that it automatically adapts to the progress of a speech or presentation. This intelligent rendering results from the choice of a second relevant group of words as the starting point of the sound stream, this choice resulting from the real-time analysis of a user's current speech.
  • the delivery of the sound stream is triggered if an interruption in the speaker's speech is detected.
  • Speech interruption detection refers to the detection of any explicit or implicit interaction on the part of the speaker, or any combination of such interactions, reflecting a temporary cessation of speech.
  • a silence, a hesitation or a particular posture are all examples of implicit interactions that can be captured and interpreted for the purposes of such detection.
  • the delivery of the sound stream is interrupted if the speaker resumes speaking.
  • Detection of a resumption of speech refers to the detection of any explicit or implicit interaction on the part of the speaker, or any combination of such interactions, reflecting a resumption of speech or a cessation of an interruption of speech.
  • Real-time analysis of captured speech alone or combined with other real-time analyses, can for example make it possible to detect interruptions and restarts of speech.
  • speech synthesis is likely to automatically take over in the event of an impromptu and temporary interruption of speech until the speaker subsequently resumes speaking.
  • the chosen group of words also called the second group of words, is identical or consecutive, in the text, to the group of words being verbalized by the speaker, also called the first group of words.
  • Real-time analysis of captured words can, for example, make it possible to determine not only a group of words being spoken.
  • the group of words being verbalized includes several words, the analysis also makes it possible to indicate whether this group of words becomes completely verbalized or if, on the contrary, it only remains partially verbalized.
  • fully verbalized is meant that the user has verbalized all the words of this first group of words, and by partially verbalized is understood that the user has verbalized at least one word of this second group of words but not all the words of this second group of words.
  • Such an indication may have an impact both on the result of the analysis, the first group of words of which will respectively be the group of words currently being verbalized, fully verbalized or the group of words fully verbalized preceding the group of words partially verbalized, and on the choice of the second group of words with which to begin the speech synthesis.
  • the example of triggering voice synthesis following the detection of a speech interruption is now taken up. If the interruption of speech occurs during the verbalization, which remains partial, of a group of words comprising several words, it may be desirable for the analysis to indicate that the first group of words is the group of words preceding the group of words. partially verbalized words and to begin the voice synthesis with a complete repetition of this same group of partially verbalized words then constituting the second group of words. If, conversely, the interruption of speech occurs just after the complete verbalization of a first group of words and just before the start of the verbalization of a second immediately consecutive group of words, then it may be desirable to begin the synthesis vocal directly by the utterance of this second group of words.
  • the result of the real-time analysis is indicative of several first groups of words successively verbalized by the speaker, and the chosen group of words, also called the second group of words, is identical or consecutive to the group of words the closer to the end of the text among the first groups of words having been verbalized or being verbalized by the speaker.
  • the method is implemented during a session and the chosen group of words, also called second group of words, is a group of words not appearing in the words captured during the session and/or not not appearing in a sound stream provided during the session prior to the implementation of the method.
  • a computer program is also proposed comprising instructions for implementing the above method when this program is executed by a processor.
  • a non-transitory recording medium readable by a computer is also proposed on which a program is recorded for implementing the above method when this program is executed by a processor.
  • An automatic player including a real-time sound stream provider, the sound flow corresponding to a continuous text composed of several groups of words, the sound flow starting from a chosen group of words, also called second group of words, in the text, depending on at least one indication of a first group of words being verbalized by a speaker, the indication coming from a real-time analyzer of captured words.
  • a user terminal comprising a real-time sound stream provider and a sound card, the provider being connected to the sound card and capable of providing a sound stream to the sound card, the sound stream corresponding to a continuous text composed of several groups of words, the sound flow starting from a chosen group of words, also called second group of words, in the text, depending on at least one result indicative of a first group of words being verbalized by a speaker, the result coming from a real-time analyzer of captured words.
  • the sound card is connected to one or more of the following speakers: a speaker of the user terminal, a speaker of a device connected via local network to the user terminal.
  • the connections between the sound card and the speaker(s) can either be wired or by radio communication.
  • the user terminal further comprises a text display.
  • the user terminal further comprises a real-time text processing device capable of highlighting a group of words in the text depending on the result and providing the text with the highlighted group of words to the display.
  • FIG. 1 illustrates with a flowchart a process for automatically reading a text, according to an exemplary embodiment.
  • a positioning action (102) in the text can be combined with a launching action (104) of speech synthesis in order to start a broadcast of an audio signal from a desired place in the text.
  • a pause or stop action (106) of the voice synthesis can subsequently stop the broadcast of the audio signal at another desired location.
  • the invention differs from the prior art and aims to intelligently mix the speech of the speaker who reads or presents from a text medium with appropriate parts of the same text rendered in voice synthesis.
  • Automatic live accompaniment during audio presentations allows text-to-speech relays based on the instant progress of the presentation.
  • choosing a synthetic voice distinct from that of the speaker makes it possible to simulate the interventions of a second speaker and thus obtain a two-voice effect.
  • the speaker can also be replaced in the event of difficulty speaking for a long time, in the event of forgetting the text, stress, shortness of breath, external disturbance such as a telephone call, etc. Choosing a synthetic voice identical to that of the speaker can prevent the audience from perceiving the substitution.
  • the words of one or more human speakers are captured (1) by means of one or more microphones.
  • Real-time analysis of the captured words makes it possible to determine (3), at any time, a first group of words being verbalized by a speaker.
  • the first group of words being verbalized can be found literally in the text medium. It can also be a variation that can be assimilated to a first group of words present in the text support. Finally, it may be a digression initiated by the speaker, that is to say at least one group of words accompanying the audio restitution of the text but which cannot be compared to any group of words. particular words in the text support.
  • the first group of words being spoken can be stored in memory. Storing in memory the groups of words successively being verbalized throughout a speaker's intervention corresponds to forming a history of the groups of words verbalized.
  • Obtaining (8) such a history therefore makes it possible to identify, at any time during a speaker's intervention, the groups of words in the text which have already been verbalized, literally or not, by the speaker, the one currently speaking. verbalization by the speaker and finally those in the text who remain to be verbalized.
  • the result of the real-time analysis of the captured words is used to choose (6) a position in the text, that is to say a second group of words in the text from which to begin a speech synthesis of the following of text.
  • the logical link between the result of the analysis of the captured words and the chosen group of words, also called the second group of words, is explained through several examples in the remainder of this document.
  • Voice synthesis can then be implemented, and a sound stream corresponding to the result of the voice synthesis can be provided (7) for example in the form of a digital signal intended to be reproduced by one or more speakers.
  • groups of words in the text that have been the subject of voice synthesis can be identified as such and can be stored in the history of groups of words verbalized. Obtaining (8) such a history thus makes it possible to identify, at any time during the session, the groups of words in the text which have already been verbalized or are in the process of being verbalized either by the speaker or by voice synthesis and those which remain. to verbalize.
  • pre-established situations and plan to trigger, or interrupt, automatic reading upon detection of such a pre-established situation.
  • the interruption of speech here represents a particular example of a pre-established situation that can be used as a trigger for automatic reading.
  • a resumption of speech may represent an example of a pre-established situation which, when detected, causes an interruption of automatic playback.
  • a pre-established situation can be detected (4) by interpreting data from one or more sensors. This data can be indicative of an interaction or a set of interactions by the speaker. These interactions can be explicit or implicit.
  • Silence or a significant slowdown in speech rate are examples of implicit speaker interactions that can be detected by low-level analysis of the captured speech. These examples of implicit interactions are indicative of a temporal period during which no group of words is being verbalized by the speaker, which corresponds to a literal interruption of speech by the speaker.
  • Speech synthesis can be triggered for example by comparing the duration of this time period with a configurable threshold, of the order of a few seconds for example. Below this threshold, the interruption of speech is considered as a normal pause in the speech not justifying relay in speech synthesis, and conversely beyond this threshold, the interruption of speech is considered as too long and a voice synthesis relay is automatically ensured.
  • thresholds for triggering or interrupting voice synthesis can be defined, on a case-by-case basis, depending on the nature of the data captured and/or the analysis results of the data captured.
  • the setting of these thresholds can be manual or automatic.
  • the setting of a threshold relating to the duration of a pause in the speech, determined by analysis of the captured words, can be a function of past analysis results of the words of the speaker considered and/or depending on criteria relating to the desired audio restitution quality.
  • a stammer, a hesitation or more generally an indication of fatigue or lack of intelligibility, as well as a digression are other examples of implicit interactions of the speaker.
  • These examples of implicit interactions can be detected by voice recognition and can be interpreted as actual or desired interruptions in the oral restitution of the text material by the speaker.
  • detected hesitations exceed a certain frequency threshold during a given time period, then it can be automatically planned to provide voice synthesis relay to protect the speaker.
  • Images from a video capture of the speaker by a camera during the session are an example of data that can be analyzed in real time and the result of such an analysis can make it possible to detect events corresponding to predetermined situations.
  • the detection of the event can be based for example on indications relating to a movement of the speaker, such as a movement of the lips, a change in the direction of gaze, a rotation of the head, a gesture, a change of posture, movement, etc.
  • Certain predetermined situations may simply correspond to a reception of one or more explicit instructions from the speaker, for example by interaction of the speaker with a display element or a button provided for this purpose, or by a gesture of the speaker. speaker detectable for example by a movement sensor, or even by a vocal instruction from the speaker detectable by voice recognition.
  • the sound stream corresponding to the captured words and that corresponding to the speech synthesis can be automatically provided continuously throughout the duration of the session, for example in the form of two separate tracks intended each to be returned exclusively. No triggering of automatic reading is therefore imposed in this example. It should be noted, however, that providing the track in speech synthesis requires an underlying mechanism for automatic synchronization of the words read in speech synthesis with those read by the speaker to preserve harmony and fidelity to the speech in real time. The details of such a mechanism are not covered in this document.
  • the possibility of switching from one track to another can be provided for example by means of manual interactions and/or automatically depending on the progress of the session.
  • the sound stream corresponding to the speech synthesis can also be modified in real time depending on the result of the analysis of the captured words.
  • the modification may in particular include a choice, in the text, of a second group of words to be rendered by voice synthesis corresponding to that currently being verbalized by the speaker. It is therefore an adaptation of the voice synthesis track by groups of words consistent with the groups of words successively being read by the speaker.
  • the aim in such an example is to offer automatic, real-time speech synthesis of the speaker's intervention while ensuring that the groups of words thus synthesized conform to those of the text support.
  • FIG. 3 There illustrates a logical path allowing you to choose a second group of words with which to begin a speech synthesis. There illustrates a sequence of automatic audio alternation between the words of a speaker and a speech synthesis beginning with the second group of words thus chosen.
  • a speaker has spoken during a session to vocally reproduce, at least, the content of a text medium “c”.
  • the text medium is conceptually divided into consecutive parts denoted “Txt A”, “Txt B”... each formed of one or more groups of words, the parts “Txt A”, “Txt B”... of the text medium thus corresponding to propositions, sentences, or passages composed of several sentences.
  • the words (100) of the speaker, noted “Audio A’”, are captured (1) and analyzed (2) in real time.
  • the analysis of the captured words includes a real-time transcription of a first group of words being verbalized, the result of which is a piece of text noted "Txt A'" (200) and an interpretation of the transcription thus obtained.
  • the analysis makes it possible to establish (3) a correspondence between the captured words “Audio A’” and at least one part “Txt A” of the text support “c”.
  • the speaker In the ideal case where the speaker reads his text strictly, the correspondence is easy and quick. In other cases, such as during presentations on a given subject, the speaker may use synonyms, add or remove words, add or remove details or clarifications.
  • the correspondence can be obtained by comparing the transcription result with the text support.
  • a given piece of text "Txt A'" can for example be associated with a given part "Txt A" of the text support by detection of similarity or by detection of inclusion of one in the other (i.e. the inclusion of "Txt A'" in “Txt A” or conversely the inclusion of "Txt A” in “Txt A'”).
  • the correspondence established makes it possible to determine (6) a place (600) in the text at which the The speaker has arrived.
  • the established correspondence makes it possible to identify the next group of words in the text to be spoken in order to continue the discourse in a coherent manner.
  • the next group of words to be uttered may be the group of words partially spoken by the speaker at the time. of the break. If the pause occurred more harmoniously in the speech, for example after the end of a sentence, the next group of words to be spoken, also called the second group of words, can be the group of words following the first group of words verbalized last by the speaker.
  • a sound stream (700) is provided (7), this sound stream starting with the "Txt B" part of the text support including the next group of words to be said, also called second group of words. It can be expected that, by default, this sound stream will continue automatically until the end of the text support. It can also be planned that the sound flow is automatically interrupted if the speaker resumes speaking.
  • Figures 6 and 7 each illustrate a sequence of automatic audio alternation between the words of a speaker and a voice synthesis beginning with a second group of words thus chosen.
  • the analysis of the captured words includes a real-time transcription of a first group of words being verbalized, the result of which is a piece of text denoted "Txt A'" (200) and a interpretation of the transcription thus obtained.
  • the piece of text “Txt A'” (200) is first associated (3), by similarity or by inclusion, with several parts of the text support, by example three parts noted “Txt A1” (302), “Txt A2” (304), and “Txt A3” (306). It is also assumed, in each of these examples, that the speaker does not read the content, also called text media, “c” in a linear manner. Thus, the parts “Txt A1", “Txt A2” and Txt A3" are included in this order in the person's oratory, that is, the speaker reads the part "Txt A1" first » then “Txt A2” and finally “Txt A3”.
  • Txt A1 (302), “Txt A2” (304), and “Txt A3” (306) are distinct and distributed discontinuously in the text medium, that is to say they cannot not be merged into a single continuous part of the text medium.
  • a sound stream 700 is provided, this sound stream starting with the "Txt B3" part of the text support comprising the next group of words to be spoken, also called the second group of words, following the “Txt A3” part, also called the first group of words, associated with the text “Txt A” verbalized by the speaker.
  • the parts “Txt A3” (first group of words) and “Txt B3” (second group of words) can be contiguous.
  • the parts “Txt A3” and “Txt B3” can overlap very slightly, that is to say include a common group of words corresponding to a group of words whose verbalization was interrupted by the pause of the speaker. It can be expected that, by default, this sound stream will continue automatically until the end of the text support. It can also be planned that the sound flow is automatically interrupted if the speaker resumes speaking.
  • Txt A2 corresponds to the group of words furthest away in position in the reference text or text support “c” but does not correspond to the first group of words last pronounced by the speaker
  • - “Txt A3” corresponds to the first group of words said last by the speaker but is positioned upstream in the reference text or text support “c”. This may correspond to the fact that the speaker forgot (skipped) the group of words "Txt A3” and went from "Txt A1" to "Txt A2" then realized he had forgotten and followed up orally with " Txt A3” which does not correspond to the order of the reference text “c”.
  • the choice of the next group of words to be synthesized vocally can be the group of words following first the part closest to the end of the text support, here “Txt A2”. This choice makes it possible to avoid repetitions even if it means not restoring the entire text support.
  • the speaker reads the content "c”
  • sensors such as microphones provide a captured audio signal 100
  • a real-time transformation of speech into text in particular voice recognition, generates the text 200 corresponding to the captured audio 100.
  • the choice of the next group of words to be stated can be the group of words appearing first after the last part 306 associated with the text support being reproduced orally by the speaker, here “Txt A3 ".
  • This choice ensures continuity of speech, although there is a risk of repetition.
  • the speaker reads the content "c”
  • sensors such as microphones provide a captured audio signal 100
  • a real-time transformation of speech into text in particular voice recognition, generates the text 200 corresponding to the captured audio 100.
  • Pierre planned to deliver a presentation with his colleague Paul that they prepared together, alternating their speeches for better dynamics but also because each is a little more specialist in certain aspects than the other. other.
  • Pierre provides the presentation support in the form of a text file to an automatic reading service implementing an implementation of the proposed automatic reading technique. Pierre thus feels both reassured and will not hesitate to take breaks at any time knowing that the relay will be provided by the service.
  • Jeanne orally accompanies, using a microphone, a presentation of her latest tutorial video in a meeting room with her colleagues.
  • she receives a message or call via her phone requiring an urgent response.
  • She cannot interrupt the current video, and it is obviously preferable that the speech is not interrupted.
  • She steps away into the next room for a moment to make a brief phone call.
  • a service automatically detected that Jeanne was no longer speaking into the microphone and activated a speech synthesis module to take over by broadcasting the rest of the planned speech.
  • the listeners captivated by the video practically did not notice the replacement, especially since Jeanne had configured the synthesized voice to clone her own.
  • the voice synthesis automatically stops, and Jeanne continues her explanations.
  • Rose makes a presentation despite having angina, having previously activated in the background a service implementing an implementation of the proposed technique. For the first 15 minutes everything goes well, then her throat starts to irritate her, she can no longer express herself as easily as she would like. With one click, it activates speech synthesis while you recover. She feels less embarrassed and can resume as soon as she wants.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Il est proposé un procédé de lecture automatique d'un texte continu composé de plusieurs groupes de mots, ainsi qu'un programme d'ordinateur, un support d'enregistrement, un lecteur automatique et un terminal utilisateur correspondants. Le procédé comporte une fourniture (7) en temps réel d'un flux sonore correspondant au texte. Le flux sonore démarre groupe de mots choisi, aussi nommé deuxième groupe de motsà partir d'un deuxième groupe de mots choisi, aussi nommé deuxième groupe de mots (6) dans le texte en fonction au moins d'un résultat d'une analyse (2) en temps réel de paroles captées (1). Le résultat de l'analyse est indicatif d'un premier groupe de mots en cours de verbalisation par un orateur, le premier groupe de mots et le deuxième groupe de mots étant des groupes de mots distincts.

Description

Synthèse vocale intelligente
La présente divulgation relève du domaine de la synthèse vocale.
Plus particulièrement, la présente divulgation porte sur un procédé de lecture automatique d’un texte et sur un programme informatique, un support d’enregistrement, un lecteur automatique et un terminal utilisateur correspondants.
La synthèse vocale à partir d’un texte, ou en anglais « Text-To-Speech », est une transformation ou une transcription d’un texte écrit en un rendu audio correspondant au même contenu. Le type de voix et la vitesse d’élocution peuvent être paramétrés.
Si l’on souhaite faire un mixage audio synchronisé entre des interventions orales d’un utilisateur qui lit ou présente un texte et des interventions de synthèse vocale relatives à ce même texte, une possibilité connue est de permettre à l’utilisateur de déclencher des interruptions et des reprises de la synthèse vocale à des endroits désirés. La gestion de l’alternance audio entre paroles humaines et synthèse vocale liées à un même contenu peut être réalisée par une intervention humaine. Ces interventions à l’aide d’interactions manuelles ou vocales par exemple peuvent déclencher diverses fonctions de lecture, de pause, d’arrêt, ou encore de passage au chapitre suivant ou précédent.
Une autre possibilité connue est de mettre en œuvre un paramétrage préétabli se rapportant à un scénario préparé à l’avance. Un tel paramétrage peut être qualifié de semi-automatisé en ce que le paramétrage est effectué par un humain avant la présentation, mais aucune intervention humaine n’est ensuite nécessaire au cours de la présentation pour activer les fonctions de lecture, de pause, d’arrêt ou autres. Un inconvénient du paramétrage préétabli est l’interactivité limitée offerte avec le public, l’orateur étant contraint de respecter le scénario préparé à l’avance.
Il existe donc un besoin pour une mise en œuvre véritablement automatique, voire contextuelle, d’une alternance audio entre des paroles humaines et une synthèse vocale se rapportant à un même texte, c’est-à-dire sans intervention humaine et sans s’appuyer sur un quelconque scénario préparé à l’avance.
Résumé
La présente divulgation vient améliorer la situation.
Il est proposé un procédé de lecture automatique d’un texte continu composé de plusieurs groupes de mots, le procédé comportant une fourniture en temps réel d’un flux sonore correspondant au texte, le flux sonore démarrant à partir d’un deuxième groupe de mots choisi, dans le texte, en fonction au moins d’un résultat d’une analyse en temps réel de paroles captées, le résultat de l’analyse étant indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le premier groupe de mots et le deuxième groupe de mots étant des groupes de mots distincts.
Le texte continu peut être un support de présentation, de discours, de narration ou autre. Il peut s’agir d’un texte préparé à l’avance et rédigé par exemple à l’aide d’un traitement de texte. Le texte continu peut aussi résulter d’un traitement automatique d’une capture d’écran ou d’une capture photographique d’une diapositive présentée par un orateur, un tel traitement automatique impliquant par exemple une reconnaissance de caractères. Un groupe de mots peut désigner par exemple une ou plusieurs phrases ou un ou plusieurs constituants d’une phrase, par exemple une ou plusieurs propositions.
Il est entendu que, selon le procédé proposé, le groupe de mots choisi, aussi nommé deuxième groupe de mots, est le fruit d’un choix automatique dans le texte continu.
Le flux sonore peut être une transcription simple ou enrichie d’une portion du texte continu débutant par le groupe de mots choisi, aussi nommé deuxième groupe de mots. Selon un exemple de transcription enrichie, le flux sonore peut comporter en préambule des mots d’introduction tels que « reprenons » , « un petit retour en arrière » ou encore « je me présente je suis l’assistant Text-To-Speech... ».
Le procédé proposé offre un rendu en synthèse vocale qui est intelligent en ce qu’il s’adapte automatiquement au déroulé d’un discours ou d’une présentation. Ce rendu intelligent résulte du choix d’un deuxième groupe de mots pertinent comme point de départ du flux sonore, ce choix découlant de l’analyse en temps réel de paroles en cours d’un utilisateur.
Les caractéristiques exposées dans les paragraphes suivants peuvent, optionnellement, être mises en œuvre. Elles peuvent être mises en œuvre indépendamment les unes des autres ou en combinaison les unes avec les autres.
Dans un exemple, la fourniture du flux sonore est déclenchée si une interruption de parole de l’orateur est détectée. La détection d’une interruption de parole désigne la détection de toute interaction explicite ou implicite de la part de l’orateur, ou de toute combinaison de telles interactions, traduisant un arrêt temporaire du discours. Un silence, une hésitation ou une posture particulière sont autant d’exemples d’interactions implicites pouvant être captées et interprétées aux fins d’une telle détection.
Dans un exemple, la fourniture du flux sonore est interrompue si une reprise de parole de l’orateur est détectée. La détection d’une reprise de parole désigne la détection de toute interaction explicite ou implicite de la part de l’orateur, ou de toute combinaison de telles interactions, traduisant une reprise du discours ou une cessation d’une interruption de parole. L’analyse en temps réel des paroles captées, seule ou combinée à d’autres analyses en temps réel, peut par exemple permettre de détecter des interruptions et des reprises de parole.
Lorsque les deux exemples ci-dessus sont combinés, la synthèse vocale est susceptible de prendre automatiquement le relais en cas d’interruption de parole impromptue et temporaire jusqu’à la reprise ultérieure de parole par l’orateur.
Dans un exemple, le groupe de mots choisi, aussi nommé deuxième groupe de mots est identique ou consécutif, dans le texte, au groupe de mots en cours de verbalisation par l’orateur, aussi nommé premier groupe de mots.
L’analyse en temps réel des paroles captées peut par exemple permettre de déterminer non seulement un groupe de mots en cours de verbalisation. Lorsque le groupe de mots en cours de verbalisation comporte plusieurs mots, l’analyse permet aussi d’indiquer si ce groupe de mots devient totalement verbalisé ou si, au contraire, il ne reste que partiellement verbalisé. Par totalement verbalisé est entendu que l’utilisateur a verbalisé tous les mots de ce premier groupe de mots, et par partiellement verbalisé est entendu que l’utilisateur a verbalisé au moins un mot de ce deuxième groupe de mots mais pas tous les mots de ce deuxième groupe de mots. Une telle indication peut avoir une incidence à la fois sur le résultat de l’analyse dont le premier groupe de mots sera respectivement le groupe de mots en cours de verbalisation totalement verbalisé ou le groupe de mots totalement verbalisé précédent le groupe de mots partiellement verbalisé, et sur le choix du deuxième groupe de mots par lequel débuter la synthèse vocale.
Pour illustrer ce point, l’exemple du déclenchement de la synthèse vocale suite à la détection d’une interruption de parole est à présent repris. Si l’interruption de parole survient au cours de la verbalisation, restée partielle, d’un groupe de mots comportant plusieurs mots, il peut être souhaitable que l’analyse indique que le premier groupe de mots est le groupe de mots précédent le groupe de mots partiellement verbalisé et de débuter la synthèse vocale par une répétition intégrale de ce même groupe de mots partielle verbalisé constituant alors le deuxième groupe de mots. Si à l’inverse l’interruption de parole survient juste après la verbalisation intégrale d’un premier groupe de mots et juste avant le début de la verbalisation d’un deuxième groupe de mots immédiatement consécutif, alors il peut être souhaitable de débuter la synthèse vocale directement par l’énoncé de ce deuxième groupe de mots.
Dans un exemple, le résultat de l’analyse en temps réel est indicatif de plusieurs premiers groupes de mots successivement verbalisés par l’orateur, et le groupe de mots choisi, aussi nommé deuxième groupe de mots est identique ou consécutif au groupe de mots le plus proche de la fin du texte parmi les premiers groupes de mots ayant été verbalisés ou étant en cours de verbalisation par l’orateur.
Il est fréquent par exemple que des propositions identiques ou similaires soient répétées dans différentes phrases, ou que des phrases identiques ou similaires soit répétées dans différents passages d’un même texte. Choisir de débuter la synthèse vocale par le deuxième groupe de mots suivant le dernier groupe de mots similaire au premier groupe de mots en cours de verbalisation, parmi ceux ayant été déjà verbalisés par l’orateur, permet d’éviter des répétitions susceptibles de gêner le public.
Dans un exemple, le procédé est mis en œuvre au cours d’une session et le groupe de mots choisi, aussi nommé deuxième groupe de mots est un groupe de mots ne figurant pas dans les paroles captées au cours de la session et/ou ne figurant pas dans un flux sonore fourni au cours de la session préalablement à la mise en œuvre du procédé.
Ainsi, il est possible, par exemple, de débuter la synthèse vocale par le groupe de mots positionné en premier dans le texte n’ayant ni été verbalisé par l’orateur ni fait l’objet d’une précédente synthèse vocale au cours de la session. Ceci permet de restituer l’intégralité du contenu du texte en évitant toute répétition.
Il est également proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant lorsque ce programme est exécuté par un processeur.
Il est également proposé un support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé ci-avant lorsque ce programme est exécuté par un processeur.
Il est également proposé un lecteur automatique comportant un fournisseur en temps réel de flux sonore,
le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’une indication d’un premier groupe de mots en cours de verbalisation par un orateur, l’indication étant issue d’un analyseur en temps réel de paroles captées.
Il est également proposé un terminal utilisateur comportant un fournisseur en temps réel de flux sonore et une carte son, le fournisseur étant connecté à la carte son et apte à fournir un flux sonore à la carte son, le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’un résultat indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le résultat étant issu d’un analyseur en temps réel de paroles captées.
Dans un exemple, la carte son est connectée à un ou plusieurs haut-parleurs parmi les suivants : un haut-parleur du terminal utilisateur, un haut-parleur d’un périphérique connecté en réseau local au terminal utilisateur.
Les connexions entre la carte son et le ou les haut-parleurs peuvent indifféremment être filaire ou par radiocommunication.
Dans un exemple, le terminal utilisateur comprend en outre un afficheur du texte.
Dans un exemple, le terminal utilisateur comprend en outre un dispositif de traitement de texte en temps réel apte à surligner un groupe de mots du texte en fonction du résultat et à fournir le texte avec le groupe de mots surligné à l’afficheur.
Fournir en temps réel à la fois le flux sonore et le texte avec le groupe de mots surligné renforce l’accessibilité de la présentation.
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
Fig. 1
représente un déroulé d’une alternance audio, déclenchée manuellement, entre des paroles humaines et une synthèse vocale liées à un même contenu.
Fig. 2
illustre par un ordinogramme un procédé de lecture automatique d’un texte, selon un exemple de réalisation.
Fig. 3
représente un ensemble de données considérées successivement pour opérer une transition audio automatique depuis des paroles humaines vers une synthèse vocale liées à un même contenu, selon un exemple de réalisation particulier.
Fig. 4
représente un déroulé d’une alternance audio automatique entre des paroles humaines et une synthèse vocale liées à un même contenu, selon l’exemple de réalisation particulier de .
Fig. 5
représente un ensemble de données considérées successivement pour opérer une transition audio automatique depuis des paroles humaines vers une synthèse vocale liées à un même contenu, selon un ensemble d’exemples de réalisation particuliers.
Fig. 6 Fig. 7
et représentent chacune un déroulé d’une alternance audio automatique entre des paroles humaines et une synthèse vocale liées à un même contenu, selon deux exemples de l’ensemble d’exemples de réalisation particuliers de .
Il est connu de commander un procédé de synthèse vocale au moyen d’actions manuelles. La est un exemple illustratif de l’art antérieur où une action de positionnement (102) dans le texte peut être combinée à une action de lancement (104) de la synthèse vocale afin de démarrer une diffusion d’un signal audio à partir d’un endroit désiré dans le texte. Une action de pause ou d’arrêt (106) de la synthèse vocale peut ultérieurement permettre de cesser la diffusion du signal audio à un autre endroit désiré.
L’invention se distingue de l’art antérieur et a pour objectif de mixer de façon intelligente la prise de parole de l’orateur qui lit ou présente à partir d’un support texte avec des parties appropriées du même texte restitué en synthèse vocale.
L’accompagnement automatique et en direct lors de présentations audio permet des relais en synthèse vocale en fonction du déroulement instantané de la présentation.
Ces relais offrent divers bénéfices à l’expérience partagée par l’orateur et son auditoire.
Par exemple, le choix d’une voix de synthèse distincte de celle de l’orateur permet de simuler des interventions d’un second orateur et ainsi d’obtenir un effet à deux voix.
L’orateur peut aussi être suppléé en cas de difficultés à parler longtemps, en cas d’oubli du texte, de stress, d’essoufflement, de perturbation extérieure tel qu’un appel téléphonique, etc. Le choix d’une voix de synthèse identique à celle de l’orateur peut permettre à l’auditoire de ne pas percevoir la substitution.
Un exemple particulier de réalisation est à présent décrit en référence à la qui représente visuellement un algorithme correspondant à un procédé de lecture automatique d’un texte.
Au cours d’une session correspondant à une présentation, à un discours ou à tout autre événement impliquant une restitution audio d’un support texte, les paroles d’un ou plusieurs orateurs humains sont captées (1) au moyen d’un ou plusieurs microphones.
Ces paroles sont analysées (2) en temps réel par un analyseur mettant en œuvre un algorithme de reconnaissance vocale. De tels algorithmes sont bien connus de la personne du métier et ne sont pas détaillés ici.
L’analyse en temps réel des paroles captées permet de déterminer (3), à tout instant, un premier groupe de mots en cours de verbalisation par un orateur. Le premier groupe de mots en cours de verbalisation peut se retrouver littéralement dans le support texte. Il peut aussi s’agir d’une variation pouvant être assimilée à un premier groupe de mots présent dans le support texte. Il peut enfin s’agir d’une digression à l’initiative de l’orateur, c’est-à-dire d’au moins un groupe de mots accompagnant la restitution audio du texte mais ne pouvant être rapproché d’aucun groupe de mots particulier dans le support texte.
Le premier groupe de mots en cours de verbalisation peut être stocké en mémoire. Stocker en mémoire les groupes de mots successivement en cours de verbalisation tout au long d’une intervention d’un orateur correspond à former un historique des groupes de mots verbalisés. Lorsque l’intervention de l’orateur s’écarte du support texte, il peut être utile de traiter automatiquement l’historique en le confrontant au support texte de manière à ne considérer, parmi les groupes de mots verbalisés, que des groupes de mots qui, soit, figurent effectivement dans le texte, soit, sont équivalents à des groupes de mots qui figurent effectivement dans le texte. Obtenir (8) un tel historique permet donc de recenser, à tout moment d’une intervention d’un orateur, les groupes de mots dans le texte qui ont déjà été verbalisés, littéralement ou non, par l’orateur, celui en cours de verbalisation par l’orateur et enfin ceux dans le texte qui restent à verbaliser.
Le résultat de l’analyse en temps réel des paroles captées est utilisé pour choisir (6) une position dans le texte, c’est-à-dire un deuxième groupe de mots dans le texte à partir duquel débuter une synthèse vocale de la suite du texte. Le lien logique entre le résultat de l’analyse des paroles captées et le groupe de mots choisi, aussi nommé deuxième groupe de mots est explicité à travers plusieurs exemples dans la suite de ce document.
La synthèse vocale peut alors être mise en œuvre, et un flux sonore correspondant au résultat de la synthèse vocale peut être fourni (7) par exemple sous la forme d’un signal numérique destiné à être restitué par un ou plusieurs haut-parleurs.
En complément, les groupes de mots dans le texte ayant fait l’objet de la synthèse vocale peuvent être identifiés comme tels et peuvent être stockés dans l’historique des groupes de mots verbalisés. Obtenir (8) un tel historique permet ainsi de recenser, à tout moment de la session, les groupes de mots dans le texte qui ont déjà été verbalisés ou sont en cours de verbalisation soit par l’orateur soit par synthèse vocale et ceux qui restent à verbaliser.
Dans l’exemple de la , il est prévu, optionnellement, de ne pas mettre en œuvre de lecture automatique tant que l’orateur s’exprime et de déclencher (5) la lecture automatique lorsqu’une interruption de parole de l’orateur est détectée (4).
De manière générale, il est possible de définir des situations préétablies et de prévoir de déclencher, ou d’interrompre, la lecture automatique sur détection d’une telle situation préétablie. L’interruption de parole représente ici un exemple particulier de situation préétablie utilisable comme déclencheur de la lecture automatique. De manière correspondante, une reprise de parole peut représenter un exemple de situation préétablie qui, lorsque détectée, occasionne une interruption de la lecture automatique.
Une situation préétablie peut être détectée (4) par l’interprétation de données issues d’un ou plusieurs capteurs. Ces données peuvent être indicatives d’une interaction ou d’un ensemble d’interactions de l’orateur. Ces interactions peuvent être explicites ou implicites.
Différents exemples de données pouvant être captées et interprétées de manière à conduire à la détection d’une situation préétablie sont à présent fournis.
Un bruit de fond, une défaillance technique du microphone de l’orateur ou une perte de connexion sont des exemples d’incidents relatifs à la captation des paroles. De tels incidents sont détectables par différents moyens techniques connus et correspondent à une incapacité à restituer les paroles de l’orateur, qui peut constituer un exemple de situation préétablie.
Un silence ou un ralentissement significatif du débit de parole sont des exemples d’interactions implicites de l’orateur pouvant être détectées par une analyse bas niveau des paroles captées. Ces exemples d’interactions implicites sont indicatifs d’une période temporelle au cours de laquelle aucun groupe de mots n’est en cours de verbalisation par l’orateur, ce qui correspond à une interruption littérale de parole par l’orateur. La synthèse vocale peut être déclenchée par exemple en comparant la durée de cette période temporelle avec un seuil paramétrable, de l’ordre par exemple de quelques secondes. En-dessous de ce seuil, l’interruption de parole est considérée comme une pause normale dans le discours ne justifiant pas de relais en synthèse vocale, et à l’inverse au-delà de ce seuil, l’interruption de parole est considérée comme trop longue et un relais en synthèse vocale est automatiquement assuré.
D’autres seuils de déclenchement ou d’interruption de la synthèse vocale peuvent être définis, au cas par cas, selon la nature des données captées et/ou des résultats d’analyse des données captées. Le paramétrage de ces seuils peut être manuel ou automatique.
Par exemple, le paramétrage d’un seuil relatif à la durée d’une pause dans le discours, déterminée par analyse des paroles captées, peut être fonction de résultats d’analyse passés des paroles de l’orateur considéré et/ou en fonction de critères relatifs à une qualité de restitution audio souhaitée.
Un bafouillement, une hésitation ou plus généralement une indication de fatigue ou de manque d’intelligibilité, de même qu’une digression sont d’autres exemples d’interactions implicites de l’orateur. Ces exemples d’interactions implicites peuvent être détectés par reconnaissance vocale et peuvent être interprétés comme des interruptions avérées ou souhaitées de la restitution orale du support texte par l’orateur. Lorsque par exemple des hésitations détectées dépassent un certain seuil de fréquence au cours d’une période temporelle donnée, alors il peut être automatiquement prévu d’assurer un relais en synthèse vocale pour ménager l’orateur.
En parallèle des paroles de l’orateur, il est possible de capter d’autres types de données en temps réel. Des images issues d’une capture vidéo de l’orateur par une caméra au cours de la session sont un exemple de données analysables en temps réel et le résultat d’une telle analyse peut permettre de détecter des événements correspondant à des situations prédéterminées. La détection de l’événement peut se fonder par exemple sur des indications relatives à un mouvement de l’orateur, tel qu’un mouvement de lèvres, un changement de direction de regard, une rotation de la tête, un geste, un changement de posture, un déplacement, etc.
Certaines situations prédéterminées peuvent correspondre simplement à une réception d’une ou plusieurs instructions explicites de l’orateur, par exemple par interaction de l’orateur avec un élément d’affichage ou un bouton prévu à cet effet, ou par un geste de l’orateur détectable par exemple par un capteur de mouvement, ou encore par une instruction vocale de l’orateur détectable par reconnaissance vocale.
Il est entendu que la technique proposée n’est pas limitée aux modes de réalisation où la lecture automatique est déclenchée à partir d’un événement survenu au cours de la session.
Pour illustrer ce point, dans un exemple, le flux sonore correspondant aux paroles captées et celui correspondant à la synthèse vocale peuvent être automatiquement fournis de manière continue tout au long de la durée de la session, par exemple sous la forme de deux pistes distinctes destinées chacune à être restituée de manière exclusive. Aucun déclenchement de la lecture automatique n’est donc imposé dans cet exemple. Il est toutefois à noter que la fourniture de la piste en synthèse vocale requiert un mécanisme sous-jacent de synchronisation automatique des paroles lues en synthèse vocale avec celles lues par l’orateur pour préserver l’harmonie et la fidélité au discours en temps réel. Les détails d’un tel mécanisme ne sont pas abordés dans le présent document.
La possibilité d’un basculement d’une piste à l’autre peut être prévue par exemple au moyen d’interactions manuelles et/ou de manière automatique en fonction du déroulé de la session.
Le flux sonore correspondant à la synthèse vocale peut en outre être modifié en temps réel en fonction du résultat de l’analyse des paroles captées. La modification peut notamment comprendre un choix, dans le texte, d’un deuxième groupe de mots à restituer par synthèse vocale correspondant à celui en cours de verbalisation par l’orateur. Il s’agit donc d’une adaptation de la piste en synthèse vocale par groupes de mots cohérents avec les groupes de mots successivement en cours de lecture par l’orateur.
Le but visé dans un tel exemple est d’offrir une synthèse vocale automatique et en temps réel de l’intervention de l’orateur tout en assurant que les groupes de mots ainsi synthétisés soient conformes à ceux du support texte.
Il est à présent fait référence aux figures 3 et 4 qui se réfèrent à un même exemple particulier. La illustre un cheminement logique permettant de choisir un deuxième groupe de mots par lequel débuter une synthèse vocale. La illustre un déroulé d’une alternance audio automatique entre des paroles d’un orateur et une synthèse vocale débutant par le deuxième groupe de mots ainsi choisi.
Dans cet exemple, on considère qu’un orateur a pris la parole au cours d’une session pour restituer vocalement, au moins, le contenu d’un support texte « c ». Le support texte est conceptuellement divisé en parties consécutives notées « Txt A », « Txt B »… formées chacune d’un ou plusieurs groupes de mots, les parties « Txt A » , « Txt B »… du support texte correspondant ainsi à des propositions, des phrases, ou des passages composés de plusieurs phrases.
Les paroles (100) de l’orateur, notées « Audio A’ », sont captées (1) et analysées (2) en temps réel. A un instant donné, l’analyse des paroles captées comprend une transcription en temps réel d’un premier groupe de mots en cours de verbalisation, dont le résultat est un morceau de texte noté « Txt A’ » (200) et une interprétation de la transcription ainsi obtenue.
L’analyse permet d’établir (3) une correspondance entre les paroles captées « Audio A’ » et au moins une partie « Txt A » du support texte « c ».
Dans le cas idéal où l’orateur lit strictement son texte la correspondance est facile et rapide. Dans d’autres cas, comme lors de présentations sur un sujet donné, l’orateur peut employer des synonymes, ajouter ou retirer des mots, ajouter ou enlever des détails ou des précisions.
La correspondance peut être obtenue par une comparaison du résultat de la transcription avec le support texte. Un morceau de texte « Txt A’ » donné peut par exemple être associé à une partie « Txt A » donnée du support texte par détection de similitude ou par détection d’inclusion de l’un dans l’autre (soit l’inclusion de « Txt A’ » dans « Txt A » ou à l’inverse l’inclusion de « Txt A » dans « Txt A’ »).
Lorsqu’une interruption de parole, c’est-à-dire une pause de l’orateur, est détectée (4) à un instant donné, la correspondance établie permet de déterminer (6) un endroit (600) dans le texte auquel l’orateur est arrivé. En d’autres termes, la correspondance établie permet d’identifier le prochain groupe de mots du texte à énoncer pour poursuivre le discours de manière cohérente.
Si la pause est survenue de manière abrupte dans le discours, par exemple au milieu d’une phrase, le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, peut être le groupe de mots partiellement verbalisé par l’orateur au moment de la pause. Si la pause est survenue de manière plus harmonieuse dans le discours, par exemple après la fin d’une phrase, le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, peut être le groupe de mots consécutif au premier groupe de mots verbalisé en dernier par l’orateur.
Pour assurer un relais suite à la pause de l’orateur, un flux sonore (700) est fourni (7), ce flux sonore débutant par la partie « Txt B » du support texte comprenant le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots. Il peut être prévu que, par défaut, ce flux sonore se poursuive automatiquement jusqu’à la fin du support texte. Il peut aussi être prévu que le flux sonore soit automatiquement interrompu si une reprise de parole par l’orateur est détectée.
Il est maintenant fait référence aux figures 5, 6 et 7 qui illustrent un ensemble d’exemples particuliers, plus complexe, où un support texte comporte des répétitions d’un même groupe de mots en cours de verbalisation.
La illustre un cheminement logique permettant de choisir un deuxième groupe de mots par lequel débuter la synthèse vocale dans ces cas plus complexes. Les figures 6 et 7 illustrent chacune un déroulé d’une alternance audio automatique entre des paroles d’un orateur et une synthèse vocale débutant par un deuxième groupe de mots ainsi choisi.
Comme dans l’exemple des figures 3 et 4, les paroles (100) de l’orateur, notées « Audio A’ », sont captées (1) et analysées (2) en temps réel.
A un instant donné, courant, l’analyse des paroles captées comprend une transcription en temps réel d’un premier groupe de mots en cours de verbalisation, dont le résultat est un morceau de texte noté « Txt A’ » (200) et une interprétation de la transcription ainsi obtenue.
Pour mettre en œuvre un relais automatique par synthèse vocale à compter par exemple de l’instant courant, il convient de choisir automatiquement le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, et différents paramétrages peuvent être retenus à cet effet.
Dans l’ensemble d’exemples des figures 5, 6 et 7, le morceau de texte « Txt A’ » (200) est d’abord associé (3), par similitude ou par inclusion, à plusieurs parties du support texte, par exemple trois parties notées « Txt A1 » (302), « Txt A2 » (304), et « Txt A3 » (306). Il est également supposé, dans chacun de ces exemples, que l’orateur ne lit pas le contenu, aussi nommé support texte, « c » de manière linéaire. Ainsi, les parties « Txt A1 », « Txt A2 » et Txt A3 » sont comprises dans cet ordre dans l’oratoire de la personne, c’est-à-dire que l’orateur lit d’abord la partie « Txt A1 » puis « Txt A2 » et enfin « Txt A3 ». En revanche, l’ordre d’apparition des parties dans le contenu « c » est différent. Ainsi, les parties « Txt A1 », « Txt A3 » et Txt A2 » apparaissent dans cet ordre dans le contenu c, c’est-à-dire qu’un lecteur tel que l’orateur ou le lecteur automatique lisant de manière linéaire le contenu « c » lirait d’abord la partie « Txt A1 » puis « Txt A3 » et enfin « Txt A2 ». .,
Les parties « Txt A1 » (302), « Txt A2 » (304), et « Txt A3 » (306) sont distinctes et réparties de manière discontinue dans le support texte, c’est-à-dire qu’elles ne peuvent pas être fusionnées en une seule partie continue du support texte. Dans ce cas, pour assurer un relais notamment suite à une pause détectée (4) de l’orateur, un flux sonore (700) est fourni, ce flux sonore débutant par la partie « Txt B3 » du support texte comprenant le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, suite à la partie « Txt A3 », aussi nommée premier groupe de mots, associée au texte « Txt A » verbalisé par l’orateur. Selon cette définition, les parties « Txt A3 » (premier groupe de mots) et « Txt B3 » (deuxième groupe de mots) peuvent être contiguës. Alternativement, les parties « Txt A3 » et « Txt B3 » peuvent se chevaucher très légèrement, c’est-à-dire comporter un groupe de mots commun correspondant à un groupe de mots dont la verbalisation a été interrompue par la pause de l’orateur. Il peut être prévu que, par défaut, ce flux sonore se poursuive automatiquement jusqu’à la fin du support texte. Il peut aussi être prévu que le flux sonore soit automatiquement interrompu si une reprise de parole par l’orateur est détectée.
Cette association peut relever de deux autres cas de figure différents. Dans ces deux autres cas, le résultat de l’association ne permet pas d’identifier avec certitude la partie du support texte en cours de restitution orale par l’orateur mais permet seulement d’identifier plusieurs candidats que sont, dans cet exemple, les trois parties distinctes « Txt A1 » (302), « Txt A2 » (304), et « Txt A3 » (306) du support texte « c ». Dans ces deux cas, les paroles « Txt A’ » de l’orateur ont été énoncées dans l’ordre temporel suivant : « Txt A1 » suivi de « Txt A2 » et enfin « Txt A3 ». L’analyse (2) retrouve donc à partir du « Txt A’ » les 3 groupes de mots « Txt A1 », « Txt A2 », et « Txt A3 » faisant partie du discours de référence (du support texte « c »).
A noter, comme déjà indiqué plus haut :
- « Txt A2 » correspond au groupe de mots le plus éloigné en position dans le texte de référence ou support texte « c » mais ne correspond pas au premier groupe de mots prononcé en dernier par l’orateur;
- « Txt A3 » correspond au premier groupe de mots dit en dernier par l’orateur mais est positionné en amont dans le texte de référence ou support texte « c ». Cela peut correspondre au fait que l’orateur a oublié (sauté ) le groupe de mots « Txt A3 » et soit passé de « Txt A1 » à « Txt A2 » puis s’est rendu compte de son oubli et a enchaîné oralement par « Txt A3 » ce qui ne correspond pas à l’ordre du texte de référence « c ».
Dans un premier cas illustré sur la , le choix du prochain groupe de mots à synthétiser vocalement, aussi nommé deuxième groupe de mots, peut être le groupe de mots suivant en premier la partie la plus proche de la fin du support texte, ici « Txt A2 ». Ce choix permet d’éviter des répétitions quitte à ne pas restituer l’intégralité du support texte. Par exemple, l’orateur lit le contenu « c », des capteurs tels que des microphones fournissent un signal audio capté 100, une transformation temps réel de parole en texte, notamment une reconnaissance vocale, génère le texte 200 correspondant à l’audio capté 100. Une analyse du contenu « c » permet de déterminer que le texte « Txt A » énoncé par l’orateur correspond potentiellement à une ou plusieurs parties du contenu « c », en l’occurrence dans l’ordre oratoire aux parties 302 , 304 et 306, puisque l’orateur ne lit pas le contenu c dans l’ordre d’écriture mais d’abord les parties 302 suivie de 304 et revient sur la partie 306 (placée avant 304 dans le support texte c). Dans l’exemple de la , l’interruption de la lecture par l’orateur est estimée correspondre à la fin de la partie la plus éloigné dans le support texte c, en l’occurrence la partie 304 déclenchant le démarrage de la synthèse vocale avec le début de la partie B2. Eventuellement, à un instant donné lors de la synthèse vocale du contenu « c », l’orateur peut reprendre la lecture interrompant ainsi la synthèse vocale. Cela marque la fin de la partie B2.
Dans un deuxième cas illustré sur la , le choix du prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots, peut être le groupe de mots apparaissant en premier après la dernière partie 306 associée au support texte en cours de restitution orale par l’orateur, ici « Txt A3 ». Ce choix permet d’assurer une continuité du discours au risque néanmoins d’occasionner des répétitions. Par exemple, l’orateur lit le contenu « c », des capteurs tels que des microphones fournissent un signal audio capté 100, une transformation temps réel de parole en texte, notamment une reconnaissance vocale, génère le texte 200 correspondant à l’audio capté 100. Une analyse du contenu « c » permet de déterminer que le texte « Txt A’ » énoncé par l’orateur correspond potentiellement à une ou plusieurs parties du contenu « c », en l’occurrence dans l’ordre oratoire aux parties 302 , 304 et 306 car l’orateur ayant sauté le passage 306 avant de lire le passage 304, le lira après. Dans l’exemple de la , l’interruption de la lecture par l’orateur est estimée correspondre à la fin de la partie 306 déclenchant le démarrage de la synthèse vocale avec le début de la partie B3. Eventuellement, à un instant donné lors de la synthèse vocale du contenu « c », l’orateur peut reprendre la lecture interrompant ainsi la synthèse vocale. Cela marque la fin de la partie B3, qui peut alors éventuellement chevaucher ou comprendre la partie 304. 
Il est également possible de prendre en compte l’ensemble des parties de texte déjà exposées, au moyen d’un historique de paroles captées et/ou de contenus précédemment fournis par synthèse vocale, afin de choisir le prochain groupe de mots à énoncer, aussi nommé deuxième groupe de mots.
Trois exemples particuliers d’applications de la technique proposée sont à présent décrits à titre illustratif.
Dans un premier exemple, Pierre a prévu d’assurer avec son collègue Paul une présentation qu’ils ont préparée ensemble, en alternant leurs prises de paroles pour une meilleure dynamique mais aussi parce que chacun est un peu plus spécialiste de certains aspects que l’autre. Malheureusement au dernier moment Paul ne peut être présent et l’accompagner. Pierre fournit le support de la présentation sous la forme d’un fichier texte à un service de lecture automatique mettant en œuvre une réalisation de la technique de lecture automatique proposée. Pierre se sent ainsi à la fois rassuré et n’hésitera pas à effectuer des pauses à tout moment sachant que le relais sera assuré par le service.
Dans un deuxième exemple, Jeanne accompagne oralement, à l’aide d’un microphone, une présentation de sa dernière vidéo tutorielle dans une salle de réunion avec ses collègues. Au cours de la présentation, elle reçoit via son téléphone un message ou un appel appelant une réponse urgente. Elle ne peut pas interrompre la vidéo en cours, et il est évidemment préférable que le discours ne soit pas interrompu. Elle s’éloigne un instant dans la pièce à côté pour passer un bref appel téléphonique. Durant ce temps, selon une réalisation de la technique proposée, un service a automatiquement détecté que Jeanne ne parlait plus dans le microphone et a activé un module de synthèse vocale pour prendre le relais en diffusant la suite du discours prévu. Ainsi les auditeurs captivés par la vidéo ne se sont pratiquement pas rendu compte du remplacement, d’autant que Jeanne avait paramétré la voix de synthèse en clonage de la sienne. Dès qu’elle revient et reprend le microphone, la synthèse vocale s’interrompt automatiquement, et Jeanne poursuit ses explications.
Dans un troisième exemple, Rose fait une présentation malgré une angine, en ayant au préalable activé en arrière-plan un service mettant en œuvre une réalisation de la technique proposée. Pendant les 15 premières minutes tout se passe bien, puis sa gorge commence à l’irriter, elle n’arrive plus à s’exprimer aussi facilement qu’elle le voudrait. D’un clic, elle active la synthèse vocale le temps de récupérer. Elle se sent moins gênée et pourra reprendre dès qu’elle le souhaitera.

Claims (13)

  1. Procédé de lecture automatique d’un texte continu composé de plusieurs groupes de mots, le procédé comportant une fourniture (7) en temps réel d’un flux sonore correspondant au texte, le flux sonore démarrant groupe de mots choisi, aussi nommé deuxième groupe de motsà partir d’un deuxième groupe de mots choisi, aussi nommé deuxième groupe de mots (6), dans le texte, en fonction au moins d’un résultat d’une analyse (2) en temps réel de paroles captées (1), le résultat de l’analyse étant indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le premier groupe de mots et le deuxième groupe de mots étant des groupes de mots distincts.
  2. Procédé selon la revendication 1, la fourniture (7) du flux sonore étant déclenchée (5) si une interruption de parole de l’orateur est détectée (4).
  3. Procédé selon la revendication 2, la fourniture (7) du flux sonore étant interrompue si une reprise de parole de l’orateur est détectée.
  4. Procédé selon l’une des revendications 1 à 3, le groupe de mots choisi, aussi nommé deuxième groupe de mots (6) étant identique ou consécutif, dans le texte, au groupe de mots en cours de verbalisation par l’orateur, aussi nommé premier groupe de mots.
  5. Procédé selon l’une des revendications 1 à 3, dans lequel le résultat de l’analyse (2) en temps réel est indicatif de plusieurs groupes de mots successivement verbalisés par l’orateur, et le groupe de mots choisi, aussi nommé deuxième groupe de mots (6) est identique ou consécutif au groupe de mots le plus proche de la fin du texte parmi les groupes de mots ayant été verbalisés ou étant en cours de verbalisation par l’orateur.
  6. Procédé selon l’une des revendications 1 à 5, dans lequel le procédé est mis en œuvre au cours d’une session et le groupe de mots choisi, aussi nommé deuxième groupe de mots (6) est un groupe de mots ne figurant pas dans les paroles captées au cours de la session et/ou ne figurant pas dans un flux sonore fourni au cours de la session préalablement à la mise en œuvre du procédé.
  7. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 6 lorsque ce programme est exécuté par un processeur.
  8. Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon l’une des revendications 1 à 6 lorsque ce programme est exécuté par un processeur.
  9. Lecteur automatique comportant un fournisseur en temps réel de flux sonore,
    le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
    le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’une indication d’un premier groupe de mots en cours de verbalisation par un orateur, l’indication étant issue d’un analyseur en temps réel de paroles captées.
  10. Terminal utilisateur comportant un fournisseur en temps réel de flux sonore et une carte son,
    le fournisseur étant connecté à la carte son et apte à fournir un flux sonore à la carte son, le flux sonore correspondant à un texte continu composé de plusieurs groupes de mots,
    le flux sonore démarrant à partir d’un groupe de mots choisi, aussi nommé deuxième groupe de mots, dans le texte, en fonction au moins d’un résultat indicatif d’un premier groupe de mots en cours de verbalisation par un orateur, le résultat étant issu d’un analyseur en temps réel de paroles captées.
  11. Terminal utilisateur selon la revendication 10, dans lequel la carte son est connectée à un ou plusieurs haut-parleurs parmi les suivants : un haut-parleur du terminal utilisateur, un haut-parleur d’un périphérique connecté en réseau local au terminal utilisateur.
  12. Terminal utilisateur selon la revendication 10 ou 11, comprenant en outre un afficheur du texte.
  13. Terminal utilisateur selon la revendication 12, comprenant en outre un dispositif de traitement de texte en temps réel apte à surligner un groupe de mots du texte en fonction du résultat et à fournir le texte avec le groupe de mots surligné à l’afficheur.
PCT/EP2023/074378 2022-09-08 2023-09-06 Synthèse vocale intelligente WO2024052372A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2209017A FR3139657A1 (fr) 2022-09-08 2022-09-08 Synthèse vocale intelligente
FRFR2209017 2022-09-08

Publications (1)

Publication Number Publication Date
WO2024052372A1 true WO2024052372A1 (fr) 2024-03-14

Family

ID=84362631

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2023/074378 WO2024052372A1 (fr) 2022-09-08 2023-09-06 Synthèse vocale intelligente

Country Status (2)

Country Link
FR (1) FR3139657A1 (fr)
WO (1) WO2024052372A1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998055980A1 (fr) * 1997-06-02 1998-12-10 Carnegie Mellon University Module professeur de lecture et de prononciation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998055980A1 (fr) * 1997-06-02 1998-12-10 Carnegie Mellon University Module professeur de lecture et de prononciation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIGGINS E L AND RASKIND M H: "Speech recognition-based and automaticity programs to help students with severe reading and spelling problems", ANNALS OF DYSLEXIA, SPRINGER NEW YORK LLC, US, vol. 54, no. 2, 1 January 2004 (2004-01-01), pages 365 - 388, XP002693863, ISSN: 0736-9387, DOI: 10.1007/S11881-004-0017-9 *

Also Published As

Publication number Publication date
FR3139657A1 (fr) 2024-03-15

Similar Documents

Publication Publication Date Title
US20200411038A1 (en) Systems and methods for improving audio conferencing services
US11664029B2 (en) Semiautomated relay method and apparatus
US20210247883A1 (en) Digital Media Player Behavioral Parameter Modification
CN108028042B (zh) 口头通信的转录
US8818175B2 (en) Generation of composited video programming
US9710819B2 (en) Real-time transcription system utilizing divided audio chunks
US20200243114A1 (en) Audio Modification for Adjustable Playback Rate
RU2439716C2 (ru) Детектирование автоответчика путем распознавания речи
US9298704B2 (en) Language translation of visual and audio input
US20090306981A1 (en) Systems and methods for conversation enhancement
US20110217021A1 (en) Generation of Composited Video Programming
FR2913158A1 (fr) Procede d'insertion d'un contenu multimedia dans une communication informatisee par messagerie instantanee
FR3071689A1 (fr) Presentation de communications
WO2017191397A1 (fr) Procédé et dispositif de synchronisation de sous-titres
WO2024052372A1 (fr) Synthèse vocale intelligente
FR2850821A1 (fr) Systeme de sous-titrage dynamique de signaux de television et radiophoniques
US20230107968A1 (en) Systems and methods for replaying a content item
US20210266279A1 (en) Audio-First Health Conversations Platform
WO2022254134A1 (fr) Équipement et procede de restitution de contenu audio dans le cadre d'un service numerique interactif
WO2023166352A2 (fr) Conversations audio structurées avec des fragments de texte audio et d'intelligence artificielle asynchrones
NZ753695A (en) Semiautomated relay method and apparatus
FR3052007A1 (fr) Procede et dispositif de reception de contenu audiovisuel et programme d'ordinateur correspondant
JP2006178648A (ja) 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体
EP1550954A1 (fr) Transcription de traces
FR2851352A1 (fr) Systeme de conversion d'un signal audio continu en un signal audiot traduit et synthetise

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23762542

Country of ref document: EP

Kind code of ref document: A1