WO2023111480A1 - Dispositif de modification d'echelle temporelle d'un signal audio - Google Patents

Dispositif de modification d'echelle temporelle d'un signal audio Download PDF

Info

Publication number
WO2023111480A1
WO2023111480A1 PCT/FR2022/052394 FR2022052394W WO2023111480A1 WO 2023111480 A1 WO2023111480 A1 WO 2023111480A1 FR 2022052394 W FR2022052394 W FR 2022052394W WO 2023111480 A1 WO2023111480 A1 WO 2023111480A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
speech
instants
acoustic unit
scale factor
Prior art date
Application number
PCT/FR2022/052394
Other languages
English (en)
Inventor
Enguerrand Gentet
Original Assignee
Voclarity
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voclarity filed Critical Voclarity
Publication of WO2023111480A1 publication Critical patent/WO2023111480A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • the invention relates to the field of modifying the time scale of an audio signal.
  • an audio signal processing device comprising a memory arranged to receive an audio signal comprising speech, an automatic speech recognition engine arranged to receive an audio signal comprising speech in order to derive a plurality of temporally consecutive acoustic units, each acoustic unit being associated either with a word or with a silence, and comprising start time marker data and end time marker data, an adapter arranged to determine, for each acoustic unit, a local scale factor based on a global scale factor received as input and a set of rules using the data associated with the acoustic unit to adapt the global scale factor to the acoustic unit, which set of rules comprises distinct rules depending on whether the acoustic unit is associated with a word or a silence, and a modifier arranged to apply a method of temporal modification based on addition and overlapping of windows of the audio signal comprising speech by using the local scale factors determined by the adapter to determine a sequence of instants of the audio signal comprising
  • This device is particularly advantageous because it makes it possible to obtain much better results thanks to the use of an automatic speech recognition engine, which makes it possible to carry out a segmentation of the signal into phonatory units with their duration and linguistic information. which allow to choose the time scale factors in a finer way.
  • the invention may have one or more of the following characteristics:
  • the modifier comprises a cutter for determining instants of analysis in the audio signal comprising speech, and a selector arranged to associate each instant of analysis at a scale factor chosen as being the local scale factor associated with the acoustic unit whose start time marker data and end time marker data bracket said analysis instant, and define the sequence of instants of the audio signal comprising speech from instants of analysis drawn from the pairs thus formed according to the local scale factor associated with them,
  • the selector is arranged to run through the pairs associating instants of analysis and local scale factor in a recursive manner, and to determine for each instant of analysis if the latter is added following instants of the audio signal comprising speech according to the local scale factor with which it is associated as well as the number of previous analysis instants which have been added following instants of the audio signal comprising speech,
  • the modifier is arranged to implement a temporal modification process based on addition and overlapping of the PSOLA type
  • the modifier comprises a selector arranged to define a first instant of the sequence of instants of the audio signal comprising speech making it possible to define an audio signal temporally modified according to the global scale factor, and to define the other instants from the immediately preceding time in the sequence of times of the audio signal comprising speech and the local scale factor associated with the acoustic unit whose start time marker data and end time marker data bracket said immediately preceding instant of the sequence of instants of the audio signal comprising speech,
  • the modifier is arranged to implement a temporal modification process based on addition and overlapping of the WSOLA type
  • the adapter is arranged to apply a rule according to which, for an acoustic unit associated with a silence, ⁇ 1 is equal to 0 and ⁇ 2 is equal to the squared global scale factor, d 1 is greater than 300ms and d 2 is greater than 1s,
  • the automatic speech recognition engine is arranged, when an acoustic unit is associated with a word, to determine a phonatory unit associated with this acoustic unit, as well as one or more characteristics of this phonatory unit,
  • the adapter is arranged to implement a set of rules based on one or more criteria chosen from the group comprising the phonatory unit associated with the acoustic unit, one or more characteristics of the phonatory unit associated with the unit acoustic, the place of the phonatory unit associated with the acoustic unit in the word, the number of phonatory units in the word with which the acoustic unit is associated, the duration of the acoustic unit, and a determined confidence index by the automatic speech recognition engine for the acoustic unit,
  • the device further comprises a synthesizer arranged to receive the sequence of instants of the audio signal comprising speech making it possible to define an audio signal temporally modified according to the global scale factor and to produce the audio signal temporally modified according to the factor d global scale by adding to each instant of synthesis associated with a given instant of said series of instants of the audio signal comprising speech a portion of the audio signal comprising speech substantially centered on said given instant and having the width of the window associated with said given instant,
  • the modifier is arranged to associate a window width of fixed size
  • the modifier is arranged to associate a window width based on instants of analysis surrounding the instant of the sequence of instants of the audio signal comprising speech in the signal comprising speech, and
  • the synthesizer is arranged to apply a modulation function to the portion of the audio signal comprising speech.
  • the invention also relates to an audio signal processing method, comprising: a) receiving an audio signal comprising speech, b) using an automatic speech recognition engine (6) with the received audio signal comprising speech to derive therefrom a plurality of temporally consecutive acoustic units, each acoustic unit being associated either with a word or with a silence, and comprising start time marker data and end time marker data, c) determining, for each acoustic unit, a local scale factor as a function of a global scale factor received as input and d a set of rules using the data associated with the acoustic unit to adapt the global scale factor to the acoustic unit, which set of rules comprises distinct rules depending on whether the acoustic unit is associated with a word or a silence, and d) applying a method of temporal modification based on addition and covering of windows of the audio signal comprising speech by using the local scale factors determined in operation c) to determine a sequence of instants of the audio signal comprising speech, and associating
  • the invention also relates to a computer program comprising instructions for carrying out the method according to the invention, a data storage medium on which such a computer program is recorded and a computer system comprising a processor coupled to a memory, the memory having recorded such a computer program.
  • FIG. 1 is a generic diagram of a device according to the invention
  • FIG. 1 shows an example of implementation of a first embodiment of the device of Figure 1
  • - figure 3 represents an example of a calculation rule for a local scale factor for an acoustic unit associated with a word
  • - Figure 4 shows an example of a rule for calculating a local scale factor for an acoustic unit associated with a silence
  • FIG. 5 shows an example of implementation of a second embodiment of the device of Figure 1.
  • FIG. 1 represents a generic diagram of a device 2 according to the invention.
  • the device 2 comprises a memory 4, an automatic speech recognition engine 6, an adapter 8, a modifier 10 and a synthesizer 12.
  • the synthesizer 12 can be separated from the rest of the device 2 and n be useful only for the reproduction of the modified audio signal.
  • the memory 4 can be any type of data storage capable of receiving digital data: hard disk, hard disk with flash memory, flash memory in any form, random access memory, magnetic disk, storage distributed locally or in the cloud, etc.
  • the data calculated by the device can be stored on any type of memory similar to memory 4, or on the latter. This data can be erased after the device has performed its tasks or retained.
  • Memory 4 receives various types of data: audio signal data including speech, acoustic unit data, modified audio signal data, global scale factor data, local scale factor data and add-and-overlap based time modification process data.
  • the audio signal data comprising speech is data which contains the signal which the device 2 aims to modify in order to accelerate or decelerate it according to an overall scale factor which is received as an input.
  • the global scale factor can be an integer or relative number, or be designated by a letter or other expression which is then translated into an integer or relative number.
  • the entry can be made by means of any suitable interface, be chosen from a list of predetermined values, by means of a sliding button (“slider” in English), etc.
  • the invention is based on a fine adaptation of the global scale factor as a function of the analysis which is made of the audio signal comprising speech by the automatic speech recognition engine 6.
  • This adaptation translates into local scale factors, which are used to perform the time scale modification of the audio signal including speech locally.
  • the adaptation of the global scale factor into local scale factors is carried out by applying a set of rules. These rules are based on the acoustic unit data detected by the automatic speech recognition engine.
  • Acoustic unit data contains in its simplest version at least the following elements: start time marker of the acoustic unit in the audio signal comprising speech, end time marker of the acoustic unit in the audio signal including speech, type of acoustic unit (silence or phonatory unit belonging to a word).
  • This data may also include one or more of the following elements: the word associated with the acoustic unit if applicable, the phonatory unit associated with the acoustic unit, one or more characteristics of the phonatory unit associated with the acoustic unit , the place of the phonatory unit associated with the acoustic unit in the associated word if applicable, the duration of the acoustic unit, a confidence index determined by the automatic speech recognition engine 6 for the acoustic unit .
  • the set of rules comprises distinct rules depending on whether the acoustic unit is of the silence type or of the phonatory unit type belonging to a word.
  • the invention is based on the combination of refining the global scale factor into local scale factors suitable for each acoustic unit with processing by a temporal modification method based on addition and recovery (“Overlap and add” or “OLA”).
  • PSOLA type processes described for example in the article by Moulines, Eric, and Francis Charpentier. “Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones.” Speech Communication , vol. 9, no. 5, 1990, pp. 453-467) or WSOLA (described for example in the article by Driedger J. and Müller M. “A Review of Time-Scale Modification of Music Signals” Applied Sciences.
  • the modified audio signal is obtained by adding and overlapping these windows by the synthesizer 12. These data bear the reference 18 in FIG. 1. It therefore appears that the modified audio signal data are also well defined by the data which are the result end of this synthesis only subsequently of instants of the audio signal comprising speech together with parameters defining the manner of extracting the windows and reorganizing them.
  • the automatic speech recognition engine 6, an adapter 8, the modifier 10 and the synthesizer 12 directly or indirectly access the memory 4. They can be implemented in the form of appropriate computer code executed on one or more processors. By processors, it must be understood any processor suitable for the calculations described below.
  • Such a processor can be produced in any known manner, in the form of a microprocessor for a personal computer, a dedicated chip of the FPGA or SoC type, a computing resource on a grid or in the cloud, a cluster of graphics processors (GPUs), a microcontroller, or any other form capable of providing the computing power necessary for the implementation described below.
  • a processor can also be made in the form of specialized electronic circuits such as an ASIC.
  • a combination of processor and electronic circuits can also be envisaged.
  • the description of the sequence of operations executed during the operation of the device 2 to generate the sequence of instants of the audio signal comprising speech and/or the modified audio signal defines a method implemented by computer according to the invention.
  • FIG. 2 represents an example of implementation of a function processing the audio signal comprising speech in the device of FIG. 1.
  • the modifier 10 implements a method of the PSOLA type.
  • the function begins with the reception of the audio signal comprising speech S(t).
  • This signal is supplied to three branches simultaneously, although the third only works when the first two have converged together.
  • the signal S(t) is the subject of an analysis by the automatic speech recognition engine, with the execution of an ASR() function in an operation 210 by the automatic speech recognition 6.
  • the ASR() function is based on an automatic speech recognition library called Vosk modified to make it possible to retrieve, in addition to words, the phonatory elements that compose them. Information about this library can be found at https://web.archive.org/web/20211124115527/https://alphacephei.com/vosk.
  • the ASR() function is arranged to retrieve all of the data described with reference to the acoustic unit data. Alternatively, it could be limited to the minimum version described above.
  • the output data from the ASR() function could be stored in Memory 4 as metadata that can be reused later. Indeed, this function represents the most significant part of the computational cost of implementing the invention, and its results do not depend on the global scale factor. It could therefore be interesting to recover them during a new processing of the same signal.
  • the adapter 8 executes in an operation 220 a function Alphadapt() which receives as arguments on the one hand the global scale factor, and on the other hand the acoustic unit data of operation 210.
  • the AlphadaptQ function executes the set of rules in order to adapt the global scale factor (hereafter cio) to each of the acoustic elements.
  • a scale factor is a value between 0 and + ⁇ which characterizes the temporal modification that one wishes to apply to an audio signal, or to a portion of it. It corresponds to the inverse of the playback speed, so listening twice as fast corresponds to a scale factor of 0.5, and vice versa.
  • d(p) the duration of an acoustic unit is called d(p) and is calculated from the difference between the start time marker and the end time marker of the acoustic unit p.
  • the rules are characterized by an input-output function which associates a target duration D(p) with each initial duration d(p).
  • FIG. 3 represents an example of a local scale factor curve obtained with the function D(p) above as a function of the duration d(p).
  • the acoustic unit is a phonatory unit associated with a word
  • the phonatory units of greater duration are then accelerated in proportion to the latter up to d 2 , from which the targeted duration becomes constant, equal to ⁇ 2 d . regardless of the initial duration.
  • the acoustic units whose phoneme duration is close to 100 ms are then accelerated with a scale factor close to the global scale factor. Beyond that, the longer phonatory units are accelerated in proportion to their length to be brought back to the duration ⁇ 2 d 2 . Moreover, the characteristic durations d 1 and d 2 can be increased by 25% if the phonatory unit is at the beginning or end of the word.
  • the acoustic unit When the acoustic unit is a silence, it is desirable to keep only the pauses which give rhythm to the speech and leave time to breathe.
  • FIG. 4 represents an example of a curve of local scale factor obtained with the function D(p) above as a function of the duration d(p) with these specific values.
  • the Applicant has identified that it is possible to use a continuous and differentiable function D(p) in order to ensure a smooth evolution of the targeted durations as a function of the duration d(p).
  • the input-output function can be adapted according to the following formula: and For example.
  • the input-output function can be adapted according to the following formula:
  • the Alphadapt() function can be designed to treat this acoustic unit as a phonatory unit.
  • the AlphadaptQ function can put several other rules, cumulative or alternative, to calculate the local scale factor.
  • different rules can be provided for each phonatory unit (for example to treat /a/ and /i/ differently), for each characteristic of the phonatory unit (semiphone/phone/diphone/triphone, point of articulation , opening, rounded, etc.), depending on the place of the phonatory unit in the word or even the place of the word in the sentence.
  • the signal S(t) is processed by the modifier 8 in an operation 230.
  • the modifier 8 implements certain parts of a PSOLA type method. In general, this method aims to preserve the fundamental frequency of the signal.
  • this method aims to preserve the fundamental frequency of the signal.
  • an analysis of the original voice waveform is carried out in order to produce a non-parametric intermediate representation of the signal, (ii) modifications are made to this intermediate representation, and finally (iii ) the synthesis of the modified signal from the modified intermediate representation.
  • the modifier 10 comprises a cutter to perform operation (i), and a selector to perform operation (ii), while operation (iii) is performed by synthesizer 12.
  • the PMA() function performs operation (i) and determines analysis instants which will be used to generate the sequence of instants of the audio signal comprising speech.
  • the fundamental frequency can be estimated every 5 ms in order to determine the instants of analysis. Once these have been determined, they can be reprocessed in order to place them at the instants of glottis closure (GCI) or glottis opening (GOI).
  • GCI glottis closure
  • GOI glottis opening
  • a function ModifQ is executed by the selector of the modifier 10 in an operation 240.
  • the function Modif() receives as arguments the instants of analysis of the operation 230 as well as the local scale factors of the operation 220.
  • the selector then acts in the manner of a classic PSOLA process, except that, for each instant t considered, the scale factor used ⁇ z t (t) is the local scale factor ⁇ z(p) associated to the p- th acoustic unit whose start and end time markers frame the instant considered in the audio signal containing the speech.
  • M instants of synthesis and the instants of the associated conserved windows can be calculated by recursion using non-integer indexes j(m).
  • the selector introduces into the sequence of instants of the audio signal comprising speech only one instant of analysis out of two, etc. It goes without saying that numerous methods could be envisaged for traversing the instants of analysis and filling the sequence of instants of the audio signal comprising speech while respecting the succession of local scale factors.
  • the local scale factors of the operation 220 can be readjusted according to the formula c Then the operation 240 is repeated. Indeed, the local scale factors not being uniform, the global acceleration introduced by the processing will be systematically slightly different from the global scale factor.
  • each window is centered in the audio signal comprising speech around the instant of analysis which has been stored in the sequence of instants of the signal audio including speech, and has a size t ⁇ (n) — t ⁇ (n — 1), or P ⁇ (n — 1), on the left and t ⁇ (n + 1) — t ⁇ (n), or P a (n), on the right where t ⁇ (n) is the time in question, t ⁇ (n — 1) the immediately preceding analysis time at the output of operation 230, and t ⁇ (n + 1) the instant of analysis immediately following at the output of operation 230.
  • the two half-windows may not have exactly the same size.
  • the size of the windows can be fixed, for example at 2P ⁇ (n).
  • the third branch can be executed when the second branch is finished, with a Synth() function implemented by the synthesizer 12 in an operation 250.
  • this operation consists in taking windows from the audio signal comprising speech S(t), each around an instant of the sequence of instants of the audio signal comprising speech, and in reorganizing these windows to form the modified audio signal 18.
  • the windows can be modulated by a windowing function of the Hanning, Hamming or even Blackman (or other) type in order to smooth the ends.
  • FIG. 5 represents an example of implementation of a second embodiment of the device of FIG. 1.
  • the method used by the modifier 10 is of the WSOLA type, which induces some modifications.
  • the WSOLA process is less sophisticated than the PSOLA process, but has the advantage of being even faster to implement.
  • a second pass consists in refining each instant t c (m + 1) in order to maximize the similarity between the window that it defines and the window defined by the immediately preceding instant t c (m). Without this refinement, it is a less efficient classic OLA method.
  • operations 500, 510, 520 and 550 are identical to operations 200, 210, 220 and 250.
  • Operation 530 is no longer relevant due to the difference between WSOLA and PSOLA, and only the operation 540 described in the previous paragraph is different.
  • the function 540 uses the local scale factors instead of the global scale factor to define each new instant of the sequence of instants of the audio signal comprising speech. For the rest, it operates in accordance with the known WSOLA process.
  • this second embodiment is particularly advantageous because it requires less computing power than the first embodiment, and the use of local scale factors here again makes it possible to significantly improve the quality and the intelligibility of the audio signal modified through the use of the automatic speech recognition engine to adapt the scale factor to the needs of the speech.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Dispositif de traitement de signal audio comprend une mémoire (4) pour recevoir un signal audio comprenant de la parole, un moteur de reconnaissance automatique de la parole (6) pour en tirer des unités acoustiques associées à un mot ou un silence, et comprenant des données de marqueur de temps, un adaptateur (8) pour déterminer, pour chaque unité acoustique, un facteur d'échelle local en fonction d'un facteur d'échelle global et d'un jeu de règles utilisant les données associées avec des règles distinctes selon que l'unité acoustique est associée à un mot ou un silence pour adapter le facteur d'échelle global, et un modificateur (10) pour appliquer un procédé de modification par addition et recouvrement de fenêtres en utilisant les facteurs d'échelle locaux pour déterminer une suite d'instants du signal audio, et associer à chacun une largeur de fenêtre et un instant de synthèse pour générer un signal audio modifié.

Description

Description
Titre : Dispositif de modification d'échelle temporelle d'un signal audio
L'invention concerne le domaine de la modification d'échelle temporelle d'un signal audio.
La consommation de médias audio a connu une croissance exponentielle avec les moyens modernes de communication. Plus particulièrement, la consultation des contenus liés à la parole, via les podcasts et vidéos d'interview ou de discours accessibles sur les plateformes de streaming ou encore les livres audio a explosé.
Pour diverses raisons, des utilisateurs souhaitent écouter ces contenus à une vitesse distincte de celle de l'enregistrement qui leur est offert. Souvent, il s'agit d'accélérer le contenu afin de gagner du temps, mais dans certains cas il s'agit au contraire de ralentir celui-ci.
L'article de Driedger J. et Müller M. “A Review of Time-Scale Modification of Music Signals” Applied Sciences. 2016 ; 6(2) :57. https://doi.org/10.3390/app6020057 décrit un panorama des techniques de modification d'échelle temporelle d'un signal audio musical.
Ce document passe en revue les grandes familles de méthodes de traitement des signaux audio que sont les procédés de modification temporelle à base d'addition et recouvrement (« Overlap and add » ou « OLA » en anglais et leurs variantes), le vocodeur de phase, ou la séparation harmonique-percussive.
Ces techniques représentent également une partie de l'état de l'art des techniques de modification d'échelle temporelle d'un signal audio comprenant de la parole. D'autres techniques, comme la demande de brevet CA 2 257 298 décrivent la modification d'un signal audio comprenant de la parole par une analyse spectrale en vue de détecter des points d'emphase. Aucune des solutions de l'état de l'art ne donne satisfaction pour l'accélération ou le ralentissent des signaux audio comprenant de la parole.
L'invention vient améliorer la situation. À cet effet, elle propose un dispositif de traitement de signal audio, comprenant une mémoire agencée pour recevoir un signal audio comprenant de la parole, un moteur de reconnaissance automatique de la parole agencé pour recevoir un signal audio comprenant de la parole pour en tirer une pluralité d'unité acoustiques consécutives temporellement, chaque unité acoustique étant associée soit à un mot, soit à un silence, et comprenant des données de marqueur de temps de départ et des données de marqueur de temps de fin, un adaptateur agencé pour déterminer, pour chaque unité acoustique, un facteur d'échelle local en fonction d'un facteur d'échelle global reçu en entrée et d'un jeu de règles utilisant les données associées à l'unité acoustique pour adapter le facteur d'échelle global à l'unité acoustique, lequel jeu de règles comprenant des règles distinctes selon que l'unité acoustique est associée à un mot ou à un silence, et un modificateur agencé pour appliquer un procédé de modification temporelle à base d'addition et recouvrement de fenêtres du signal audio comprenant de la parole en utilisant les facteurs d'échelle locaux déterminés par l'adaptateur pour déterminer une suite d'instants du signal audio comprenant de la parole, et associer à chacun des instants de ladite suite d'instants du signal audio comprenant de la parole une largeur de fenêtre et un instant de synthèse permettant de générer un signal audio modifié temporellement selon le facteur d'échelle global.
Ce dispositif est particulièrement avantageux car il permet, d'obtenir de biens meilleurs résultats grâce à l'utilisation d'un moteur de reconnaissance automatique de la parole, qui permet de réaliser une segmentation du signal en unités phonatoires avec leur durée et des informations linguistiques qui permettent de choisir les facteurs d'échelle temporelle de façon plus fine.
Selon divers modes de réalisation, l'invention peut présenter une ou plusieurs des caractéristiques suivantes :
- le modificateur comprend un découpeur pour déterminer des instants d'analyse dans le signal audio comprenant de la parole, et un sélectionneur agencé pour associer chaque instant d'analyse à un facteur d'échelle choisi comme étant le facteur d'échelle local associé à l'unité acoustique dont les données de marqueur de temps de départ et les données de marqueur de temps de fin encadrent ledit instant d'analyse, et définir la suite d'instants du signal audio comprenant de la parole à partir d'instants d'analyse tirés des couples ainsi formés en fonction du facteur d'échelle local qui leur est associé,
- le sélectionneur est agencé pour parcourir les couples associant instants d'analyse et facteur d'échelle locale de manière récursive, et pour déterminer pour chaque instant d'analyse si celui-ci est ajouté à la suite d'instants du signal audio comprenant de la parole en fonction du facteur d'échelle local auquel il est associé ainsi que du nombre d'instants d'analyse précédents qui ont été ajoutés à la suite d'instants du signal audio comprenant de la parole,
- le modificateur est agencé pour mettre en œuvre un procédé de modification temporelle à base d'addition et recouvrement du type PSOLA,
- le modificateur comprend un sélectionneur agencé pour définir un premier instant de la suite d'instants du signal audio comprenant de la parole permettant de définir un signal audio modifié temporellement selon le facteur d'échelle global, et pour définir les autres instants à partir de l'instant immédiatement précédent dans la suite d'instants du signal audio comprenant de la parole et du facteur d'échelle local associé à l'unité acoustique dont les données de marqueur de temps de départ et les données de marqueur de temps de fin encadrent ledit instant immédiatement précédent de la suite d'instants du signal audio comprenant de la parole,
- le modificateur est agencé pour mettre en œuvre un procédé de modification temporelle à base d'addition et recouvrement du type WSOLA,
- l'adaptateur est agencé pour appliquer des règles selon lesquelles le facteur d'échelle local est calculé selon la formule où p désigne l'unité acoustique concernée,
Figure imgf000005_0001
d(p) est la durée de l'unité acoustique concernée, et D(p) = étant des facteurs d'échelle
Figure imgf000005_0002
choisis en fonction du facteur d'échelle global et du fait que l'unité acoustique concernée est associée à un mot ou à un silence, et d1 et d2 sont des durées choisies en fonction du fait que l'unité acoustique concernée est associée à un mot ou à un silence, - l'adaptateur est agencé pour appliquer une règle selon laquelle, pour une unité acoustique associée à un mot, α1 vaut 1 et α2 vaut le facteur d'échelle globale, d1 est supérieure à 25ms et d2 est supérieure à 100ms,
- l'adaptateur est agencé pour appliquer une règle selon laquelle, pour une unité acoustique associée à un silence, α1 vaut 0 et α2 vaut le facteur d'échelle globale élevé au carré, d1 est supérieur à 300ms et d2 est supérieur à 1s,
- le moteur de reconnaissance automatique de la parole est agencé, lorsqu'une unité acoustique est associée à un mot, pour déterminer une unité phonatoire associée à cette unité acoustique, ainsi qu'une ou plusieurs caractéristiques de cette unité phonatoire,
- l'adaptateur est agencé pour mettre en œuvre un jeu de règles basées sur un ou plusieurs critères choisis dans le groupe comprenant l'unité phonatoire associée à l'unité acoustique, une ou plusieurs caractéristiques de l'unité phonatoire associée à l'unité acoustique, la place de l'unité phonatoire associée à l'unité acoustique dans le mot, le nombre d'unités phonatoires dans le mot auquel est associée l'unité acoustique, la durée de l'unité acoustique, et un indice de confiance déterminé par le moteur de reconnaissance automatique de la parole pour l'unité acoustique,
- le dispositif comprend en outre un synthétiseur agencé pour recevoir la suite d'instants du signal audio comprenant de la parole permettant de définir un signal audio modifié temporellement selon le facteur d'échelle global et pour produire le signal audio modifié temporellement selon le facteur d'échelle global en ajoutant à chaque instant de synthèse associé à un instant donné de ladite suite d'instants du signal audio comprenant de la parole une portion du signal audio comprenant de la parole sensiblement centrée sur ledit instant donné et présentant la largeur de la fenêtre associée audit instant donné,
- le modificateur est agencé pour associer une largeur de fenêtre de taille fixe,
- le modificateur est agencé pour associer une largeur de fenêtre basée sur des instants d'analyse entourant l'instant de la suite d'instants du signal audio comprenant de la parole dans le signal comprenant de la parole, et
- le synthétiseur est agencé pour appliquer une fonction de modulation à la portion du signal audio comprenant de la parole.
L'invention concerne également un procédé de traitement de signal audio, comprenant : a) recevoir un signal audio comprenant de la parole, b) utiliser un moteur de reconnaissance automatique de la parole (6) avec le signal audio comprenant de la parole reçu pour en tirer une pluralité d'unité acoustiques consécutives temporellement, chaque unité acoustique étant associée soit à un mot, soit à un silence, et comprenant des données de marqueur de temps de départ et des données de marqueur de temps de fin, c) déterminer, pour chaque unité acoustique, un facteur d'échelle local en fonction d'un facteur d'échelle global reçu en entrée et d'un jeu de règles utilisant les données associées à l'unité acoustique pour adapter le facteur d'échelle global à l'unité acoustique, lequel jeu de règles comprenant des règles distinctes selon que l'unité acoustique est associée à un mot ou à un silence, et d) appliquer un procédé de modification temporelle à base d'addition et recouvrement de fenêtres du signal audio comprenant de la parole en utilisant les facteurs d'échelle locaux déterminés à l'opération c) pour déterminer une suite d'instants du signal audio comprenant de la parole, et associer à chacun des instants de ladite suite d'instants du signal audio comprenant de la parole une largeur de fenêtre et un instant de synthèse permettant de générer un signal audio modifié temporellement selon le facteur d'échelle global.
L'invention concerne également un programme informatique comprenant des instructions pour exécuter le procédé selon l'invention, un support de stockage de données sur lequel est enregistré un tel programme informatique et un système informatique comprenant un processeur couplé à une mémoire, la mémoire ayant enregistré un tel programme informatique.
D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description qui suit, tirée d'exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels :
- la figure 1 est un schéma générique d'un dispositif selon l'invention,
- la figure 2 représente un exemple de mise en œuvre d'un premier mode de réalisation du dispositif de la figure 1,
- la figure 3 représente un exemple de règle de calcul d'un facteur d'échelle local pour une unité acoustique associée à un mot, - la figure 4 représente un exemple de règle de calcul d'un facteur d'échelle local pour une unité acoustique associée à un silence, et
- la figure 5 représente un exemple de mise en œuvre d'un second mode de réalisation du dispositif de la figure 1.
Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.
La figure 1 représente un schéma générique d'un dispositif 2 selon l'invention.
Le dispositif 2 comprend une mémoire 4, un moteur de reconnaissance automatique de la parole 6, un adaptateur 8, un modificateur 10 et un synthétiseur 12. Comme on le verra plus bas, le synthétiseur 12 peut être séparé du reste du dispositif 2 et n'être utile que pour la reproduction du signal audio modifié.
La mémoire 4 peut être tout type de stockage de données propre à recevoir des données numériques : disque dur, disque dur à mémoire flash, mémoire flash sous toute forme, mémoire vive, disque magnétique, stockage distribué localement ou dans le cloud, etc. Les données calculées par le dispositif peuvent être stockées sur tout type de mémoire similaire à la mémoire 4, ou sur celle-ci. Ces données peuvent être effacées après que le dispositif a effectué ses tâches ou conservées.
La mémoire 4 reçoit divers types de données : des données de signal audio comprenant de la parole, des données d'unité acoustique, des données de signal audio modifié, des données de facteur d'échelle global, des données de facteur d'échelle local et des données de procédé de modification temporelle à base d'addition et recouvrement.
Les données de signal audio comprenant de la parole sont des données qui contiennent le signal que le dispositif 2 vise à modifier pour les accélérer ou les décélérer selon un facteur d'échelle global qui est reçu en tant qu'entrée. Ces données portent la référence 14 sur la figure 1. Le facteur d'échelle global peut être un nombre entier ou relatif, ou être désigné par une lettre ou autre expression qui est ensuite retranscrite en un nombre entier ou relatif. L'entrée peut être réalisée au moyen de toute interface adaptée, être choisie depuis une liste de valeurs prédéterminées, au moyen d'un bouton glissant (« slider » en anglais), etc.
Comme on le verra plus bas, l'invention repose sur une adaptation fine du facteur d'échelle global en fonction de l'analyse qui est faite du signal audio comprenant de la parole par le moteur de reconnaissance automatique de la parole 6. Cette adaptation se traduit en des facteurs d'échelle locaux, qui sont utilisés pour réaliser la modification d'échelle temporelle du signal audio comprenant de la parole de manière locale.
L'adaptation du facteur d'échelle globale en facteurs d'échelle locaux est réalisée par l'application d'un jeu de règles. Ces règles s'appuient sur les données d'unité acoustique détectée par le moteur de reconnaissance automatique de la parole.
Les données d'unité acoustique contiennent dans leur version la plus simple au moins les éléments suivants : marqueur de temps de départ de l'unité acoustique dans le signal audio comprenant de la parole, marqueur de temps de fin de l'unité acoustique dans le signal audio comprenant de la parole, type d'unité acoustique (silence ou unité phonatoire appartenant à un mot).
Ces données peuvent également comprendre un ou plusieurs des éléments suivants : le mot associé à l'unité acoustique le cas échéant, l'unité phonatoire associée à l'unité acoustique, une ou plusieurs caractéristiques de l'unité phonatoire associée à l'unité acoustique, la place de l'unité phonatoire associée à l'unité acoustique dans le mot associé le cas échéant, la durée de l'unité acoustique, un indice de confiance déterminé par le moteur de reconnaissance automatique de la parole 6 pour l'unité acoustique.
Dans l'exemple décrit ici, le jeu de règles comprend des règles distinctes selon que l'unité acoustique est du type silence ou du type unité phonatoire appartement à un mot. Bien que des règles spécifiques soient présentées ici et ont été identifiées par la Demanderesse comme particulièrement avantageuses pour produire un signal audio modifié de meilleure qualité que les méthodes de l'art antérieur, d'autres règles pourront être envisagées et/ou ajoutées.
Comme on le verra plus bas, l'invention repose sur la combinaison de l'affinage du facteur d'échelle global en facteurs d'échelle locaux adaptés pour chaque unité acoustique avec un traitement par un procédé de modification temporelle à base d'addition et recouvrement (« Overlap and add » ou « OLA » en anglais). Les recherches de la Demanderesse ont établi que les procédés de type PSOLA (décrits par exemple dans l'article de Moulines, Eric, and Francis Charpentier. “Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones.” Speech Communication, vol. 9, no. 5, 1990, pp. 453-467) ou WSOLA (décrits par exemple dans l'article de Driedger J. et Müller M. “A Review of Time-Scale Modification of Music Signals” Applied Sciences. 2016 ; 6(2) :57. https://doi.org/10.3390/app6020057) sont particulièrement adaptés et donnent de très bons résultats avec un bon compromis en termes de coûts de calcul. Toutes les données liées au paramétrage du ou des procédés à base d'addition et recouvrement ainsi que les données générées au cours de leur exécution forment les données de procédé à base d'addition et recouvrement.
Le résultat du traitement du signal audio comprenant de la parole avec les facteurs d'échelle locaux et le procédé à base d'addition et recouvrement est une suite de fenêtres temporelles associées à des instants du signal audio comprenant de la parole et reproduites à des instants de synthèse choisis. Ces données portent la référence 16 sur la figure 1.
Le signal audio modifié est obtenu par addition et recouvrement de ces fenêtres par le synthétiseur 12. Ces données portent la référence 18 sur la figure 1. Il apparaît donc que les données de signal audio modifié sont aussi bien définies par les données qui sont le résultat final de cette synthèse que par la suite d'instants du signal audio comprenant de la parole ensemble avec des paramètres définissant la manière d'extraire les fenêtres et de les réorganiser. Dans l'exemple décrit ici, le moteur de reconnaissance automatique de la parole 6, un adaptateur 8, le modificateur 10 et le synthétiseur 12 accèdent directement ou indirectement à la mémoire 4. Ils peuvent être réalisés sous la forme d'un code informatique approprié exécuté sur un ou plusieurs processeurs. Par processeurs, il doit être compris tout processeur adapté aux calculs décrits plus bas. Un tel processeur peut être réalisé de toute manière connue, sous la forme d'un microprocesseur pour ordinateur personnel, d'une puce dédiée de type FPGA ou SoC, d'une ressource de calcul sur une grille ou dans le cloud, d'une grappe de processeurs graphiques (GPUs), d'un microcontrôleur, ou de toute autre forme propre à fournir la puissance de calcul nécessaire à la réalisation décrite plus bas. Un ou plusieurs de ces éléments peuvent également être réalisés sous la forme de circuits électroniques spécialisés tel un ASIC. Une combinaison de processeur et de circuits électroniques peut également être envisagée.
D'une manière générale, la description de la suite d'opérations exécutées lors du fonctionnement du dispositif 2 pour générer la suite d'instants du signal audio comprenant de la parole et/ou le signal audio modifié définit un procédé mis en œuvre par ordinateur selon l'invention.
La figure 2 représente un exemple de mise en œuvre d'une fonction traitant le signal audio comprenant de la parole dans le dispositif de la figure 1. Dans ce premier mode de réalisation, le modificateur 10 met en œuvre un procédé de type PSOLA.
Dans une opération 200, la fonction commence par la réception du signal audio comprenant de la parole S(t).
Ce signal est fourni à trois branches simultanément, bien que la troisième ne fonctionne que lorsque les deux premières ont convergé ensemble.
Ainsi, dans une première branche, le signal S(t) fait l'objet d'une analyse par le moteur de reconnaissance automatique de la parole, avec l'exécution d'une fonction ASR() dans une opération 210 par le moteur de reconnaissance automatique de la parole 6. Dans l'exemple décrit ici, la fonction ASR() est basée sur une librairie de reconnaissance automatique de la parole appelée Vosk modifiée pour permettre de récupérer, en plus des mots, les éléments phonatoires qui les composent. Des informations concernant cette librairie peuvent être trouvées à l'adresse https://web.archive.org/web/20211124115527/https://alphacephei.com/vosk.
Dans l'exemple décrit ici, la fonction ASR() est agencée pour récupérer l'ensemble des données décrites en référence aux données d'unité acoustique. En variante, elle pourrait se limiter à la version minimale décrit plus haut. Les données en sortie de la fonction ASR() pourraient être stockées dans la mémoire 4 en tant que métadonnées réutilisables plus tard. En effet, cette fonction représente la partie la plus significative du coût de calcul de mise en œuvre de l'invention, et ses résultats ne dépendent pas du facteur d'échelle global. Il pourrait donc être intéressant de les récupérer lors d'un nouveau traitement du même signal.
Une fois les données d'unité acoustique déterminées, l'adaptateur 8 exécute dans une opération 220 une fonction Alphadapt() qui reçoit comme arguments d'une part le facteur d'échelle global, et d'autre part les données d'unité acoustique de l'opération 210.
La fonction AlphadaptQ exécute le jeu de règles afin d'adapter le facteur d'échelle global (ci-après cio) à chacun des éléments acoustiques. Pour rappel, un facteur d'échelle est une valeur entre 0 et +œ qui caractérise la modification temporelle que l'on souhaite appliquer à un signal audio, ou à une portion de celui-ci. Il correspond à l'inverse de la vitesse de lecture, donc une écoute deux fois plus rapide correspond à un facteur d'échelle de 0,5, et vice- versa.
Dans l'exemple décrit ici, deux règles distinctes sont appliquées, selon que l'unité acoustique considérée est un silence ou une unité phonatoire. Dans ce qui suit, la durée d'une unité acoustique est appelée d(p) et est calculée à partir de la différence entre le marqueur de temps de départ et le marqueur de temps de fin de l'unité acoustique p. Les règles sont caractérisées par une fonction d'entrée-sortie qui à chaque durée initiale d(p) associe une durée visée D(p). Le facteur d'échelle local de l'unité acoustique est alors calculé par le rapport entre ces deux distances α(ρ) = (p)/d(p).
Ces fonctions d'entrée- sortie permettent de contrôler l'accélération des unités acoustiques en fonctions de leur durée. Elles peuvent être définies par morceaux, par exemple sur trois domaines de définition :
Figure imgf000013_0001
La figure 3 représente un exemple de courbe de facteur d'échelle local obtenu avec la fonction D(p) ci-dessus en fonction de la durée d(p).
Lorsque l'unité acoustique est une unité phonatoire associée à un mot, il est souhaitable de conserver les phonèmes déjà très courts. En fixant d1 = k(p) * 25ms et α1 = 1, avec k(p) le nombre de phonèmes dans l'unité phonatoire (par exemple 1 pour un phonème ou 2 pour un di-phone), la durée des phonèmes de durée inférieure à 25ms est conservée. Les unités phonatoires de durée supérieure sont alors accélérées proportionnellement à cette dernière jusqu'à d2, à partir de laquelle la durée visée devient constante, égale à α2 d . peu importe la durée initiale. En fixant d = k(p) * 100ms et α2 = α0, les unités acoustiques dont la durée des phonèmes avoisine les 100ms sont alors accélérées avec un facteur d'échelle proche du facteur d'échelle global. Au-delà, les unités phonatoires plus longues sont accélérées à la mesure de leur longueur pour être ramenées à la durée α2 d2. De plus, les durées caractéristiques d1 et d2 peuvent être augmentées de 25% si l'unité phonatoire est en début ou fin de mot.
Les recherches de la Demanderesse ont montré que cette représentation permet de modifier de manière extrêmement efficace les unités phonatoires, en préservant les unités phonatoires les plus courtes et en accélérant grandement les unités phonatoires les plus longues. Dans le cas d'une accélération, cette approche est particulièrement efficace. Bien sûr les valeurs des paramètres d1, α1, d2 et α2 , de la fonction d'entrée- sortie pourront être modifiés.
Lorsque l'unité acoustique est un silence, il est souhaitable de ne conserver que les pauses qui rythment la parole et laissent le temps de respirer. En fixant d1 = 300 ms et α1 = 0, tous les silences de moins de 300ms sont supprimés. Les silences de durée supérieure sont alors conservés mais accélérés de moins en moins jusqu'à d à partir de laquelle la durée visée devient constante, égale à α2 d . peu importe la durée initiale. En fixant d2 = 1s et les silences dont la durée avoisine les 1s sont alors accélérés d'un facteur
Figure imgf000014_0004
d'échelle proche du carré du facteur d'échelle global. Au-delà, les silences plus longs sont accélérés à la mesure de leur longueur pour être ramenés à la durée α2 d2.
La figure 4 représente un exemple de courbe de facteur d'échelle local obtenu avec la fonction D(p) ci-dessus en fonction de la durée d(p) avec ces valeurs spécifiques.
En variante, la Demanderesse a identifié qu'il est possible d'utiliser une fonction D(p) continue et dérivable afin d'assurer une évolution lisse des durées visées en fonction de la durée d(p).
Ainsi, lorsque l'unité acoustique est un silence, la fonction d'entrée- sortie peut être adaptée selon la formule suivante : et
Figure imgf000014_0003
Par exemple. Et lorsque l'unité acoustique est une unité phonatoire associée à
Figure imgf000014_0002
un mot, la fonction d'entrée- sortie peut être adaptée selon la formule suivante :
Figure imgf000014_0001
Lorsque l'indice de confiance d'un silence est inférieur à 1 et que sa durée est inférieure à 300ms, il s'agit potentiellement une unité phonatoire qui a mal été catégorisée et la fonction Alphadapt() peut être conçue pour traiter cette unité acoustique en tant qu'unité phonatoire.
Ici encore, les paramètres pourraient varier.
La fonction AlphadaptQ peut mettre plusieurs autres règles, cumulatives ou alternatives, pour calculer le facteur d'échelle local. Ainsi, des règles différentes peuvent être prévues pour chaque unité phonatoire (par exemple pour traiter différemment les /a/ et les /i/), pour chaque caractéristique de l'unité phonatoire (semiphone/phone/diphone/triphone, point d'articulation, ouverture, arrondie. ..), en fonction de la place de l'unité phonatoire dans le mot ou encore de la place du mot dans la phrase.
Une fois que tous les éléments acoustiques ont été traités par la fonction AlphadaptQ, la première branche se termine.
En parallèle, le signal S(t) est traité par le modificateur 8 dans une opération 230. Dans l'exemple décrit ici, le modificateur 8 met en œuvre certaines parties un procédé de type PSOLA. D'une manière générale, ce procédé vise à préserver la fréquence fondamentale du signal. Pour cela, dans le procédé PSOLA, (i) une analyse de la forme d'onde vocale originale est réalisée afin de produire une représentation intermédiaire non paramétrique du signal, (ii) des modifications sont apportées à cette représentation intermédiaire, et enfin (iii) la synthèse du signal modifié à partir de la représentation intermédiaire modifiée. Dans l'exemple décrit ici, le modificateur 10 comprend un découpeur pour réaliser l'opération (i), et un sélectionneur pour réaliser l'opération (ii), tandis que l'opération (iii) est réalisée par le synthétiseur 12. Ainsi, la fonction PMA() réalise l'opération (i) et détermine des instants d'analyse qui vont être utilisés pour générer la suite d'instants du signal audio comprenant de la parole. Par exemple, la fréquence fondamentale peut être estimée toutes les 5ms en vue de déterminer les instants d'analyses. Une fois ceux-ci déterminés, ils peuvent être retraités afin de les placer aux instants de fermeture de la glotte (GCI) ou d'ouverture de la glotte (GOI). Dans tous les cas, N instants d'analyse sont choisis de sorte qu'ils soient espacés entre eux d'une période Pα(n) de la fréquence fondamentale locale (une valeur arbitraire est fixée pour les segments non-voisés, par exemple 10ms) à savoir tα(n + 1) = tα(n) + Pa(n).
Ensuite, une fonction ModifQ est exécutée par le sélectionneur du modificateur 10 dans une opération 240. La fonction Modif() reçoit comme arguments les instants d'analyse de l'opération 230 ainsi que les facteurs d'échelle locaux de l'opération 220. Le sélectionneur agit alors à la manière d'un procédé PSOLA classique, au détail près que, pour chaque instant t considéré, le facteur d'échelle utilisé <zt(t) est le facteur d'échelle local <z(p) associé à la p-me unité acoustique dont les marqueurs de temps de départ et de fin encadrent l'instant considéré dans le signal audio contenant la parole.
M instants de synthèse et les instants des fenêtres conservées associés peuvent être calculés par récursivité en utilisant des indexes non-entiers j(m). Le temps de synthèse ts(m) se calcule par ts(m) = ts(m — 1) + Pα ([j (m)J) et l'instant de la fenêtre conservée associée par tc(m) = tα ( j (m)J) avec et f : x [xJ
Figure imgf000016_0001
une fonction arrondie. Par exemple, lorsque le facteur d'échelle est de 0,5 (soit un doublement de la vitesse de lecture), le sélectionneur n'introduit dans la suite d'instants du signal audio comprenant de la parole qu'un instant d'analyse sur deux, etc. Il va de soi que de nombreuses méthodes pourront être envisagées pour parcourir les instants d'analyse et remplir la suite d'instants du signal audio comprenant de la parole en respectant la succession de facteurs d'échelle locaux.
En variante, si le dernier instant de synthèse ts (M) n'est pas à un facteur d'échelle globale a0 du dernier instant d'analyse ta(/V), les facteurs d'échelle locaux de l'opération 220 peuvent être réajustés selon la formule c Puis l'opération 240 est
Figure imgf000016_0002
répétée. En effet, les facteurs d'échelle locaux n'étant pas uniformes, l'accélération globale introduite par le traitement sera systématiquement légèrement différent du facteur d'échelle globale.
Dans l'exemple décrit ici, chaque fenêtre est centrée dans le signal audio comprenant de la parole autour de l'instant d'analyse qui a été stocké dans la suite d'instants du signal audio comprenant de la parole, et présente une taille tα(n) — tα(n — 1), ou Pα(n — 1), à gauche et tα(n + 1) — tα(n), ou Pa(n), à droite où tα(n) est l'instant concerné, tα(n — 1) l'instant d'analyse immédiatement précédent en sortie de l'opération 230, et tα(n + 1) l'instant d'analyse immédiatement suivant en sortie de l'opération 230. Ainsi, les deux demi-fenêtres pourront ne pas avoir exactement la même taille. En variante, la taille des fenêtres peut être fixée, par exemple à 2Pα(n).
Une fois l'opération 240 exécutée, la deuxième branche se termine, et les données 16 de la figure 1 sont constituées.
Enfin la troisième branche peut s'exécuter lorsque la deuxième branche est terminée, avec une fonction Synth() mise en œuvre par le synthétiseur 12 dans une opération 250. Comme on l'a vu plus haut, cette opération consiste à prélever des fenêtres dans le signal audio comprenant de la parole S(t), chacune autour d'un instant de la suite d'instants du signal audio comprenant de la parole, et à réorganiser ces fenêtres pour former le signal audio modifié 18.
En variante, les fenêtres peuvent être modulées par une fonction de fenêtrage de type Hanning, Hamming ou encore Blackman (ou autre) afin de lisser les extrémités.
Dans cette figure, le traitement du signal S(t) a été présenté d'une manière globale, mais celui-ci peut parfaitement être traité en flux avec un buffer glissant. Cela peut notamment être nécessaire si le signal S(t) est très long, ou s'il est lui-même obtenu par streaming.
La figure 5 représente un exemple de mise en œuvre d'un second mode de réalisation du dispositif de la figure 1. Dans ce mode de réalisation, le procédé utilisé par le modificateur 10 est de type WSOLA, ce qui induit quelques modifications.
En effet, le procédé WSOLA est moins sophistiqué que le procédé PSOLA, mais présente l'avantage d'être encore plus rapide à mettre en œuvre. Selon ce procédé, la taille des fenêtres est fixée (20ms par exemple) et les M instants de synthèse ts(m) sont uniformément espacés d'une durée ds, 10ms par exemple. Les instants des fenêtres conservées se calculent toujours par récursivité mais de la façon suivante : tc(m + 1) = L'analyse préalable permettant d'extraire des instants d'analyse n'a
Figure imgf000018_0001
donc plus lieu d'être. En revanche, une deuxième passe consiste à raffiner chaque instant tc(m + 1) afin de maximiser la similarité entre la fenêtre qu'il définit et la fenêtre définie par l'instant immédiatement précédent tc(m). Sans ce raffinage, il s'agit une méthode OLA classique moins performante.
Les deux modes de réalisations étant assez proches seules les opérations différentes seront décrites. Ainsi, les opérations 500, 510, 520 et 550 sont identiques aux opérations 200, 210, 220 et 250. L'opération 530 n'a plus de raison d'être du fait de la différence entre WSOLA et PSOLA, et seule l'opération 540 décrite au paragraphe précédent est différente.
Au-delà de la différence de fonctionnement décrite ci-dessus, la fonction 540 utilise les facteurs d'échelle locaux au lieu du facteur d'échelle globale pour définir chaque nouvel instant de la suite d'instants du signal audio comprenant de la parole. Pour le reste, elle opère conformément au procédé WSOLA connu.
La Demanderesse a établi que ce deuxième mode de réalisation est particulièrement avantageux car il demande moins de puissance de calcul que le premier mode de réalisation, et l'utilisation des facteurs d'échelle locaux permet là encore d'améliorer significativement la qualité et l'intelligibilité du signal audio modifié grâce à l'utilisation du moteur de reconnaissance automatique de la parole pour adapter le facteur d'échelle aux besoins de la parole.
Ce raffinement est en contraste avec les méthodes de l'art, qui se basent sur des paramètres plus “grossiers”, tels que l'énergie locale ou la variation spectrale, pour le calcul de leurs facteurs d'échelle. C'est également une surprise, dans la mesure où de nombreux documents de l'état de l'art (comme la demande de brevet CA 2257 298) avaient totalement écarté l'utilisation de la reconnaissance automatique de la parole comme un outil potentiel.

Claims

Revendications
[Revendication 1] Dispositif de traitement de signal audio, comprenant une mémoire (4) agencée pour recevoir un signal audio comprenant de la parole, un moteur de reconnaissance automatique de la parole (6) agencé pour recevoir un signal audio comprenant de la parole pour en tirer une pluralité d'unité acoustiques consécutives temporellement, chaque unité acoustique étant associée soit à un mot, soit à un silence, et comprenant des données de marqueur de temps de départ et des données de marqueur de temps de fin, un adaptateur (8) agencé pour déterminer, pour chaque unité acoustique, un facteur d'échelle local en fonction d'un facteur d'échelle global reçu en entrée et d'un jeu de règles utilisant les données associées à l'unité acoustique pour adapter le facteur d'échelle global à l'unité acoustique, lequel jeu de règles comprenant des règles distinctes selon que l'unité acoustique est associée à un mot ou à un silence, et un modificateur (10) agencé pour appliquer un procédé de modification temporelle à base d'addition et recouvrement de fenêtres du signal audio comprenant de la parole en utilisant les facteurs d'échelle locaux déterminés par l'adaptateur (8) pour déterminer une suite d'instants du signal audio comprenant de la parole, et associer à chacun des instants de ladite suite d'instants du signal audio comprenant de la parole une largeur de fenêtre et un instant de synthèse permettant de générer un signal audio modifié temporellement selon le facteur d'échelle global.
[Revendication 2] Dispositif selon la revendication 1, dans lequel le modificateur (10) comprend un découpeur pour déterminer des instants d'analyse dans le signal audio comprenant de la parole, et un sélectionneur agencé pour associer chaque instant d'analyse à un facteur d'échelle choisi comme étant le facteur d'échelle local associé à l'unité acoustique dont les données de marqueur de temps de départ et les données de marqueur de temps de fin encadrent ledit instant d'analyse, et définir la suite d'instants du signal audio comprenant de la parole à partir d'instants d'analyse tirés des couples ainsi formés en fonction du facteur d'échelle local qui leur est associé.
[Revendication 3] Dispositif selon la revendication 2, dans lequel le sélectionneur est agencé pour parcourir les couples associant instants d'analyse et facteur d'échelle locale de manière récursive, et pour déterminer pour chaque instant d'analyse si celui-ci est ajouté à la suite d'instants du signal audio comprenant de la parole en fonction du facteur d'échelle local auquel il est associé ainsi que du nombre d'instants d'analyse précédents qui ont été ajoutés à la suite d'instants du signal audio comprenant de la parole.
[Revendication 4] Dispositif selon la revendication 2 ou 3, dans lequel le modificateur ( 10) est agencé pour mettre en œuvre un procédé de modification temporelle à base d'addition et recouvrement du type PSOLA.
[Revendication 5] Dispositif selon la revendication 1, dans lequel le modificateur (10) comprend un sélectionneur agencé pour définir un premier instant de la suite d'instants du signal audio comprenant de la parole permettant de définir un signal audio modifié temporellement selon le facteur d'échelle global, et pour définir les autres instants à partir de l'instant immédiatement précédent dans la suite d'instants du signal audio comprenant de la parole et du facteur d'échelle local associé à l'unité acoustique dont les données de marqueur de temps de départ et les données de marqueur de temps de fin encadrent ledit instant immédiatement précédent de la suite d'instants du signal audio comprenant de la parole.
[Revendication 6] Dispositif selon la revendication 5, dans lequel le modificateur (10) est agencé pour mettre en œuvre un procédé de modification temporelle à base d'addition et recouvrement du type WSOLA.
[Revendication 7] Dispositif selon l'une des revendications précédentes, dans lequel l'adaptateur (8) est agencé pour appliquer des règles selon lesquelles le facteur d'échelle local est calculé selon la formule où p désigne l'unité acoustique concernée,
Figure imgf000020_0002
d(p) est la durée de l'unité acoustique concernée, et D(p) = étant des facteurs d'échelle
Figure imgf000020_0001
choisis en fonction du facteur d'échelle global et du fait que l'unité acoustique concernée est associée à un mot ou à un silence, et d1 et d2 sont des durées choisies en fonction du fait que l'unité acoustique concernée est associée à un mot ou à un silence. [Revendication 8] Dispositif selon la revendication 7, dans lequel l'adaptateur
(8) est agencé pour appliquer une règle selon laquelle, pour une unité acoustique associée à un mot, ai vaut 1 et ai vaut le facteur d'échelle globale, d1 est supérieur à 25ms et d2 est supérieur à 100ms.
[Revendication 9] Dispositif selon la revendication 7 ou 8, dans lequel l'adaptateur (8) est agencé pour appliquer une règle selon laquelle, pour une unité acoustique associée à un silence, ai vaut 0 et α2 vaut le facteur d'échelle globale élevé au carré, d1 est supérieur à 300ms et d2 est supérieur à 1s.
[Revendication 10] Dispositif selon l'une des revendications précédentes, dans lequel le moteur de reconnaissance automatique de la parole (6) est agencé, lorsqu'une unité acoustique est associée à un mot, pour déterminer une unité phonatoire associée à cette unité acoustique, ainsi qu'une ou plusieurs caractéristiques de cette unité phonatoire.
[Revendication 11] Dispositif selon la revendication 10, dans lequel l'adaptateur (8) est agencé pour mettre en œuvre un jeu de règles basées sur un ou plusieurs critères choisis dans le groupe comprenant l'unité phonatoire associée à l'unité acoustique, une ou plusieurs caractéristiques de l'unité phonatoire associée à l'unité acoustique, la place de l'unité phonatoire associée à l'unité acoustique dans le mot, le nombre d'unités phonatoires dans le mot auquel est associée l'unité acoustique, la durée de l'unité acoustique, et un indice de confiance déterminé par le moteur de reconnaissance automatique de la parole (6) pour l'unité acoustique.
[Revendication 12] Dispositif selon l'une des revendications précédentes, comprenant en outre un synthétiseur (12) agencé pour recevoir la suite d'instants du signal audio comprenant de la parole permettant de définir un signal audio modifié temporellement selon le facteur d'échelle global et pour produire le signal audio modifié temporellement selon le facteur d'échelle global en ajoutant à chaque instant de synthèse associé à un instant donné de ladite suite d'instants du signal audio comprenant de la parole une portion du signal audio comprenant de la parole sensiblement centrée sur ledit instant donné et présentant la largeur de la fenêtre associée audit instant donné.
[Revendication 13] Dispositif selon la revendication 12, dans lequel le modificateur (10) est agencé pour associer une largeur de fenêtre de taille fixe.
[Revendication 14] Dispositif selon la revendication 12 et l'une des revendications 2 à 4, dans lequel le modificateur (10) est agencé pour associer une largeur de fenêtre basée sur des instants d'analyse entourant l'instant de la suite d'instants du signal audio comprenant de la parole dans le signal comprenant de la parole.
[Revendication 15] Dispositif selon l'une des revendications 12 à 14, dans lequel le synthétiseur (12) est agencé pour appliquer une fonction de modulation à la portion du signal audio comprenant de la parole.
PCT/FR2022/052394 2021-12-16 2022-12-16 Dispositif de modification d'echelle temporelle d'un signal audio WO2023111480A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2113745 2021-12-16
FR2113745A FR3131059A1 (fr) 2021-12-16 2021-12-16 Dispositif de modification d’échelle temporelle d’un signal audio

Publications (1)

Publication Number Publication Date
WO2023111480A1 true WO2023111480A1 (fr) 2023-06-22

Family

ID=81346522

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2022/052394 WO2023111480A1 (fr) 2021-12-16 2022-12-16 Dispositif de modification d'echelle temporelle d'un signal audio

Country Status (2)

Country Link
FR (1) FR3131059A1 (fr)
WO (1) WO2023111480A1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2257298A1 (fr) 1996-06-05 1997-12-11 Interval Research Corporation Modification non uniforme de l'echelle du temps de signaux audio enregistres

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2257298A1 (fr) 1996-06-05 1997-12-11 Interval Research Corporation Modification non uniforme de l'echelle du temps de signaux audio enregistres

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DEMOL MIKE ET AL: "Efficient Non-Uniform Time-Scaling of Speech with WSOLA", SPECOM, XX, XX, 17 October 2005 (2005-10-17), pages 163 - 166, XP002493083 *
DONNELLAN O ET AL: "Speech-adaptive time-scale modification for computer assisted language-learning", ADVANCED LEARNING TECHNOLOGIES, 2003. PROCEEDINGS. THE 3RD IEEE INTERN ATIONAL CONFERENCE ON 9-11 JULY 2003, PISCATAWAY, NJ, USA,IEEE, 9 July 2003 (2003-07-09), pages 165 - 169, XP010646630, ISBN: 978-0-7695-1967-8 *
DRIEDGER JMÜLLER M: "A Review of Time-Scale Modification of Music Signals", APPLIED SCIENCES, vol. 6, no. 2, 2016, pages 57, XP055424028, Retrieved from the Internet <URL:https://doi.org/10.3390/app6020057> DOI: 10.3390/app6020057
MOULINESERICFRANCIS CHARPENTIER: "Pitch-Synchronous Waveform Processing Techniques for Text-to-Speech Synthesis Using Diphones.", SPEECH COMMUNICATION, vol. 9, no. 5, 1990, pages 453 - 467
WONG P H W ET AL: "On improving the intelligibility of synchronized over-lap-and-add (SOLA) at low TSM factor", TENCON '97. IEEE REGION 10 ANNUAL CONFERENCE. SPEECH AND IMAGE TECHNOL OGIES FOR COMPUTING AND TELECOMMUNICATIONS., PROCEEDINGS OF IEEE BRISBANE, QLD., AUSTRALIA 2-4 DEC. 1997, NEW YORK, NY, USA,IEEE, US, vol. 2, 2 December 1997 (1997-12-02), pages 487 - 490, XP010264299, ISBN: 978-0-7803-4365-8, DOI: 10.1109/TENCON.1997.648251 *

Also Published As

Publication number Publication date
FR3131059A1 (fr) 2023-06-23

Similar Documents

Publication Publication Date Title
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
CA2491036A1 (fr) Procede et appareil pour la classification de signaux sonores
EP1789953B1 (fr) Procede et dispositif de selection d&#39;unites acoustiques et procede et dispositif de synthese vocale
FR2554623A1 (fr) Procede d&#39;analyse de la parole independant du locuteur
CN102486920A (zh) 音频事件检测方法和装置
WO2005106853A1 (fr) Procede et systeme de conversion rapides d&#39;un signal vocal
Moraru et al. The ELISA consortium approaches in broadcast news speaker segmentation during the NIST 2003 rich transcription evaluation
CN116457870A (zh) 并行化Tacotron:非自回归且可控的TTS
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
WO2023111480A1 (fr) Dispositif de modification d&#39;echelle temporelle d&#39;un signal audio
EP1285435B1 (fr) Analyse syntaxique et semantique de commandes vocales
EP1772851B1 (fr) Système de karaoké pour l&#39;affichage du texte correspondant à la partie vocale d&#39;un flux audiovisuel sur un écran d&#39;un système audiovisuel
EP1803116B1 (fr) Procede de reconnaissance vocale comprenant une etape d &#39; insertion de marqueurs temporels et systeme correspondant
EP0573358B1 (fr) Procédé et dispositif de synthèse vocale à vitesse variable
FR3028086B1 (fr) Procede de recherche automatise d&#39;au moins une sous-sequence sonore representative au sein d&#39;une bande sonore
Jain et al. Detection of Sarcasm through Tone Analysis on video and Audio files: A Comparative Study on Ai Models Performance
WO2014005695A1 (fr) Procede et systeme de synthese vocale
FR2713006A1 (fr) Appareil et procédé de synthèse de la parole.
CN116403564B (zh) 一种音频编辑方法及装置、电子设备及存储介质
EP1490863B1 (fr) Procede de reconnaissance de parole au moyen d&#39;un transducteur unique
US20230410848A1 (en) Method and apparatus of generating audio and video materials
EP1960996B1 (fr) Synthese vocale par concatenation d&#39;untes acoustiques
EP2026332A1 (fr) Procédé de synthèse audiovisuelle de la parole et système correspondant
WO2007028871A1 (fr) Systeme de synthese vocale ayant des parametres prosodiques modifiables par un operateur
CN115209214A (zh) 从视频中识别并移除受限信息

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22847566

Country of ref document: EP

Kind code of ref document: A1