WO2008025918A1 - Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe - Google Patents

Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe Download PDF

Info

Publication number
WO2008025918A1
WO2008025918A1 PCT/FR2007/051807 FR2007051807W WO2008025918A1 WO 2008025918 A1 WO2008025918 A1 WO 2008025918A1 FR 2007051807 W FR2007051807 W FR 2007051807W WO 2008025918 A1 WO2008025918 A1 WO 2008025918A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameters
control
voice
continuous
consonants
Prior art date
Application number
PCT/FR2007/051807
Other languages
English (en)
Inventor
Nicolas Delorme
Olivier Lescurieux
Original Assignee
Voxler
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voxler filed Critical Voxler
Priority to EP07823711A priority Critical patent/EP2070078A1/fr
Priority to JP2009526152A priority patent/JP2010501955A/ja
Publication of WO2008025918A1 publication Critical patent/WO2008025918A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/135Musical aspects of games or videogames; Musical instrument-shaped game input interfaces

Definitions

  • the invention relates to a method for real-time analysis of the human voice and to vocally control real-time digital devices.
  • the object of the invention is notably to extract in real time a set of parameters derived from the human voice and to use them as a voice control interface component of these organs.
  • the invention finds a particularly advantageous application in the field of video game control for the voice and real-time control of a virtual character or virtual objects (balloon, vehicles, weapons ...) or any other parameter of a virtual universe.
  • the invention results from the observation that electronic and computer applications have many parameters on which the player or the user can act, and require the development of new intuitive and expressive interfaces allowing greater interactivity.
  • the joystick and the mouse allow a limiting expressiveness compared to the potential wealth of the controls of the modern video games.
  • the invention proposes to use the voice of the user as a control interface.
  • the invention may in this context be described as a “voice controller” or a “voice mouse”, that is to say that it supplements or replaces these conventional interface components.
  • the invention we capture a set of parameters characterizing the expressiveness of the human voice, the formal structure of the voice signal.
  • musicality parameters such as pitch, volume (or intensity), attacks (brief peaks of intensity), timbre (roughness, brightness, formants, etc.) are combined.
  • timbre roughness, brightness, formants, etc.
  • the voice analysis is done in real time, that is to say that the voice processing mode theoretically allows the admission of data (in this case an electrical sound signal) at any time and obtaining immediate results.
  • data in this case an electrical sound signal
  • the data processing algorithms of the invention are chosen to enable this real time management.
  • the targeted response time of the module to be controlled is less than 40 ms so that the user has a feeling of perfect simultaneity and consistency between his voice expression and the computer processes driven from the parameters extracted from his voice.
  • the voice analysis engine can be either in the form of software running on processors conventionally used on microcomputers, mobile phones, PDAs, game consoles or toys, or melted on an electronic component (eg ASIC) dedicated.
  • processors conventionally used on microcomputers, mobile phones, PDAs, game consoles or toys, or melted on an electronic component (eg ASIC) dedicated.
  • ASIC electronic component
  • the detection of parameters is robust: it works with any user regardless of language and under many conditions of use. For some applications requiring high accuracy, the user is asked to produce one or more sounds that will be analyzed to define his voice profile and automatically optimize the detection algorithms based on these calibration data.
  • the invention therefore relates to a method for controlling a digital device by a voice signal of a user in which the following steps are implemented in combination:
  • parameters of expressivity of this voice signal these parameters of expressiveness being - Musicality parameters such as pitch, volume, timbre and voice signal attacks, as well as
  • prosodic parameters of this voice signal designating the consonants, the vowels, the phonemes, the syllables or the diphthongs present in the voice signal
  • this extraction step makes it possible to measure the formal structure of the speech flow, and not aimed at understanding the user's speech, and
  • the control of the organ is of the impulse type, the consonant or attack family being sent to the organ, a specific type of control being associated with each consonant or attack family capable of to be detected.
  • a High Frequency Content (HFC) algorithm is implemented on spectral components of the voice signal to detect the consonant.
  • HFC High Frequency Content
  • Family is voiced and vocalic, with a specific type of control associated with each of these three families.
  • the first family consists of consonants [p, t, k], the second family of consonants [b, d, g] and the third family of consonants [m, n, I].
  • the voicing test is performed first, and the vowel test second, the voiced or unvoiced character of the consonant being determined using the first autocorellation coefficient or the spectral centroid of the signal. voice, the vowel or non-vowel character of the consonant being determined using the total energy or in a frequency band of the voice signal.
  • the control of the organ being of impulse type it is measured, at a given instant, the value of a continuous parameter of the voice likely to vary continuously in time, such as as height or intensity. And we send to the organ a result of the comparison between a threshold and the value of this continuous parameter.
  • a first type of control is associated with the result of the comparison indicating that the continuous parameter is greater than the threshold.
  • a second type of control is associated with the result of the comparison indicating that the continuous parameter is below the threshold.
  • control of the member being of continuous type
  • value of a continuous parameter of the voice capable of varying continuously in time such as the height intensity.
  • this value of the continuous parameter is sent to the member, the continuous control of the member depending on this value continues.
  • the continuous value is the value of an expressivity parameter at a given instant, or the derivative, or the second derivative of this expressivity parameter.
  • the organ to be controlled being a graphic cursor
  • the derivative of the expressiveness parameter is associated with the speed of this cursor.
  • the continuous value is developed from a measurement of an expressivity parameter along one of the three axes of the vowel triangle.
  • the tone is characterized by the first three formants of the voice F1, F2 and F3 or by the first two F1 and F2.
  • the algorithm is implemented. from Yin.
  • the response time for the extraction of expressiveness parameters is less than 40 ms for the user to have a feeling of perfect simultaneity and coherence between his vocal expression and the control of the organ.
  • parameters from other man / machine interfaces such as buttons, a keyboard or a joystick are used in combination with the parameters of expressiveness for the control of the organ.
  • buttons of the interface are used to trigger impulse actions, the impulse actions being instantaneous actions, while the parameters of the voice are used to control the nature or the evolution of the impulse actions to control or to control continuous actions, continuous actions being actions that evolve over time.
  • the N expressivity parameters are combined with one another using an N-line matrix and P columns of coefficient x11 to xNP, these coefficients being constants and / or values varying as a function of time.
  • the N parameters are added their derivative and / or their second derivative.
  • the organ to be controlled is software and allows the control of a virtual object, such as a character or a vehicle or a plane of a video game, this virtual object moving or realizing actions in function of expressiveness parameters.
  • the voice expressiveness parameters of the user control the gestural expressivity of the virtual character: gestures, mimicry, facial expressions, lip synchronization, hair or hair bristling, facial or body color, the voice signal of the user being consistent with the gestural expressivity of the character.
  • FIG. 1 a schematic representation of a voice analysis and control device according to the invention and the various organs that it is likely to control;
  • - Figure 2a a detailed schematic representation of a device according to the invention comprising a control module connected to a module to be controlled by means of an adaptation module;
  • - Figure 2b a schematic representation of a voice signal after sampling and consonants and vowels that compose it;
  • FIG. 2c a schematic representation of the analysis module according to the invention for the detection of consonants, vowels and their timbre and the measurement of height and intensity;
  • FIG. 2d a matrix associated with an adaptation module according to the invention ensuring a correspondence between the outputs of the control module and the inputs of the module to be checked;
  • - figure 2e a table of classification of the consonants of French according to their voiced or vocalic character
  • Figure 2f a schematic representation of the vowel triangle, positioning the vowels according to their first two formants.
  • FIG. 1 shows a schematic representation of a voice control device 1 according to the invention.
  • This device 1 comprises a microphone 2 connected to an input of a voice analysis module 3. Outputs of this module 3 are connected to inputs of a digital or software member 4.
  • the microphone 2 is a microphone of a mobile phone, a computer or a professional microphone.
  • the microphone 2 emits an electric sound signal to the analysis module 3.
  • This module 3 comprises an extraction module 6 which segments the signal 5 and detects the presence of consonants. After each consonant detection, the module 6 identifies a consonant or a group of consonants and / or a vowel or a group of vowels. The module 6 further extracts the height, intensity and timbre of the vowel and / or consonant detected. This module 6 is not intended to recognize speech, but the measure of expressiveness of the voice for a precise and real-time control of the organ 4.
  • observable digital parameters 17 carrying information on height, intensity, attacks, timbre parameters and prosodic parameters characterizing and discretizing vowels / diphthongs, consonants, phonemes or syllables ( vowel / consonant associations).
  • the digital parameters 17 are applied at the input of the digital member 4.
  • the extracted parameters 17 act as a trigger for one or more events.
  • a vocabulary is defined to control a character in a Karate type combat game.
  • the nature of the attack determines the nature of the blow, with for example a kick for "p” attacks, a punch for "b” attacks, and a strangling for "I” attacks. ".
  • the nature of the vowel determines for example whether it is a kick or fist given on the left or the right side.
  • the pitch of the note determines for example whether it is a given shot up or down and the intensity determines for example the strength of the strike.
  • the consonant or vowel may be replaced by the family of consonants or vowels to which it belongs in the classification of the International Phonetic Association (API).
  • API International Phonetic Association
  • the algorithms used allow to isolate a consonant or a vowel, or to choose to isolate the labials ([p], [b], [f], [V], [m], [W] ]) with respect to the dentals ([t], [d], [s], [z], [n], [H], [I]) and to the bicycles-palatales ([k], [g], [ S], [Z], [J], [j], [R]).
  • voiced occlusives [b], [d], [g]
  • unvoiced occlusives [p], [t], [k]
  • voiced fricatives [v] ], [z], [Z]
  • unvoiced fricatives [f], [s], [S]
  • nasal [m], [n], [J]
  • slippery [w] ], [H], [j]
  • liquids [I], [R].
  • Attacks and consonants are used as a pulse controller, ie the technology used to identify the presence of an attack in the voice signal and / or to characterize the consonant or the consonant family to which belongs this attack.
  • the presence of an attack and / or the consonant or consonant family to which this attack belongs is transmitted to the organ to be controlled.
  • the presence of an attack can trigger shooting in a video game application.
  • the presence of an attack can be likened to the action of clicking and the presence of two very close attacks can be a double click.
  • the nature of the attack can clarify the action to be implemented. For example in a video game application, a "p" may be associated with a shotgun while a "b" will correspond to the sending of a bomb.
  • a "p" may be associated with a click on the right button, while a “b” may be associated with a click on the left button.
  • the other parameters detected in the voice and in particular the pitch, the intensity as well as the position in the vowel triangle and / or their combination can be used as pulse or continuous controller. In this approach, one or more of these parameters are measured in real time and they are assigned a value, in one example, between 0 and 100.
  • the intensity parameter can be applied to the entire signal but also to only consonants or only vowels.
  • the member 4 may comprise a video game control module 13.
  • This module 13 controls characters, vehicles, graphic structures, image qualities, according to the parameters 17.
  • the continuous parameters extracted from the voice are used to control an aircraft in its three dimensions. displacement.
  • the volume is associated with the accelerator (y axis), the height of the note at the incidence (z axis) and the position on the axis [a] - [u] of the vowel triangle to the direction (y axis).
  • the information sent to the organ to be controlled can be processed in several ways. In impulse processing, the information is sent only if the value of the parameter exceeds a certain threshold, in one direction or the other.
  • the continuous parameters are used as a pulse controller and the information transmitted to the organ to be monitored is binary in nature.
  • information from continuous descriptors is processed by taking into account their continuous nature.
  • the information used to control the organ to be controlled is the value of these continuous parameters (included in an example between 0 and 100).
  • the value of the continuous parameters used may be the value of the parameter at a given instant. We can also transform these parameters and calculate their derivative or their second derivative. In the case of controlling a cursor on a screen, the derivative can naturally be associated with the speed of movement of the cursor.
  • the voice controls a cursor as for example in a Space Invaders spacecraft game.
  • the [a] could mean a movement to the left, while the [u] will mean a movement to the right.
  • the sound is sufficiently close to [a], or more precisely if the value of the position along the axis [a] - [u] of the vowel triangle is less than one. certain threshold, the sound [a] corresponding in this example to 0 and the sound [u] to 100.
  • the value along the [a] - [u] axis is used directly.
  • the value can be directly assigned to a position described by its coordinates. This mode of treatment allows a fast movement of the cursor but it can be difficult to control because of a displacement too fast.
  • the value can also be assigned to a moving speed. Thus a [a] associated with a value of 0 will induce a fast leftward movement and a [u] associated with a value of 100 will induce a fast rightward movement. For movements of more moderate speed, it will be appropriate in this case to emit a [O] for a slow movement to the left and a [o] for a slow movement to the right.
  • the instantaneous value of the continuous parameters can be averaged according to a time window which is set during the design of the game or the program according to the specific application.
  • the system used to describe the moving of a mobile in two or three dimensions can use any coordinate system to describe the position or movement of a mobile in a universe of 2, 3 or n dimensions, and in particular Cartesian or polar coordinates.
  • the number n of dimensions can be greater than 3 if, for example, it is decided to control in addition to the three dimensions associated with the displacement of a solid, the three dimensions associated with the control of its rotation and / or of the ambient parameters, for example the brightness or color of the image.
  • the position description repository can be fixed or mobile.
  • mobile reference referential in which the coordinate system is described with respect to the position and orientation of the object to be controlled while a fixed reference is immobile and independent of the position or orientation of said object.
  • the invention makes it possible to design voice control games or other simple applications using only some of the continuous or pulse parameters proposed.
  • the invention makes it possible to use simultaneously or successively the numerous impulse and continuous parameters extracted from the voice to control the numerous degrees of freedom of games or games. other applications requiring greater finesse of control.
  • the value of the control parameters can be corrected by a calibration value corresponding to the measured value of these parameters when no voice sound is emitted or to any other type of calibration that can be defined by the designer. of the program or game
  • the technology can be qualified as a "voice controller" and can be proposed alone or in a multimodal approach, ie in addition to the existing game interfaces, such as the keyboard, the joystick, the gamepad or position or motion sensors.
  • the module 3 controls a module 14 which can be a module for the control of a virtual character, or an electronic system such as a robot or any other computer or electronic system.
  • the member 4 comprises one or more of the elements 13, 14. These members 13, 14 may be independent and connect to the module 3 which is itself independent.
  • FIG. 2a shows a detailed schematic representation of the system 1 according to the invention which comprises the control element 4 to be connected to the control module 3 via an adaptation module 23.
  • This adaptation module 23 provides a correspondence between the output parameters of the module 3 and the input parameters of the organ 4 to be controlled.
  • the microphone 2 transmits an analog signal 5 to an analog digital converter 21 which samples sample windows.
  • the fineness of the sampling may depend on the precision expected by the user, or the computing power available in a product or a target platform.
  • the sampled signal 22 is shown in FIG. 2b.
  • This signal 22 comprises at a time k an attack ak, generally of large amplitude, and held tki, low amplitude.
  • the ak attacks actually correspond to a consonant of the voice and the tki outfits correspond to a vowel or a succession of vowels.
  • the signal 22 is sent to a segmentation module 6.1 which detects and isolates these different consonants ak.
  • the segmentation module 6.1 detects each new consonant using a High Frequency Content (HFC) algorithm.
  • HFC High Frequency Content
  • This algorithm emphasizes the high frequency components of a portion of the signal 22 by performing a linearly weighted sum of the modules of the spectral components. From these accentuations, the peaks at the beginning of the note corresponding to the consonants are detected. Vowels that are between two amplitude peaks are then extracted.
  • HFC High Frequency Content
  • a detection module 6.2 connected to an output of the segmentation module detects to which class the detected consonant belongs. For this purpose, three classes of consonants are first determined, a first A1 comprising the consonants [p, t, k], a second A2 comprising the consonants [b, d, g], a third A3 comprising the consonants [m, n, I].
  • the second and third class A2, A3 group consonants that have, according to Jackobson's book "Preliminaries to Speech Analysis", a voiced character whereas the first class A1 does not have such a character.
  • the voiced character is frequently translated by a reinforcement of the frequencies around 250 Hz.
  • the third class A3 includes vowel consonants, whereas the consonants of the first and second class A2 do not have such a character.
  • a consonant is vocalic if its phonatory source is unique, periodic, of weak damping and non-abrupt attack.
  • the analysis module detects the voiced character using an autocorrelation function or the spectral centroid on the 50-3000 Hz band applied to the signal of the detected consonant.
  • the analysis module detects the vowel or non-vocalic character of a consonant, considering the energy of a frequency band of the signal or the total energy of the consonant which has different values depending on the consonant .
  • the action performed in the video game or in any application is different.
  • the stroke is supported if the attack ak of the note is part of the first class A1 (if the user expresses himself in "te, ta, ti" for example), while the blow is for example strong month but faster if the attack ak of the note is part of the second or third class A2, A3 (if the user expresses himself in "be, bi, bou” for example).
  • A1 if the user expresses himself in "te, ta, ti" for example
  • the blow is for example strong month but faster if the attack ak of the note is part of the second or third class A2, A3 (if the user expresses himself in "be, bi, bou” for example).
  • an analysis is carried out continuously on the vowels tki in order to determine the height, the intensity and the timbre of these vowels.
  • the module 6.2 comprises a frequency extractor module, an intensity extractor module, and a stamp extractor module.
  • the extraction of the fundamental frequency is carried out on the basis of the Yin algorithm described in the France Telecom patent document (French national registration No. 01 07284).
  • the intensity extractor module measures the intensity of the user's voice.
  • the intensity of the voice to control for example the strength of a shot in a game of karate or the power of a shot in a shooter.
  • the stamp extractor module extracts the type of timbre of the vowels.
  • the timbre of the vowels is characterized by its first three formants F1, F2, F3 and can be approached precisely enough from the first two formants F1 and F2.
  • the stamp extractor module positions the instantaneous state of the vowel on the vowel triangle shown in Figure 2f, the coordinates of a vowel in the F1-F2 plane can be a source of interesting two-dimensional control.
  • the extractor module calculates in real time the spectral centroid corresponding to the barycenter of the amplitude spectrum of the vowel.
  • the type of vowel is analyzed from the calculation of the weighted spectral area.
  • the control it is also possible to precisely detect the vowel or a class of this vowel among different defined classes, the controlled action depending on the type of vowel and / or the class of this vowel.
  • the karate catch associated with the "pi" will be different from that at "pa” or "pe".
  • the analysis module 6.2 thus extracts N digital parameters 17 which are applied to inputs of the adaptation module 23.
  • This module 23 transforms these N digital parameters into P digital parameters which are applied to P inputs of the module to be controlled, P being different or equal to N.
  • the module 23 combines the N parameters with each other, so that each of the P digital parameters observable at the output of the module 23 is a combination of the N input parameters.
  • FIG. 2d shows a matrix, called the mapping matrix, associated with the adaptation module 23 which is applied to the N data d1 -dN of the signal 17. This matrix comprises N rows and P columns, so as to obtain a data signal 25 comprising P 1-d data from the signal 17.
  • the adaptation matrix can be adapted according to the type of game or application to control, the level of the user (professional, amateur, beginner).
  • the parameters x11 to xNP of the mapping matrix can be constants (linear adaptation) but also mathematical functions of the parameters d1 to dN and time (nonlinear adaptation).
  • the instantaneous value of all or some of the parameters d1 to dN is stored in a historical matrix. This historical matrix may be limited to the last minute of play for example.
  • the values contained in this historical matrix are used to perform mathematical operations on the evolution of the parameters d1 to dN. For example, their mean, standard deviation or other statistical operations can be calculated.
  • the matrix may be replaced by a neural network or other conventional techniques of Artificial Intelligence and said network is automatically or semi automatically set from a reference test corpus.
  • the matrix or neural network is refined for a particular user by giving a specific weighting to the user's game mode.
  • the algorithms used allow multi-stakeholder operation without learning.
  • the adaptation module adjusts the setting according to the characteristics specific to the voice of the speaker, for example by asking him to repeat certain predefined game phases.
  • the parameters produced by the module 23 are applied at the input of the organ 4 to be controlled. The module 23 can thus adapt the number of parameters produced by the analysis module 3 to the number of parameters necessary for the control of the module 3 to be controlled.
  • a control interface 37 may be connected to an input of the module 4 to be controlled or of the mapping module 23.
  • This control interface 37 may be a computer controller such as a joystick, gamepad, computer keyboard or mobile phone, mouse or a controller developed specifically and may include gesture or movement sensors, touch surfaces, pressure sensors , or torsion, and emits an output signal 38 to the organ 4 to control or the mapping module 23.
  • the interface 37 can be used to control the shot of a virtual character, while the voice will be used to control his movements or vice versa.
  • buttons of the interface 37 are used to trigger impulse actions while the voice is used to control the continuous actions or the nature of the impulse actions to be controlled.
  • the user continuously transmits a continuous vowel-type signal from which the continuous parameters (height, intensity, position in the vowel triangle) are extracted at each instant.
  • the pulse signals are then used to instantly trigger an action corresponding to the continuous parameters measured previously.
  • a user continuously transmits an A corresponding to a given height and intensity.
  • he presses a button he kicks or punches or any other predefined action, corresponding to the continuous values that have already been precalculated.
  • This implementation method allows a very fast triggering of the pulse actions, without the need to calculate the continuous functions that may for some and especially for the height require a calculation time too high to give an impression of perfect simultaneity.
  • buttons of the interface 37 are used to trigger impulse actions while the voice is used to control the continuous actions or the evolution of the actions triggered impulsively.
  • the pulse trigger buttons can either simply provide a pulse (yes or no) or a value (sensitivity buttons).
  • the combination of expressiveness parameters can also be used to control gestures, mimicry, facial expressions, lip synchronization, hair or hair bristling, facial or body color, a character from the voice of the player, the bodily expression of the character being coherent with etc. the vocal expression of the player.
  • the various modules described may of course take the form of software or electronic modules.
  • the adaptation module can be integrated into the analysis module or the module to be tested. In one embodiment, the three modules are integrated inside one and the same module.
  • the invention also extends to the hardware device capable of implementing the method described above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

L'invention concerne un procédé de pilotage vocal en temps réel d'un organe numérique. Ce procédé met en oeuvre un module (3) d'analyse vocale qui comporte des moyens (6) pour extraire, avec une latence et un besoin de puissance de calcul les plus faibles possibles, des consonnes et voyelles d'un signal voix appliqué en entrée de ce module (3) d'analyse. L'organe numérique produit un signal (25) de contrôle, notamment en fonction d'un type de consonne détecté, d'un timbre de voyelles détecté, d'une hauteur et d'une intensité. L'invention trouve une application particulière avantageuse pour capter l'expressivité de la voix et contrôler un jeu vidéo.

Description

Procédé d'analyse en temps réel de la voix pour le contrôle en temps réel d'un organe numérique et dispositif associé
L'invention concerne un procédé pour analyser en temps réel la voix humaine et contrôler vocalement en temps réel des organes numériques. L'invention a notamment pour but d'extraire en temps réel un jeu de paramètres issus de la voix humaine et de les utiliser comme un composant d'interface de contrôle vocal de ces organes. L'invention trouve une application particulièrement avantageuse dans le domaine du contrôle des jeux vidéo pour le contrôle à la voix et en temps réel d'un personnage virtuel ou d'objets virtuels (ballon, véhicules, armes...) ou tout autre paramètre d'un univers virtuel. L'invention résulte du constat que les applications électroniques et informatiques comportent de nombreux paramètres sur lesquels le joueur ou l'utilisateur peut agir, et nécessitent le développement de nouvelles interfaces intuitives et expressives permettant une plus grande interactivité. Ainsi, dans le jeu vidéo, le joystick et la souris permettent une expressivité limitante par rapport à la richesse potentielle des commandes des jeux vidéo modernes.
Pour résoudre les problèmes d'interactivité précités, l'invention se propose d'utiliser la voix de l'utilisateur comme interface de contrôle. L'invention peut dans ce cadre être décrite comme un « contrôleur vocal » ou une « souris vocale », c'est-à-dire qu'elle complète ou remplace ces composants d'interface classiques.
A cet effet, dans l'invention, on capte un ensemble de paramètres caractérisant l'expressivité de la voix humaine, la structure formelle du signal vocal. On conjugue pour caractériser l'expressivité vocale de l'utilisateur, des paramètres de musicalité comme la hauteur, le volume (ou intensité), les attaques (pics brefs d'intensité), le timbre (rugosité, brillance, formants notamment), ainsi que les paramètres prosodiques qui discrétisent ou caractérisent des consonnes ou familles de consones, des voyelles ou diphtongues, des phonèmes ou syllabes. Ces paramètres d'expressivité sont ensuite utilisés pour contrôler un système électronique ou un programme informatique et en particulier des personnages de jeux vidéo.
L'analyse de la voix se fait en temps réel, c'est-à-dire que le mode de traitement de la voix permet théoriquement l'admission de données (en l'occurrence un signal électrique de son) à un instant quelconque et l'obtention immédiate de résultats. Toutefois, par temps réel, on entend plutôt ici un mode de traitement de données selon lequel le traitement s'effectue avec le plus petit décalage temporel possible. Car il s'agit de contrôler l'organe le plus rapidement possible après l'émission du signal de voix de contrôle de l'utilisateur. Les algorithmes de traitement de données de l'invention sont choisis pour permettre cette gestion du temps réel.
Dans l'invention le temps de réponse visé du module à contrôler est inférieur à 40 ms pour que l'utilisateur ait une sensation de parfaite simultanéité et cohérence entre son expression vocale et les processus informatiques pilotés à partir des paramètres extraits de sa voix.
Pour certains paramètres comme les attaques, on obtient un temps, de réponse bien inférieur à 40ms.
Le moteur d'analyse de la voix peut être soit réalisé sous forme d'un logiciel exécuté sur des processeurs classiquement utilisés sur des microordinateurs, téléphones portables, PDA, consoles de jeux ou jouets, soit fondu sur un composant électronique (p. ex : ASIC) dédié.
Dans l'invention, la détection des paramètres est robuste : elle fonctionne avec tout utilisateur indépendamment de sa langue et dans de nombreuses conditions d'utilisation. Pour certaines applications demandant une haute précision, on demande à l'utilisateur de produire un ou plusieurs sons qui seront analysés pour définir son profil vocal et optimiser automatiquement les algorithmes de détection sur la base de ces données de calibration. L'invention concerne donc un procédé de contrôle d'un organe numérique par un signal de voix d'un utilisateur dans lequel les étapes suivantes sont mises en œuvre en combinaison :
- extraire des paramètres d'expressivité de ce signal de voix, ces paramètres d'expressivité étant - les paramètres de musicalité tels que la hauteur, le volume, le timbre et les attaques du signal de voix, ainsi que
- les paramètres prosodiques de ce signal de voix, ces paramètres prosodiques désignant les consonnes, les voyelles, les phonèmes, les syllabes ou les diphtongues présents dans le signal de voix,
- cette étape d'extraction permettant la mesure de la structure formelle du flux vocal, et ne visant pas à la compréhension de la parole de l'utilisateur, et
- utiliser ces paramètres pour le contrôle vocal d'un organe numérique ou logiciel.
Dans une mise en œuvre, le contrôle de l'organe est de type impulsionnel, la famille de consonne ou d'attaque étant envoyée à l'organe, un type de contrôle spécifique étant associé à chaque famille de consonne ou d'attaque susceptible d'être détecté. Dans une mise en œuvre, pour détecter la famille de consonne, on met en œuvre un algorithme HFC (High Frequency Content en anglais) sur des composantes spectrales du signal de voix pour détecter la consonne. Et on effectue un test de voisement et un test vocalique sur la consonne détectée, de manière à séparer trois familles de consonnes présentant pour caractéristiques que la première famille est non voisée et non vocalique, la deuxième famille est voisée et non vocalique, et la troisième famille est voisée et vocalique, un type de contrôle spécifique étant associé à chacune de ces trois familles.
Dans une mise en oeuvre, la première famille est constituée des consonnes [p, t, k], la deuxième famille des consonnes [b,d,g] et la troisième famille des consonnes [m, n, I].
Dans une mise en œuvre, le test de voisement est réalisé en premier, et le test vocalique en second, le caractère voisé ou non voisé de la consonne étant déterminé à l'aide du premier coefficient d'autocorellation ou du centroïde spectral du signal de voix, le caractère vocalique ou non vocalique de la consonne étant déterminé à l'aide de l'énergie totale ou dans une bande de fréquences du signal de voix.
Dans une mise en œuvre, le contrôle de l'organe étant de type impulsionnel, on mesure, à un instant donné, la valeur d'un paramètre continu de la voix susceptible de varier de manière continu dans le temps, tel que la hauteur ou l'intensité. Et on envoie à l'organe un résultat de la comparaison entre un seuil et la valeur de ce paramètre continu. Un premier type de contrôle est associé au résultat de la comparaison indiquant que le paramètre continu est supérieur au seuil. Un deuxième type de contrôle est associé au résultat de la comparaison indiquant que le paramètre continu est inférieur au seuil.
Dans une mise en œuvre, le contrôle de l'organe étant de type continu, on mesurer, à un instant donné, la valeur d'un paramètre continu de la voix susceptible de varier de manière continu dans le temps, tel que la hauteur ou l'intensité. Et on envoie à l'organe cette valeur du paramètre continu, le contrôle continu de l'organe dépendant de cette valeur continue.
Dans une mise en œuvre, la valeur continue est la valeur d'un paramètre d'expressivité à un instant donné, ou la dérivée, ou la dérivée seconde de ce paramètre d'expressivité. Dans une mise en œuvre, l'organe à contrôler étant un curseur graphique, la dérivée du paramètre d'expressivité est associée à la vitesse de ce curseur.
Dans une mise en œuvre, la valeur continue est élaborée à partir d'une mesure d'un paramètre d'expressivité selon l'un des trois axes du triangle vocalique.
Dans une mise en œuvre, pour mesurer le paramètre d'expressivité selon l'un des trois axes du triangle vocalique, on caractérise le timbre par les trois premiers formants de la voix F1 , F2 et F3 ou par les deux premiers F1 et F2. Dans une mise en œuvre, pour mesurer, à un instant donné, la valeur d'un paramètre continu de la voix susceptible de varier de manière continu dans le temps, tel que la hauteur ou l'intensité, on met en oeuvre l'algorithme de Yin.
Dans une mise en œuvre, le temps de réponse pour l'extraction des paramètres d'expressivité est inférieur à 40 ms pour que l'utilisateur ait une sensation de parfaite simultanéité et cohérence entre son expression vocale et le contrôle de l'organe.
Dans une mise en œuvre, des paramètres issus d'autres interfaces homme/machine, telle que des boutons, un clavier ou un joystick sont utilisés en combinaison avec les paramètres d'expressivité pour le contrôle de l'organe.
Dans une mise en œuvre, les boutons de l'interface sont utilisés pour déclencher des actions impulsionnelles, les actions impulsionnelles étant des actions instantanées, alors que les paramètres de la voix sont utilisés pour contrôler la nature ou l'évolution des actions impulsionnelles à contrôler, ou encore pour contrôler les actions continues, les actions continues étant des actions qui évoluent dans le temps.
Dans une mise en œuvre, pour adapter un nombre N de paramètres d'expressivité à un nombre P d'entrées de l'organe, on combine entre eux les N paramètres d'expressivité à l'aide d'une matrice à N lignes et P colonnes de coefficient x11 à xNP, ces coefficients pouvant être des constantes et/ou valeurs variant en fonction du temps.
Dans une mise en œuvre, on ajoute aux N paramètres leur dérivée et/ou leur dérivée seconde.
Dans une mise en œuvre, l'organe à contrôler est logiciel et permet le contrôle d'un objet virtuel, tel qu'un personnage ou un véhicule ou un avion d'un jeu vidéo, cet objet virtuel se déplaçant ou réalisant des actions en fonction des paramètres d'expressivité. Dans une mise en œuvre, les paramètres d'expressivité vocale de l'utilisateur pilotent l'expressivité gestuelle du personnage virtuel : gestes, mimiques, expressions faciales, synchronisation labiale, hérissement des cheveux ou des poils, couleur du visage ou du corps, le signal de voix de l'utilisateur étant en cohérence avec l'expressivité gestuelle du personnage. L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Ces figures ne sont données qu'à titre illustratif mais nullement limitatif de l'invention. Ces figures montrent :
- figure 1 : une représentation schématique d'un dispositif d'analyse et de contrôle vocal selon l'invention et des différents organes qu'il est susceptible de contrôler ;
- figure 2a : une représentation schématique détaillée d'un dispositif selon l'invention comportant un module de contrôle relié à un module à contrôler par l'intermédiaire d'un module d'adaptation ; - figure 2b : une représentation schématique d'un signal de voix après échantillonnage et des consonnes et voyelles qui le composent ;
- figure 2c : une représentation schématique du module d'analyse selon l'invention permettant la détection des consonnes, de voyelles et de leur timbre ainsi que la mesure de la hauteur et de l'intensité ;
- figure 2d : une matrice associée à un module d'adaptation selon l'invention assurant une correspondance entre les sorties du module de contrôle et les entrées du module à contrôler ;
- figure 2e : un tableau de classification des consonnes du français selon leur caractère voisé ou vocalique ;
- figure 2f : une représentation schématique du triangle vocalique, positionnant les voyelles selon leurs deux premiers formants.
La figure 1 montre une représentation schématique d'un dispositif 1 de contrôle vocal selon l'invention. Ce dispositif 1 comporte un microphone 2 relié à une entrée d'un module 3 d'analyse vocale. Des sorties de ce module 3 sont reliées à des entrées d'un d'organe 4 numérique ou logiciel. Dans un exemple, le microphone 2 est un microphone d'un téléphone portable, d'un ordinateur ou un microphone professionnel.
A partir de la voix de l'utilisateur, le microphone 2 émet un signal 5 électrique de son à destination du module 3 d'analyse. Ce module 3 comporte un module 6 d'extraction qui segmente le signal 5 et détecte la présence de consonnes. Après chaque détection de consonne, le module 6 identifie une consonne ou un groupe de consonnes et/ou une voyelle ou un groupe de voyelles. Le module 6 extrait en outre la hauteur, l'intensité et le timbre de la voyelle et/ou de la consonne détectés. Ce module 6 n'a pas pour but la reconnaissance de la parole, mais la mesure de l'expressivité de la voix pour un contrôle précis et en temps réel de l'organe 4.
En sortie du module 6, sont donc observables des paramètres numériques 17 porteurs d'information sur la hauteur, l'intensité, les attaques, des paramètres de timbre et des paramètres prosodiques caractérisant et discrétisant des voyelles/diphtongues, consonnes, phonèmes ou syllabes (associations voyelles/consonnes).
Les paramètres numériques 17 sont appliqués en entrée de l'organe 4 numérique. Dans une mise en oeuvre, les paramètres extraits 17 agissent comme déclencheur d'un ou plusieurs événements. Dans un exemple, un vocabulaire est défini pour contrôler un personnage dans un jeu de combat de type Karaté. Par exemple, la nature de l'attaque détermine la nature du coup, avec par exemple un coup de pied pour les attaques en « p », un coup de poing pour les attaques en « b » et une strangulation pour les attaques en « I ». La nature de la voyelle détermine par exemple s'il s'agit d'un coup de pied ou de poing donné du côté gauche ou du côté droit. La hauteur de la note détermine par exemple s'il s'agit d'un coup donné vers le haut ou vers le bas et l'intensité détermine par exemple la force de la frappe.
Dans chacun de ces cas, la consonne ou la voyelle peut être remplacée par la famille de consonnes ou de voyelles à laquelle elle appartient dans la classification de l'API (Association Phonétique Internationale). Par exemple, les algorithmes mis en œuvre permettent soit d'isoler une consonne ou une voyelle, soit de choisir d'isoler les labiales ([p], [b], [f], [V], [m], [W]) par rapport aux dentales ([t], [d], [s], [z], [n], [H], [I]) et aux vélo-palatales ([k], [g], [S], [Z], [J], [j], [R]). On peut aussi choisir d'isoler les occlusives voisées ([b], [d], [g]), par rapport aux occlusives non voisées ([p], [t], [k]), aux fricatives voisées ([v], [z], [Z]), aux fricatives non voisées ([f], [s], [S]), aux nasales ([m], [n], [J]), aux glissantes ([w], [H], [j]) et aux liquides ([I], [R]. On peut aussi choisir de regrouper plusieurs de ces classes entre elles et segmenter par exemple les consonnes en occlusives non voisés, occlusives voisées et autres.
Les attaques et les consonnes sont utilisées comme contrôleur impulsionnel c'est-à-dire que la technologie mise en œuvre permet d'identifier la présence d'une attaque dans le signal vocal et/ou de caractériser la consonne ou la famille de consonne à laquelle appartient cette attaque. La présence d'une attaque et/ou la consonne ou famille de consonne à laquelle appartient cette attaque est transmise à l'organe à contrôler. Ainsi par exemple, la présence d'une attaque peut déclencher le tir dans une application de jeu vidéo. Dans une application de type souris, la présence d'une attaque peut-être assimilée à l'action de cliquer et la présence de deux attaques très rapprochées peut correspondre à un double clic. La nature de l'attaque peut permettre de préciser l'action à mettre en œuvre. Par exemple dans une application de jeu vidéo, un « p » peut être associé à un tir de fusil alors qu'un « b » correspondra à l'envoie d'une bombe. Dans une application de type souris, un « p » pourra être associé à un clic effectué sur le bouton de droite, alors qu'un « b » pourra être associé à un clic effectué sur le bouton de gauche. Les autres paramètres détectés dans la voix et en particulier la hauteur, l'intensité, ainsi que la position dans le triangle vocalique et/ou leur combinaison peuvent être utilisés comme contrôleur impulsionnel ou continu. Dans cette approche, on mesure en temps réel un ou plusieurs de ces paramètres et on leur attribue une valeur comprise, dans un exemple, entre 0 et 100. Le paramètre d'intensité peut s'appliquer à l'ensemble du signal mais aussi aux seules consonnes ou aux seules voyelles.
L'organe 4 peut comporter un module 13 de contrôle de jeu vidéo. Ce module 13 contrôle des personnages, des véhicules, des structures graphiques, des qualités d'image, en fonction des paramètres 17. Par exemple dans un jeu, les paramètres continus extraits de la voix sont utilisés pour contrôler un avion dans ses trois dimensions de déplacement. Dans un exemple, le volume est associé à l'accélérateur (axe y), la hauteur de la note à l'incidence (axe z) et la position sur l'axe [a]-[u] du triangle vocalique à la direction (axe y). L'information envoyée à l'organe à contrôler peut être traitée de plusieurs façons. Dans un traitement impulsionnel, l'information n'est envoyée qu'à condition que la valeur du paramètre dépasse un certain seuil, dans un sens ou dans l'autre. C'est-à-dire si le son de la voix est d'une hauteur supérieure ou inférieure à une hauteur de référence, d'une intensité supérieure ou inférieure à une intensité de référence, ou si la position dans le triangle vocalique est suffisamment proche d'un certain point, selon l'un des trois axes [a]-[u], [u]-[i] ou [i]-[a] du triangle vocalique (voir figure 2f). Dans ce cas, les paramètres continus sont utilisés comme un contrôleur impulsionnel et l'information transmise à l'organe à contrôler est de nature binaire. Dans un traitement continu, l'information issue des descripteurs continus est traitée en prenant en compte leur nature continue. Dans ce cadre, l'information utilisée pour contrôler l'organe à contrôler est la valeur de ces paramètres continus (comprise dans un exemple entre 0 et 100).
La valeur des paramètres continus utilisée, peut être la valeur du paramètre à un instant donné. On peut aussi transformer ces paramètres et calculer leur dérivée ou leur dérivée seconde. Dans le cas du contrôle d'un curseur sur un écran, la dérivée pourra être naturellement associée à la vitesse de déplacement du curseur.
Ainsi, dans un exemple simple, la voix contrôle un curseur comme par exemple dans un jeu de vaisseaux spatiaux de type Space Invaders. Dans ce cadre, le [a] pourrait signifier un mouvement à gauche, alors que le [u] signifiera un mouvement vers la droite. Dans une approche binaire, on déclenchera un mouvement vers la gauche si le son est suffisamment proche du [a], ou plus précisément si la valeur de la position selon l'axe [a]-[u] du triangle vocalique est inférieure à un certain seuil, le son [a] correspondant dans cet exemple à 0 et le son [u] à 100.
Dans un traitement continu, c'est la valeur selon l'axe [a]-[u] qui est directement utilisée. Dans ce cadre, plusieurs modes de traitement sont décrits. On peut affecter directement la valeur à une position décrite par ses coordonnées. Ce mode de traitement permet un déplacement rapide du curseur mais il peut être difficile à contrôler en raison d'un déplacement trop rapide. On peut aussi affecter la valeur à une vitesse de déplacement. Ainsi un [a] associé à une valeur 0 induira un déplacement rapide à gauche et un [u] associé à une valeur 100 induira un déplacement rapide à droite. Pour des déplacement de vitesse plus modérée, il conviendra dans ce cas d'émettre un [O] pour un déplacement lent vers la gauche et un [o] pour un déplacement lent vers la droite. Dans ce dernier cas, c'est la dérivée première de la position selon l'axe [a]-[u] qui est utilisée pour contrôler la vitesse de déplacement à l'écran. Ce dernier exemple a été détaillé en utilisant comme paramètre de contrôle la position selon l'axe [a]-[u] du triangle vocalique, mais on peut appliquer le même raisonnement à n'importe lequel des paramètres continus détectés dans la voix et ou à leur combinaison.
Afin d'obtenir une position ou un déplacement maîtrisé, la valeur instantanée des paramètres continus peut être moyennée selon une fenêtre temporelle qui est réglée lors de la conception du jeu ou du programme en fonction de l'application spécifique.
Le système utilisé pour décrire le déplacement d'un mobile en deux ou trois dimensions peut utiliser tout système de coordonnées permettant de décrire la position ou le déplacement d'un mobile dans un univers à 2, 3 ou n dimensions, et en particulier des coordonnées cartésiennes ou polaires. Le nombre n de dimensions peut être supérieur à 3 si par exemple on décide de contrôler en plus des trois dimensions associées au déplacement d'un solide, les trois dimensions associées au contrôle de sa rotation et/ou des paramètres d'ambiance comme par exemple la luminosité ou la couleur de l'image. Le référentiel de description de la position peut être fixe ou mobile. Par référentiel mobile, on entend référentiel dans lequel le système de coordonnées est décrit par rapport à la position et à l'orientation de l'objet à contrôler alors qu'un référentiel fixe est immobile et indépendant de la position ou de l'orientation dudit objet.
L'invention permet de concevoir des jeux à contrôle vocal ou d'autres applications simples n'utilisant que certains des paramètres continus ou impulsionnels proposés. Dans le cadre du contrôle d'un jeu vidéo ou d'autres applications plus perfectionnées, l'invention permet d'utiliser simultanément ou successivement les nombreux paramètres impulsionnels et continus extraits de la voix pour contrôler les nombreux degrés de libertés de jeux ou d'autres applications requerrant une plus grande finesse de contrôle. Ainsi, on peut imaginer dans un niveau débutant ne prendre en compte que certains des paramètres et enrichir les possibilités de contrôle au fur et à mesure de la progression du joueur.
Dans les exemples précédents, la valeur des paramètres de contrôle peut être corrigée d'une valeur de calibration correspondant à la valeur mesurée de ces paramètres lorsque aucun son de voix n'est émis ou à tout autre type de calibration pouvant être définit par le concepteur du programme ou du jeu.
Dans ces exemples, la technologie peut être qualifiée de « contrôleur vocal » et peut être proposée seule ou dans une approche multimodale, c'est à dire en complément des interfaces de jeux existantes, tels que le clavier, le joystick, le gamepad ou des capteurs de positions ou de mouvements. En variante, le module 3 commande un module 14 qui peut être un module pour le contrôle d'un personnage virtuel, ou un système électronique tel qu'un robot ou tout autre système informatique ou électronique. Suivant les applications envisagées, l'organe 4 comporte un ou plusieurs des éléments 13, 14. Ces organes 13, 14 peuvent être indépendants et se connecter sur le module 3 qui est lui-même indépendant. La figure 2a montre une représentation schématique détaillée du système 1 selon l'invention qui comporte l'organe 4 à contrôler relié au module 3 de contrôle par l'intermédiaire d'un module 23 d'adaptation. Ce module 23 d'adaptation assure une correspondance entre les paramètres de sorties du module 3 et les paramètres d'entrée de l'organe 4 à contrôler.
Plus précisément, le microphone 2 émet un signal analogique 5 à destination d'un convertisseur analogique numérique 21 qui échantillonne des fenêtres d'échantillons. La finesse de l'échantillonnage peut dépendre de la précision attendue par l'utilisateur, ou de la puissance de calcul disponible dans un produit ou une plateforme cible. Le signal échantillonné 22 est représenté à la figure 2b. Ce signal 22 comporte à un instant k une attaque ak, généralement de grande amplitude, et des tenues tki, de faible amplitude. Les attaques ak correspondent en fait à une consonne de la voix et les tenues tki correspondent à une voyelle ou à une succession de voyelles. Le signal 22 est envoyé à destination d'un module 6.1 de segmentation qui détecte et isole ces différentes consonnes ak. A cet effet, le module 6.1 de segmentation détecte chaque nouvelle consonne à l'aide d'un algorithme HFC (High Frequency Content en anglais). Cet algorithme accentue les composantes haute fréquence d'une portion du signal 22 en effectuant une somme linéairement pondérée des modules des composantes spectrales. A partir de ces accentuations, on détecte les pics en début de note correspondant aux consonnes. On extrait ensuite les voyelles qui se situent entre deux pics d'amplitude.
En variante, les algorithmes d'énergie, de différence spectrale, de déviation de phase, ou d'approche combinée dans le domaine complexe, pourraient également être utilisés pour la détection des consonnes. Toutefois, de manière étonnante, l'expérience montre que l'algorithme HFC détecte les consonnes de la voix avec un taux de réussite bien supérieur à celui des autres algorithmes cités. En outre, comme représenté à la figure 2c, un module 6.2 de détection relié à une sortie du module de segmentation détecte à quelle classe la consonne détectée fait partie. A cet effet, on détermine au préalable trois classes de consonnes, une première A1 comportant les consonnes [p, t, k], une deuxième A2 comportant les consonnes [b, d, g], une troisième A3 comportant les consonnes [m, n, I]. La deuxième et la troisième classe A2, A3 regroupent des consonnes qui présentent, selon l'ouvrage de Jackobson intitulé « Preliminaries to Speech Analysis », un caractère voisé alors que la première classe A1 ne présente pas un tel caractère. Le caractère voisé se traduit fréquentiellement par un renforcement des fréquences autour de 250 Hz. La troisième classe A3 regroupe des consonnes à caractère vocalique, alors que les consonnes de la première et de la deuxième classe A2 ne présentent pas un tel caractère. Une consonne est vocalique si sa source phonatoire est unique, périodique, de faible amortissement et d'attaque non abrupte. Ainsi, en détectant le caractère voisé ou non voisé, ainsi que le caractère vocalique ou non vocalique des attaques, il est possible de distinguer rapidement ces classes de consonnes deux à deux.
Dans une variante, trois autres groupes de consonnes pourraient être formés à condition qu'ils puissent être distingués par les tests vocaliques et de voisement et par exemple que le premier groupe soit constitué de consonnes non voisées et non vocaliques, le deuxième groupe de consonnes voisées et non vocaliques et le troisième groupe de consonnes voisées et vocaliques. Le caractère voisé et vocalique des consonnes du français est décrit dans le tableau 2e. Dans une réalisation, le module d'analyse détecte le caractère voisé à l'aide d'une fonction d'auto-corrélation ou du centroïde spectral sur la bande 50-3000 Hz appliqué sur le signal de la consonne détectée
Dans une réalisation, le module d'analyse détecte le caractère vocalique ou non vocalique d'une consonne, en considérant l'énergie d'une bande de fréquence du signal ou l'énergie totale de la consonne qui possède des valeurs différentes suivant la consonne.
En fonction de l'appartenance de la consonne détectée à l'une ou l'autre de ces classes, l'action réalisée dans le jeu vidéo ou dans toute application est différente. Par exemple dans un jeu de Karaté, le coup est appuyé si l'attaque ak de la note fait partie de la première classe A1 (si l'utilisateur s'exprime en « te, ta, ti » par exemple), tandis que le coup est par exemple mois fort mais plus rapide si l'attaque ak de la note fait partie de la deuxième ou troisième classe A2, A3 (si l'utilisateur s'exprime en « be, bi, bou » par exemple). En variante; il est bien entendu possible de définir plus ou moins de trois classes. En parallèle, une analyse est réalisée en continue sur les voyelles tki de manière à déterminer la hauteur, l'intensité et le timbre de ces voyelles. A cet effet, le module 6.2 comporte un module extracteur de fréquence, un module extracteur d'intensité, et un module extracteur de timbre. Dans une variante, l'extraction de la fréquence fondamentale est réalisée à partir de l'algorithme Yin décrit dans le document de brevet de France Télécom (n° d'enregistrement national français 01 07284).
Le module extracteur d'intensité mesure l'intensité de la voix de l'utilisateur. L'intensité de la voix permettant de contrôler par exemple la force d'un coup dans un jeu de Karaté ou la puissance d'un coup de feu dans un jeu de tir.
Le module extracteur de timbre extrait le type de timbre des voyelles. Le timbre des voyelles est caractérisé par ses trois premiers formants F1 , F2, F3 et peut être approché suffisamment précisément à partir des deux premiers formants F1 et F2. A cette fin, le module extracteur de timbre positionne l'état instantané de la voyelle sur le triangle vocalique représenté à la figure 2f, les coordonnées d'une voyelle dans le plan F1-F2 pouvant être une source de contrôle bidimensionnel intéressante.
A cette fin, le module extracteur calcule en temps réel le centroïde spectral correspondant au barycentre du spectre d'amplitude de la voyelle. Dans une variante, le type de voyelle est analysé à partir du calcul de l'aire spectrale pondérée.
Pour augmenter la richesse expressive du contrôle, il est également possible de détecter précisément la voyelle ou une classe de cette voyelle parmi différentes classes définies, l'action contrôlée dépendant du type de voyelle et/ou de la classe de cette voyelle. Ainsi, dans un exemple, pour un signal de voix de même hauteur et de même intensité, la prise de Karaté associée au « pi » sera différente de celle au « pa », ou au « pe »
Le module d'analyse 6.2 extrait ainsi N paramètres numériques 17 qui sont appliqués sur des entrées du module 23 d'adaptation. Ce module 23 transforme ces N paramètres numériques en P paramètres numériques qui sont appliquées sur P entrées du module à contrôler, P étant différent ou égal à N. A cet effet, le module 23 combine les N paramètres entre eux, de manière que chacun des P paramètres numériques observables en sortie du module 23 soit une combinaison des N paramètres d'entrée. La figure 2d montre une matrice, dite matrice de mapping, associée au module 23 d'adaptation qui est appliquée aux N données d1 -dN du signal 17. Cette matrice comporte N lignes et P colonnes, de manière à obtenir un signal de données 25 comportant P données d'1-d'P à partir du signal 17. La matrice d'adaptation peut être adaptée selon le type de jeu ou d'application à contrôler, le niveau de l'utilisateur (professionnel, amateur, débutant). Les paramètres x11 à xNP de la matrice de mapping peuvent être des constantes (adaptation linéaire) mais aussi des fonctions mathématiques des paramètres d1 à dN et du temps (adaptation non linéaire). Dans une variante, on conserve dans une matrice historique la valeur instantanée de l'ensemble ou de certains des paramètres d1 à dN. Cette matrice historique pourra être limitée à la dernière minute de jeu par exemple. Les valeurs contenues dans cette matrice historique sont utilisées pour effectuer des opérations mathématiques sur l'évolution des paramètres d1 à dN. On pourra par exemple calculer leur moyenne, leur écart type ou d'autres opérations statistiques.
Dans une variante, dans laquelle on s'intéresse en particulier à la variation des paramètres d'entrée d1 à dN, on pourra calculer la dérivée et/ou la dérivée seconde de ces paramètres. On obtient alors 2N ou 3N paramètres. On réapplique alors la même méthode d'interfaçage avec une matrice à 2N ou 3N lignes et à P colonnes. Pour ne pas augmenter inutilement la taille de la matrice, on peut décider de ne calculer la dérivée, et ou la dérivée seconde que pour ceux des paramètres où elle est utile.
Dans une variante, la matrice peut être remplacée par un réseau de neurones ou d'autres techniques classiques de l'Intelligence Artificielle et ledit réseau est paramétré automatiquement ou semi automatiquement à partir d'un corpus de test de référence. Dans une version sophistiquée, la matrice ou le réseau de neurones est affiné pour un utilisateur particulier en donnant une pondération spécifique au mode de jeu de cet utilisateur. Dans l'invention, les algorithmes utilisés permettent une exploitation multilocuteurs sans apprentissage. Dans une version évoluée et dédiée à des utilisateurs avancés, le module d'adaptation ajuste le paramétrage en fonction des caractéristiques propres à la voix du locuteur, par exemple en lui demandant de répéter certaines phases de jeu prédéfinies. Les paramètres produits par le module 23 sont appliqués en entrée de l'organe 4 à contrôler. Le module 23 peut ainsi adapter le nombre de paramètres produits par le module 3 d'analyse au nombre de paramètres nécessaires au contrôle du module 3 à contrôler. Par ailleurs, une interface 37 de contrôle peut être reliée à une entrée du module 4 à contrôler ou du module 23 de cartographie. Cette interface de contrôle 37 peut être un contrôleur informatique comme un joystick, gamepad, clavier d'ordinateur ou de téléphone portable, souris ou un contrôleur développé spécifiquement et pouvant comprendre des capteurs de geste ou de mouvement, des surfaces tactiles, des capteurs de pression, ou de torsion, et émet un signal 38 de sortie à destination de l'organe 4 à contrôler ou du module 23 de cartographie.
L'interface 37 peut être utilisée pour contrôler le tir d'un personnage virtuel, alors que la voix sera utilisée pour contrôler ses mouvements ou réciproquement.
Dans une mise en œuvre, les boutons de l'interface 37 sont utilisés pour déclencher des actions impulsionnelles alors que la voix est utilisée pour contrôler les actions continues ou la nature des actions impulsionnelles à contrôler. Par exemple, l'utilisateur émet en permanence un signal continu de type voyelle dont on extrait à chaque instant les paramètres continus (hauteur, intensité, position dans le triangle vocalique). Les signaux impulsionnels sont alors utilisés pour déclencher instantanément une action correspondant aux paramètres continus mesurés précédemment.
Par exemple un utilisateur émet de manière continue un A correspondant à une hauteur et une intensité donnée. A l'instant ou il appuie sur un bouton, on déclenche un coup de pied ou de poing ou toute autre action prédéfinie, correspondant aux valeurs continues qui ont déjà été précalculées. Cette méthode de mise en œuvre permet un déclenchement très rapide des actions impulsionnelles, sans avoir besoin de calculer les fonctions continues qui peuvent pour certaines et notamment pour la hauteur nécessiter un temps de calcul trop élevé pour donner une impression de parfaite simultanéité.
Dans une mise en œuvre, les boutons de l'interface 37, sont utilisés pour déclencher des actions impulsionnelles alors que la voix est utilisée pour contrôler les actions continues ou l'évolution des actions déclenchées de façon impulsionnelles. Les boutons de déclenchement impulsionnel peuvent soit fournir simplement une impulsion (oui ou non), soit une valeur (boutons à sensibilité).
Dans une réalisation, la combinaison des paramètres d'expressivité peut aussi permettre de contrôler les gestes, mimiques, expressions faciales, synchronisation labiale, hérissement des cheveux ou des poils, couleur du visage ou du corps, d'un personnage à partir de la voix du joueur, l'expression corporelle du personnage étant alors en cohérence avec etc. l'expression vocale du joueur. Les différents modules décrits peuvent bien entendus prendre la forme de modules logiciels ou électroniques. Le module d'adaptation peut être intégré au module d'analyse ou au module à contrôler. Dans une réalisation les trois modules sont intégrés à l'intérieur d'un seul et même module.
L'invention s'étend également au dispositif matériel apte à mettre en œuvre le procédé décrit ci-dessus.

Claims

REVENDICATIONS
1 - Procédé de contrôle d'un organe numérique par un signal de voix d'un utilisateur dans lequel les étapes suivantes sont mises en œuvre en combinaison :
- extraire des paramètres d'expressivité de ce signal de voix, ces paramètres d'expressivité étant
- les paramètres de musicalité tels que la hauteur, le volume, et les attaques, et/ou le timbre du signal de voix, ainsi que - les paramètres prosodiques de ce signal de voix, ces paramètres prosodiques étant relatifs à la présence de consonnes et aux voyelles détectées,
- cette étape d'extraction permettant la mesure de la structure formelle et de l'expressivité du flux vocal, et ne visant pas à l'identification ou à la reconnaissance de mots contenus dans le signal de voix, et
- contrôler l'organe numérique ou logiciel en fonction des paramètres d'expressivité extraits.
2 - Procédé selon la revendication 1 , caractérisé en ce que on détecte l'appartenance de la consonne détectée à une famille de consonnes, le contrôle de l'organe étant fonction de la classe à laquelle la consonne détectée appartient.
3 - Procédé selon la revendication 2, caractérisé en ce que le contrôle de l'organe est de type impulsionnel,
- la famille de consonnes étant envoyée à l'organe, un type de contrôle spécifique étant associé à chaque famille de consonnes ou d'attaque susceptible d'être détecté.
4 - Procédé selon la revendication 2 ou 3, dans lequel, pour détecter la famille de consonnes, il comporte les étapes suivantes :
- mettre en œuvre un algorithme HFC (High Frequency Content en anglais) sur des composantes spectrales du signal de voix pour détecter la consonne et - effectuer un test de voisement et un test vocalique sur la consonne détectée, de manière à séparer trois familles de consonnes présentant pour caractéristiques que la première famille est non voisée et non vocalique, la deuxième famille est voisée et non vocalique, et la troisième famille est voisée et vocalique,
- un type de contrôle spécifique étant associé à chacune de ces trois familles.
5 - Procédé selon la revendication 4, dans lequel : - la première famille est constituée des consonnes [p, t, k], la deuxième famille des consonnes [b,d,g] et la troisième famille des consonnes [m, n, I].
6 - Procédé selon la revendication 4 ou 5, dans lequel : - le test de voisement est réalisé en premier, et le test vocalique en second,
- le caractère voisé ou non voisé de la consonne étant déterminé à l'aide du premier coefficient d'autocorellation ou du centroïde spectral du signal de voix, - le caractère vocalique ou non vocalique de la consonne étant déterminé à l'aide de l'énergie totale ou dans une bande de fréquences du signal de voix.
7 - Procédé selon l'une des revendications 1 à 6, caractérisé en ce que le contrôle de l'organe étant de type impulsionnel, il comporte les étapes suivantes :
- mesurer, à un instant donné, la valeur d'un paramètre continu de la voix susceptible de varier de manière continu dans le temps, tel que la hauteur ou l'intensité, - envoyer à l'organe un résultat de la comparaison entre un seuil et la valeur de ce paramètre continu,
- un premier type de contrôle étant associé au résultat de la comparaison indiquant que le paramètre continu est supérieur au seuil,
- un deuxième type de contrôle étant associé au résultat de la comparaison indiquant que le paramètre continu est inférieur au seuil. 8 - Procédé selon l'une des revendications 1 à 7, caractérisé en ce que le contrôle de l'organe étant de type continu, il comporte les étapes suivantes :
- mesurer, à un instant donné, la valeur d'un paramètre continu de la voix susceptible de varier de manière continu dans le temps, tel que la hauteur ou l'intensité,
- envoyer à l'organe cette valeur du paramètre continu,
- le contrôle continu de l'organe dépendant de cette valeur du paramètre.
9 - Procédé selon la revendication 8, caractérisé en ce que :
- la valeur continue est la valeur d'un paramètre d'expressivité à un instant donné, ou la dérivée, ou la dérivée seconde de ce paramètre d'expressivité.
10 - Procédé selon la revendication 9, caractérisé en ce que :
- l'organe à contrôler étant un curseur graphique, la dérivée du paramètre d'expressivité est associée à la vitesse de ce curseur.
1 1 - Procédé selon l'une des revendications 8 à 10, caractérisé en ce que :
- la valeur continue est élaborée à partir d'une mesure d'un paramètre d'expressivité selon l'un des trois axes du triangle vocalique.
12 - Procédé selon la revendication 1 1 , dans lequel pour mesurer le paramètre d'expressivité selon l'un des trois axes du triangle vocalique,
- on caractérise le timbre par les trois premiers formants de la voix F1 , F2 et F3 ou par les deux premiers F1 et F2.
13 - Procédé selon l'une des revendications 7 à 12, dans lequel, pour mesurer, à un instant donné, la valeur d'un paramètre continu de la voix susceptible de varier de manière continu dans le temps, tel que la hauteur ou l'intensité, on met en oeuvre l'algorithme de Yin.
14 - Procédé selon l'une des revendications 1 à 13, dans lequel : - le temps de réponse pour l'extraction des paramètres d'expressivité est inférieur à 40 ms pour que l'utilisateur ait une sensation de parfaite simultanéité et cohérence entre son expression vocale et le contrôle de l'organe.
15 - Procédé selon l'une des revendications 1 à 14, caractérisé en ce que :
- des paramètres issus d'autres interfaces (37) homme/machine, telle que des boutons, un clavier ou un joystick sont utilisés en combinaison avec les paramètres d'expressivité pour le contrôle de l'organe.
16 - Procédé selon la revendication 15, caractérisé en ce que :
- les boutons de l'interface (37) sont utilisés pour déclencher des actions impulsionnelles, les actions impulsionnelles étant des actions instantanées, alors que
- les paramètres de la voix sont utilisés pour contrôler la nature ou l'évolution des actions impulsionnelles à contrôler, ou encore pour contrôler les actions continues, les actions continues étant des actions qui évoluent dans le temps.
17 - Procédé selon l'une des revendications 1 à 16, dans lequel, pour adapter un nombre N de paramètres d'expressivité à un nombre P d'entrées de l'organe :
- on combine entre eux les N paramètres d'expressivité à l'aide d'une matrice à N lignes et P colonnes de coefficient x11 à xNP, ces coefficients pouvant être des constantes et/ou valeurs variant en fonction du temps.
18 - Procédé selon la revendication 17, caractérisé en ce qu'il comporte l'étape suivante : - ajouter aux N paramètres leur dérivée et/ou leur dérivée seconde.
19 - Procédé selon l'une des revendications 1 à 18, dans lequel l'organe à contrôler est logiciel et permet le contrôle d'un objet virtuel, tel qu'un personnage ou un véhicule ou un avion d'un jeu vidéo, cet objet virtuel se déplaçant ou réalisant des actions en fonction des paramètres d'expressivité.
20 - Procédé selon la revendication 17, dans lequel N paramètres d'expressivité vocale commandent P paramètres de contrôle contrôlant l'expressivité d'un personnage virtuel traduite notamment par des gestes, des mimiques, des expressions faciales, une synchronisation labiale, un hérissement des cheveux ou des poils, la couleur du visage ou du corps.
21 - Dispositif matériel apte à mettre en œuvre le procédé selon l'une des revendications précédentes.
PCT/FR2007/051807 2006-09-01 2007-08-09 Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe WO2008025918A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP07823711A EP2070078A1 (fr) 2006-09-01 2007-08-09 Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe
JP2009526152A JP2010501955A (ja) 2006-09-01 2007-08-09 デジタル装置のリアルタイム制御のための音声のリアルタイム解析方法ならびに付帯する装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0653557 2006-09-01
FR0653557A FR2905510B1 (fr) 2006-09-01 2006-09-01 Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe

Publications (1)

Publication Number Publication Date
WO2008025918A1 true WO2008025918A1 (fr) 2008-03-06

Family

ID=37772626

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2007/051807 WO2008025918A1 (fr) 2006-09-01 2007-08-09 Procede d'analyse en temps reel de la voix pour le controle en temps reel d'un organe numerique et dispositif associe

Country Status (4)

Country Link
EP (1) EP2070078A1 (fr)
JP (1) JP2010501955A (fr)
FR (1) FR2905510B1 (fr)
WO (1) WO2008025918A1 (fr)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258366A (ja) * 2008-04-16 2009-11-05 Arcadia:Kk 音声制御装置
GB2468140A (en) * 2009-02-26 2010-09-01 Dublin Inst Of Technology A character animation tool which associates stress values with the locations of vowels
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2940497B1 (fr) 2008-12-23 2011-06-24 Voxler Procede de pilotage d'une application a partir d'un signal de voix et dispositif associe pour sa mise en oeuvre.

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BLOIT J: "Analyse temps reel de la voix pour le contrôle de synthese audio", INTERNET CITATION, 1 September 2005 (2005-09-01), XP007901682, Retrieved from the Internet <URL:http://recherche.ircam.fr/equipes/repmus/webatiam/Stages/Stages0405/Bloit.pdf> [retrieved on 20070208] *
MALKIN J ET AL: "Energy and Loudness for Speed Control in the Vocal Joystick", AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, 2005 IEEE WORKSHOP ON NOV. 27, 2005, PISCATAWAY, NJ, USA,IEEE, 27 November 2005 (2005-11-27), pages 409 - 414, XP010871190, ISBN: 0-7803-9478-X *
See also references of EP2070078A1 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258366A (ja) * 2008-04-16 2009-11-05 Arcadia:Kk 音声制御装置
GB2468140A (en) * 2009-02-26 2010-09-01 Dublin Inst Of Technology A character animation tool which associates stress values with the locations of vowels
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11386909B2 (en) 2017-11-10 2022-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation
US12033646B2 (en) 2017-11-10 2024-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Also Published As

Publication number Publication date
JP2010501955A (ja) 2010-01-21
FR2905510A1 (fr) 2008-03-07
FR2905510B1 (fr) 2009-04-10
EP2070078A1 (fr) 2009-06-17

Similar Documents

Publication Publication Date Title
WO2008025918A1 (fr) Procede d&#39;analyse en temps reel de la voix pour le controle en temps reel d&#39;un organe numerique et dispositif associe
Bertero et al. A first look into a convolutional neural network for speech emotion detection
Incze et al. Bird sound recognition using a convolutional neural network
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN109243491B (zh) 在频谱上对语音进行情绪识别的方法、系统及存储介质
Vijayalakshmi et al. Sign language to speech conversion
JP6617053B2 (ja) 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
US20200105267A1 (en) Processing speech signals in voice-based profiling
EP2381845A1 (fr) Dispositif et methode de caracterisation de mouvements
Schramm et al. Dynamic time warping for music conducting gestures evaluation
JP7383943B2 (ja) 制御システム、制御方法、及びプログラム
CN108320735A (zh) 一种多数据融合的情感识别方法及系统
KR20220072807A (ko) 무음 부분을 자연스럽게 처리하는 음성 합성 시스템
KR102528019B1 (ko) 인공지능 기술에 기반한 음성 합성 시스템
Wani et al. Stride based convolutional neural network for speech emotion recognition
Barron-Estrada et al. Multimodal recognition of emotions with application to mobile learning
CN114974312B (zh) 一种虚拟人情绪生成方法与系统
WO2010072965A1 (fr) Procédé de pilotage d&#39;une application à partir d&#39;un signal de voix et dispositif associé pour sa mise en oeuvre
Jegan et al. MFCC and texture descriptors based stuttering dysfluencies classification using extreme learning machine
Kaur Mouse movement using speech and non-speech characteristics of human voice
Yang et al. Context-rich detection of user’s emotions using a smartphone
Adesola et al. Implementation of Multi-modal Speech Emotion Recognition Using Text Data and Audio Signals
KR102503066B1 (ko) 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템
KR102463570B1 (ko) 무음 구간 검출을 통한 멜 스펙트로그램의 배치 구성 방법 및 음성 합성 시스템
Beller Gestural Control of Real Time Concatenative Synthesis.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07823711

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2007823711

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2009526152

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE