WO2016162416A1 - Dispositif et procede de commande gestuelle en temps reel de signal audio - Google Patents

Dispositif et procede de commande gestuelle en temps reel de signal audio Download PDF

Info

Publication number
WO2016162416A1
WO2016162416A1 PCT/EP2016/057613 EP2016057613W WO2016162416A1 WO 2016162416 A1 WO2016162416 A1 WO 2016162416A1 EP 2016057613 W EP2016057613 W EP 2016057613W WO 2016162416 A1 WO2016162416 A1 WO 2016162416A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
data
human body
gestural
sound
Prior art date
Application number
PCT/EP2016/057613
Other languages
English (en)
Inventor
Thomas Jean-Roger Mathieu AMILIEN
Jean-Baptiste GUIGNARD
Original Assignee
Amilien Thomas Jean-Roger Mathieu
Guignard Jean-Baptiste
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amilien Thomas Jean-Roger Mathieu, Guignard Jean-Baptiste filed Critical Amilien Thomas Jean-Roger Mathieu
Publication of WO2016162416A1 publication Critical patent/WO2016162416A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information

Definitions

  • the reading speed being the speed of extraction of the original audio signal during the reading operation
  • the storage of the working audio signal 361 in a buffer memory 36 does not mean that it is necessary to perform a pre-reading of the audio or audio-video file 1 to apply reading parameters or any other type of signal processing, including including a time stretching operation (see below).

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

L'invention concerne un dispositif et un procédé de commande gestuelle en temps réel de signal audio permettant, en fonction de données gestuelles (311), de modifier des paramètres de lecture (marche/arrêt, vitesse de lecture) et d'appliquer des effets sonores à un signal audio d'arrivée (321). Ce signal audio d'arrivée (321) est généré en continu à partir d'un signal audio de travail (361) correspondant au signal audio d'origine (11) extrait au fur et à mesure d'une opération de lecture d'un fichier (1) audio ou audio-vidéo. Les données gestuelles sont générées à partir de positions successives d'au moins une partie (91a, 91b) d'un corps humain (9) détectées dans un champ de captation (21) par un capteur (2).

Description

« Dispositif et procédé de commande gestuelle en temps réel de signal audio »
Domaine technique
La présente invention se rapporte au domaine des interactions homme- machine et des systèmes temps réel.
Plus précisément, la présente invention concerne un dispositif et un procédé de commande gestuelle en temps réel de signal audio.
Etat de la technique antérieure
On connaît dans l'art antérieur des dispositifs de commande gestuelle en temps réel de signal audio.
Par exemple, le système « iSymphony » permet de modifier en temps réel des paramètres tels que la vitesse de lecture ou le volume d'un enregistrement audio numérique par l'intermédiaire de la captation des mouvements d'un bâton. Ce système est doté d'une intelligence permettant typiquement de reconnaître différents types de gestes associés à des trajectoires de ce bâton dans un champ de captation (espace physique) et de modifier, en fonction du type de geste reconnu, de tels paramètres. Ce système permet aussi de réaliser une opération d'étirement temporel, appelée « time-stretching » en anglais.
Un inconvénient d'un tel système est qu'il implique de réaliser une lecture préalable de l'enregistrement audio numérique, notamment pour mettre en œuvre l'opération d'étirement temporel. Une lecture préalable du fichier doit être réalisée, à la vitesse nominale de lecture, afin de repérer à l'avance des points caractéristiques de l'enregistrement audio numérique.
Un autre système connu est le système « TimeFlux » qui permet notamment de modifier la vitesse de lecture d'un enregistrement audio, par exemple par l'intermédiaire d'une souris d'ordinateur ou d'un capteur optique (par exemple un capteur « Leap Motion ») capable de détecter des déplacements d'une ou deux mains dans un champ de captation (espace physique).
Un inconvénient d'un tel système est qu'il ne permet pas de réaliser une opération d'étirement temporel en temps réel, c'est-à-dire sans prétraitement du fichier, et sans changement de tonalité. Un autre inconvénient est que ce système nécessite une multiplicité de plug-ins (ou greffons logiciels), ne lui permettant pas de constituer un système clef-en-main.
Un autre inconvénient de ce système est qu'il ne permet pas de personnaliser des effets à appliquer à l'enregistrement audio en fonction de gestes d'un utilisateur.
Encore un autre inconvénient est que ce système n'est pas ouvert à n'importe quel fichier sonore ou musical : ce système est contraint par une banque de sons prétraitée et bornée.
Un autre inconvénient d'un tel système est qu'il requiert des connaissances poussées en musique assistée par ordinateur (MAO) et qu'il doit être utilisé au sein d'un environnement de type « studio à la maison » (ou « home studio » en anglais). Un objectif de l'invention est de remédier à tout ou partie des inconvénients des dispositifs de commande de l'état de la technique qui visent à influer sur la reproduction de signaux audio par le geste.
Un objectif particulier de l'invention est de proposer un dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio qui permette de s'affranchir de tout prétraitement de ce signal audio, préalablement à sa reproduction. En l'occurrence, l'invention a pour objectif de permettre une interaction sur la reproduction d'un signal audio encodé dans un fichier numérique, sans décodage préalable de l'ensemble de ce fichier numérique.
Exposé de l'invention
Cet objectif est atteint avec un dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio, ce dispositif étant agencé pour recevoir un fichier, de préférence numérique, audio ou audio-vidéo encodant un signal audio d'origine, ce dispositif comprenant :
- un capteur, par exemple le système Leap Motion® ou un smartphone, agencé pour détecter dans un champ de captation multidimensionnel, de préférence tridimensionnel, une position d'au moins une partie d'un corps humain, de préférence d'au moins une main,
- un système de traitement informatique comprenant : o un module de gestion de données gestuelles agencé pour générer des données gestuelles à partir de positions successives de l'au moins une partie dudit au moins un corps humain détectées par le capteur,
o un module de gestion de données audio agencé pour générer en continu un signal audio d'arrivée à partir du signal audio d'origine extrait progressivement du fichier audio ou audiovidéo,
o un module de traitement de signal agencé pour appliquer des effets sonores au signal audio d'arrivée en fonction des données gestuelles.
On entend par effet sonore toute altération du signal, notamment en termes de volume ou d'intensité sonore, d'égalisation en fréquence, de time- stretching, de synthèse granulaire, de fondu, ou encore de réverbération. Les effets sonores peuvent altérer une dynamique du signal, c'est-à-dire influer sur les écarts entre les plus faibles niveaux du signal et ses plus hauts niveaux. Les effets sonores peuvent aussi consister en des effets temporels, modifiant la reproduction temporelle (retards, déphasages, etc.) de tout ou partie du signal. Enfin, les effets sonores peuvent agir sur le spectre fréquentiel du signal, par exemple en filtrant des bandes de fréquences, en décalant des fréquences, ou en générant des harmoniques.
Selon l'invention, le signal audio d'origine est extrait progressivement du fichier audio ou audio-vidéo. Cela signifie que la génération du signal audio d'arrivée à partir d'un échantillon donné du signal audio d'origine ne nécessite l'extraction préalable que de cet échantillon donné. En l'occurrence, les échantillons en amont de cet échantillon donné (situés en arrière dans le temps) ne sont plus nécessaires pour la génération du signal audio d'arrivée, et les échantillons situés en aval de cet échantillon donné (situés plus loin dans le temps) ne sont pas nécessaires. Bien entendu, l'échantillon de signal audio d'origine nécessaire à la génération du signal audio d'arrivée évolue au cours du temps.
En particulier, le module de gestion de données audio peut être agencé, en outre, pour réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine du fichier audio ou audio-vidéo en fonction de paramètres de lecture. Selon une forme particulière de réalisation, le module de traitement de signal est agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles générées par le module de gestion de données gestuelles. Le paramètre est par exemple modifié en fonction de chaque donnée gestuelle ou ensemble de données gestuelles. De préférence, chaque paramètre peut prendre au moins trois valeurs. Il peut typiquement consister en une variable, par exemple comprise entre 0 et 255. Une relation bijective peut être définie entre les données gestuelles et un paramètre de l'effet sonore. L'effet sonore peut ainsi être modifié de manière progressive avec l'évolution d'un geste du corps humain. Les effets sonores concernés par une telle modification concernent notamment une intensité sonore du signal audio d'arrivée, un niveau d'amplification d'une réverbération ou une vitesse de lecture du signal audio d'origine. Ainsi, le module de traitement de signal ne se limite pas à déclencher un effet sonore prédéterminé en fonction de la détection de données gestuelles prédéterminées, par exemple une séquence prédéterminée de positions du corps humain, mais il modifie un ou plusieurs paramètres de cet effet sonore en fonction des données gestuelles.
Toujours selon une forme particulière de réalisation, indépendante de la modification d'un effet sonore décrite ci-dessus, le système de traitement informatique est agencé pour un traitement en temps réel. En particulier, le module de gestion de données gestuelles peut être agencé pour générer une ou plusieurs données gestuelles pour chaque position de la partie du corps humain détectée par le capteur. Typiquement, dans le cas d'un capteur vidéo, un ensemble de données gestuelles est généré pour chaque image du flux vidéo. Autrement dit, les données gestuelles sont générées à une fréquence égale à la fréquence d'acquisition des images du flux. Cette fréquence est par exemple comprise entre 25 et 60 images par seconde.
Les deux formes de réalisation ci-dessus peuvent avantageusement être combinées afin de modifier un effet sonore en temps réel. Autrement dit, un effet sonore appliqué au signal audio d'arrivée est modifié pour chaque donnée gestuelle ou ensemble de données gestuelles associées à une position donnée du corps humain. Le module de traitement de signal est alors agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chaque position de la partie du corps humain détectée par le capteur. Typiquement, dans le cas d'un capteur vidéo, l'effet sonore est modifié au fur et à mesure par chaque ensemble de données gestuelles déterminées pour une image donnée du flux. L'effet sonore est alors modifié à une fréquence correspondant à la fréquence d'acquisition des images ou, plus généralement, à la fréquence d'acquisition des données gestuelles.
Selon une forme particulière de réalisation, le dispositif de commande comprend, en outre :
o un module de gestion de données audio agencé pour réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine du fichier audio ou audio-vidéo en fonction de paramètres de lecture, et éventuellement
o un module de gestion de paramètres de lecture agencé pour modifier au moins l'un des paramètres de lecture suivants en fonction des données gestuelles :
un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en œuvre,
une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine au cours de l'opération de lecture.
Un tel dispositif permet alors de modifier, par le geste :
- des paramètres de lecture (du type lecture, pause, arrêt, vitesse de lecture) du fichier audio ou audio-vidéo reçu par le dispositif, et/ou
- des paramètres sonores (du type des effets sonores mentionnés ci- dessus) du signal audio d'arrivée.
Le module de gestion de données audio et le module de gestion de paramètres de lecture sont de préférence intégrés dans le système de traitement informatique du dispositif de commande. Le module de gestion de données audio peut être agencé, en outre, pour :
o stocker dans une mémoire tampon un signal audio de travail correspondant au signal audio d'origine extrait progressivement du fichier audio ou audio-vidéo, et
o générer en continu le signal audio d'arrivée à partir de ce signal audio de travail.
Il est à noter que le signal audio de travail correspond au signal audio d'origine extrait au fur et à mesure de l'opération de lecture du fichier audio ou audio-vidéo.
Un tel dispositif est notamment avantageux car il permet de détecter des gestes d'un utilisateur non appareillé, pouvant notamment avoir les mains libres de tout dispositif de commande de type bâton, télécommande ou autre dispositif permettant une captation de mouvement.
De plus, le système de traitement informatique permet de traiter en temps réel tout type de fichier audio ou audio numérique, sans lecture préalable de fichier. De préférence, le système de traitement informatique comprend en outre un module de gestion de hauteur sonore agencé pour maintenir une hauteur sonore du signal audio d'arrivée lorsque la vitesse de lecture est modifiée.
On entend par hauteur d'un son la fréquence de vibration de ce son. Lorsque le son est composé de plusieurs fréquences, la hauteur est définie au moins par la fréquence fondamentale de ce son .
Le module de gestion de hauteur sonore est par exemple intégré dans le système de traitement informatique du dispositif de commande. L'au moins une partie du corps humain peut être au moins une main.
Le dispositif permet alors à un utilisateur d'interagir sur la reproduction du signal sonore à la manière d'un chef d'orchestre.
Selon une caractéristique avantageuse, le capteur et le module de gestion de données gestuelles peuvent en outre être agencés pour générer des données gestuelles à partir d'un degré de fermeture de l'au moins une main.
Selon une autre caractéristique avantageuse, le capteur et le module de gestion de données gestuelles peuvent en outre être agencés pour générer des données gestuelles à partir d'un degré d'inclinaison de l'au moins une main.
L'invention concerne aussi un procédé de commande gestuelle en temps réel de la reproduction d'un signal audio comprenant :
- une détection dans un champ de captation multidimensionnel, de préférence tridimensionnel, d'une position d'au moins une partie d'un corps humain, de préférence d'au moins une main,
- une génération de données gestuelles à partir de positions successives de l'au moins une partie dudit corps humain,
- une opération de lecture dans laquelle un signal audio d'origine est progressivement extrait d'un fichier audio ou audio-vidéo en fonction de paramètres de lecture,
- un stockage d'un signal audio de travail correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture,
- une génération en continu d'un signal audio d'arrivée à partir du signal audio de travail,
- une modification d'au moins l'un des, de préférence de tous les, paramètres de lecture suivants en fonction des données gestuelles :
o un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état
« inactif » dans lequel l'opération de lecture n'est pas mise en œuvre, et/ou
o une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine au cours de l'opération de lecture,
- une application d'effets sonores au signal audio d'arrivée en fonction des données gestuelles.
De préférence, les effets sonores appliqués au signal audio d'arrivée comprennent une modification d'une intensité sonore. Avantageusement, l'intensité sonore du signal audio d'arrivée peut être modifiée lorsque les données gestuelles générées traduisent un déplacement de l'au moins une partie dudit corps humain entre deux positions successives situées dans un plan vertical du champ de captation, le plan vertical comprenant de préférence le vecteur de gravité terrestre.
Selon une caractéristique avantageuse, l'intensité sonore du signal audio d'arrivée peut être augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à une deuxième position, et l'intensité sonore du signal audio d'arrivée peut être diminuée lorsque la première position est située à une altitude supérieure à la deuxième position. Selon une autre caractéristique avantageuse, la modification de l'intensité sonore peut comprendre un traitement d'égalisation en fréquence.
De préférence, plus l'intensité sonore est élevée, plus le traitement d'égalisation en fréquence est large en ouverture, c'est-à-dire plus le spectre de fréquences est pleinement restitué. Par exemple, à intensité sonore maximale (100%), toutes les fréquences sont restituées ; lorsque l'intensité sonore s'écarte de cette intensité maximale, c'est-à-dire s'éloigne de 100% et s'approche de 0%, on applique typiquement un filtre passe-haut obstruant des fréquences médium-aigues. Selon une forme particulière de réalisation, la modification de l'intensité sonore comprend un effet de fondu dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore, puis retourne progressivement à la première valeur d'intensité sonore. La première valeur d'intensité sonore est de préférence l'intensité sonore appliquée juste avant le déclenchement de l'effet de fondu. La deuxième valeur d'intensité sonore est par exemple inférieure à la première valeur d'intensité sonore, typiquement de 10 à 30% inférieure. L'effet de fondu peut avoir une durée prédéterminée, par exemple de l'ordre de quelques secondes. Le retour à la première valeur d'intensité est alors effectué indépendamment des données gestuelles. Avantageusement, le mode de lecture reste dans l'état « actif » lorsque l'intensité sonore est modifiée. Selon encore une autre caractéristique avantageuse, l'au moins une partie dudit corps humain peut être une main, et l'intensité sonore peut passer progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées traduisent un mouvement de supination ou de pronation de la main.
La deuxième valeur peut avantageusement être inférieure à la première valeur lorsque les données gestuelles générées traduisent un mouvement de supination de la main. De préférence, la modification de l'intensité sonore s'accompagne d'un traitement de réverbération, de préférence de type « à queue courte » et intensité modérée.
Avantageusement, les effets sonores appliqués au signal audio d'arrivée peuvent comprendre une opération d'étirement temporel au cours de laquelle :
- l'opération de lecture est interrompue,
- le signal audio d'arrivée est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail.
Par échantillon, on entend une partie du signal audio considéré entre deux instants distincts, typiquement séparés l'un de l'autre d'une durée comprise entre quelques dixièmes de secondes et quelques secondes.
Selon une caractéristique avantageuse, l'au moins une partie dudit corps humain est de préférence une main, et l'opération d'étirement temporel est de préférence réalisée pendant toute la durée où les données gestuelles générées traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main. Par mouvement de préhension, on désigne un mouvement par lequel un ou plusieurs doigts de la main se referment, ce ou ces doigts étant dirigés vers la paume de la main. Selon une autre caractéristique avantageuse, l'opération d'étirement temporel comprend un traitement de synthèse granulaire.
Selon encore une autre caractéristique avantageuse, l'opération d'étirement temporel comprend un traitement de réverbération.
De préférence, la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain. La troisième position peut correspondre à la première position et la quatrième position peut correspondre à la deuxième position. Typiquement, lorsque le mouvement est périodique, les troisième et quatrième positions correspondent respectivement aux première et deuxième positions. De préférence, le deuxième intervalle de temps succède dans le temps au premier intervalle de temps.
Avantageusement, la vitesse de lecture peut être ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et la vitesse de lecture peut être accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps.
L'application d'effets sonores comprend par exemple une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles.
La génération de données gestuelles peut comprendre une génération d'une ou de plusieurs données gestuelles pour chacune des positions successives de l'au moins une partie du corps humain. Selon une forme particulière de réalisation, l'application d'effets sonores comprend une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chacune des positions successives de cette partie du corps humain.
Description des figures et modes de réalisation
D'autres avantages et particularités de l'invention apparaîtront à la lecture de la description détaillée de mises en œuvre et de modes de réalisation nullement limitatifs, et de la FIGURE 1 représentant un dispositif selon l'invention recevant un fichier audio ou audio-vidéo, ainsi qu'un individu placé dans un champ de captation.
Les modes de réalisation décrits ci-après étant nullement limitatifs, on pourra notamment considérer des variantes de l'invention ne comprenant qu'une sélection de caractéristiques décrites, isolées des autres caractéristiques décrites (même si cette sélection est isolée au sein d'une phrase comprenant ces autres caractéristiques), si cette sélection de caractéristiques est suffisante pour conférer un avantage technique ou pour différencier l'invention par rapport à l'état de la technique antérieure. Cette sélection comprend au moins une caractéristique, de préférence fonctionnelle sans détails structurels, ou avec seulement une partie des détails structurels si cette partie uniquement est suffisante pour conférer un avantage technique ou pour différencier l'invention par rapport à l'état de la technique antérieure.
Un mode de réalisation de l'invention est illustré en FIGURE 1 faisant apparaître un dispositif de commande gestuelle en temps réel de reproduction d'un signal audio selon l'invention. Ce dispositif est agencé pour recevoir un fichier, de préférence numérique, audio ou audio-vidéo 1. Ce fichier 1 encode typiquement un signal audio d'origine 11 selon tout type de format connu, par exemple MPEG, MP3, WAV, FLAC, etc. Le dispositif de l'invention comprend typiquement un capteur 2 apte à détecter une position d'au moins une partie d'un corps humain 9. Le corps humain 9 est aussi appelé utilisateur dans ce document. Dans un mode de mise en œuvre préféré, l'au moins une partie de l'utilisateur 9 correspond à l'une ou à ses deux mains 91a, 91b.
Le capteur 2 permet de détecter la ou les mains 91a, 91b au sein d'un champ de captation 21 multidimensionnel. Ce champ de captation 21 peut être tout ou partie de l'espace physique tridimensionnel dans lequel se trouve l'utilisateur 9.
Le capteur 2 est par exemple un capteur optique. Afin de capter des mouvements bidimensionnels, le capteur comprend par exemple un élément photosensible formé de points photosensibles agencés sous forme d'une matrice bidimensionnelle. Afin de capter des mouvements tridimensionnels, et/ou des mouvements de préhension d'une main, le capteur peut comporter au moins deux éléments photosensibles chacun formés d'une matrice bidimensionnelle de points photosensibles. Dans la mesure où le dispositif selon l'invention vise à capter des mouvements d'un corps humain, le capteur opère avantageusement dans le domaine infrarouge, c'est-à-dire dans le domaine des longueurs d'ondes sensiblement comprises entre 750 nm et 0,1 mm. Néanmoins, le capteur pourrait également opérer dans le spectre visible. À titre d'exemple non limitatif, le capteur est par exemple le système Leap Motion®, un capteur optique de smartphone, ou tout système équipé notamment d'une ou de plusieurs caméras. Le dispositif de l'invention comprend un système de traitement informatique 3.
Ce système de traitement informatique 3 permet notamment de recueillir des données détectées par le capteur 2. Dans le mode de mise en œuvre ici décrit, ces données correspondent à des gestes manuels de l'utilisateur 9.
Le recueil des données détectées par le capteur 2 est réalisé par un module de gestion des données gestuelles 31 du système de traitement informatique 3. Ce module 31 permet de générer des données gestuelles 311 à partir des données détectées par le capteur 2, en l'occurrence des positions successives de l'une ou des deux mains 91a, 91b de l'utilisateur 9.
Comme illustré en FIGURE 1, le système de traitement informatique 3 peut être agencé pour :
- comparer les données gestuelles générées 311 avec une ou plusieurs séries de données gestuelles de référence 351, 352, 353, 354 stockées dans une bibliothèque 35, et
- générer des données de commande en fonction du résultat de la comparaison.
La comparaison des données gestuelles générées 311 avec des séries de données gestuelles de référence 351, 352, 353, 354 permet d'identifier des types de mouvement réalisés par l'utilisateur 9.
Prenons l'exemple d'une série de données gestuelles de référence 351 correspondant à un geste d'une main 91a occupant successivement deux positions A, B distinctes dans le champ de captation 21, ce geste correspondant par exemple à un déplacement linéaire vertical de la main 91a du bas vers le haut relativement au corps de l'utilisateur 9 placé en position neutre (par exemple en station debout). Dans un tel exemple, le capteur 2 détecte la main 91a dans une première position A à un instant TA puis dans une deuxième position B à un instant TB, l'instant TB étant postérieur à l'instant TA, et le module 31 génère des données gestuelles 311 traduisant ce mouvement. Ces données gestuelles 311 sont alors comparées par le système de traitement informatique 3 aux séries de données gestuelles de référence 351, 352, 353, 354. Dans cet exemple, le système de traitement informatique 3 associe alors les données gestuelles 311 à la série de données gestuelles de référence 351, et génère des données de commande aptes à être utilisées par d'autres modules 33, 34 décrits ci-dessous afin de commander une ou plusieurs actions associées à un tel geste (par exemple, augmentation de l'intensité sonore d'un signal audio 321).
Le système de traitement informatique 3 comprend aussi un module de gestion de données audio 32 agencé pour générer en continu un signal audio d'arrivée 321 à partir du signal audio d'origine 11 extrait progressivement du fichier audio ou audio-vidéo 1.
Pour ce faire, dans l'exemple de la FIGURE 1, le module de gestion de données audio 32 est agencé pour :
- réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine 11 du fichier audio ou audio-vidéo 1 en fonction de paramètres de lecture,
- stocker dans une mémoire tampon 36 un signal audio de travail 361 correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture,
- générer en continu le signal audio d'arrivée 321 à partir du signal audio de travail 361.
Le stockage du signal audio de travail 361 dans une mémoire tampon 36 ne signifie aucunement que l'on doive réaliser une pré-lecture du fichier audio ou audio-vidéo 1 pour appliquer des paramètres de lecture ou tout autre type de traitement de signal, y compris une opération d'étirement temporel (voir plus loin).
La mémoire tampon 36 peut simplement consister en tout support apte à véhiculer des informations numériques ou de signal, lequel est susceptible d'engendrer un retard entre la lecture du fichier audio ou audio-vidéo, et la reproduction du signal audio d'arrivée.
En outre, le signal audio de travail 361 peut consister en une partie tronquée ou partielle du signal audio d'origine 11 extrait. De préférence, le capteur 2 et le module de gestion de données gestuelles 31 sont agencés pour générer des données gestuelles :
- à partir d'un degré de fermeture de l'au moins une main 91a, 91b, et/ou
- à partir d'un degré d'inclinaison de l'au moins une main 91a, 91b.
Le système de traitement informatique 3 peut aussi comprendre un module de gestion de paramètres de lecture 33 agencé pour modifier au moins l'un des paramètres de lecture suivants (de préférence tous) en fonction des données gestuelles ou de commande : - un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en œuvre,
- une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine 11 au cours de l'opération de lecture.
Comme illustré en FIGURE 1, le système de traitement informatique 3 comprend en outre un module de traitement de signal 34 agencé pour appliquer des effets sonores au signal audio d'arrivée 321 ou de travail en fonction des données gestuelles ou de commande.
Par distinction avec le module de gestion de paramètres de lecture 33, le module de traitement de signal 34 agit sur le signal audio d'arrivée 321 ou de travail et non simplement sur la lecture du signal audio d'origine 11.
Un tel dispositif permet d'associer, à chaque type de geste effectué par l'utilisateur 9, notamment par déplacement de l'une ou de ses deux mains 91a, 91b, une ou plusieurs actions de lecture du signal audio d'origine 11 et/ou de traitement du signal audio d'arrivée 321 ou de travail. Plusieurs types d'association non limitatifs sont décrits ci-dessous en exemple.
Dans un premier type d'association, l'intensité sonore du signal audio d'arrivée 321 est modifiée lorsque les données gestuelles générées 311 traduisent un déplacement de l'au moins une partie dudit corps humain 9 entre deux positions successives situées dans un plan vertical du champ de captation 21, le plan vertical comprenant de préférence le vecteur de gravité terrestre.
De préférence, dans ce premier type d'association, l'intensité sonore du signal audio d'arrivée 321 est augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à une deuxième position (cet exemple correspond à l'exemple déjà décrit plus haut), et l'intensité sonore du signal audio d'arrivée 321 est diminuée lorsque la première position est située à une altitude supérieure à la deuxième position. Dans un mode de réalisation, le champ de captation 21 comprend trois zones distinctes séparées par deux plans horizontaux. À chaque zone est attribuée une valeur d'intensité sonore ou une valeur d'atténuation de l'intensité sonore par rapport à une intensité sonore de référence. Par exemple, l'intensité sonore est atténuée de 3 dB dans une première zone inférieure, de 0 dB dans une deuxième zone intermédiaire et est augmentée de 3 dB dans une troisième zone supérieure.
La modification de l'intensité sonore peut comprendre un effet de fondu, dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore. De préférence, lors d'une telle modification de l'intensité sonore, le mode de lecture reste dans l'état « actif ».
De préférence, la modification de l'intensité sonore comprend un traitement d'égalisation en fréquence. De préférence, plus l'intensité sonore est faible, moins le champ (ou spectre) des fréquences de l'égalisation est large.
Dans un deuxième type d'association, l'intensité sonore passe progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées 311 traduisent un mouvement de supination ou de pronation de la main.
De préférence, la deuxième valeur est inférieure à la première valeur lorsque les données gestuelles générées 311 traduisent un mouvement de supination de la main. La première valeur est par exemple de 100% en fin de mouvement de pronation (par exemple, paume orientée vers le bas), et la deuxième valeur de 0% en fin de mouvement de supination (par exemple, paume orientée vers le haut).
Dans le cadre du deuxième type d'association, la modification de l'intensité sonore s'accompagne de préférence d'un traitement de réverbération à queue courte et d'intensité modérée.
Les effets sonores appliqués au signal audio d'arrivée 321 peuvent comprendre une opération d'étirement temporel au cours de laquelle :
- l'opération de lecture est interrompue, - le signal audio d'arrivée 321 est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail 361.
Dans un troisième type d'association, l'opération d'étirement temporel est réalisée pendant toute la durée où les données gestuelles générées 311 traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main .
De préférence, l'opération d'étirement temporel comprend un traitement de synthèse granulaire. Pour ce faire, on peut, par exemple, pour perpétrer un effet de durée, générer une onde complexe établie à partir de micro-grains (ou échantillons de courte durée) extraits du fichier 1, modifiés et réassemblés dans un ordre différent de l'ordre dans lequel ces micro-grains sont assemblés dans le fichier 1.
De préférence, l'opération d'étirement temporel comprend un traitement de réverbération, dit « à queue longue » et d'intensité maximale (on parle d'effet « humide »).
Dans un quatrième type d'association, la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain 9 et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain 9.
De préférence, la vitesse de lecture est ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et elle est accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps.
Il est à noter que le dispositif de commande réalisant des opérations en temps réel, une modification de la vitesse de lecture, autrement dit de la vitesse d'extraction du signal audio d'origine, se traduit normalement par une modification de la "vitesse ressentie" à laquelle le signal audio de sortie est reproduit. Une exception notable à la correspondance entre ces deux vitesses existe en cas d'opération d'étirement temporel, où le signal audio de sortie est généré à partir du dernier échantillon de signal audio d'origine extrait, c'est-à-dire sans extraction d'un nouvel échantillon de signal. Bien sûr, l'invention n'est pas limitée aux exemples qui viennent d'être décrits et de nombreux aménagements peuvent être apportés à ces exemples sans sortir du cadre de l'invention. De plus, les différentes caractéristiques, formes, variantes et modes de réalisation de l'invention peuvent être associés les uns avec les autres selon diverses combinaisons dans la mesure où ils ne sont pas incompatibles ou exclusifs les uns des autres.

Claims

REVENDICATIONS
1. Dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio, ce dispositif étant agencé pour recevoir un fichier audio ou audio-vidéo (1) encodant un signal audio d'origine (11), ce dispositif comprenant :
- un capteur (2) agencé pour détecter dans un champ de captation (21) multidimensionnel une position d'au moins une partie (91a, 91b) d'un corps humain (9),
- un système de traitement informatique (3) comprenant :
o un module de gestion de données gestuelles (31) agencé pour générer des données gestuelles (311) à partir de positions successives de l'au moins une partie dudit au moins un corps humain (9) détectées par le capteur (2),
o un module de gestion de données audio agencé pour réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine (11) du fichier audio ou audio-vidéo (1) en fonction de paramètres de lecture, le module de gestion de données audio étant en outre agencé pour générer en continu un signal audio d'arrivée à partir du signal audio d'origine extrait progressivement du fichier audio ou audio-vidéo,
o un module de traitement de signal (34) agencé pour appliquer des effets sonores au signal audio d'arrivée (321) en fonction des données gestuelles.
2. Dispositif selon la revendication 1, caractérisé en ce que le système de traitement informatique (3) comprend en outre un module de gestion de hauteur sonore (37) agencé pour maintenir une hauteur sonore du signal audio d'arrivée (321) lorsque la vitesse de lecture est modifiée.
3. Dispositif selon la revendication 1 ou 2, caractérisé en ce que l'au moins une partie (91a, 91b) du corps humain (9) est au moins une main (91a, 91b), et en ce que le capteur (2) et le module de gestion de données gestuelles (31) sont en outre agencés pour générer des données gestuelles à partir d'un degré de fermeture de l'au moins une main (91a, 91b).
4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que l'au moins une partie du corps humain (9) est au moins une main (91a, 91b), et en ce que le capteur (2) et le module de gestion de données gestuelles (31) sont en outre agencés pour générer des données gestuelles à partir d'un degré d'inclinaison de l'au moins une main (91a, 91b).
5. Dispositif selon l'une des revendications 1 à 4, caractérisé en ce que le module de traitement de signal (34) est agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles générées par le module de gestion de données gestuelles (31).
6. Dispositif selon l'une des revendications 1 à 5, caractérisé en ce que le module de gestion de données gestuelles (31) est agencé pour générer une ou plusieurs données gestuelles pour chaque position de la partie du corps humain détectée par le capteur (2).
7. Dispositif selon les revendications 5 et 6, caractérisé en ce que le module de traitement de signal (34) est agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chaque position de la partie du corps humain détectée par le capteur (2).
8. Procédé de commande gestuelle en temps réel de reproduction d'un signal audio comprenant :
- une détection dans un champ de captation (21) multidimensionnel d'une position d'au moins une partie (91a, 91b) d'un corps humain (9),
- une génération de données gestuelles (311) à partir de positions successives de l'au moins une partie dudit corps humain (9),
- une opération de lecture dans laquelle un signal audio d'origine (11) est progressivement extrait d'un fichier audio ou audio-vidéo (1) en fonction de paramètres de lecture, - un stockage d'un signal audio de travail (361) correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture,
- une génération en continu d'un signal audio d'arrivée (321) à partir du signal audio de travail (361),
- une modification d'au moins l'un des paramètres de lecture suivants en fonction des données gestuelles :
o un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en œuvre,
o une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine (11) au cours de l'opération de lecture,
- une application d'effets sonores au signal audio d'arrivée (321) en fonction des données gestuelles.
9. Procédé selon la revendication 8, caractérisé en ce que les effets sonores appliqués au signal audio d'arrivée (321) comprennent une modification d'une intensité sonore.
10. Procédé selon la revendication 9, caractérisé en ce que l'intensité sonore du signal audio d'arrivée (321) est modifiée lorsque les données gestuelles générées (311) traduisent un déplacement de l'au moins une partie dudit corps humain (9) entre deux positions successives situées dans un plan vertical du champ de captation (21).
11. Procédé selon la revendication 10, caractérisé en ce que l'intensité sonore du signal audio d'arrivée (321) est augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à celle d'une deuxième position, et en ce que l'intensité sonore du signal audio d'arrivée (321) est diminuée lorsque la première position est située à une altitude supérieure à celle de la deuxième position.
12. Procédé selon l'une des revendications 9 à 11, caractérisé en ce que la modification de l'intensité sonore comprend un traitement d'égalisation en fréquence.
13. Procédé selon l'une des revendications 9 à 12, caractérisé en ce que la modification de l'intensité sonore comprend un effet de fondu dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore.
14. Procédé selon la revendication 13, caractérisé en ce que l'au moins une partie dudit corps humain (9) est une main, et en ce que l'intensité sonore passe progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées (311) traduisent un mouvement de supination ou de pronation de la main.
15. Procédé selon la revendication 14, caractérisé en ce que la deuxième valeur est inférieure à la première valeur lorsque les données gestuelles générées (311) traduisent un mouvement de supination de la main.
16. Procédé selon l'une des revendications 13 à 15, caractérisé en ce que la modification de l'intensité sonore s'accompagne d'un traitement de réverbération.
17. Procédé selon l'une des revendications 8 à 16, caractérisé en ce que les effets sonores appliqués au signal audio d'arrivée (321) comprennent une opération d'étirement temporel au cours de laquelle :
- l'opération de lecture est interrompue,
- le signal audio d'arrivée (321) est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail (361).
18. Procédé selon la revendication 17, caractérisé en ce que l'au moins une partie dudit corps humain (9) est une main, et en ce que l'opération d'étirement temporel est réalisée pendant toute la durée où les données gestuelles générées (311) traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main.
19. Procédé selon la revendication 17 ou 18, caractérisé en ce que l'opération d'étirement temporel comprend un traitement de synthèse granulaire.
20. Procédé selon l'une des revendications 17 à 19, caractérisé en ce que l'opération d'étirement temporel comprend un traitement de réverbération.
21. Procédé selon l'une des revendications 8 à 20, caractérisé en ce que la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain (9) et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain (9).
22. Procédé selon la revendication 21, caractérisé en ce que la vitesse de lecture est ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et en ce que la vitesse de lecture est accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps.
23. Procédé selon l'une des revendications 8 à 22, caractérisé en ce que l'application d'effets sonores comprend une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles.
24. Procédé selon l'une des revendications 8 à 23, caractérisé en ce que la génération de données gestuelles comprend une génération d'une ou de plusieurs données gestuelles pour chacune desdites positions successives de l'au moins une partie du corps humain (9).
25. Procédé selon les revendications 23 et 24, caractérisé en ce que l'application d'effets sonores comprend une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chacune desdites positions successives.
PCT/EP2016/057613 2015-04-08 2016-04-07 Dispositif et procede de commande gestuelle en temps reel de signal audio WO2016162416A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1553023 2015-04-08
FR1553023A FR3034887B1 (fr) 2015-04-08 2015-04-08 Dispositif et procede de commande gestuelle en temps reel de signal audio

Publications (1)

Publication Number Publication Date
WO2016162416A1 true WO2016162416A1 (fr) 2016-10-13

Family

ID=53758339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2016/057613 WO2016162416A1 (fr) 2015-04-08 2016-04-07 Dispositif et procede de commande gestuelle en temps reel de signal audio

Country Status (2)

Country Link
FR (1) FR3034887B1 (fr)
WO (1) WO2016162416A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1030666B1 (nl) * 2022-06-28 2024-01-30 Rods&Cones Holding Bv Handbeweging- of handposeherkenning voor smartglasses

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1408443A1 (fr) * 2002-10-07 2004-04-14 Sony France S.A. Procédé et appareil d'analyse de gestes d'un homme, pour exemple de commande pour appareils par reconnaissance de gestes
US20120165964A1 (en) * 2010-12-27 2012-06-28 Microsoft Corporation Interactive content creation
EP2506148A1 (fr) * 2011-03-31 2012-10-03 Broadcom Corporation Procédé et système de traitement de signaux audio dans un moyeu audio central

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1408443A1 (fr) * 2002-10-07 2004-04-14 Sony France S.A. Procédé et appareil d'analyse de gestes d'un homme, pour exemple de commande pour appareils par reconnaissance de gestes
US20120165964A1 (en) * 2010-12-27 2012-06-28 Microsoft Corporation Interactive content creation
EP2506148A1 (fr) * 2011-03-31 2012-10-03 Broadcom Corporation Procédé et système de traitement de signaux audio dans un moyeu audio central

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1030666B1 (nl) * 2022-06-28 2024-01-30 Rods&Cones Holding Bv Handbeweging- of handposeherkenning voor smartglasses

Also Published As

Publication number Publication date
FR3034887A1 (fr) 2016-10-14
FR3034887B1 (fr) 2019-09-13

Similar Documents

Publication Publication Date Title
EP3899701B1 (fr) Mesure temporelle a haute precision d'evenements vibro-acoustiques en synchronisation avec un signal sonore sur dispositif a ecran tactile
CA2337176A1 (fr) Procede d'ajustement du volume sonore d'un enregistrement sonore numerique
FR2976111A1 (fr) Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
CA2917795A1 (fr) Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
FR2950461A1 (fr) Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
FR2942344A1 (fr) Dispositif et procede de controle du defilement d'un fichier de signaux a reproduire
JP2018535499A (ja) マルチビューインタラクティブデジタルメディア表現へのオーディオの統合
JP6901798B2 (ja) オーディオエネルギー特性に基づくオーディオフィンガープリンティング
EP2104937B1 (fr) Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede
WO2009071795A1 (fr) Systeme d'interpretation simultanee automatique
FR3034887B1 (fr) Dispositif et procede de commande gestuelle en temps reel de signal audio
WO2017098111A1 (fr) Navigation directe dans un extrait vidéo
EP3556102B1 (fr) Procede d'enregistrement d'un programme telediffuse a venir
FR3078196A1 (fr) Procede et dispositif de synchronisation d'enregistrements comprenant un signal audio provenant de differents dispositifs d'acquisition co-localises
EP3797509B1 (fr) Traitement d'un bruit impulsionnel dans une séquence vidéo
FR3052319A1 (fr) Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise.
KR20220104693A (ko) 라이브 스피치 검출
WO2016170288A1 (fr) Système de création et de restitution d'un document composite.
EP4086751B1 (fr) Commande par glissement sur des boutons virtuels
FR2540659A1 (fr) Dispositif de protection de bandes magnetiques, ou autres supports d'enregistrement, ou d'emission de television ou de radio contre la lecture et/ou la reproduction non autorisees
EP2987339B1 (fr) Procédé de restitution sonore d'un signal numérique audio
JP2004317622A (ja) 音響再生装置
EP3335094A1 (fr) Procédé de paramétrage de la réactivité d'un dispositif électronique observée suite à la réception d'une commande émise depuis un équipement de contrôle voisin et dispositif adapté pour la mise en oeuvre d'un tel procédé
WO2016170289A1 (fr) Terminal apte a qualifier une appreciation portee a un document multimedia
FR2995703A1 (fr) Systeme et procede de detection de l'actionnement d'une fonction materialisee par un trajet predetermine sur une surface tactile d'un objet

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16719019

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16719019

Country of ref document: EP

Kind code of ref document: A1