WO2016162416A1

WO2016162416A1 - Dispositif et procede de commande gestuelle en temps reel de signal audio

Info

Publication number: WO2016162416A1
Application number: PCT/EP2016/057613
Authority: WO
Inventors: Thomas Jean-Roger Mathieu AMILIEN; Jean-Baptiste GUIGNARD
Original assignee: Amilien Thomas Jean-Roger Mathieu; Guignard Jean-Baptiste
Priority date: 2015-04-08
Filing date: 2016-04-07
Publication date: 2016-10-13
Also published as: FR3034887A1; FR3034887B1

Abstract

L'invention concerne un dispositif et un procédé de commande gestuelle en temps réel de signal audio permettant, en fonction de données gestuelles (311), de modifier des paramètres de lecture (marche/arrêt, vitesse de lecture) et d'appliquer des effets sonores à un signal audio d'arrivée (321). Ce signal audio d'arrivée (321) est généré en continu à partir d'un signal audio de travail (361) correspondant au signal audio d'origine (11) extrait au fur et à mesure d'une opération de lecture d'un fichier (1) audio ou audio-vidéo. Les données gestuelles sont générées à partir de positions successives d'au moins une partie (91a, 91b) d'un corps humain (9) détectées dans un champ de captation (21) par un capteur (2).

Description

« Dispositif et procédé de commande gestuelle en temps réel de signal audio »

Domaine technique

La présente invention se rapporte au domaine des interactions homme- machine et des systèmes temps réel.

Plus précisément, la présente invention concerne un dispositif et un procédé de commande gestuelle en temps réel de signal audio.

Etat de la technique antérieure

On connaît dans l'art antérieur des dispositifs de commande gestuelle en temps réel de signal audio.

Par exemple, le système « iSymphony » permet de modifier en temps réel des paramètres tels que la vitesse de lecture ou le volume d'un enregistrement audio numérique par l'intermédiaire de la captation des mouvements d'un bâton. Ce système est doté d'une intelligence permettant typiquement de reconnaître différents types de gestes associés à des trajectoires de ce bâton dans un champ de captation (espace physique) et de modifier, en fonction du type de geste reconnu, de tels paramètres. Ce système permet aussi de réaliser une opération d'étirement temporel, appelée « time-stretching » en anglais.

Un inconvénient d'un tel système est qu'il implique de réaliser une lecture préalable de l'enregistrement audio numérique, notamment pour mettre en œuvre l'opération d'étirement temporel. Une lecture préalable du fichier doit être réalisée, à la vitesse nominale de lecture, afin de repérer à l'avance des points caractéristiques de l'enregistrement audio numérique.

Un autre système connu est le système « TimeFlux » qui permet notamment de modifier la vitesse de lecture d'un enregistrement audio, par exemple par l'intermédiaire d'une souris d'ordinateur ou d'un capteur optique (par exemple un capteur « Leap Motion ») capable de détecter des déplacements d'une ou deux mains dans un champ de captation (espace physique).

Un inconvénient d'un tel système est qu'il ne permet pas de réaliser une opération d'étirement temporel en temps réel, c'est-à-dire sans prétraitement du fichier, et sans changement de tonalité. Un autre inconvénient est que ce système nécessite une multiplicité de plug-ins (ou greffons logiciels), ne lui permettant pas de constituer un système clef-en-main.

Un autre inconvénient de ce système est qu'il ne permet pas de personnaliser des effets à appliquer à l'enregistrement audio en fonction de gestes d'un utilisateur.

Encore un autre inconvénient est que ce système n'est pas ouvert à n'importe quel fichier sonore ou musical : ce système est contraint par une banque de sons prétraitée et bornée.

Un autre inconvénient d'un tel système est qu'il requiert des connaissances poussées en musique assistée par ordinateur (MAO) et qu'il doit être utilisé au sein d'un environnement de type « studio à la maison » (ou « home studio » en anglais). Un objectif de l'invention est de remédier à tout ou partie des inconvénients des dispositifs de commande de l'état de la technique qui visent à influer sur la reproduction de signaux audio par le geste.

Un objectif particulier de l'invention est de proposer un dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio qui permette de s'affranchir de tout prétraitement de ce signal audio, préalablement à sa reproduction. En l'occurrence, l'invention a pour objectif de permettre une interaction sur la reproduction d'un signal audio encodé dans un fichier numérique, sans décodage préalable de l'ensemble de ce fichier numérique.

Exposé de l'invention

Cet objectif est atteint avec un dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio, ce dispositif étant agencé pour recevoir un fichier, de préférence numérique, audio ou audio-vidéo encodant un signal audio d'origine, ce dispositif comprenant :

- un capteur, par exemple le système Leap Motion® ou un smartphone, agencé pour détecter dans un champ de captation multidimensionnel, de préférence tridimensionnel, une position d'au moins une partie d'un corps humain, de préférence d'au moins une main,

- un système de traitement informatique comprenant : o un module de gestion de données gestuelles agencé pour générer des données gestuelles à partir de positions successives de l'au moins une partie dudit au moins un corps humain détectées par le capteur,

o un module de gestion de données audio agencé pour générer en continu un signal audio d'arrivée à partir du signal audio d'origine extrait progressivement du fichier audio ou audiovidéo,

o un module de traitement de signal agencé pour appliquer des effets sonores au signal audio d'arrivée en fonction des données gestuelles.

On entend par effet sonore toute altération du signal, notamment en termes de volume ou d'intensité sonore, d'égalisation en fréquence, de time- stretching, de synthèse granulaire, de fondu, ou encore de réverbération. Les effets sonores peuvent altérer une dynamique du signal, c'est-à-dire influer sur les écarts entre les plus faibles niveaux du signal et ses plus hauts niveaux. Les effets sonores peuvent aussi consister en des effets temporels, modifiant la reproduction temporelle (retards, déphasages, etc.) de tout ou partie du signal. Enfin, les effets sonores peuvent agir sur le spectre fréquentiel du signal, par exemple en filtrant des bandes de fréquences, en décalant des fréquences, ou en générant des harmoniques.

Selon l'invention, le signal audio d'origine est extrait progressivement du fichier audio ou audio-vidéo. Cela signifie que la génération du signal audio d'arrivée à partir d'un échantillon donné du signal audio d'origine ne nécessite l'extraction préalable que de cet échantillon donné. En l'occurrence, les échantillons en amont de cet échantillon donné (situés en arrière dans le temps) ne sont plus nécessaires pour la génération du signal audio d'arrivée, et les échantillons situés en aval de cet échantillon donné (situés plus loin dans le temps) ne sont pas nécessaires. Bien entendu, l'échantillon de signal audio d'origine nécessaire à la génération du signal audio d'arrivée évolue au cours du temps.

En particulier, le module de gestion de données audio peut être agencé, en outre, pour réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine du fichier audio ou audio-vidéo en fonction de paramètres de lecture. Selon une forme particulière de réalisation, le module de traitement de signal est agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles générées par le module de gestion de données gestuelles. Le paramètre est par exemple modifié en fonction de chaque donnée gestuelle ou ensemble de données gestuelles. De préférence, chaque paramètre peut prendre au moins trois valeurs. Il peut typiquement consister en une variable, par exemple comprise entre 0 et 255. Une relation bijective peut être définie entre les données gestuelles et un paramètre de l'effet sonore. L'effet sonore peut ainsi être modifié de manière progressive avec l'évolution d'un geste du corps humain. Les effets sonores concernés par une telle modification concernent notamment une intensité sonore du signal audio d'arrivée, un niveau d'amplification d'une réverbération ou une vitesse de lecture du signal audio d'origine. Ainsi, le module de traitement de signal ne se limite pas à déclencher un effet sonore prédéterminé en fonction de la détection de données gestuelles prédéterminées, par exemple une séquence prédéterminée de positions du corps humain, mais il modifie un ou plusieurs paramètres de cet effet sonore en fonction des données gestuelles.

Toujours selon une forme particulière de réalisation, indépendante de la modification d'un effet sonore décrite ci-dessus, le système de traitement informatique est agencé pour un traitement en temps réel. En particulier, le module de gestion de données gestuelles peut être agencé pour générer une ou plusieurs données gestuelles pour chaque position de la partie du corps humain détectée par le capteur. Typiquement, dans le cas d'un capteur vidéo, un ensemble de données gestuelles est généré pour chaque image du flux vidéo. Autrement dit, les données gestuelles sont générées à une fréquence égale à la fréquence d'acquisition des images du flux. Cette fréquence est par exemple comprise entre 25 et 60 images par seconde.

Les deux formes de réalisation ci-dessus peuvent avantageusement être combinées afin de modifier un effet sonore en temps réel. Autrement dit, un effet sonore appliqué au signal audio d'arrivée est modifié pour chaque donnée gestuelle ou ensemble de données gestuelles associées à une position donnée du corps humain. Le module de traitement de signal est alors agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chaque position de la partie du corps humain détectée par le capteur. Typiquement, dans le cas d'un capteur vidéo, l'effet sonore est modifié au fur et à mesure par chaque ensemble de données gestuelles déterminées pour une image donnée du flux. L'effet sonore est alors modifié à une fréquence correspondant à la fréquence d'acquisition des images ou, plus généralement, à la fréquence d'acquisition des données gestuelles.

Selon une forme particulière de réalisation, le dispositif de commande comprend, en outre :

o un module de gestion de données audio agencé pour réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine du fichier audio ou audio-vidéo en fonction de paramètres de lecture, et éventuellement

o un module de gestion de paramètres de lecture agencé pour modifier au moins l'un des paramètres de lecture suivants en fonction des données gestuelles :

^■ un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en œuvre,

^■ une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine au cours de l'opération de lecture.

Un tel dispositif permet alors de modifier, par le geste :

- des paramètres de lecture (du type lecture, pause, arrêt, vitesse de lecture) du fichier audio ou audio-vidéo reçu par le dispositif, et/ou

- des paramètres sonores (du type des effets sonores mentionnés ci- dessus) du signal audio d'arrivée.

Le module de gestion de données audio et le module de gestion de paramètres de lecture sont de préférence intégrés dans le système de traitement informatique du dispositif de commande. Le module de gestion de données audio peut être agencé, en outre, pour :

o stocker dans une mémoire tampon un signal audio de travail correspondant au signal audio d'origine extrait progressivement du fichier audio ou audio-vidéo, et

o générer en continu le signal audio d'arrivée à partir de ce signal audio de travail.

Il est à noter que le signal audio de travail correspond au signal audio d'origine extrait au fur et à mesure de l'opération de lecture du fichier audio ou audio-vidéo.

Un tel dispositif est notamment avantageux car il permet de détecter des gestes d'un utilisateur non appareillé, pouvant notamment avoir les mains libres de tout dispositif de commande de type bâton, télécommande ou autre dispositif permettant une captation de mouvement.

De plus, le système de traitement informatique permet de traiter en temps réel tout type de fichier audio ou audio numérique, sans lecture préalable de fichier. De préférence, le système de traitement informatique comprend en outre un module de gestion de hauteur sonore agencé pour maintenir une hauteur sonore du signal audio d'arrivée lorsque la vitesse de lecture est modifiée.

On entend par hauteur d'un son la fréquence de vibration de ce son. Lorsque le son est composé de plusieurs fréquences, la hauteur est définie au moins par la fréquence fondamentale de ce son .

Le module de gestion de hauteur sonore est par exemple intégré dans le système de traitement informatique du dispositif de commande. L'au moins une partie du corps humain peut être au moins une main.

Le dispositif permet alors à un utilisateur d'interagir sur la reproduction du signal sonore à la manière d'un chef d'orchestre.

Selon une caractéristique avantageuse, le capteur et le module de gestion de données gestuelles peuvent en outre être agencés pour générer des données gestuelles à partir d'un degré de fermeture de l'au moins une main.

Selon une autre caractéristique avantageuse, le capteur et le module de gestion de données gestuelles peuvent en outre être agencés pour générer des données gestuelles à partir d'un degré d'inclinaison de l'au moins une main.

L'invention concerne aussi un procédé de commande gestuelle en temps réel de la reproduction d'un signal audio comprenant :

- une détection dans un champ de captation multidimensionnel, de préférence tridimensionnel, d'une position d'au moins une partie d'un corps humain, de préférence d'au moins une main,

- une génération de données gestuelles à partir de positions successives de l'au moins une partie dudit corps humain,

- une opération de lecture dans laquelle un signal audio d'origine est progressivement extrait d'un fichier audio ou audio-vidéo en fonction de paramètres de lecture,

- un stockage d'un signal audio de travail correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture,

- une génération en continu d'un signal audio d'arrivée à partir du signal audio de travail,

- une modification d'au moins l'un des, de préférence de tous les, paramètres de lecture suivants en fonction des données gestuelles :

o un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état

« inactif » dans lequel l'opération de lecture n'est pas mise en œuvre, et/ou

o une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine au cours de l'opération de lecture,

- une application d'effets sonores au signal audio d'arrivée en fonction des données gestuelles.

De préférence, les effets sonores appliqués au signal audio d'arrivée comprennent une modification d'une intensité sonore. Avantageusement, l'intensité sonore du signal audio d'arrivée peut être modifiée lorsque les données gestuelles générées traduisent un déplacement de l'au moins une partie dudit corps humain entre deux positions successives situées dans un plan vertical du champ de captation, le plan vertical comprenant de préférence le vecteur de gravité terrestre.

Selon une caractéristique avantageuse, l'intensité sonore du signal audio d'arrivée peut être augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à une deuxième position, et l'intensité sonore du signal audio d'arrivée peut être diminuée lorsque la première position est située à une altitude supérieure à la deuxième position. Selon une autre caractéristique avantageuse, la modification de l'intensité sonore peut comprendre un traitement d'égalisation en fréquence.

De préférence, plus l'intensité sonore est élevée, plus le traitement d'égalisation en fréquence est large en ouverture, c'est-à-dire plus le spectre de fréquences est pleinement restitué. Par exemple, à intensité sonore maximale (100%), toutes les fréquences sont restituées ; lorsque l'intensité sonore s'écarte de cette intensité maximale, c'est-à-dire s'éloigne de 100% et s'approche de 0%, on applique typiquement un filtre passe-haut obstruant des fréquences médium-aigues. Selon une forme particulière de réalisation, la modification de l'intensité sonore comprend un effet de fondu dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore, puis retourne progressivement à la première valeur d'intensité sonore. La première valeur d'intensité sonore est de préférence l'intensité sonore appliquée juste avant le déclenchement de l'effet de fondu. La deuxième valeur d'intensité sonore est par exemple inférieure à la première valeur d'intensité sonore, typiquement de 10 à 30% inférieure. L'effet de fondu peut avoir une durée prédéterminée, par exemple de l'ordre de quelques secondes. Le retour à la première valeur d'intensité est alors effectué indépendamment des données gestuelles. Avantageusement, le mode de lecture reste dans l'état « actif » lorsque l'intensité sonore est modifiée. Selon encore une autre caractéristique avantageuse, l'au moins une partie dudit corps humain peut être une main, et l'intensité sonore peut passer progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées traduisent un mouvement de supination ou de pronation de la main.

La deuxième valeur peut avantageusement être inférieure à la première valeur lorsque les données gestuelles générées traduisent un mouvement de supination de la main. De préférence, la modification de l'intensité sonore s'accompagne d'un traitement de réverbération, de préférence de type « à queue courte » et intensité modérée.

Avantageusement, les effets sonores appliqués au signal audio d'arrivée peuvent comprendre une opération d'étirement temporel au cours de laquelle :

- l'opération de lecture est interrompue,

- le signal audio d'arrivée est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail.

Par échantillon, on entend une partie du signal audio considéré entre deux instants distincts, typiquement séparés l'un de l'autre d'une durée comprise entre quelques dixièmes de secondes et quelques secondes.

Selon une caractéristique avantageuse, l'au moins une partie dudit corps humain est de préférence une main, et l'opération d'étirement temporel est de préférence réalisée pendant toute la durée où les données gestuelles générées traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main. Par mouvement de préhension, on désigne un mouvement par lequel un ou plusieurs doigts de la main se referment, ce ou ces doigts étant dirigés vers la paume de la main. Selon une autre caractéristique avantageuse, l'opération d'étirement temporel comprend un traitement de synthèse granulaire.

Selon encore une autre caractéristique avantageuse, l'opération d'étirement temporel comprend un traitement de réverbération.

De préférence, la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain. La troisième position peut correspondre à la première position et la quatrième position peut correspondre à la deuxième position. Typiquement, lorsque le mouvement est périodique, les troisième et quatrième positions correspondent respectivement aux première et deuxième positions. De préférence, le deuxième intervalle de temps succède dans le temps au premier intervalle de temps.

Avantageusement, la vitesse de lecture peut être ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et la vitesse de lecture peut être accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps.

L'application d'effets sonores comprend par exemple une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles.

La génération de données gestuelles peut comprendre une génération d'une ou de plusieurs données gestuelles pour chacune des positions successives de l'au moins une partie du corps humain. Selon une forme particulière de réalisation, l'application d'effets sonores comprend une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chacune des positions successives de cette partie du corps humain.

Description des figures et modes de réalisation

D'autres avantages et particularités de l'invention apparaîtront à la lecture de la description détaillée de mises en œuvre et de modes de réalisation nullement limitatifs, et de la FIGURE 1 représentant un dispositif selon l'invention recevant un fichier audio ou audio-vidéo, ainsi qu'un individu placé dans un champ de captation.

Les modes de réalisation décrits ci-après étant nullement limitatifs, on pourra notamment considérer des variantes de l'invention ne comprenant qu'une sélection de caractéristiques décrites, isolées des autres caractéristiques décrites (même si cette sélection est isolée au sein d'une phrase comprenant ces autres caractéristiques), si cette sélection de caractéristiques est suffisante pour conférer un avantage technique ou pour différencier l'invention par rapport à l'état de la technique antérieure. Cette sélection comprend au moins une caractéristique, de préférence fonctionnelle sans détails structurels, ou avec seulement une partie des détails structurels si cette partie uniquement est suffisante pour conférer un avantage technique ou pour différencier l'invention par rapport à l'état de la technique antérieure.

Un mode de réalisation de l'invention est illustré en FIGURE 1 faisant apparaître un dispositif de commande gestuelle en temps réel de reproduction d'un signal audio selon l'invention. Ce dispositif est agencé pour recevoir un fichier, de préférence numérique, audio ou audio-vidéo 1. Ce fichier 1 encode typiquement un signal audio d'origine 11 selon tout type de format connu, par exemple MPEG, MP3, WAV, FLAC, etc. Le dispositif de l'invention comprend typiquement un capteur 2 apte à détecter une position d'au moins une partie d'un corps humain 9. Le corps humain 9 est aussi appelé utilisateur dans ce document. Dans un mode de mise en œuvre préféré, l'au moins une partie de l'utilisateur 9 correspond à l'une ou à ses deux mains 91a, 91b.

Le capteur 2 permet de détecter la ou les mains 91a, 91b au sein d'un champ de captation 21 multidimensionnel. Ce champ de captation 21 peut être tout ou partie de l'espace physique tridimensionnel dans lequel se trouve l'utilisateur 9.

Le capteur 2 est par exemple un capteur optique. Afin de capter des mouvements bidimensionnels, le capteur comprend par exemple un élément photosensible formé de points photosensibles agencés sous forme d'une matrice bidimensionnelle. Afin de capter des mouvements tridimensionnels, et/ou des mouvements de préhension d'une main, le capteur peut comporter au moins deux éléments photosensibles chacun formés d'une matrice bidimensionnelle de points photosensibles. Dans la mesure où le dispositif selon l'invention vise à capter des mouvements d'un corps humain, le capteur opère avantageusement dans le domaine infrarouge, c'est-à-dire dans le domaine des longueurs d'ondes sensiblement comprises entre 750 nm et 0,1 mm. Néanmoins, le capteur pourrait également opérer dans le spectre visible. À titre d'exemple non limitatif, le capteur est par exemple le système Leap Motion®, un capteur optique de smartphone, ou tout système équipé notamment d'une ou de plusieurs caméras. Le dispositif de l'invention comprend un système de traitement informatique 3.

Ce système de traitement informatique 3 permet notamment de recueillir des données détectées par le capteur 2. Dans le mode de mise en œuvre ici décrit, ces données correspondent à des gestes manuels de l'utilisateur 9.

Le recueil des données détectées par le capteur 2 est réalisé par un module de gestion des données gestuelles 31 du système de traitement informatique 3. Ce module 31 permet de générer des données gestuelles 311 à partir des données détectées par le capteur 2, en l'occurrence des positions successives de l'une ou des deux mains 91a, 91b de l'utilisateur 9.

Comme illustré en FIGURE 1, le système de traitement informatique 3 peut être agencé pour :

- comparer les données gestuelles générées 311 avec une ou plusieurs séries de données gestuelles de référence 351, 352, 353, 354 stockées dans une bibliothèque 35, et

- générer des données de commande en fonction du résultat de la comparaison.

La comparaison des données gestuelles générées 311 avec des séries de données gestuelles de référence 351, 352, 353, 354 permet d'identifier des types de mouvement réalisés par l'utilisateur 9.

Prenons l'exemple d'une série de données gestuelles de référence 351 correspondant à un geste d'une main 91a occupant successivement deux positions A, B distinctes dans le champ de captation 21, ce geste correspondant par exemple à un déplacement linéaire vertical de la main 91a du bas vers le haut relativement au corps de l'utilisateur 9 placé en position neutre (par exemple en station debout). Dans un tel exemple, le capteur 2 détecte la main 91a dans une première position A à un instant TA puis dans une deuxième position B à un instant TB, l'instant TB étant postérieur à l'instant TA, et le module 31 génère des données gestuelles 311 traduisant ce mouvement. Ces données gestuelles 311 sont alors comparées par le système de traitement informatique 3 aux séries de données gestuelles de référence 351, 352, 353, 354. Dans cet exemple, le système de traitement informatique 3 associe alors les données gestuelles 311 à la série de données gestuelles de référence 351, et génère des données de commande aptes à être utilisées par d'autres modules 33, 34 décrits ci-dessous afin de commander une ou plusieurs actions associées à un tel geste (par exemple, augmentation de l'intensité sonore d'un signal audio 321).

Le système de traitement informatique 3 comprend aussi un module de gestion de données audio 32 agencé pour générer en continu un signal audio d'arrivée 321 à partir du signal audio d'origine 11 extrait progressivement du fichier audio ou audio-vidéo 1.

Pour ce faire, dans l'exemple de la FIGURE 1, le module de gestion de données audio 32 est agencé pour :

- réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine 11 du fichier audio ou audio-vidéo 1 en fonction de paramètres de lecture,

- stocker dans une mémoire tampon 36 un signal audio de travail 361 correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture,

- générer en continu le signal audio d'arrivée 321 à partir du signal audio de travail 361.

Le stockage du signal audio de travail 361 dans une mémoire tampon 36 ne signifie aucunement que l'on doive réaliser une pré-lecture du fichier audio ou audio-vidéo 1 pour appliquer des paramètres de lecture ou tout autre type de traitement de signal, y compris une opération d'étirement temporel (voir plus loin).

La mémoire tampon 36 peut simplement consister en tout support apte à véhiculer des informations numériques ou de signal, lequel est susceptible d'engendrer un retard entre la lecture du fichier audio ou audio-vidéo, et la reproduction du signal audio d'arrivée.

En outre, le signal audio de travail 361 peut consister en une partie tronquée ou partielle du signal audio d'origine 11 extrait. De préférence, le capteur 2 et le module de gestion de données gestuelles 31 sont agencés pour générer des données gestuelles :

- à partir d'un degré de fermeture de l'au moins une main 91a, 91b, et/ou

- à partir d'un degré d'inclinaison de l'au moins une main 91a, 91b.

Le système de traitement informatique 3 peut aussi comprendre un module de gestion de paramètres de lecture 33 agencé pour modifier au moins l'un des paramètres de lecture suivants (de préférence tous) en fonction des données gestuelles ou de commande : - un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en œuvre,

- une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine 11 au cours de l'opération de lecture.

Comme illustré en FIGURE 1, le système de traitement informatique 3 comprend en outre un module de traitement de signal 34 agencé pour appliquer des effets sonores au signal audio d'arrivée 321 ou de travail en fonction des données gestuelles ou de commande.

Par distinction avec le module de gestion de paramètres de lecture 33, le module de traitement de signal 34 agit sur le signal audio d'arrivée 321 ou de travail et non simplement sur la lecture du signal audio d'origine 11.

Un tel dispositif permet d'associer, à chaque type de geste effectué par l'utilisateur 9, notamment par déplacement de l'une ou de ses deux mains 91a, 91b, une ou plusieurs actions de lecture du signal audio d'origine 11 et/ou de traitement du signal audio d'arrivée 321 ou de travail. Plusieurs types d'association non limitatifs sont décrits ci-dessous en exemple.

Dans un premier type d'association, l'intensité sonore du signal audio d'arrivée 321 est modifiée lorsque les données gestuelles générées 311 traduisent un déplacement de l'au moins une partie dudit corps humain 9 entre deux positions successives situées dans un plan vertical du champ de captation 21, le plan vertical comprenant de préférence le vecteur de gravité terrestre.

De préférence, dans ce premier type d'association, l'intensité sonore du signal audio d'arrivée 321 est augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à une deuxième position (cet exemple correspond à l'exemple déjà décrit plus haut), et l'intensité sonore du signal audio d'arrivée 321 est diminuée lorsque la première position est située à une altitude supérieure à la deuxième position. Dans un mode de réalisation, le champ de captation 21 comprend trois zones distinctes séparées par deux plans horizontaux. À chaque zone est attribuée une valeur d'intensité sonore ou une valeur d'atténuation de l'intensité sonore par rapport à une intensité sonore de référence. Par exemple, l'intensité sonore est atténuée de 3 dB dans une première zone inférieure, de 0 dB dans une deuxième zone intermédiaire et est augmentée de 3 dB dans une troisième zone supérieure.

La modification de l'intensité sonore peut comprendre un effet de fondu, dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore. De préférence, lors d'une telle modification de l'intensité sonore, le mode de lecture reste dans l'état « actif ».

De préférence, la modification de l'intensité sonore comprend un traitement d'égalisation en fréquence. De préférence, plus l'intensité sonore est faible, moins le champ (ou spectre) des fréquences de l'égalisation est large.

Dans un deuxième type d'association, l'intensité sonore passe progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées 311 traduisent un mouvement de supination ou de pronation de la main.

De préférence, la deuxième valeur est inférieure à la première valeur lorsque les données gestuelles générées 311 traduisent un mouvement de supination de la main. La première valeur est par exemple de 100% en fin de mouvement de pronation (par exemple, paume orientée vers le bas), et la deuxième valeur de 0% en fin de mouvement de supination (par exemple, paume orientée vers le haut).

Dans le cadre du deuxième type d'association, la modification de l'intensité sonore s'accompagne de préférence d'un traitement de réverbération à queue courte et d'intensité modérée.

Les effets sonores appliqués au signal audio d'arrivée 321 peuvent comprendre une opération d'étirement temporel au cours de laquelle :

- l'opération de lecture est interrompue, - le signal audio d'arrivée 321 est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail 361.

Dans un troisième type d'association, l'opération d'étirement temporel est réalisée pendant toute la durée où les données gestuelles générées 311 traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main .

De préférence, l'opération d'étirement temporel comprend un traitement de synthèse granulaire. Pour ce faire, on peut, par exemple, pour perpétrer un effet de durée, générer une onde complexe établie à partir de micro-grains (ou échantillons de courte durée) extraits du fichier 1, modifiés et réassemblés dans un ordre différent de l'ordre dans lequel ces micro-grains sont assemblés dans le fichier 1.

De préférence, l'opération d'étirement temporel comprend un traitement de réverbération, dit « à queue longue » et d'intensité maximale (on parle d'effet « humide »).

Dans un quatrième type d'association, la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain 9 et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain 9.

De préférence, la vitesse de lecture est ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et elle est accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps.

Il est à noter que le dispositif de commande réalisant des opérations en temps réel, une modification de la vitesse de lecture, autrement dit de la vitesse d'extraction du signal audio d'origine, se traduit normalement par une modification de la "vitesse ressentie" à laquelle le signal audio de sortie est reproduit. Une exception notable à la correspondance entre ces deux vitesses existe en cas d'opération d'étirement temporel, où le signal audio de sortie est généré à partir du dernier échantillon de signal audio d'origine extrait, c'est-à-dire sans extraction d'un nouvel échantillon de signal. Bien sûr, l'invention n'est pas limitée aux exemples qui viennent d'être décrits et de nombreux aménagements peuvent être apportés à ces exemples sans sortir du cadre de l'invention. De plus, les différentes caractéristiques, formes, variantes et modes de réalisation de l'invention peuvent être associés les uns avec les autres selon diverses combinaisons dans la mesure où ils ne sont pas incompatibles ou exclusifs les uns des autres.

Claims

REVENDICATIONS

1. Dispositif de commande gestuelle en temps réel de la reproduction d'un signal audio, ce dispositif étant agencé pour recevoir un fichier audio ou audio-vidéo (1) encodant un signal audio d'origine (11), ce dispositif comprenant :

- un capteur (2) agencé pour détecter dans un champ de captation (21) multidimensionnel une position d'au moins une partie (91a, 91b) d'un corps humain (9),

- un système de traitement informatique (3) comprenant :

o un module de gestion de données gestuelles (31) agencé pour générer des données gestuelles (311) à partir de positions successives de l'au moins une partie dudit au moins un corps humain (9) détectées par le capteur (2),

o un module de gestion de données audio agencé pour réaliser une opération de lecture dans laquelle on extrait progressivement le signal audio d'origine (11) du fichier audio ou audio-vidéo (1) en fonction de paramètres de lecture, le module de gestion de données audio étant en outre agencé pour générer en continu un signal audio d'arrivée à partir du signal audio d'origine extrait progressivement du fichier audio ou audio-vidéo,

o un module de traitement de signal (34) agencé pour appliquer des effets sonores au signal audio d'arrivée (321) en fonction des données gestuelles.

2. Dispositif selon la revendication 1, caractérisé en ce que le système de traitement informatique (3) comprend en outre un module de gestion de hauteur sonore (37) agencé pour maintenir une hauteur sonore du signal audio d'arrivée (321) lorsque la vitesse de lecture est modifiée.

3. Dispositif selon la revendication 1 ou 2, caractérisé en ce que l'au moins une partie (91a, 91b) du corps humain (9) est au moins une main (91a, 91b), et en ce que le capteur (2) et le module de gestion de données gestuelles (31) sont en outre agencés pour générer des données gestuelles à partir d'un degré de fermeture de l'au moins une main (91a, 91b).

4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que l'au moins une partie du corps humain (9) est au moins une main (91a, 91b), et en ce que le capteur (2) et le module de gestion de données gestuelles (31) sont en outre agencés pour générer des données gestuelles à partir d'un degré d'inclinaison de l'au moins une main (91a, 91b).

5. Dispositif selon l'une des revendications 1 à 4, caractérisé en ce que le module de traitement de signal (34) est agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles générées par le module de gestion de données gestuelles (31).

6. Dispositif selon l'une des revendications 1 à 5, caractérisé en ce que le module de gestion de données gestuelles (31) est agencé pour générer une ou plusieurs données gestuelles pour chaque position de la partie du corps humain détectée par le capteur (2).

7. Dispositif selon les revendications 5 et 6, caractérisé en ce que le module de traitement de signal (34) est agencé pour modifier au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chaque position de la partie du corps humain détectée par le capteur (2).

8. Procédé de commande gestuelle en temps réel de reproduction d'un signal audio comprenant :

- une détection dans un champ de captation (21) multidimensionnel d'une position d'au moins une partie (91a, 91b) d'un corps humain (9),

- une génération de données gestuelles (311) à partir de positions successives de l'au moins une partie dudit corps humain (9),

- une opération de lecture dans laquelle un signal audio d'origine (11) est progressivement extrait d'un fichier audio ou audio-vidéo (1) en fonction de paramètres de lecture, - un stockage d'un signal audio de travail (361) correspondant au signal audio d'origine extrait au fur et à mesure de l'opération de lecture,

- une génération en continu d'un signal audio d'arrivée (321) à partir du signal audio de travail (361),

- une modification d'au moins l'un des paramètres de lecture suivants en fonction des données gestuelles :

o un mode de lecture pouvant prendre un état « actif » dans lequel l'opération de lecture est mise en œuvre et un état « inactif » dans lequel l'opération de lecture n'est pas mise en œuvre,

o une vitesse de lecture, la vitesse de lecture étant la vitesse d'extraction du signal audio d'origine (11) au cours de l'opération de lecture,

- une application d'effets sonores au signal audio d'arrivée (321) en fonction des données gestuelles.

9. Procédé selon la revendication 8, caractérisé en ce que les effets sonores appliqués au signal audio d'arrivée (321) comprennent une modification d'une intensité sonore.

10. Procédé selon la revendication 9, caractérisé en ce que l'intensité sonore du signal audio d'arrivée (321) est modifiée lorsque les données gestuelles générées (311) traduisent un déplacement de l'au moins une partie dudit corps humain (9) entre deux positions successives situées dans un plan vertical du champ de captation (21).

11. Procédé selon la revendication 10, caractérisé en ce que l'intensité sonore du signal audio d'arrivée (321) est augmentée lorsqu'une première position parmi lesdites au moins deux positions successives est située à une altitude inférieure à celle d'une deuxième position, et en ce que l'intensité sonore du signal audio d'arrivée (321) est diminuée lorsque la première position est située à une altitude supérieure à celle de la deuxième position.

12. Procédé selon l'une des revendications 9 à 11, caractérisé en ce que la modification de l'intensité sonore comprend un traitement d'égalisation en fréquence.

13. Procédé selon l'une des revendications 9 à 12, caractérisé en ce que la modification de l'intensité sonore comprend un effet de fondu dans lequel l'intensité sonore passe progressivement d'une première valeur d'intensité sonore à une deuxième valeur d'intensité sonore.

14. Procédé selon la revendication 13, caractérisé en ce que l'au moins une partie dudit corps humain (9) est une main, et en ce que l'intensité sonore passe progressivement de la première valeur d'intensité sonore à la deuxième valeur d'intensité sonore lorsque les données gestuelles générées (311) traduisent un mouvement de supination ou de pronation de la main.

15. Procédé selon la revendication 14, caractérisé en ce que la deuxième valeur est inférieure à la première valeur lorsque les données gestuelles générées (311) traduisent un mouvement de supination de la main.

16. Procédé selon l'une des revendications 13 à 15, caractérisé en ce que la modification de l'intensité sonore s'accompagne d'un traitement de réverbération.

17. Procédé selon l'une des revendications 8 à 16, caractérisé en ce que les effets sonores appliqués au signal audio d'arrivée (321) comprennent une opération d'étirement temporel au cours de laquelle :

- l'opération de lecture est interrompue,

- le signal audio d'arrivée (321) est généré par combinaison d'un ou plusieurs échantillons du signal audio de travail (361).

18. Procédé selon la revendication 17, caractérisé en ce que l'au moins une partie dudit corps humain (9) est une main, et en ce que l'opération d'étirement temporel est réalisée pendant toute la durée où les données gestuelles générées (311) traduisent un mouvement de préhension de la main au cours duquel des doigts de la main sont refermés sur la paume de la main.

19. Procédé selon la revendication 17 ou 18, caractérisé en ce que l'opération d'étirement temporel comprend un traitement de synthèse granulaire.

20. Procédé selon l'une des revendications 17 à 19, caractérisé en ce que l'opération d'étirement temporel comprend un traitement de réverbération.

21. Procédé selon l'une des revendications 8 à 20, caractérisé en ce que la vitesse de lecture est modifiée en fonction d'une différence entre, d'une part, un premier intervalle de temps séparant une première et une deuxième position prises par l'au moins une partie dudit corps humain (9) et, d'autre part, un deuxième intervalle de temps séparant une troisième position d'une quatrième position successive prise par l'au moins une partie dudit corps humain (9).

22. Procédé selon la revendication 21, caractérisé en ce que la vitesse de lecture est ralentie lorsque le deuxième intervalle de temps est plus court que le premier intervalle de temps, et en ce que la vitesse de lecture est accélérée lorsque le deuxième intervalle de temps est plus long que le premier intervalle de temps.

23. Procédé selon l'une des revendications 8 à 22, caractérisé en ce que l'application d'effets sonores comprend une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction des données gestuelles.

24. Procédé selon l'une des revendications 8 à 23, caractérisé en ce que la génération de données gestuelles comprend une génération d'une ou de plusieurs données gestuelles pour chacune desdites positions successives de l'au moins une partie du corps humain (9).

25. Procédé selon les revendications 23 et 24, caractérisé en ce que l'application d'effets sonores comprend une modification d'au moins un paramètre d'un effet sonore appliqué au signal audio d'arrivée en fonction d'une donnée gestuelle ou d'un ensemble de données gestuelles générées pour chacune desdites positions successives.