WO2022207994A1 - Estimation d'un masque optimise pour le traitement de donnees sonores acquises - Google Patents

Estimation d'un masque optimise pour le traitement de donnees sonores acquises Download PDF

Info

Publication number
WO2022207994A1
WO2022207994A1 PCT/FR2022/050495 FR2022050495W WO2022207994A1 WO 2022207994 A1 WO2022207994 A1 WO 2022207994A1 FR 2022050495 W FR2022050495 W FR 2022050495W WO 2022207994 A1 WO2022207994 A1 WO 2022207994A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound data
time
sound
mask
frequency
Prior art date
Application number
PCT/FR2022/050495
Other languages
English (en)
Inventor
Alexandre Guerin
Henrique TOMAZ-AMORIM
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Priority to CN202280026623.9A priority Critical patent/CN117121104A/zh
Priority to EP22714494.6A priority patent/EP4315328A1/fr
Publication of WO2022207994A1 publication Critical patent/WO2022207994A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • FIG. 3 schematically shows an example of a sound data processing device according to one embodiment.
  • the steering vector can also be given by the relationship:

Abstract

La présente description concerne un traitement de données sonores acquises par une pluralité de microphones (MIC), dans lequel : - à partir des signaux acquis par la pluralité de microphones, on détermine une direction d'arrivée d'un son issu d'au moins une source acoustique d'intérêt (S4), - on applique aux données sonores un filtrage spatial fonction de la direction d'arrivée du son (S5), - on estime dans le domaine temps-fréquence des ratios d'une grandeur représentative d'une amplitude de signal, entre les données sonores filtrées d'une part et les données sonores acquises d'autre part (S6), - en fonction des ratios estimés, on élabore un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises (S7) en vue de construire un signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant (S10; S9- S10).

Description

Description
Titre : Estimation d'un masque optimisé pour le traitement de données sonores acquises
Domaine technique [0001] La présente description concerne le traitement de données sonores, notamment en contexte de prise de son lointaine.
[0002] La prise de son lointaine ou (“far-field” en anglais) se manifeste par exemple lorsqu'un locuteur est éloigné d'un équipement de prise de son. Elle offre toutefois des avantages se manifestant par un réel confort ergonomique pour l'utilisateur pour interagir “les mains-libres” avec un service en cours d'utilisation: passer un appel téléphonique, émettre des commandes vocales via un équipement de type « smartspeaker » (Google Home®, Amazon Echo®, etc).
[0003] En contrepartie, cette prise de son lointaine induit certains artefacts : la réverbération et les bruits environnants apparaissent amplifiés du fait de l'éloignement de l'utilisateur. Ces artefacts dégradent l'intelligibilité de la voix du locuteur, et par suite le fonctionnement des services. Il apparaît que la communication est plus difficile, que ce soit avec un humain ou un moteur de reconnaissance vocale.
[0004] Aussi, les terminaux mains-libres (comme les smartspeakers ou les « pieuvres » de téléconférence) sont généralement équipés d'une antenne de microphones qui permet de rehausser le signal utile en réduisant ces perturbations. Le rehaussement à base d'antenne exploite les informations spatiales encodées lors de l'enregistrement multicanal et propres à chaque source pour discriminer le signal d'intérêt des autres sources de bruit.
[0005] De nombreuses techniques de traitement d'antenne existent telles qu'un filtre de type « Delay and Sum » réalisant un filtrage purement spatial grâce à la seule connaissance de la direction d'arrivée de la source d'intérêt ou d'autres sources, ou encore un filtre « MVDR » (pour « Minimum Variance Distorsionless Response ») se montrant un peu plus efficace grâce à la connaissance, en plus de la direction d'arrivée de la source d'intérêt, de la distribution spatiale du bruit. D'autres filtres encore plus performants comme les filtres de Wiener Multicanal nécessitent de disposer en outre de la distribution spatiale de la source d'intérêt.
[0006] En pratique, la connaissance de ces distributions spatiales découle de celle d'une carte temps-fréquence qui indique les points de cette carte dominés par la parole, et les points dominés par le bruit. L'estimation de cette carte, que l'on appelle aussi masque, est généralement inférée par un réseau de neurones préalablement entraîné. [0007] Ci-après on note : x(t,f) = s(t,f) + n(t,f) un signal qui contient un mélange constitué et parole et bruit dans le domaine temps-fréquence, où s(t,f ) est la parole et n(t,f ) le bruit.
[0008] Un masque, noté (respectivement est défini comme un réel,
Figure imgf000004_0001
Figure imgf000004_0002
généralement dans l'intervalle [0; 1] , tel qu'une estimation du signal d'intérêt
Figure imgf000004_0003
(respectivement du bruit n(t,f )) est obtenue par simple multiplication de ce masque avec les observations x(t,f), soit :
[0009]
[0010]
Figure imgf000004_0004
[0011] On cherche alors une estimation de masques et qui puisse mener
Figure imgf000004_0005
Figure imgf000004_0006
à la dérivation de filtres de séparation ou de rehaussement qui soient efficaces.
Technique antérieure
[0012] L'utilisation de réseaux de neurones profonds (selon une approche mettant en œuvre une « intelligence artificielle ») a été utilisée pour la séparation de sources. Une description d'une telle réalisation est présentée par exemple dans le document
[@umbachChallenge] dont les références sont données en annexe ci-après. Des architectures telles que les plus simples de type dit "Feed Forward" (FF) ont été investiguées et ont montré leur efficacité comparées aux méthodes de traitement du signal, généralement basées sur des modèles (comme décrit dans la référence
[@heymannNNmask]). Des architectures « récurrentes » de type dit « LSTM » (Long-Short Term Memory, comme décrit dans [@laurelineLSTM]) ou Bi-LSTM (comme décrit dans [@heymannNNmask]), qui permettent de mieux exploiter les dépendances temporelles des signaux, montrent de meilleures performances, en contrepartie d'un coût de calcul très élevé. Pour réduire ce coût computationnel, que ce soit pour l'entraînement ou l'inférence, des architectures convolutionnelles dites « CNN » (Convolutional Neural Network) ont été proposées avec succès ([@amelieUnet], [@janssonUnetSinger]), améliorant les performances et réduisant le coût de calcul, avec en sus la possibilité de paralléliser les calculs. Si les approches d'intelligence artificielle pour la séparation exploitent généralement des caractéristiques dans le domaine temps-fréquence, des architectures purement temporelles ont aussi été employées avec succès ([@stollerWaveUnet]).
[0013] Toutes ces approches de rehaussement et de séparation par intelligence artificielle montrent une réelle valeur ajoutée pour les tâches où le bruit pose problème : transcriptions, reconnaissance, détection. Cependant, ces architectures ont en commun un coût élevé en termes de mémoire et de puissance de calcul. Les modèles de réseau de neurones profonds sont composées de dizaines de couches et des centaines de milliers, voire des millions, de paramètres. Par ailleurs, leur apprentissage nécessite de grandes bases des données exhaustives, annotées et enregistrées en conditions réalistes pour garantir une généralisation à toutes les conditions d'utilisation.
Résumé
[0014] La présente description vient améliorer la situation.
[0015] Il est proposé un procédé de traitement de données sonores acquises par une pluralité de microphones, dans lequel :
- à partir des données sonores acquises par la pluralité de microphones, on détermine une direction d'arrivée d'un son issu d'au moins une source acoustique d'intérêt,
- on applique aux données sonores un filtrage spatial fonction de la direction d'arrivée du son,
- on estime dans le domaine temps-fréquence des ratios d'une grandeur représentative d'une amplitude de signal, entre les données sonores filtrées d'une part et les données sonores acquises d'autre part,
- en fonction des ratios estimés, on élabore un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises pour construire un signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant.
[0016] On entend ici par « grandeur représentative » d'une amplitude de signal, l'amplitude du signal mais aussi son énergie ou encore sa puissance, etc. Ainsi, les ratios précités peuvent être estimés en divisant l'amplitude (ou l'énergie, ou la puissance, etc.) du signal que représentent les données sonores filtrées par l'amplitude (ou l'énergie, ou la puissance, etc.) du signal que représentent les données sonores acquises (donc brutes).
[0017] Le masque de pondération ainsi obtenu est alors représentatif, en chaque point temps-fréquence du domaine temps-fréquence, d'un degré de prépondérance de la source acoustique d'intérêt, par rapport à du bruit ambiant.
[0018] Le masque de pondération peut être estimé pour construire directement un signal acoustique représentant le son issu de la source d'intérêt, et rehaussé par rapport à du bruit ambiant, ou encore pour calculer de seconds filtres spatiaux qui peuvent être plus efficaces pour réduire plus fortement le bruit que dans le cas précité d'une construction directe.
[0019] De manière générale, il est alors possible d'obtenir un masque temps-fréquence sans faire appel aux réseaux de neurones, avec pour seule connaissance a priori la direction d'arrivée de la source utile. Ce masque permet par la suite d'implémenter des filtres de séparation efficaces comme par exemple le filtre MVDR (pour « Minimum Variance Distorsionless Response ») ou ceux issus de la famille des filtres de Wiener Multicanal. L'estimation au fil de l'eau de ce masque permet de dériver des filtres à faible latence. En outre, son estimation reste efficace y compris en conditions adverses où le signal d'intérêt est noyé dans le bruit environnant.
[0020] Dans une réalisation, le premier filtrage spatial précité (appliqué aux données acquises avant d'estimer les ratios) peut être de type « Delay and Sum ».
[0021] En pratique, on peut appliquer dans ce cas des délais successifs aux signaux captés par les microphones agencés le long d'une antenne par exemple. Comme les distances entre les microphones et donc les déphasages inhérents à ces distances entre ces signaux captés sont connus, on peut procéder ainsi à une mise en phase de tous ces signaux que l'on peut sommer ensuite.
[0022] Dans le cas d'une transformation des signaux acquis dans le domaine ambisonique, l'amplitude des signaux représente ces déphasages inhérents aux distances entre microphones. Là encore, il est possible de pondérer ces amplitudes pour mettre en œuvre un traitement que l'on peut qualifier de « Delay and Sum ».
[0023] Dans une variante, ce premier filtrage spatial peut être de type MPDR (pour « Minimum Power Distortionless Response »). Il a l'avantage de mieux réduire le bruit environnant, tout en conservant le signal utile intact, et ne nécessite pas d'autre information que la direction d'arrivée. Ce type de procédé est décrit par exemple dans le document [@gannotResume] dont le contenu est détaillé plus loin et dont la référence complète est donnée en annexe.
[0024] Ici néanmoins, le filtrage spatial de type MPDR, noté wMPDR, peut être donné dans une réalisation particulière par :
[0025]
Figure imgf000006_0001
[0026] où as représente un vecteur définissant la direction d'arrivée du son (ou « steering vector »), et Rx est une matrice de covariance spatiale estimée en chaque point temps- fréquence (t,f) par une relation de type :
Figure imgf000006_0002
où :
- Ω(t,f) est un voisinage du point temps-fréquence (t,f),
- card est l'opérateur « cardinal », - x(t1,f1) est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et x(t1,f1)H son conjugué hermitien.
[0027] Par ailleurs, comme indiqué précédemment, le procédé peut comporter optionnellement une étape ultérieure d'affinage du masque de pondération pour débruiter son estimation.
[0028] Pour mener cette étape ultérieure, l'estimation peut être débruitée par lissage en appliquant par exemple des moyennes locales, définies heuristiquement.
[0029] Alternativement, cette estimation peut être débruitée par définition d'un modèle a priori de distribution de masque.
[0030] La première approche permet de conserver une complexité faible, tandis-que la seconde approche, basée sur un modèle, obtient de meilleures performances, au prix d'une complexité accrue.
[0031] Ainsi, dans un premier mode de réalisation, le masque de pondération élaboré peut être en outre affiné par lissage en chaque point temps-fréquence en appliquant un opérateur statistique local, calculé sur un voisinage temps-fréquence du point temps- fréquence ( t,f ) considéré. Cet opérateur peut prendre la forme d'une moyenne, d'un filtre Gaussien, d'un filtre médian, ou autre.
[0032] Dans un second mode de réalisation, pour mener la deuxième approche précitée, le masque de pondération élaboré peut être en outre affiné par lissage en chaque point temps-fréquence, en appliquant une approche probabiliste comportant :
- considérer le masque de pondération comme une variable aléatoire,
- définir un estimateur probabiliste d'un modèle de la variable aléatoire,
- chercher un optimum de l'estimateur probabiliste pour améliorer le masque de pondération. [0033] Typiquement, le masque peut être considéré comme une variable aléatoire uniforme dans un intervalle [0,1].
[0034] L'estimateur probabiliste du masque M s(t,f) peut être par exemple représentatif d'un maximum de vraisemblance, sur une pluralité d'observations d'un couple de variables , représentant respectivement :
Figure imgf000007_0001
- un signal acoustique issu de l'application du masque de pondération aux données
Figure imgf000007_0002
sonores acquises, et
- les données sonores acquises xt , lesdites observations étant choisies dans un voisinage / du point temps-fréquence ( t,f ) considéré.
[0035] Ces deux modes de réalisation ont ainsi pour vocation d'affiner le masque après son estimation. Comme indiqué précédemment, le masque obtenu (affiné optionnellement) peut être appliqué directement, aux données acquises (brutes, captées par les microphones) ou servir à construire un second filtre spatial à appliquer à ces données acquises.
[0036] Ainsi, dans ce deuxième cas, la construction du signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant, peut impliquer l'application d'un second filtrage spatial, obtenu à partir du masque de pondération.
[0037] Ce second filtrage spatial peut être de type MVDR pour « Minimum Variance Distorsionless Response », et dans ce cas, on estime au moins une matrice de covariance spatiale Rn du bruit ambiant, le filtrage spatial de type MVDR étant donné par WMVDR =
Figure imgf000008_0001
où :
- (t, f) est un voisinage d'un point temps-fréquence (t,f),
- card est l'opérateur « cardinal »,
- x(t1,f1) est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et x(t1,f1)H son conjugué hermitien, et est l'expression du masque de pondération dans le domaine temps-fréquence.
Figure imgf000008_0003
[0038] Alternativement, le second filtrage spatial peut être de type MWF pour
« Multichannel Wiener Filter », et dans ce cas on estime des matrices de covariance spatiale Rs et Rn, respectivement du signal acoustique représentant le son issu de la source d'intérêt, et du bruit ambiant, le filtrage spatial de type MWF étant donné par :
Figure imgf000008_0002
où : - Ω(t,f) est un voisinage d'un point temps-fréquence (t,f), - card est l'opérateur « cardinal »,
- x(t1,f1) est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et x(t1,f1)H son conjugué hermitien, et est l'expression du masque de pondération dans le domaine temps-fréquence.
Figure imgf000009_0001
[0039] La matrice de covariance spatiale Rn ci-dessus représente le « bruit ambiant ». Ce dernier peut en réalité comporter des émissions de sources sonores qui n'ont pas été retenues toutefois comme étant la source sonore d'intérêt. Des traitements séparés peuvent être opérés pour chaque source dont une direction d'arrivée a été détectée (par exemple en dynamique) et, dans le traitement pour une source donnée, les émissions des autres sources sont considérées comme faisant partie du bruit.
[0040] On comprend dans cette forme de réalisation comment le filtrage spatial réalisé, de type MWF par exemple, peut être issu du masquage estimé pour des points temps- fréquence les plus avantageux car la source acoustique d'intérêt y est prépondérante. Il convient de noter en outre que deux optimisations conjointes peuvent être menées, l'une pour la covariance Rs du signal acoustique faisant intervenir le masque temps-fréquence recherché Ms et l'autre pour la covariance Rn du bruit ambiant faisant intervenir un masque Mn lié au bruit (en sélectionnant alors des points temps-fréquence en lesquels le bruit seul est prépondérant).
[0041] La solution décrite ci-avant permet ainsi, de façon générale, d'estimer dans un domaine temps-fréquence un masque optimal dans les points temps-fréquence où la source d'intérêt est prépondérante, à partir de la seule information de direction d'arrivée de la source d'intérêt, sans apport de réseau de neurones (soit pour appliquer le masque directement aux données acquises, soit pour construire un second filtrage spatial à appliquer aux données acquises).
[0042] La présente description propose aussi un programme informatique comportant des instructions pour la mise en œuvre de tout ou partie d'un procédé tel que défini dans les présentes lorsque ce programme est exécuté par un processeur. Selon un autre aspect, il est proposé un support d'enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistré un tel programme.
[0043] La présente description propose aussi un dispositif comportant (comme illustré sur la figure 3) au moins une interface de réception (IN) de données sonores acquises par une pluralité de microphones (MIC) et un circuit de traitement (PROC, MEM) configuré pour : - à partir des données sonores acquises par la pluralité de microphones, déterminer une direction d'arrivée d'un son issu d'au moins une source acoustique d'intérêt,
- appliquer aux données sonores un filtrage spatial fonction de la direction d'arrivée du son,
- estimer dans le domaine temps-fréquence des ratios d'une grandeur représentative d'une amplitude de signal, entre les données sonores filtrées d'une part et les données sonores acquises d'autre part, et
- en fonction des ratios estimés, élaborer un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises pour construire un signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant. [0044] Ainsi, le dispositif peut comporter en outre une interface de sortie (référence OUT de la figure 3) pour délivrer ce signal acoustique. Cette interface OUT peut être reliée à un module de reconnaissance vocale par exemple pour interpréter correctement des commandes d'un utilisateur, malgré du bruit ambiant, le signal acoustique délivré ayant été alors traité selon le procédé présenté plus haut.
Brève description des dessins
[0045] D'autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l'analyse des dessins annexés, sur lesquels :
Fig. 1 [0046] [Fig. 1] montre schématiquement un contexte possible de mise en œuvre du procédé présenté ci-avant.
Fig. 2
[0047] [Fig. 2] illustre une succession d'étapes que peut comporter un procédé au sens de la présente description, selon un mode de réalisation particulier. Fig. 3
[0048] [Fig. 3] montre schématiquement un exemple de dispositif de traitement de données sonores selon un mode de réalisation.
Description des modes de réalisation [0049] En référence encore à la figure 3 ici, le circuit de traitement du dispositif DIS présenté précédemment peut comporter typiquement une mémoire MEM apte à stocker notamment les instructions du programme informatique précité, ainsi qu'un processeur PROC apte à coopérer avec la mémoire MEM pour exécuter le programme informatique. [0050] Typiquement, l'interface de sortie OUT peut alimenter un module MOD de reconnaissance vocale d'un assistant personnel capable d'identifier dans le signal acoustique précité une commande vocale d'un utilisateur UT qui, comme illustré sur la figure 1, peut prononcer une commande vocale captée par une antenne de microphones MIC, et ce notamment en présence de bruit ambiant et/ou de réverbérations sonores REV, générées par les murs et/ou cloisons d'une pièce par exemple dans laquelle se situe l'utilisateur UT. Le traitement des données sonores acquises, au sens de la présente description et qui est détaillé ci-après, permet néanmoins de surmonter de telles difficultés.
[0051] Un exemple de procédé global au sens de la présente description est illustré sur la figure 2. Le procédé commence par une première étape S1 d'acquisition des données sonores captées par les microphones. Ensuite, il est procédé à une transformée temps- fréquence des signaux acquis à l'étape S3, après une apodisation réalisée à l'étape S2. La direction d'arrivée du son issu de la source d'intérêt (DoA) peut ensuite être estimée à l'étape S4 en donnant en particulier le vecteur as (f) de cette direction d'arrivée (ou « steering vector »). Ensuite, à l'étape S5, il est appliqué un premier filtrage spatial aux données sonores acquises par les microphones, par exemple dans l'espace temps-fréquence, et en fonction de la direction d'arrivée DoA. Le premier filtrage spatial peut être de type Delay and Sum ou MPDR et il est « centré » sur la DoA. Dans le cas où le filtre est de type MPDR, les données acquises exprimées dans le domaine temps-fréquence sont utilisées, en outre de la DoA, pour construire le filtre (flèche illustrée en traits pointillés à cet effet). Ensuite, à l'étape S6, il est estimé des ratios d'amplitude (ou d'énergie ou de puissance) entre les données acquises filtrées et les données acquises brutes (notées x(t,f) dans le domaine temps-fréquence). Cette estimation des ratios dans le domaine temps-fréquence permet de construire une première forme, approximative, du masque de pondération favorisant déjà la DoA à l'étape S7 car les ratios précités sont de niveaux élevés principalement dans la direction d'arrivée DoA. On peut prévoir ensuite une étape ultérieure S8, optionnelle, consistant à lisser ce premier masque pour l'affiner. Ensuite, à l'étape S9 (optionnelle également), il est possible en outre de générer un second filtrage spatial à partir de ce masque affiné. Ce second filtrage peut être appliqué alors ensuite dans le domaine temps- fréquence aux données sonores acquises afin de générer à l'étape S10 un signal acoustique dénué substantiellement de bruit et qui peut alors être interprété proprement par un module de reconnaissance vocale ou autre. On détaille ci-après chacune des étapes de ce procédé.
[0052] On note ci-après x(t) un signal d'antenne composé de N canaux, organisés sous forme d'un vecteur colonne à l'étape S1 : [0053]
Figure imgf000012_0001
[0054] Ce vecteur est nommé « observation » ou « mélange ».
[0055] Les signaux
Figure imgf000012_0006
peuvent être les signaux captés directement par les microphones de l'antenne, ou une combinaison de ces signaux microphoniques comme dans le cas d'une antenne collectant les signaux selon une représentation au format ambiophonique (dit aussi « ambisonique »).
[0056] Dans la suite, les différentes quantités (signaux, matrices de covariance, masques, filtres), sont exprimées dans un domaine temps-fréquence, à l'étape S3, comme suit :
[0057]
Figure imgf000012_0002
[0058] où F{.) est par exemple la transformée de Fourier à court-terme de taille L :
[0059]
Figure imgf000012_0003
[0060] Dans la relation précédente, est une version potentiellement apodisée à
Figure imgf000012_0007
l'étape S2 par une fenêtre w(k) et complétée avec des 0 de la variable x(t):
[0061]
Figure imgf000012_0004
[0062] avec M ≤ L et où w(k) est une fenêtre d'apodisation de type Hann ou autre.
[0063] On peut définir plusieurs filtres de rehaussement selon les informations dont on dispose. Ils pourront être alors utilisés pour la déduction du masque dans le domaine temps- fréquence.
[0064] Pour une source s de position donnée, on note as le vecteur colonne qui pointe dans la direction de cette source (la direction d'arrivée du son), vecteur appelé « steering vector ». Dans le cas d'une antenne uniforme linéaire formée de N capteurs, où chaque capteur est espacé de son voisin d'une distance d, le steering vector d'une onde plane d'incidence θ par rapport à l'antenne est défini à l'étape S4 dans le domaine fréquentiel par :
[0065] où c est la célérité du son dans l'air.
Figure imgf000012_0005
[0066] Le premier canal correspond ici au dernier capteur rencontré par l'onde sonore. Ce steering vector donne alors la direction d'arrivée du son ou « DOA ».
[0067] Dans le cas d'une antenne ambisonique 3D d'ordre 1, typiquement au format SID/N3D, le steering vector peut être donné aussi par la relation :
[0068] où le couple (θ, Φ) correspond à l'azimuth et l'élévation
Figure imgf000013_0001
de la source par rapport à l'antenne.
[0069] A partir de la seule connaissance de la direction d'arrivée d'une source sonore (ou DOA), à l'étape S5 on peut définir un filtre de type delay-and-sum (DS) qui pointe dans la direction de cette source, comme suit : [0070]
Figure imgf000013_0002
est l'opérateur transposé-conjugué d'une matrice ou d'un vecteur.
[0071] On peut également utiliser un filtre un peu plus complexe, mais également plus performant, comme le filtre MPDR (pour « Minimum Power Distortionless Response »). Ce filtre nécessite, en plus de la direction d'arrivée du son émis par la source, la distribution spatiale du mélange x à travers sa matrice de covariance spatiale Rx :
[0072] où la covariance spatiale du signal multidimensionnel capté par
Figure imgf000013_0003
l'antenne x est donnée par la relation suivante :
[0073]
Figure imgf000013_0004
[0074] Des détails d'une telle mise en œuvre sont décrits notamment dans la référence [@gannotResume] précisée en annexe.
[0075] Enfin, si on dispose des matrices de covariance spatiale Rs et Rn du signal d'intérêt s et du bruit n, on peut utiliser une famille de filtres beaucoup plus efficaces pour appliquer le second filtrage spatial précité (décrit plus loin en référence à l'étape S9 de la figure 2). On indique simplement ici qu'à titre d'exemple, on peut utiliser comme second filtrage un filtrage spatial de type MWF pour « Multichannel Wiener Filter », donné par l'équation suivante :
[0076]
Figure imgf000013_0005
[0077] et faisant intervenir les matrices de covariance spatiale représentant la distribution spatiale de l'énergie acoustique, émise par une source d'intérêt Rs ou par du bruit ambiant Rn , et se propageant dans l'environnement acoustique. En pratique, les propriétés acoustiques - réflexion, diffraction, diffusion - des matériaux des parois rencontrées par les ondes sonores - murs, plafond, sol, vitrage, etc. - varient fortement en fonction de la bande de fréquences considérée. Par la suite, cette distribution spatiale de l'énergie dépend également de la bande de fréquences. Par ailleurs, dans le cas de sources mobiles, cette covariance spatiale peut varier au cours du temps.
[0078] Une façon d'estimer la covariance spatiale du mélange x est d'opérer une intégration temps-fréquence locale :
[0079]
Figure imgf000014_0001
[0080] où Ω(t, f) est un voisinage plus ou moins large autour du point temps-fréquence ( t,f ), et card est l'opérateur « cardinal ».
[0081] A partir de là, il est déjà possible d'estimer le premier filtrage wMPDR qui peut être appliqué à l'étape S5.
[0082] Pour les matrices Rs et Rn , la situation est différente car elles ne sont pas directement accessibles depuis les observations et doivent être estimées. En pratique, on utilise un masque M s(t,f) (respectivement Mn(t,f)) qui permet de “sélectionner” les points temps-fréquence où la source utile (respectivement le bruit) est prépondérante, ce qui permet de calculer ensuite sa matrice de covariance par une intégration classique, par pondération avec un masque adéquat de type :
[0083]
Figure imgf000014_0002
[0084] Le masque du bruit M n(t,f) peut être dérivé directement du masque utile (i.e. associé à la source d'intérêt) M s(t,f) par la formule : M n(t,f) = 1 - M Dans ce cas, la matrice de covariance spatiale de bruit peut se calculer de la même façon que celle du signal utile, et plus particulièrement sous la forme :
[0085]
Figure imgf000014_0003
[0086] L'objectif visé ici est d'estimer ces masques temps-fréquence M s(t,f) et Mn(t,f).
[0087] On considère connue la direction d'arrivée du son (ou « DOA », obtenue à l'étape S4), issu de la source utile s à l'instant t, notée doas(t). Cette DOA peut être estimée par un algorithme de localisation comme le « SRP-phat » ([@diBiaseSRPPhat]), et suivie par un algorithme de suivi ou (« tracking ») comme un filtre de Kalman par exemple. Elle peut être composée d'une seule composante comme dans le cas d'une antenne linéaire, ou des composantes d'azimut et d'élévation (θ, Φ) dans le cas d'une antenne sphérique de type ambisonique par exemple. [0088] Ainsi, à partir de la seule connaissance de la DOA de la source utile s, on cherche à l'étape S7 à estimer ces masques. On dispose d'une version rehaussée du signal utile dans le domaine temps-fréquence. Cette version rehaussée est obtenue par application à l'étape S5 d'un filtre spatial ws qui pointe dans la direction de la source utile. Ce filtre peut être de type Delay and Sum, ou ci-après de type wMPDR présenté par :
[0089] ) eXiS,e
Figure imgf000015_0001
[0090] A partir de ce filtre, on rehausse le signal d'intérêt s par application du filtre à l'étape S5 :
[0091]
Figure imgf000015_0002
[0092] Ce signal rehaussé permet de calculer un masque préliminaire
Figure imgf000015_0003
à l'étape S7, donné par les ratios de l'étape S6 :
Figure imgf000015_0004
où xref est un canal de référence issu de la captation, et y un réel positif y prend typiquement les valeurs entières (par exemple 1 pour l'amplitude ou 2 pour l'énergie). Il convient de noter que lorsque y ® ¥ , le masque tend vers le masque binaire indiquant la prépondérance de la source par rapport au bruit.
[0093] Par exemple, pour une antenne ambisonique, on peut utiliser le premier canal qui est le canal omnidirectionnel. Dans le cas d'une antenne linéaire, ce peut être le signal correspondant à un quelconque capteur.
[0094] Dans le cas idéal où le signal est parfaitement rehaussé par le filtre ws, et γ = 1, ce masque correspond à l'expression : ce qui définit un masque au
Figure imgf000015_0005
comportement souhaité, à savoir proche de 1 lorsque le signal s est prépondérant, et proche de 0 lorsque le bruit est prépondérant. En pratique, du fait de l'effet de l'acoustique et des imperfections de mesure dans la DOA de la source, le signal rehaussé, quoique déjà dans une meilleure condition que les signaux bruts acquis, peut comporter encore du bruit et peut être perfectionné par un traitement de raffinement de l'estimation du masque (étape S8).
[0095] On décrit ci-après l'étape S8 de raffinement du masque. Bien que cette étape soit avantageuse, elle n'est en rien essentielle, et peut être menée optionnellement, par exemple si le masque estimé pour le filtrage à l'étape S7 s'avère bruité au-delà d'un seuil choisi. [0096] Pour limiter le bruit du masque, on applique une fonction de lissage soft(. ), à l'étape S8. L'application de cette fonction de lissage peut revenir à estimer une moyenne locale, en chaque point temps-fréquence, par exemple comme suit:
[0097] définit un voisinage du
Figure imgf000016_0001
point temps-fréquence considéré (t,f).
[0098] On peut alternativement choisir une moyenne pondérée par un noyau Gaussien par exemple, ou encore un opérateur de médiane qui est plus robuste aux valeurs aberrantes.
[0099] Cette fonction de lissage peut être appliquée, soit aux observations , soit au
Figure imgf000016_0003
filtre comme suit :
Figure imgf000016_0002
[0100]
Figure imgf000016_0004
[0101] Pour améliorer l'estimation, on peut appliquer une première étape de saturation, qui permet de garantir que le masque soit bien dans l'intervalle [0,1] :
[0102]
Figure imgf000016_0005
[0103] En effet, le procédé précédent mène parfois à une sous-estimation des masques. Il peut être intéressant de “redresser” les estimations précédentes par l'application d'une fonction de saturation
Figure imgf000016_0010
du type :
[0104]
Figure imgf000016_0006
[0105] où uth est un seuil à régler selon le niveau souhaité. [0106] Une autre façon d'estimer le masque à partir des observations brutes consiste, plutôt que d'opérer des opérations de moyennage, à adopter une approche probabiliste, en posant R une variable aléatoire définie par :
[0107]
Figure imgf000016_0007
- correspond au signal rehaussé (i.e filtré par un filtre de rehaussement MPDR ou DS), - x correspond à un canal particulier du mélange et
- Ms correspond au masque de la source utile estimé précédemment : ce peut être ou
Figure imgf000016_0009
les différentes variantes de
Figure imgf000016_0008
[0108] Ces variables peuvent être considérées comme dépendantes du temps et de la fréquence. [0109] La variable R|MS suit une distribution normale, avec une moyenne nulle et une variance qui dépend de Ms, comme suit :
[0110]
Figure imgf000017_0001
[0111]
Figure imgf000017_0002
[0112] où
Figure imgf000017_0003
est l'opérateur variance.
[0113] On peut également admettre une distribution a priori pour Ms. Comme il s'agit d'un masque, avec des valeurs comprises entre 0 et 1, on pose que le masque suit une loi uniforme dans l'intervalle [0,1] :
[0114]
Figure imgf000017_0004
[0115] On peut définir une autre distribution favorisant la parcimonie du masque, comme une loi exponentielle par exemple, dans une variante.
[0116] À partir du modèle imposé pour les variables décrites, on peut calculer le masque en utilisant des estimateurs probabilistes. Ici on décrit l'estimateur du masque M s(t,f) au sens du maximum de vraisemblance. [0117] On suppose que l'on dispose d'un certain nombre d'observations / du couple de variables On peut sélectionner par exemple un ensemble d'observations en
Figure imgf000017_0005
choisissant un pavé temps-fréquence autour du point (t,f) où l'on estime M s(t,f) :
[0118]
Figure imgf000017_0006
[0119] La fonction de vraisemblance du masque s'écrit : [0120]
Figure imgf000017_0007
[0121] L'estimateur au sens du maximum de vraisemblance est donné directement par l'expression avec :
Figure imgf000017_0008
[0122] sont les variances des variables
Figure imgf000017_0010
Figure imgf000017_0009
[0123] Encore une fois, pour éviter les valeurs hors de l'intervalle [0,1], on peut appliquer une opération de saturation du type :
[0124]
Figure imgf000017_0011
[0125] La procédure par approche probabiliste est moins bruitée que celle par moyennage local. Elle présente, au prix d'une complexité plus élevée du fait du calcul nécessaire des statistiques locales, une variance plus faible. Cela permet par exemple de correctement estimer les masques en l'absence de signal utile.
[0126] Le procédé peut se poursuivre à l'étape S9 par l'élaboration du second filtrage spatial à partir du masque de pondération donnant en particulier la matrice Ms (ainsi que la matrice propre au bruit Mn = 1 - Ms) pour construire un second filtre par exemple de type MWF en estimant les matrices de covariance spatiale Rs et Rn propres à la source d'intérêt et au bruit, respectivement, et données par :
Figure imgf000018_0001
où :
- Ω(t, f) est un voisinage d'un point temps-fréquence
Figure imgf000018_0002
- card est l'opérateur « cardinal », est un vecteur représentant les données sonores acquises dans le domaine
Figure imgf000018_0003
temps-fréquence, et
Figure imgf000018_0008
son conjugué hermitien, et est l'expression du masque de pondération dans le domaine temps-fréquence.
Figure imgf000018_0004
[0127] Le filtrage spatial de type MWF est alors donné par :
Figure imgf000018_0005
[0128] Il convient de noter en variante que si le second filtrage retenu est de type MVDR, alors le second filtrage est donné par avec
Figure imgf000018_0006
Figure imgf000018_0007
où Ω(t,f ) et card sont définis comme précédemment.
[0129] Une fois ce second filtrage spatial appliqué aux données acquises x(t,f), on peut appliquer une transformée inverse (de l'espace temps-fréquence à l'espace direct) et obtenir à l'étape S10 un signal acoustique
Figure imgf000018_0009
représentant le son issu de la source d'intérêt et rehaussé par rapport au bruit ambiant (délivré typiquement par l'interface de sortie OUT du dispositif illustré sur la figure 3).
Application industrielle [0130] Les présentes solutions techniques peuvent trouver à s'appliquer notamment dans le rehaussement de la parole par des filtres complexes par exemple de type MWF ([@laurelineLSTM], [@amelieUnet]), ce qui assure une bonne qualité auditive et un taux élevé de reconnaissance automatique de parole, sans besoin de réseau de neurones. L'approche peut être utilisées pour la détection de mots-clés ou "wake-up words" où même la transcription d'un signal de parole.
Liste des documents cités
[0131] À toute fin utile, les éléments non-brevets suivants sont cités :
[0132] [@amelieUnet] : Amélie Bosca et al. “Dilated U-net based approach for multichannel speechenhancement from First-Order Ambisonics recordings”. In:Computer Speech& Language(2020), pp. 37-51
[0133] [@laurelineLSTM] : L. Perotin et al. “Multichannel speech séparation with récurrent neuralnetworks from high-order Ambisonics recordings”. ln:Proc. of ICASSP.ICASSP 2018 - IEEE International Conférence on Acoustics, Speech andSignal Processing. 2018, pp. 36- 40.
[0134] [@umbachChallenge] : Reinhold Heab-Umbach et al. “Far-Field Automatic Speech Récognition”. arXiv:2009.09395v1 .
[0135] [@heymannNNmask] : J. Heymann, L. Drude, and R. Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” in Proc of ICASSP, 2016, pp. 196-200.
[0136] [@janssonUnetSinger] : A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar, and T. Weyde, “Singing voice séparation with deep U-net convolutional networks,” in Proc of Int. Soc. for Music Inf. Retrieval, 2017, pp. 745-751.
[0137] [@stollerWaveUnet] : D. Stoller, S. Ewert, and S. Dixon, “Wave-U-Net: a multi-scale neural network for end-to-end audio source séparation,” in Proc of Int. Soc. for Music Inf. Retrieval, 2018, pp. 334-340.
[0138] [@gannotResume] : Sharon Gannot et al. “A Consolidated Perspective on Multimicrophone Speech Enhancement and Source Séparation”. ln:IEEE/ACM Transac tions on Audio, Speech, and Language Processing25.4 (Apr. 2017), pp. 692-730. issn: 2329-9304.doi:10.1109/TASLP.2016.2647702. [0139] [@diBiaseSRPPhat] : J. Dibiase, H. Silverman, and M. Brandstein, “Robust localization in réverbérant rooms,” in Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001, pp. 157-180.

Claims

Revendications
[Revendication 1] Procédé de traitement de données sonores acquises par une pluralité de microphones (MIC), dans lequel :
- à partir des données sonores acquises par la pluralité de microphones, on détermine une direction d'arrivée d'un son issu d'au moins une source acoustique d'intérêt,
- on applique aux données sonores un filtrage spatial fonction de la direction d'arrivée du son,
- on estime dans le domaine temps-fréquence des ratios d'une grandeur représentative d'une amplitude de signal, entre les données sonores filtrées d'une part et les données sonores acquises d'autre part,
- en fonction des ratios estimés, on élabore un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises pour construire un signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant.
[Revendication 2] Procédé selon l'une des revendications précédentes, dans lequel le filtrage spatial est de type « Delay and Sum ».
[Revendication 3] Procédé selon la revendication 1, dans lequel le filtrage spatial est appliqué dans le domaine temps-fréquence et est de type MPDR, pour « Minimum Power Distortionless Response ».
[Revendication 4] Procédé selon la revendication 3, dans lequel le filtrage spatial de type
MPDR, noté wMPDR, est donné par où as représente un vecteur
Figure imgf000021_0001
définissant la direction d'arrivée du son, et Rx (t,f) est une matrice de covariance spatiale estimée en chaque point temps-fréquence (t,f) par une relation de type :
Figure imgf000021_0002
où : - Ω(t, f) est un voisinage du point temps-fréquence (t,f),
- card est l'opérateur « cardinal »,
- x(t1,f1) est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et x(t1,f1)H son conjugué hermitien.
[Revendication 5] Procédé selon l'une des revendications précédentes, dans lequel le masque de pondération élaboré est en outre affiné par lissage en chaque point temps- fréquence en appliquant un opérateur statistique local, calculé sur un voisinage temps- fréquence du point temps-fréquence (t,f) considéré.
[Revendication 6] Procédé selon l'une des revendications 1 à 4, dans lequel le masque de pondération élaboré est en outre affiné par lissage en chaque point temps-fréquence, et dans lequel on applique une approche probabiliste comportant :
- considérer le masque de pondération comme une variable aléatoire, - définir un estimateur probabiliste d'un modèle de la variable aléatoire,
- chercher un optimum de l'estimateur probabiliste pour améliorer le masque de pondération.
[Revendication 7] Procédé selon la revendication 6, dans lequel le masque est considéré comme une variable aléatoire uniforme dans un intervalle [0,1].
[Revendication 8] Procédé selon l'une des revendications 6 et 7, dans lequel l'estimateur probabiliste du masque M s(t,f) est représentatif d'un maximum de vraisemblance, sur une pluralité d'observations d'un couple de variables , représentant respectivement :
Figure imgf000022_0003
- un signal acoustique
Figure imgf000022_0005
issu de l'application du masque de pondération aux données sonores acquises, et
- les données sonores acquises
Figure imgf000022_0006
, lesdites observations étant choisies dans un voisinage du point temps-fréquence ( t,f ) considéré.
[Revendication 9] Procédé selon les revendications précédentes, dans lequel la construction du signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant, comporte l'application d'un second filtrage spatial, obtenu à partir du masque de pondération élaboré.
[Revendication 10] Procédé selon la revendication 9, dans lequel le second filtrage spatial est de type MVDR pour « Minimum Variance Distorsionless Response », et on estime au moins une matrice de covariance spatiale R n(t,f) du bruit ambiant, le filtrage spatial de type MVDR étant donné par avec :
Figure imgf000022_0001
Figure imgf000022_0002
où :
- Ω(t, f) est un voisinage d'un point temps-fréquence (t,f),
- card est l'opérateur « cardinal »,
- x(t1,f1) est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et c(A<fi)H son conjugué hermitien, et est l'expression du masque de pondération dans le domaine temps-fréquence.
Figure imgf000022_0004
[Revendication 11] Procédé selon la revendication 9, dans lequel le second filtrage spatial est de type MWF pour « Multichannel Wiener Filter », et on estime des matrices de covariance spatiale Rs et Rn, respectivement du signal acoustique représentant le son issu de la source d'intérêt, et du bruit ambiant, le filtrage spatial de type MWF étant donné par
Figure imgf000023_0001
où :
- Ω(t, f) est un voisinage d'un point temps-fréquence (t,f),
- card est l'opérateur « cardinal »,
- x(t1,f1) est un vecteur représentant les données sonores acquises dans le domaine temps-fréquence, et x(t1,f1)H son conjugué hermitien, et est l'expression du masque de pondération dans le domaine temps-fréquence.
Figure imgf000023_0002
[Revendication 12] Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes lorsque ce programme est exécuté par un processeur. [Revendication 13] Dispositif comportant au moins une interface de réception (IN) de données sonores acquises par une pluralité de microphones (MIC) et un circuit de traitement (PROC, MEM) configuré pour :
- à partir des données sonores acquises par la pluralité de microphones, déterminer une direction d'arrivée d'un son issu d'au moins une source acoustique d'intérêt, - appliquer aux données sonores un filtrage spatial fonction de la direction d'arrivée du son,
- estimer dans le domaine temps-fréquence des ratios d'une grandeur représentative d'une amplitude de signal, entre les données sonores filtrées d'une part et les données sonores acquises d'autre part, et
- en fonction des ratios estimés, élaborer un masque de pondération à appliquer dans le domaine temp-fréquence aux données sonores acquises pour construire un signal acoustique représentant le son issu de la source d'intérêt et rehaussé par rapport à du bruit ambiant.
PCT/FR2022/050495 2021-04-01 2022-03-18 Estimation d'un masque optimise pour le traitement de donnees sonores acquises WO2022207994A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280026623.9A CN117121104A (zh) 2021-04-01 2022-03-18 估计用于处理所获取的声音数据的优化掩模
EP22714494.6A EP4315328A1 (fr) 2021-04-01 2022-03-18 Estimation d'un masque optimise pour le traitement de donnees sonores acquises

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2103400 2021-04-01
FR2103400A FR3121542A1 (fr) 2021-04-01 2021-04-01 Estimation d’un masque optimisé pour le traitement de données sonores acquises

Publications (1)

Publication Number Publication Date
WO2022207994A1 true WO2022207994A1 (fr) 2022-10-06

Family

ID=75850368

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2022/050495 WO2022207994A1 (fr) 2021-04-01 2022-03-18 Estimation d'un masque optimise pour le traitement de donnees sonores acquises

Country Status (4)

Country Link
EP (1) EP4315328A1 (fr)
CN (1) CN117121104A (fr)
FR (1) FR3121542A1 (fr)
WO (1) WO2022207994A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160086602A1 (en) * 2014-09-19 2016-03-24 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
CN110503972A (zh) * 2019-08-26 2019-11-26 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
US20210082450A1 (en) * 2019-09-17 2021-03-18 Bose Corporation Enhancement of audio from remote audio sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160086602A1 (en) * 2014-09-19 2016-03-24 Hyundai Motor Company Sound signal processing method, and sound signal processing apparatus and vehicle equipped with the apparatus
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
CN110503972A (zh) * 2019-08-26 2019-11-26 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
US20210082450A1 (en) * 2019-09-17 2021-03-18 Bose Corporation Enhancement of audio from remote audio sources

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A. JANSSONE. HUMPHREYN. MONTECCHIOR. BITTNERA. KUMART. WEYDE: "Singing voice séparation with deep U-net convolutional networks", PROC. OF INT. SOC. FOR MUSIC INF. RETRIEVAL, 2017, pages 745 - 751
D. STOLLERS. EWERTS. DIXON: "Wave-U-Net: a multi-scale neural network for end-to-end audio source separation", PROC. OF INT. SOC. FOR MUSIC INF. RETRIEVAL, 2018, pages 334 - 340
J. DIBIASEH. SILVERMANM. BRANDSTEIN: "Microphone Arrays: Signal Processing Techniques and Applications", 2001, SPRINGER, article "Robust localization in reverberant rooms", pages: 157 - 180
J. HEYMANNL. DRUDER. HAEB-UMBACH: "Neural network based spectral mask estimation for acoustic beamforming", PROC. OF ICASSP, 2016, pages 196 - 200, XP032900590, DOI: 10.1109/ICASSP.2016.7471664
L. PEROTIN ET AL.: "Multichannel speech séparation with recurrent neuralnetworks from high-order Ambisonics recordings", PROC. OF ICASSP.ICASSP, 2018
SHARON GANNOT ET AL.: "A Consolidated Perspective on Multimicrophone Speech Enhancement and Source Separation", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 4, April 2017 (2017-04-01), pages 692 - 730, XP058372577, DOI: 10.1109/TASLP.2016.2647702

Also Published As

Publication number Publication date
EP4315328A1 (fr) 2024-02-07
FR3121542A1 (fr) 2022-10-07
CN117121104A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
JP6480644B1 (ja) マルチチャネル音声認識のための適応的オーディオ強化
EP1356461B1 (fr) Procede et dispositif de reduction de bruit
EP2680262B1 (fr) Procédé de débruitage d&#39;un signal acoustique pour un dispositif audio multi-microphone opérant dans un milieu bruité
JP6109927B2 (ja) 源信号分離のためのシステム及び方法
WO2020108614A1 (fr) Procédé de reconnaissance audio et procédé, appareil et dispositif de positionnement audio cible
EP1154405B1 (fr) Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
EP3807669B1 (fr) Localisation de sources sonores dans un environnement acoustique donné
Xiao et al. Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
US9875748B2 (en) Audio signal noise attenuation
EP4046390A1 (fr) Localisation perfectionnee d&#39;une source acoustique
EP3025342A1 (fr) Procédé de suppression de la réverbération tardive d&#39;un signal sonore
EP4315328A1 (fr) Estimation d&#39;un masque optimise pour le traitement de donnees sonores acquises
CN116403594A (zh) 基于噪声更新因子的语音增强方法和装置
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
EP4248231A1 (fr) Localisation perfectionnée d&#39;une source acoustique
WO2020049263A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
US20230368766A1 (en) Temporal alignment of signals using attention
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
Chen et al. Early Reflections Based Speech Enhancement
WO2023219751A1 (fr) Alignement temporel de signaux à l&#39;aide de l&#39;attention
Bai et al. Deep Learning Applied to Dereverberation and Sound Event Classification in Reverberant Environments
CN116564328A (zh) 一种用于施工区域的智能音箱语音去噪方法
FR3121260A1 (fr) Procédé de sélection dynamique de microphones

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22714494

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18553378

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2022714494

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022714494

Country of ref document: EP

Effective date: 20231102