WO2020049263A1 - Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel - Google Patents

Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel Download PDF

Info

Publication number
WO2020049263A1
WO2020049263A1 PCT/FR2019/052060 FR2019052060W WO2020049263A1 WO 2020049263 A1 WO2020049263 A1 WO 2020049263A1 FR 2019052060 W FR2019052060 W FR 2019052060W WO 2020049263 A1 WO2020049263 A1 WO 2020049263A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
segment
module
vector
weight vector
Prior art date
Application number
PCT/FR2019/052060
Other languages
English (en)
Inventor
Daniel PRESSNITZER
Manuel PARIENTE
Original Assignee
Urgotech
Ecole Normale Superieure
Centre National De La Recherche Scientifique - Cnrs -
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Urgotech, Ecole Normale Superieure, Centre National De La Recherche Scientifique - Cnrs - filed Critical Urgotech
Publication of WO2020049263A1 publication Critical patent/WO2020049263A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Definitions

  • the invention relates to a speech enhancement device, adapted to isolate and enhance a target sound signal from noise interfering with a sound signal.
  • a speech enhancement device can be integrated into a hearing aid or into a mobile telephone.
  • the invention also relates to a speech enhancement method implemented by such a device.
  • the cocktail party effect is the ability for an individual to direct their attention to follow a particular sound source in a noisy environment, dividing the auditory scene into a foreground and a background.
  • a voice recognition device is configured and trained to transcribe what a speaker may have said from a clean or noisy input audio file.
  • a separation device is configured to perform a separation of sources so as to allow the extraction of several audio files transcribing separately the speech of each of the speakers of interest, without being specific to one or the other.
  • An enhancement device is configured to improve the intelligibility of the perceptible speech target sound signal surrounded by parasitic noise.
  • the measurement of the intelligibility of the target sound signal enhanced by an enhancement device involves calling upon a human subject, which makes it difficult to implement on large masses of data. There is no this day satisfactory means of intelligibility measurement by the implementation of a signal processing.
  • the signal to noise ratio is a measure used to characterize the relative power of a signal (here the target speech signal) compared to noise (here interfering noise) in decibels.
  • s (t) and n (t) respectively the signal and the noise
  • the signal to noise ratio is defined by:
  • the signal to distortion ratio makes it possible to characterize the relative power of a signal (here the target speech signal) compared to a distortion (for an enhancement device, a distortion induced by denoising) in decibel.
  • the denoised signal can include certain distortions in addition to the target signal.
  • the signal to distortion ratio is defined by:
  • a performance indicator of an enhancement device can therefore be the difference SDR-SNR, where SDR is evaluated on the output signal of the enhancement device and SNR is evaluated on the input signal of the enhancement device.
  • the architecture in question must also be chosen and adapted so as to guarantee the device to have the lowest possible latency (ideally around 10 milliseconds) so that there is no lag felt by the user between the noisy sound that comes directly from the environment, and the same sound noisy by the enhancement device.
  • US patent application 2017/061978 implements a speech enhancement method comprising a step of capturing a sound signal speech target included in background noise, a step of extracting the target sound signal segmented into 20 ms windows, by means of a neural network, and a step of synthesizing the target speech sound signal independently of the interfering noise .
  • a time-frequency conversion is performed upstream of the neural network, which is therefore applied to a frequency signal to isolate the sound source from the noise.
  • Document US 2016/1 1 1 108 also deals with a method of speech enhancement by the implementation of a neural network producing a mask multiplying the short-term Fourier transform of the noisy signal to obtain an estimate. of the short-term Fourier transform of the denoised signal.
  • section 4.1 describes the use of windows 64 ms analysis (1024 samples at 16 kHz), to which is added a 5 ms smoothing window, which implies a latency of at least 69 ms for processing an input signal, and therefore an impossibility of using this device in real time.
  • This method implements recurrent neural networks in the time domain to allow the vocal separation of each speaker present in the environment.
  • this method is not suitable for performing speech enhancement tasks.
  • the invention aims to provide a speech enhancement device having good intelligibility of the rendered sound signal, and having a latency between the acquisition of the noisy sound signal and its denoised transcription low enough to be used for real-time processing of an audio sound stream without discomfort to the listener.
  • Another objective of the invention is to improve the value of an indicator formed by the difference between the signal-to-distortion ratio of the output signal of the enhancement device and the signal-to-noise ratio of the input signal of the device .
  • the invention relates to a speech enhancement device, comprising:
  • a microphone adapted to convert a sound stream into a plurality of successive sound signal segments, each sound signal segment comprising a target sound signal segment and an interfering noise, and
  • the neural network comprises:
  • an enhancement module adapted to generate, from a weight vector, a single mask vector
  • d k is a decomposition vector of an estimate of the segment of the target sound signal contained in the sound signal segment in a base of elementary sound signals
  • synthesis module suitable for synthesizing an estimate of the segment of the target sound signal contained in the sound signal segment from the decomposition vector.
  • the neural network further comprises:
  • a scaling module at the output of the synthesis module, adapted to implement on an estimate of the target sound signal segment generated by the synthesis module an operation opposite to that implemented by the standardization module on the corresponding beep segment.
  • the transformation module is configured to:
  • the activation functions being chosen from the group consisting of the linear, sigmoid, hyperbolic tangent, rectified linear unit functions, and preferably being chosen as the sigmoid function for the output of a layer of densely connected and the linear unit function rectified for the output of the other densely connected layer.
  • an activation function is the rectified linear unit function and the other activation function is the sigmoid function
  • the transformation module also comprises a recurrent pre-filtering cell suitable for:
  • the enhancement module implements a plurality of successive recurrent layers of LSTM type, and each recurrent layer from the third receives as input the concatenation of the output of the preceding layer and of the layer preceding the previous layer.
  • the enhancement module is adapted to implement normalization of the weight vector that it receives as input.
  • the speech enhancement device may further include a speaker adapted to broadcast each segment of the target audio signal.
  • the processing unit further comprises a memory in which are stored several configurations of neural networks adapted respectively to several speakers.
  • the enhancement device comprises at least one means for selecting the configuration of the neural network to be used for enhancement.
  • the enhancement further includes an interface configured to allow selection of a neural network configuration.
  • the processing unit uses an independent speaker neural network for enhancement, and the microphone is preferably a directional microphone.
  • the subject of the invention is also a method for enhancing speech, comprising the acquisition by a microphone of an audio stream and its conversion into a plurality of successive sound signal segments, each sound signal segment containing a signal segment target sound and interfering noise, and enhancing the target sound signal segment by applying a neural network to each sound signal segment in the time domain.
  • the speech enhancement method comprises the implementation, by a processing unit adapted to implement the neural network, of steps of:
  • d k is a decomposition vector of an estimate of the segment of the target sound signal contained in the sound signal segment in a base of elementary sound signals
  • the device implements a network of neurons in the time domain to perform speech enhancement.
  • the neural network takes as an input a sound signal in the time domain and performs a breakdown into frequency components which is optimized according to the task to be performed, and which therefore allows optimal filtering.
  • the structure of the neural network used makes it possible to obtain a latency time close to 10 ms, which allows real-time implementation of the speech enhancement without causing a perceptible lag for a listener between the enhanced signal. and the signal coming directly from the speaker.
  • FIG. 1 shows an example of a raising device according to an embodiment of the invention.
  • FIG. 2 schematically represents the architecture of a neural network implemented by the enhancement device
  • FIGS 3a and 3b schematically represent two alternative embodiments of the neural network transformation module.
  • FIG. 4 schematically represents the main steps of the method according to an embodiment of the invention.
  • FIG. 5 represents the variation of the cost function of the neural network as a function of its architecture.
  • FIG. 6 represents the variation of the SDR-SNR indicator of the neural network according to its architecture.
  • signal enhancement is understood to mean, from a sound signal comprising a target sound signal (typically speech) and a surrounding noise, to isolate the target sound signal to improve its intelligibility.
  • the enhancement device comprises a processing unit 10 capable of receiving a sound signal recorded by a sensor such as a microphone 11 from an audio stream.
  • the microphone is advantageously a component of the raising device 1 as in FIG. 1.
  • the processing unit 10 can receive the sound signal recorded by a remote microphone, not part of the device, by loading from a memory where the sound signal is recorded, or via a connection interface with the remote microphone.
  • the processing unit 10 can advantageously include at least one computer 12, for example a processor, microprocessor, microcontroller, etc., and a memory 13 in which code instructions executable by the computer are recorded for implementing the method speech enhancement described below.
  • the processing unit 10 is configured to implement a neural network described below to implement the speech enhancement method.
  • the neural network is a set of mathematical operations implemented in analog or software manner, preferably in software. We can speak of artificial neurons to distinguish these neurons from biological neurons.
  • the enhancement device can also comprise a transmitter 14, for example a loudspeaker, adapted to convert the signal processed by the processing unit 10 into an audible audio stream for a listener.
  • a transmitter 14 for example a loudspeaker, adapted to convert the signal processed by the processing unit 10 into an audible audio stream for a listener.
  • the enhancement device is advantageously adapted to process an audio stream addressed to a listener in real time, to return the target sound signal contained in this audio stream to the listener.
  • the enhancement device is adapted to return, as and when the acquisition of an audio stream by a microphone, the noise-reduced speech source signal contained in this signal, with a latency between the acquisition by the microphone and the obtaining of the speech source signal, close to, or less than 10 ms.
  • the speech enhancement device is an integrated device containing a microphone, the processing unit, a speaker, as well as a source of electrical power for these components (battery, battery - the power source is not shown in the figures), the device can for example take the form of an earpiece worn by the listener.
  • an audio signal is called the recording by a sensor or a microphone of an audio stream, the audio stream being a vibration of air perceptible by humans.
  • the sound signal on which the enhancement process is implemented consists of a target sound signal and an interfering noise.
  • the target beep is the recording of a speech audio stream corresponding to a person speaking.
  • Interfering noise can be composed of various ambient noises such as speech, music or other sounds or noises.
  • an audio stream acquired by the microphone 11 is converted during a step 100, by the microphone, as the audio stream is acquired, into sound signal segments of a constant and determined duration , advantageously less than 10 ms, and preferably equal to 5 ms.
  • the processing unit 10 is configured to successively process each segment of sound signal transmitted from the microphone.
  • Each audio signal segment therefore contains a target audio signal segment and interfering noise.
  • x k e Lxl a segment of sound signal arriving at the input of the processing unit, where L is the duration of a segment (for example 5 ms, or 80 samples at 16 kHz).
  • x k therefore includes a number L of samples.
  • d k e lxN is a decomposition vector of the estimate s k in the base of elementary sound signals B.
  • a mask vector m k e 1XN and a vector w k e lxN of weight of the initial signal segment are determined such that:
  • the method therefore then comprises the estimation for each initial sound signal segment entering x k of a vector of weight w fe and of a corresponding mask vector m k to obtain d k .
  • This is implemented by the neural network implemented by the processing unit.
  • the neural network 2 comprises a transformation module 20, an enhancement module 21 and a synthesis module 22.
  • the neural network 2 also includes a standardization module 23 upstream of the transformation module 20, and a rescaling module 24 downstream of the synthesis module 22.
  • the normalization module 23 is adapted to implement during a step 200 a normalization of the sound signal segments to reduce the variability of the input data and allow more efficient learning of the neural network.
  • the normalization module 23 implements the following normalization on each segment of the sound signal:
  • xnorm k is the normalized segment corresponding to the segment x k
  • x ki is the i th sample of the segment x k .
  • the rescaling module 24 is configured to implement on the output signal (step 600 described below) of the synthesis module 22 an operation opposite to that implemented by the normalization module 23 so that the output signal be of an intensity comparable to that of the corresponding input segment.
  • the scaling module 24 advantageously performs the following operation on the segment Y k of the output signal of the synthesis module:
  • the input of the transformation module 20 is normalized even if the notation xnorm k is not used, this in order not to weigh down the notations.
  • the transformation module is adapted to generate during a step 300, from the segment x k a vector of weight w k of the segment.
  • transformation module 20 is suitable for:
  • the activation functions are chosen from the group consisting of the linear, sigmoid, hyperbolic tangent, rectified linear unit functions.
  • an activation function is the sigmoid function defined by:
  • the other activation function is preferably the rectified linear unit function, noted ReLU and defined by:
  • the vector of weight w k is obtained by the transformation module by:
  • N can for example be equal to 1000.
  • the transformation module 20 further comprises a recurrent pre-filtering cell applying another layer densely connected U 2 (also optimized during training of the neural network) to an input formed from the concatenation of the output of the ReLU function applied to the current segment and to the previous segment.
  • the output of this densely connected layer is applied to a sigmoid function and the result is also multiplied at the outputs of the other activation functions to obtain w k .
  • a k ReLU (U. X k )
  • the weight vector w k is then determined by:
  • pre-filtering recurrent cell makes it possible to take into account the similarities of decomposition in the base of elementary signals of two successive segments and to carry out a pre-filtering accordingly thanks to the sigmoid function.
  • the method then comprises a step 420, implemented by the enhancement module, of generation, from the weight vector w k , of a single mask vector m k .
  • the enhancement module 21 of the neural network is preferably configured to perform first (step 410) a normalization of the weight vector w k, such that:
  • - m is a precalculated average, advantageously during or at the end of the training of the neural network, it can be an average value of the vector of weights generated during training,
  • s a precalculated standard deviation, advantageously during or after training of the neural network; it can be a standard deviation of weight vectors generated during training,
  • ge lxN and be M lxw are respectively additive and multiplicative gains optimized during training of the neural network.
  • the enhancement module For the extraction of the mask vector from the weight vector (advantageously normalized), the enhancement module comprises a network deep type with long short-term memory, also known by the acronym LSTM (from the English Long Short-Term Memory), followed by a densely connected layer whose activation function is the sigmoid function, in order d 'have values between 0 and 1 for the mask.
  • LSTM long short-term memory
  • the deep network LSTM comprises four successively connected layers, where, starting from the third layer, each layer takes as input a combination of the preceding layer and the layer still preceding. We note skip the combination applied to the previous layer and to the layer which precedes it.
  • the skip function is defined by the sum of the results of the two layers:
  • the skip function returns the concatenation of the two layers, which makes it possible to give the third and fourth LSTM layers access to the results of the two previous layers to improve the estimation of the mask:
  • This variant makes it possible to improve the propagation of the gradient during training of the neural network, which allows better optimization at least of the transformation module and of the enhancement module.
  • the skip function returns the concatenation of all the previous recurring layers:
  • the cost function of the neural network has been represented as a function of its architecture and in particular as a function of the main variants described above for the transformation module and the enhancement.
  • the neural network cost function is calculated as the average square error between the neural network prediction and the target signal.
  • the first column corresponds to a transformation module without a pre-filtering recurrent cell and an enhancement module whose skip function defined by the sum of the results of the two previous layers;
  • the second column corresponds to a transformation module without a recurrent pre-filtering cell and an enhancement module whose skip function is defined by a concatenation of the two previous layers;
  • the third column corresponds to a transformation module comprising a recurrent pre-filtering cell and an enhancement module whose skip function is defined by a sum of the results of the two layers;
  • the fourth column which presents the best results, corresponds to a transformation module comprising a pre-filtering recurrent cell and an enhancement module whose skip function is defined by a concatenation of the results of the two layers.
  • the output of the densely connected layer is a mask m k corresponding to each segment x k :
  • This mask is applied by the enhancement module 21 during a step 430 to the vector w k of weight to obtain a decomposition vector d k of the segment of the target sound signal in the base of the elementary sound signals, this vector d k forming l entry of the synthesis module 22:
  • the synthesis module 22 can receive as inputs the mask m k and the weight vector w k (from the enhancement module, and possibly from the transformation module for w k ) and implement step 430 to obtain the vector. of decomposition d k .
  • the synthesis module 22 determines during a synthesis step 500 an estimate s k of the target signal segment s k contained in the segment x k by matrix multiplication between the decomposition vector of the segment of the target signal and the elementary signals :
  • This estimate s k of the target signal segment corresponds to the output signal from the synthesis module 22, also noted y k in the preceding description of the normalization 23 and rescaling modules 24, and is then the subject of resizing in the corresponding module 24 during a step 600.
  • the target signal segment thus obtained can then be broadcast by the loudspeaker, in real time during the processing of the next segment, if necessary.
  • the SDR-SNR indicator was measured (SDR: signal to distortion ratio and SNR: signal to noise ratio - the definitions given in the introduction are applicable here) for the different configurations of the neural network indicated above.
  • the first column corresponds to a transformation module without a pre-filtering recurrent cell and an enhancement module whose skip function defined by the sum of the results of the two layers;
  • the second column corresponds to a transformation module without a pre-filtering recurrent cell and an enhancement module whose skip function is defined by a concatenation of the two layers
  • the third column corresponds to a transformation module comprising a recurrent pre-filtering cell and an enhancement module whose skip function is defined by a sum of the results of the two layers;
  • the fourth column which presents the best results, corresponds to a transformation module comprising a pre-filtering recurrent cell and an enhancement module whose skip function is defined by a concatenation of the results of the two layers.
  • a corpus of initial signals is advantageously created comprising a training set and a disjoint validation set, representing respectively of the order of 70 to 80% of the corpus, and 20 to 30% of the corpus.
  • Each set is obtained from a library of speech recordings, and a library of additional ambient noise recordings corresponding to realistic sounds (background sound from a street, a restaurant, etc.), which are advantageously added additional noises composed of several speakers speaking at the same time without link between them ("babble noise").
  • Each sample in a set is created by pairing a speech and noise recording.
  • Training the neural network makes it possible to optimize the layers U, U 2 , V, the normalization coefficients g and b, the LSTM layers, as well as the base B of the elementary signals, which makes it possible to adapt the decomposition of the sound signal segment in the best way depending on the task to be performed, unlike a Fourier transform to decompose and filter the signal.
  • the training of the neural network can be carried out in such a way as to make the neural network specific to a particular speaker, for example by using speech recordings originating only from this particular speaker.
  • the neural network can be trained for several particular speakers corresponding to the auditor's usual interlocutors, and the various configurations of the neural network are saved in a memory (not shown) of the processing unit.
  • the enhancement device 1 can for example comprise an interface (not shown), for example a graphical interface which can be of a software application installed on a mobile phone or a touch pad of the user of the enhancement device 1, the graphical interface for selecting the configuration of the neural network suited to the person speaking.
  • the unit processing 10 advantageously comprises a connection interface suitable for exchanging instructions with the mobile telephone or the touch pad, such as for example a Bluetooth or wired connection interface, or to the internet.
  • the processing unit 10 of the enhancement device 1 can be configured to independently select the configuration of the neural network suitable for the speaker being spoken. According to a nonlimiting example, the processing unit 10 can for example test the different configurations of the neural network on the same segment of the sound signal (or several segments) corresponding to the speaker speaking, obtained via the microphone. 1 1.
  • the configuration of the neural network selected by the processing unit 10 corresponds for example to that making it possible to minimize the mean square error between the segment of the sound signal before enhancement and the segment obtained after enhancement.
  • the processing unit 10 can implement any automatic speaker recognition method known to a person skilled in the art, and the choice of a particular automatic speaker recognition method only constitutes a variant of implementation.
  • the enhancement device 1 therefore comprises at least one means for selecting the configuration of neural network to be used.
  • the means used for the selection can, as described above, take several different forms (selection interface, automatic speaker recognition method implemented by the processing unit 10, etc.).
  • the processing unit 10 can also implement an independent speaker neural network, that is to say trained to be able to enhance a target sound signal of any speaker.
  • the training of such an independent speaker neural network can be carried out using speech recordings from a large number of different speakers.
  • the microphone 11 may be, in preferred embodiments, a directional microphone.
  • the microphone 11 is of the cardioid, supercardioid or hypercardioid type.
  • the use of such a directional microphone 1 1 improves the signal to noise ratio of the target sound signal.
  • the The neural network can also be trained to enhance only the target sound signal corresponding to the speaker whose speech has the highest average signal strength.
  • the neural network can be trained using in particular segments of a sound stream comprising several different speakers including a dominant speaker whose sound signal must be enhanced (to take into account the improvement in the signal to noise ratio which will be introduced by the directional microphone).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

L'invention concerne un dispositif (1) de rehaussement de la parole, comprenant : - un microphone (11), adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment (Xk) de signal sonore comprenant un segment de signal sonore cible (Sk) et d'un bruit interférant, et - une unité de traitement (10) adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant.

Description

DISPOSITIF DE REHAUSSEMENT DE LA PAROLE PAR IMPLEMENTATION D’UN RESEAU DE NEURONES DANS LE DOMAINE TEMPOREL
DOMAINE DE L’INVENTION
L’invention concerne un dispositif de rehaussement de la parole, adapté pour isoler et rehausser un signal sonore cible d’un bruit interférant dans un signal sonore. Un tel dispositif de rehaussement peut être intégré dans une prothèse auditive ou dans un téléphone mobile. L’invention concerne également un procédé de rehaussement de la parole mis en oeuvre par un tel dispositif.
ETAT DE LA TECHNIQUE
On appelle « l’effet cocktail party » la capacité pour un individu à diriger son attention pour suivre une source sonore particulière dans une ambiance bruyante, en séparant la scène auditive en un avant-plan et un arrière-plan.
Le syndrome du banquet, à l’inverse, concerne une incapacité chronique, pour un individu, à percevoir de façon audible une source sonore particulière au milieu d’un bruit interférant jugé parasitaire.
Afin de permettre aux individus atteints de ce type de dysfonctionnement de recouvrer une audition satisfaisante, de nombreux dispositifs d’aide auditive mettant en oeuvre des méthodes d’apprentissage profond ont été développés.
De façon plus générale, dans le traitement du signal sonore, des dispositifs mettant en oeuvre des réseaux de neurones ont été développés et entraînés spécialement pour réaliser des tâches spécifiques. Ainsi un dispositif de reconnaissance vocale est configuré et entraîné pour arriver à retranscrire ce qu’un locuteur a pu dire à partir d’un fichier audio d’entrée propre ou bruité. Un dispositif de séparation est quant à lui configuré pour réaliser une séparation de sources de sorte à permettre l’extraction de plusieurs fichiers audio retranscrivant séparément la parole de chacun des locuteurs d’intérêt, sans être spécifique à l’un ou l’autre. Un dispositif de rehaussement est quant à lui configuré pour améliorer l’intelligibilité du signal sonore cible de parole perceptible entouré d’un bruit parasitaire.
Or, la mesure de l’intelligibilité du signal sonore cible rehaussé par un dispositif de rehaussement implique de faire appel à un sujet humain, ce qui la rend difficile à mettre en oeuvre sur des masses de données importantes. Il n’existe pas à ce jour de moyen satisfaisant de mesure d’intelligibilité par la mise en oeuvre d’un traitement du signal.
Par conséquent, à défaut d’évaluer les performances d’un dispositif de rehaussement par une mesure directe de l’intelligibilité du signal sonore produit, on peut évaluer des performances à partir de deux indicateurs qui sont le rapport signal sur bruit (SNR) et le rapport signal sur distorsion (SDR).
Le rapport signal sur bruit est une mesure qui sert à caractériser la puissance relative d’un signal (ici le signal cible de la parole) par rapport à un bruit (ici le bruit interférant) en décibels. En notant s(t) et n(t) respectivement le signal et le bruit, le rapport signal sur bruit est défini par :
Figure imgf000004_0001
Le rapport signal sur distorsion permet quant à lui de caractériser la puissance relative d’un signal (ici le signal cible de parole) par rapport à une distorsion (pour un dispositif de rehaussement, une distorsion induite par le débruitage) en décibel. En effet le signal débruité peut inclure certaines distorsions en plus du signal cible.
En notant s(t) le signal cible de parole et s(t) le signal débruité, le rapport signal sur distorsion est défini par :
Figure imgf000004_0002
Un indicateur de performances d’un dispositif de rehaussement peut donc être la différence SDR-SNR, où SDR est évalué sur le signal de sortie du dispositif de rehaussement et SNR est évalué sur le signal d’entrée du dispositif de rehaussement.
Outre la dépendance de l’architecture du réseau de neurones à la tâche à laquelle doit répondre le dispositif, l’architecture en question doit également être choisie et adaptée de sorte à garantir au dispositif de présenter un temps de latence le plus faible possible (idéalement aux environs de 10 millisecondes) afin qu’il n’y ait pas de décalage ressenti par l’utilisateur entre le son bruité qui lui parvient directement depuis l’environnement, et le même son débruité par le dispositif de rehaussement.
La demande de brevet US 2017/061978 met en œuvre une méthode de rehaussement de la parole comprenant une étape de capture d’un signal sonore cible de parole compris dans un bruit de fond, une étape d’extraction du signal sonore cible segmenté en fenêtres de 20 ms, au moyen d’un réseau de neurones, et une étape de synthèse du signal sonore cible de parole indépendamment du bruit interférant.
Dans ce document, une conversion temps-fréquence est effectuée en amont du réseau de neurones, lequel est donc appliqué sur un signal fréquentiel pour isoler la source sonore du bruit.
Le fait que cette conversion ait lieu en dehors du réseau implique qu’elle n’a aucune garantie d’optimalité par rapport à la tâche.
Le document US 2016/1 1 1 108 traite également d’une méthode de rehaussement de la parole par la mise en œuvre d’un réseau de neurones produisant un masque multipliant la transformée de Fourier à court-terme du signal bruité pour obtenir une estimation de la transformée de Fourier à court-terme du signal débruité.
Dans ce document, l’utilisation d’une transformée de Fourier à court-terme implique une décomposition du signal en composantes fréquentielles qui n’est pas optimisée pour la tâche de rehaussement, et donc le filtrage du signal n’est pas optimisé.
De plus, l’utilisation d’une transformée de Fourier à court-terme pour la séparation entre la parole et le bruit ambiant nécessite une bonne résolution fréquentielle, ce qui implique de traiter des segments temporels assez longs, de l’ordre de 30 ms, ce qui accroît le temps de latence entre l’acquisition du signal à traiter et l’extraction de la parole isolée du bruit, et rend difficile une implémentation en temps-réel du rehaussement de la parole.
Le document de S. Venkataramani et al., « End-to-end Source Séparation with adaptive front-ends » publié sur le site www.arxiv.org (arXiv :1705.02514v2) le 6 mai 2017, décrit un procédé de séparation de source dans lequel la transformée de Fourier est remplacée par une décomposition fréquentielle optimisée pour la tâche et mise en œuvre par un réseau de neurones.
Néanmoins la structure du réseau de neurones proposé ne permet pas une mise en œuvre en temps-réel de la séparation de source du fait d’un temps de latence trop important. En effet, la section 4.1 décrit l’utilisation de fenêtres d’analyse de 64 ms (1024 échantillons à 16kHz), auxquelles s’ajoute une fenêtre de lissage de 5 ms, ce qui implique un temps de latence d’au minimum 69 ms pour le traitement d’un signal d’entrée, et donc une impossibilité d’utiliser ce dispositif en temps réel.
On connaît enfin la publication de Y. Luo et al « TasNet : Time-Domain Audio
Séparation Network for Real-Time, Single Channel Speech Séparation », parue sur le site internet www.arxiv.org (arXiv : 171 1 .00541 ) le 1 er novembre 2017, qui traite d’une méthode de séparation vocale dans un contexte audio multi-locuteurs.
Cette méthode met en œuvre des réseaux de neurones récurrents dans le domaine temporel pour permettre la séparation vocale de chaque locuteur présent dans l’environnement. Néanmoins cette méthode n’est pas adaptée à la réalisation de tâches de rehaussement de la parole.
PRESENTATION DE L’INVENTION
Compte-tenu de ce qui précède, l’invention a pour but de proposer un dispositif de rehaussement de la parole présentant une bonne intelligibilité du signal sonore rendu, et présentant un temps de latence entre l’acquisition du signal sonore bruité et sa retranscription débruitée suffisamment faible pour pouvoir être utilisé pour le traitement en temps réel d’un flux sonore audio sans gêne de l’auditeur.
Un autre objectif de l’invention est d’améliorer la valeur d’un indicateur formé par la différence entre le rapport signal sur distorsion du signal de sortie du dispositif de rehaussement et le rapport signal-sur-bruit du signal d’entrée du dispositif.
A cet égard, l’invention a pour objet un dispositif de rehaussement de la parole, comprenant :
- un microphone, adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore comprenant un segment de signal sonore cible et un bruit interférant, et
- une unité de traitement adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones configuré pour mettre en œuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant. Dans un mode de réalisation, le réseau de neurones comprend :
- un module de transformation adapté pour générer un vecteur de poids à partir d’un segment de signal sonore,
- un module de rehaussement adapté pour générer, à partir d’un vecteur de poids, un unique vecteur de masque,
le vecteur de poids wk et le vecteur de masque mk étant tels que :
dk = mkQwk
où dk est un vecteur de décomposition d’une estimation du segment du signal sonore cible contenu dans le segment de signal sonore dans une base de signaux sonores élémentaires, et
- un module de synthèse, adapté pour synthétiser une estimation du segment du signal sonore cible contenu dans le segment de signal sonore à partir du vecteur de décomposition.
Dans un mode de réalisation, le réseau de neurones comprend en outre :
- un module de normalisation en amont du module de transformation, adapté pour normaliser l’énergie de chaque segment de signal sonore, et
- un module de remise à l’échelle en sortie du module de synthèse, adapté pour mettre en oeuvre sur une estimation du segment de signal sonore cible généré par le module de synthèse une opération inverse à celle mise en oeuvre par le module de normalisation sur le segment correspondant de signal sonore.
Dans un mode de réalisation, le module de transformation est configuré pour :
- mettre en oeuvre sur chaque segment de signal sonore deux couches densément connectées en parallèle,
- appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et
- multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids,
les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et étant de préférence choisies comme la fonction sigmoïde pour la sortie d’une couche de densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
Avantageusement, mais facultativement, une fonction d’activation est la fonction unité linéaire rectifiée et l’autre fonction d’activation est la fonction sigmoïde, et le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :
- mettre en œuvre une couche densément connectée sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent,
- appliquer une fonction sigmoïde en sortie de ladite couche densément connectée, et
- multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids.
Dans un mode de réalisation, le module de rehaussement met en œuvre une pluralité de couches récurrentes successives de type LSTM, et chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.
Avantageusement, mais facultativement, le module de rehaussement est adapté pour mettre en œuvre une normalisation du vecteur de poids qu’il reçoit en entrée.
Dans des modes de réalisation, le dispositif de rehaussement de la parole peut comprendre en outre un haut-parleur adapté pour diffuser chaque segment du signal sonore cible.
Dans un mode de réalisation, l’unité de traitement comprend en outre une mémoire dans laquelle sont mémorisées plusieurs configurations de réseaux de neurones adaptés respectivement à plusieurs locuteurs. Le cas échéant, le dispositif de rehaussement comporte au moins un moyen de sélection de la configuration du réseau de neurones à utiliser pour le rehaussement. Par exemple, le dispositif de rehaussement comprend en outre une interface configurée pour permettre la sélection d’une configuration de réseau de neurones.
Dans un mode de réalisation, l’unité de traitement utilise pour le rehaussement un réseau de neurones locuteur indépendant, et le microphone est de préférence un microphone directionnel.
L’invention a également pour objet un procédé de rehaussement de la parole, comprenant l’acquisition par un microphone d’un flux audio et sa conversion en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones à chaque segment de signal sonore dans le domaine temporel. Dans un mode de réalisation, le procédé de rehaussement de la parole comprend la mise en œuvre, par une unité de traitement adaptée pour implémenter le réseau de neurones, d’étapes de :
- génération, à partir d’un segment du signal sonore, d’un vecteur de poids,
- génération, à partir du vecteur de poids généré, d’un unique vecteur de masque,
le vecteur de poids wk et le vecteur de masque mk étant tels que :
dk = mkQwk
où dk est un vecteur de décomposition d’une estimation du segment du signal sonore cible contenu dans le segment de signal sonore dans une base de signaux sonores élémentaires, et
- synthèse de l’estimation du segment du signal sonore cible à partir du vecteur de poids et du vecteur de masque.
Le dispositif selon l’invention met en œuvre un réseau de neurones dans le domaine temporel pour réaliser le rehaussement de la parole. Le réseau de neurones prend en entrée un signal sonore dans le domaine temporel et effectue une décomposition en composantes fréquentielles qui est optimisée en fonction de la tâche à accomplir, et qui permet donc un filtrage optimal. De plus, la structure du réseau de neurones employé permet d’obtenir un temps de latence voisin de 10 ms, ce qui permet une mise en œuvre en temps réel du rehaussement de la parole sans susciter de décalage perceptible pour un auditeur entre le signal rehaussé et le signal provenant directement du locuteur.
DESCRIPTION DES FIGURES
D’autres caractéristiques, buts et avantages de l’invention ressortiront de la description qui suit, qui est purement illustrative et non limitative, et qui doit être lue en regard des dessins annexés sur lesquels :
- La figure 1 représente un exemple de dispositif de rehaussement selon un mode de réalisation de l’invention.
La figure 2 représente schématiquement l’architecture d’un réseau de neurones mis en œuvre par le dispositif de rehaussement,
Les figures 3a et 3b représentent schématiquement deux variantes de mise en œuvre du module de transformation du réseau de neurones.
La figure 4 représente schématiquement les principales étapes du procédé selon un mode de réalisation de l’invention.
La figure 5 représente la variation de la fonction de coût du réseau de neurones en fonction de son architecture.
- La figure 6 représente la variation de l’indicateur SDR-SNR du réseau de neurones en fonction de son architecture.
DESCRIPTION DETAILLEE D’AU MOINS UN MODE DE REALISATION DE L’INVENTION
Dans la suite, on entend par « rehaussement de signal » le fait, à partir d’un signal sonore comprenant un signal sonore cible (typiquement de parole) et un bruit environnant, d’isoler le signal sonore cible pour améliorer son intelligibilité.
En référence à la figure 1 , on a représenté schématiquement un dispositif de rehaussement 1 de la parole selon un mode de réalisation de l’invention. Le dispositif de rehaussement comporte une unité de traitement 10 apte à recevoir un signal sonore enregistré par un capteur tel qu’un microphone 1 1 à partir d’un flux audio.
Le microphone est avantageusement un composant du dispositif de rehaussement 1 comme sur la figure 1 . En variante, l’unité de traitement 10 peut recevoir le signal sonore enregistré par un microphone distant, ne faisant pas partie du dispositif, par chargement à partir d’une mémoire où le signal sonore est enregistré, ou via une interface de connexion avec le microphone distant.
L’unité de traitement 10 peut comporter avantageusement au moins un calculateur 12, par exemple un processeur, microprocesseur, microcontrôleur, etc., et une mémoire 13 dans laquelle sont enregistrées des instructions de code exécutables par le calculateur pour la mise en œuvre du procédé de rehaussement de la parole décrit ci-après.
L’unité de traitement 10 est configurée pour implémenter un réseau de neurones décrit ci-après pour mettre en œuvre le procédé de rehaussement de la parole. Le réseau de neurones est un ensemble d’opérations mathématiques mises en œuvre de manière analogique ou logicielle, de préférence de manière logicielle. On peut parler de neurones artificiels pour distinguer ces neurones de neurones biologiques.
Avantageusement, mais facultativement, le dispositif de rehaussement peut en outre comprendre un émetteur 14, par exemple un haut-parleur, adapté pour convertir le signal traité par l’unité de traitement 10 en un flux audio audible pour un auditeur.
Le dispositif de rehaussement est avantageusement adapté pour traiter en temps réel un flux audio adressé à un auditeur, pour retourner à l’auditeur le signal sonore cible contenu dans ce flux audio. Par « en temps réel », on comprend que le dispositif de rehaussement est adapté pour retourner, au fur et à mesure de l’acquisition d’un flux audio par un microphone, le signal source de parole débruité contenu dans ce signal, avec un temps de latence entre l’acquisition par le microphone et l’obtention du signal source de parole, voisin de, ou inférieur à 10 ms.
Dans un mode de réalisation, le dispositif de rehaussement de la parole est un dispositif intégré contenant un microphone, l’unité de traitement, un haut-parleur, ainsi qu’une source d’alimentation électrique de ces composants (batterie, pile - la source d’alimentation n’est pas représentée sur les figures), le dispositif pouvant par exemple prendre la forme d’une oreillette portée par l’auditeur.
En référence aux figures 2, 3a, 3b et 4, on va maintenant décrire le procédé de rehaussement de la parole contenue dans un signal sonore, mis en œuvre par l’unité de traitement 10. Dans toute la suite, on appelle signal sonore l’enregistrement par un capteur ou un microphone d’un flux audio, le flux audio étant une vibration de l’air perceptible par l’humain.
Le signal sonore sur lequel est mis en oeuvre le procédé de rehaussement est constitué d’un signal sonore cible et un bruit interférant. Le signal sonore cible est l’enregistrement d’un flux audio de parole correspondant à une personne qui parle. Le bruit interférant peut être composé de bruits ambiants divers tels que de la parole, de la musique ou encore des sons ou bruits d’autres natures.
De préférence, un flux audio acquis par le microphone 1 1 est converti lors d’une étape 100, par le microphone, au fur et à mesure de l’acquisition du flux audio, en segments de signal sonore d’une durée constante et déterminée, avantageusement inférieure à 10 ms, et de préférence égale à 5 ms.
L’unité de traitement 10 est configurée pour traiter successivement chaque segment de signal sonore transmis depuis le microphone.
Chaque segment de signal sonore contient donc un segment de signal sonore cible et du bruit interférant.
On note dans la suite xk e Lxl un segment de signal sonore parvenant en entrée de l’unité de traitement, où L est la durée d’un segment (par exemple 5 ms, soit 80 échantillons à 16kHz). xk comprend donc un nombre L d’échantillons.
On note également ske lxL un segment de signal sonore cible contenu dans le segment xk.
Dans la suite on cherche à estimer sk en déterminant une estimation sk de sk représentée comme une somme pondérée de N signaux sonores élémentaires B = [b1, ... , bN] e nxl , OÙ les signaux sonores élémentaires ne sont pas prédéfinis mais sont optimisés lors de la phase d’apprentissage du réseau de neurones.
On note:
¾ dkB
Où dke lxN est un vecteur de décomposition de l’estimation sk dans la base des signaux sonores élémentaires B.
Dans la suite, on cherche à déterminer dk pour pouvoir synthétiser la source isolée du bruit interférant. Pour ce faire, on détermine un vecteur de masque mke 1XN et un vecteur wk e lxN de poids du segment de signal initial tels que :
dk = mkQwk Où Q désigne la multiplication terme à terme.
Le procédé comprend donc ensuite l’estimation pour chaque segment de signal sonore initial entrant xk d’un vecteur de poids wfeet d’un vecteur de masque mk correspondant pour obtenir dk. Cela est mis en œuvre par le réseau de neurones implémenté par l’unité de traitement.
En référence à la figure 2, le réseau de neurones 2 comprend un module de transformation 20, un module de rehaussement 21 et un module de synthèse 22.
Avantageusement, le réseau de neurones 2 comprend également un module de normalisation 23 en amont du module de transformation 20, et un module de remise à l’échelle 24 en aval du module de synthèse 22.
Le module de normalisation 23 est adapté pour mettre en œuvre lors d’une étape 200 une normalisation des segments de signal sonore pour réduire la variabilité des données d’entrée et permettre un apprentissage plus efficace du réseau de neurones.
Avantageusement, le module de normalisation 23 met en œuvre la normalisation suivante sur chaque segment de signal sonore :
Figure imgf000013_0001
Ou xnormk est est le segment normalisé correspondant au segment xk, et xk i est le ieme échantillon du segment xk.
Le module de remise à l’échelle 24 est configuré pour mettre en œuvre sur le signal de sortie (étape 600 décrite ci-après) du module de synthèse 22 une opération inverse à celle mise en œuvre par le module de normalisation 23 pour que le signal de sortie soit d’une intensité comparable à celle du segment d’entrée correspondant.
Pour reprendre l’exemple qui précède, le module de remise à l’échelle 24 réalise avantageusement l’opération suivante sur le segment Yk du signal de sortie du module de synthèse :
Figure imgf000013_0002
Dans la suite de la description du traitement on considérera que l’entrée du module de transformation 20 est normalisée même si la notation xnormk n’est pas utilisée, ceci afin de ne pas alourdir les notations.
Le module de transformation est adapté pour générer lors d’une étape 300, à partir du segment xk un vecteur de poids wk du segment.
Pour ce faire, le module de transformation 20 est adapté pour :
- mettre en œuvre sur chaque segment xk deux couches densément connectées en parallèle U et V,
- appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, et
- multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids.
Avantageusement, les fonctions d’activation sont choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée.
Selon un mode de réalisation préférée, une fonction d’activation est la fonction sigmoïde définie par :
Figure imgf000014_0001
Et l’autre fonction d’activation est de préférence la fonction unité linéaire rectifiée, notée ReLU et définie par :
ReLU(x ) = x+ = ma x(0, x)
Ainsi selon un premier mode de réalisation le vecteur de poids wk est obtenu par le module de transformation par :
wfe = ReLU(U. xk)Qo(V. xk )
Où U et V sont des matrices de taille N*L qui sont optimisées lors de l’entrainement du réseau de neurones. N peut par exemple être égal à 1000.
Dans un mode de réalisation préféré, le module de transformation 20 comprend en outre une cellule récurrente préfiltrante appliquant une autre couche densément connectée U2 (également optimisée lors de l’entrainement du réseau de neurones) à une entrée formée de la concaténation de la sortie de la fonction ReLU appliquée au segment courant et au segment précédent. La sortie de cette couche densément connectée est appliquée à une fonction sigmoïde et le résultat est également multiplié aux sorties des autres fonctions d’activation pour l’obtention de wk.
En notant Ak la sortie de la fonction Relu appliquée au segment xk :
Ak = ReLU(U. xk )
Le vecteur de poids wk est alors déterminé par :
wk = AkÇ)o(U2. [Ak,Ak-1])Qa(y. xk)
L’ajout de la cellule récurrente préfiltrante permet de tenir compte des similarités de décomposition dans la base de signaux élémentaires de deux segments successifs et de réaliser un préfiltrage en conséquence grâce à la fonction sigmoïde.
De retour à la figure 4, le procédé comprend ensuite une étape 420, mise en œuvre par le module de rehaussement, de génération, à partir du vecteur de poids wk, d’un unique vecteur de masque mk unique.
Pour ce faire, le module de rehaussement 21 du réseau de neurones est de préférence configuré pour effectuer en premier lieu (étape 410) une normalisation du vecteur de poids wk, telle que :
g
wk = - (wk ~ m) + b
s
OÙ :
- wfe est le vecteur de poids normalisé,
- m est une moyenne précalculée, avantageusement pendant ou à l’issue de l’entrainement du réseau de neurones, il peut s’agir d’une valeur moyenne de vecteur de poids générés pendant l’entrainement,
s un écart-type précalculé, avantageusement pendant ou à l’issue de l’entrainement du réseau de neurones ; il peut s’agir d’un écart-type de vecteurs de poids générés pendant l’entrainement,
ge lxN et be Mlxw sont respectivement des gains additif et multiplicatif optimisés lors de l’entrainement du réseau de neurones.
Pour l’extraction du vecteur de masque à partir du vecteur de poids (avantageusement normalisé), le module de rehaussement comporte un réseau profond de type à longue mémoire à court-terme, également connu sous l’acronyme LSTM (de l’anglais Long Short-Term Memory), suivi d’une couche densément connectée dont la fonction d’activation est la fonction sigmoïde, afin d’avoir pour le masque des valeurs comprises entre 0 et 1.
Avantageusement, le réseau profond LSTM comporte quatre couches successivement connectées, où, à partir de la troisième couche, chaque couche prend en entrée une combinaison de la couche précédente et de la couche encore précédente. On note skip la combinaison appliquée à la couche précédente et à la couche qui la précède.
En notant k, ... L4 k les couches LSTM pour le vecteur wk on a :
Figure imgf000016_0001
Dans un mode de réalisation, la fonction skip est définie par la somme des résultats des deux couches :
skip(L2 k, L3 k ) = L2 k + L3 k
Selon une variante avantageuse, la fonction skip retourne la concaténation des deux couches, ce qui permet de donner aux troisième et quatrième couches LSTM un accès aux résultats des deux couches précédentes pour améliorer l’estimation du masque :
Figure imgf000016_0002
Cette variante permet d’améliorer la propagation du gradient lors de l’entrainement du réseau de neurones, ce qui permet une meilleure optimisation au moins du module de transformation et du module de rehaussement.
Selon encore une autre variante, la fonction skip retourne la concaténation de toutes les couches récurrentes précédentes :
skipi— \Lk i-4, ... , Lk 4]
En référence à la figure 5, on a représenté la fonction de coût du réseau de neurones en fonction du son architecture et notamment en fonction des principales variantes décrites ci-avant pour le module de transformation et le module de rehaussement. La fonction de coût du réseau de neurones est calculée comme l’erreur carrée moyenne entre la prédiction du réseau de neurones et le signal cible.
Sur la figure 5 :
- la première colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip définie par la somme des résultats des deux couches précédentes ;
- la deuxième colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches précédentes ;
- la troisième colonne correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une somme des résultats des deux couches ;
- la quatrième colonne, qui présente les meilleurs résultats, correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des résultats des deux couches.
La sortie de la couche densément connectée est un masque mk correspondant à chaque segment xk:
mk = Dense{Lk )
Ce masque est appliqué par le module de rehaussement 21 lors d’une étape 430 au vecteur wk de poids pour obtenir un vecteur de décomposition dk du segment du signal sonore cible dans la base des signaux sonores élémentaires, ce vecteur dk formant l’entrée du module de synthèse 22 :
dk = mkQwk
En variante le module de synthèse 22 peut recevoir en entrées le masque mk et le vecteur de poids wk (du module de rehaussement, et éventuellement du module de transformation pour wk) et mettre en oeuvre l’étape 430 pour obtenir le vecteur de décomposition dk.
Enfin, le module de synthèse 22 détermine lors d’une étape de synthèse 500 une estimation sk du segment de signal cible sk contenu dans le segment xk par multiplication matricielle entre le vecteur de décomposition du segment du signal cible et les signaux élémentaires : Cette estimation sk du segment signal cible correspond au signal de sortie du module de synthèse 22, également notée yk dans la description qui précède des modules de normalisation 23 et de remise à l’échelle 24, et fait ensuite l’objet d’une remise à l’échelle dans le module 24 correspondant lors d’une étape 600.
Le segment signal cible ainsi obtenu peut ensuite être diffusé par le haut- parleur, en temps-réel pendant le traitement du segment suivant, le cas échéant.
A défaut de pouvoir mesurer l’intelligibilité du signal cible reconstitué en sortie du réseau de neurones, on a mesuré l’indicateur SDR-SNR (SDR : rapport signal sur distorsion et SNR : rapport signal sur bruit - les définitions données en introduction sont applicables ici) pour les différentes configurations du réseau de neurones indiquées ci-avant.
Sur la figure 6, on a représenté les différentes valeurs de cet indicateur :
- la première colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip définie par la somme des résultats des deux couches ;
- la deuxième colonne correspond à un module de transformation sans cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches
- la troisième colonne correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une somme des résultats des deux couches ;
- la quatrième colonne, qui présente les meilleurs résultats, correspond à un module de transformation comprenant une cellule récurrente préfiltrante et un module de rehaussement dont la fonction skip est définie par une concaténation des résultats des deux couches.
On constate que l’utilisation, soit d’un module de rehaussement dont la fonction skip est définie par une concaténation des deux couches, soit d’un module de transformation comprenant une cellule récurrente préfiltrante permet d’améliorer cet indicateur.
En revanche, si l’utilisation de ces deux caractéristiques combinées permet d’optimiser les performances du réseau en termes d’erreur, elle ne permet pas d’optimiser l’indicateur SDR-SNR, bien qu’elle apporte tout de même une amélioration par rapport à la structure de base dépourvue de ces deux caractéristiques. Pour l’entrainement du réseau de neurones, un corpus de signaux initiaux est avantageusement créé comprenant un ensemble d’apprentissage et un ensemble de validation disjoints, représentant respectivement de l’ordre de 70 à 80% du corpus, et de 20 à 30% du corpus.
Chaque ensemble est obtenu à partir d’une bibliothèque d’enregistrements de paroles, et d’une bibliothèque d’enregistrements de bruits ambiants supplémentaires correspondant à des bruits réalistes (fond sonore d’une rue, d’un restaurant, etc.), qui sont avantageusement ajoutés de bruits supplémentaires composés de plusieurs locuteurs parlant en même temps sans lien entre eux (« babble noise »). Chaque échantillon d’un ensemble est créé par appairage d’un enregistrement de parole et d’un bruit.
L’entrainement du réseau de neurones permet d’optimiser les couches U, U2, V, les coefficients de normalisation g et b, les couches LSTM, ainsi que la base B des signaux élémentaires, ce qui permet d’adapter la décomposition du segment de signal sonore de la meilleure façon en fonction de la tâche à réaliser, contrairement à d’une transformée de Fourier pour décomposer et filtrer le signal.
Avantageusement, l’entrainement du réseau de neurones peut être mené de telle sorte à rendre le réseau de neurones spécifique à un locuteur particulier, par exemple en utilisant des enregistrements de paroles provenant uniquement de ce locuteur particulier.
En variante, le réseau de neurones peut être entraîné pour plusieurs locuteurs particuliers correspondant à des interlocuteurs habituels de l’auditeur, et les différentes configurations du réseau de neurones sont enregistrées dans une mémoire (non représentée) de l’unité de traitement.
Dans des modes particuliers de réalisation, le dispositif de rehaussement 1 peut par exemple comprendre une interface (non représentée), par exemple une interface graphique qui peut être d’une application logicielle installée sur un téléphone mobile ou une tablette tactile de l’utilisateur du dispositif de rehaussement 1 , l’interface graphique permettant de sélectionner la configuration du réseau de neurones adaptée à l’interlocuteur en train de parler. Dans ce cas l’unité de traitement 10 comprend avantageusement une interface de connexion adaptée pour échanger des instructions avec le téléphone mobile ou la tablette tactile, telle que par exemple une interface de connexion Bluetooth ou filaire, ou à internet.
Dans des modes alternatifs de de réalisation, l’unité de traitement 10 du dispositif de rehaussement 1 peut être configurée pour sélectionner de manière autonome la configuration du réseau de neurones adaptée au locuteur en train de parler. Suivant un exemple non limitatif, l’unité de traitement 10 peut par exemple tester les différentes configurations du réseau de neurones sur un même segment du signal sonore (ou plusieurs segments) correspondant au locuteur en train de parler, obtenus par l’intermédiaire du microphone 1 1 . La configuration du réseau de neurones sélectionnée par l’unité de traitement 10 correspond par exemple à celle permettant de minimiser l’erreur quadratique moyenne entre le segment du signal sonore avant rehaussement et le segment obtenu après rehaussement. De manière générale, l’unité de traitement 10 peut mettre en œuvre toute méthode de reconnaissance automatique de locuteur connue de l’homme du métier, et le choix d’une méthode particulière de reconnaissance automatique du locuteur ne constitue qu’une variante d’implémentation.
De manière plus générale, lorsque plusieurs configurations du réseau de neurones adaptées à des locuteurs différents sont mémorisées, le dispositif de rehaussement 1 comporte donc au moins un moyen pour la sélection de la configuration de réseau de neurones à utiliser. Le moyen mis en œuvre pour la sélection peut, comme décrit ci-avant, prendre plusieurs formes différentes (interface de sélection, méthode de reconnaissance automatique de locuteur mise en œuvre par l’unité de traitement 10, etc.).
II est cependant à noter que l’unité de traitement 10 peut également mettre en œuvre un réseau de neurones locuteur indépendant, c’est-à-dire entraîné pour pouvoir rehausser un signal sonore cible d’un locuteur quelconque. L’entrainement d’un tel réseau de neurones locuteur indépendant peut être mené en utilisant des enregistrements de parole provenant d’un grand nombre de locuteurs différents.
Dans le cas où le réseau de neurones est locuteur indépendant, notamment, le microphone 1 1 peut être, dans des modes préférés de réalisation, un microphone directionnel. Par exemple, le microphone 1 1 est de type cardioïde, supercardioïde ou hypercardioïde. L’utilisation d’un tel microphone 1 1 directionnel permet d’améliorer le rapport signal sur bruit du signal sonore cible. Dans un tel cas, le réseau de neurones peut en outre être entraîné pour rehausser uniquement le signal sonore cible correspondant au locuteur dont la parole présente la puissance moyenne de signal la plus élevée. Ainsi, le réseau de neurones peut être entraîné en utilisant notamment des segments d’un flux sonore comportant plusieurs locuteurs différents dont un locuteur prépondérant dont le signal sonore doit être rehaussé (pour tenir compte de l’amélioration du rapport signal sur bruit qui sera introduite par le microphone directionnel).

Claims

REVENDICATIONS
1. Dispositif (1 ) de rehaussement de la parole, comprenant un microphone (1 1 ), adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment (xk) de signal sonore comprenant un segment de signal sonore cible (sk) et un bruit interférant, et une unité de traitement (10) adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en oeuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant, ledit réseau de neurones (2) comprenant :
- un module de transformation (20) adapté pour générer (300) un vecteur de poids (wk) à partir d’un segment de signal sonore (xk), le module de transformation (20) étant configuré pour i) mettre en oeuvre sur chaque segment (xk) de signal sonore deux couches densément connectées (U, V) en parallèle, ii) appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et iii) multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids (wk),
- un module de rehaussement (21 ) adapté pour générer (420), à partir d’un vecteur de poids (wk), un unique vecteur de masque (mk), le vecteur de poids et le vecteur de masque étant tels que :
dk =™-kQwk
où dk est un vecteur de décomposition d’une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk) dans une base de signaux sonores élémentaires (B), et
- un module de synthèse (22), adapté pour synthétiser (500) une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk), à partir du vecteur de décomposition (dk),
l’unité de traitement (10) comprenant en outre une mémoire (13) dans laquelle sont mémorisées plusieurs configurations de réseaux de neurones (2) adaptées respectivement à plusieurs locuteurs.
2. Dispositif (1 ) de rehaussement de la parole selon la revendication 1 , dans lequel le réseau de neurones (2) comprend en outre :
un module de normalisation (23) en amont du module de transformation (20), adapté pour normaliser l’énergie de chaque segment (xk) de signal sonore, et
un module de remise à l’échelle (24) en sortie du module de synthèse (22), adapté pour mettre en oeuvre sur une estimation du segment de signal sonore cible (sk, yk) généré par le module de synthèse une opération inverse à celle mise en oeuvre par le module de normalisation sur le segment correspondant de signal sonore.
3. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 ou 2, dans lequel les fonctions d’activation du module de transformation (20) sont la fonction sigmoïde pour la sortie d’une couche densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
4. Dispositif (1 ) de rehaussement de la parole selon la revendication 3, dans lequel le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :
- mettre en oeuvre une couche densément connectée (U2) sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent,
- appliquer une fonction sigmoïde en sortie de ladite couche densément connectée (U2), et
- multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids (wk).
5. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 à 4 dans lequel le module de rehaussement (21 ) met en oeuvre une pluralité de couches récurrentes successives de type LSTM, et dans lequel chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.
6. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 à 5, dans lequel le module de rehaussement (21 ) est adapté pour mettre en oeuvre une normalisation (410) du vecteur de poids qu’il reçoit en entrée.
7. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 à 6, comprenant en outre un haut-parleur (14) adapté pour diffuser chaque segment du signal sonore cible.
8. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 à 7, comprenant en outre une interface configurée pour permettre la sélection d’une configuration de réseau de neurones.
9. Procédé de rehaussement de la parole, comprenant l’acquisition par un microphone d’un flux audio et sa conversion (100) en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones (2) à chaque segment de signal sonore dans le domaine temporel, comprenant la mise en oeuvre, par une unité de traitement (10) adaptée pour implémenter le réseau de neurones (2), d’étapes de :
- génération (300), à partir d’un segment du signal sonore (xk), d’un vecteur de poids (wk), la génération du vecteur de poids comportant i) une mise en oeuvre sur chaque segment (xk) de signal sonore deux couches densément connectées (U, V) en parallèle, ii) une application respectivement d’une fonction d’activation en sortie de chaque couche densément connectée, les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et iii) une multiplication ensemble des sorties des fonctions d’activation pour obtenir le vecteur de poids (wk),
- génération (420), à partir du vecteur de poids généré, d’un unique vecteur de masque (mk), le vecteur de poids et le vecteur de masque étant tels que :
dk =™-kQwk où dk est un vecteur de décomposition d’une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk) dans une base de signaux sonores élémentaires (B), et
- synthèse (500) de l’estimation du segment du signal sonore cible (sk) à partir du vecteur de poids et du vecteur de masque,
le procédé de rehaussement de parole comprenant en outre une sélection d’une configuration dudit réseau de neurones (2) à utiliser pour le rehaussement parmi plusieurs configurations de réseaux de neurones (2) adaptées respectivement à plusieurs locuteurs et mémorisées dans une mémoire de l’unité de traitement.
10. Procédé de rehaussement de la parole selon la revendication 9, dans lequel les fonctions d’activation sont la fonction sigmoïde pour la sortie d’une couche densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
1 1. Dispositif (1 ) de rehaussement de la parole, comprenant un microphone (1 1 ) directionnel, adapté pour convertir un flux sonore en une pluralité de segments successifs de signal sonore, chaque segment (xk) de signal sonore comprenant un segment de signal sonore cible (sk) et un bruit interférant, et une unité de traitement (10) adaptée pour implémenter en temps réel et successivement sur chaque segment de signal sonore un réseau de neurones (2) configuré pour mettre en oeuvre un rehaussement, dans le domaine temporel, du segment du signal sonore cible contenu dans le segment de signal sonore par rapport au bruit interférant, ledit réseau de neurones (2) comprenant :
- un module de transformation (20) adapté pour générer (300) un vecteur de poids (wk) à partir d’un segment de signal sonore (xk), le module de transformation (20) étant configuré pour i) mettre en oeuvre sur chaque segment (xk) de signal sonore deux couches densément connectées (U, V) en parallèle, ii) appliquer respectivement une fonction d’activation en sortie de chaque couche densément connectée, les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et iii) multiplier ensemble les sorties des fonctions d’activation pour obtenir le vecteur de poids (wk), - un module de rehaussement (21 ) adapté pour générer (420), à partir d’un vecteur de poids (wk), un unique vecteur de masque (mk), le vecteur de poids et le vecteur de masque étant tels que :
dk = mkQwk
où dk est un vecteur de décomposition d’une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk) dans une base de signaux sonores élémentaires (B), et
- un module de synthèse (22), adapté pour synthétiser (500) une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk), à partir du vecteur de décomposition (dk).
12. Dispositif (1 ) de rehaussement de la parole selon la revendication 1 1 , dans lequel le réseau de neurones (2) comprend en outre :
un module de normalisation (23) en amont du module de transformation (20), adapté pour normaliser l’énergie de chaque segment (xk) de signal sonore, et
un module de remise à l’échelle (24) en sortie du module de synthèse (22), adapté pour mettre en oeuvre sur une estimation du segment de signal sonore cible (sk, yk) généré par le module de synthèse une opération inverse à celle mise en oeuvre par le module de normalisation sur le segment correspondant de signal sonore.
13. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 1 ou 12, dans lequel les fonctions d’activation du module de transformation (20) sont la fonction sigmoïde pour la sortie d’une couche densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
14. Dispositif (1 ) de rehaussement de la parole selon la revendication 13, dans lequel le module de transformation comprend en outre une cellule récurrente préfiltrante adaptée pour :
- mettre en oeuvre une couche densément connectée (U2) sur une concaténation de la sortie de la fonction unité linéaire rectifiée appliquée au segment courant et appliquée au segment précédent, - appliquer une fonction sigmoïde en sortie de ladite couche densément connectée (U2), et
- multiplier ladite fonction sigmoïde aux sorties des fonctions d’activation pour obtenir le vecteur de poids (wk).
15. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 1 à 14 dans lequel le module de rehaussement (21 ) met en oeuvre une pluralité de couches récurrentes successives de type LSTM, et dans lequel chaque couche récurrente à partir de la troisième reçoit en entrée la concaténation de la sortie de la couche précédente et de la couche précédent la couche précédente.
16. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 1 à 15, dans lequel le module de rehaussement (21 ) est adapté pour mettre en oeuvre une normalisation (410) du vecteur de poids qu’il reçoit en entrée.
17. Dispositif (1 ) de rehaussement de la parole selon l’une des revendications 1 1 à 16, comprenant en outre un haut-parleur (14) adapté pour diffuser chaque segment du signal sonore cible.
18. Procédé de rehaussement de la parole, comprenant l’acquisition par un microphone (1 1 ) directionnel d’un flux audio et sa conversion (100) en une pluralité de segments successifs de signal sonore, chaque segment de signal sonore contenant un segment de signal sonore cible et un bruit interférant, et le rehaussement du segment de signal sonore cible par application d’un réseau de neurones (2) à chaque segment de signal sonore dans le domaine temporel, comprenant la mise en oeuvre, par une unité de traitement (10) adaptée pour implémenter le réseau de neurones (2), d’étapes de :
- génération (300), à partir d’un segment du signal sonore (xk), d’un vecteur de poids (wk), la génération du vecteur de poids comportant i) une mise en oeuvre sur chaque segment (xk) de signal sonore deux couches densément connectées (U, V) en parallèle, ii) une application respectivement d’une fonction d’activation en sortie de chaque couche densément connectée, les fonctions d’activation étant choisies parmi le groupe consistant en les fonctions linéaire, sigmoïde, tangente hyperbolique, unité linéaire rectifiée, et iii) une multiplication ensemble des sorties des fonctions d’activation pour obtenir le vecteur de poids (wk),
- génération (420), à partir du vecteur de poids généré, d’un unique vecteur de masque (mk), le vecteur de poids et le vecteur de masque étant tels que :
dk = mkQwk
où dk est un vecteur de décomposition d’une estimation du segment (sk, yk) du signal sonore cible contenu dans le segment de signal sonore (xk) dans une base de signaux sonores élémentaires (B), et
- synthèse (500) de l’estimation du segment du signal sonore cible (sk) à partir du vecteur de poids et du vecteur de masque.
19. Procédé de rehaussement de la parole selon la revendication 18, dans lequel les fonctions d’activation sont la fonction sigmoïde pour la sortie d’une couche densément connectée et la fonction unité linéaire rectifiée pour la sortie de l’autre couche densément connectée.
PCT/FR2019/052060 2018-09-07 2019-09-06 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel WO2020049263A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1858058 2018-09-07
FR1858058A FR3085784A1 (fr) 2018-09-07 2018-09-07 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel

Publications (1)

Publication Number Publication Date
WO2020049263A1 true WO2020049263A1 (fr) 2020-03-12

Family

ID=65201327

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2019/052060 WO2020049263A1 (fr) 2018-09-07 2019-09-06 Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel

Country Status (2)

Country Link
FR (1) FR3085784A1 (fr)
WO (1) WO2020049263A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241091A (zh) * 2021-05-28 2021-08-10 思必驰科技股份有限公司 声音分离的增强方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099008A1 (en) * 2014-10-06 2016-04-07 Oticon A/S Hearing device comprising a low-latency sound source separation unit
US20160111108A1 (en) 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Audio Signal using Phase Information
US20170061978A1 (en) 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099008A1 (en) * 2014-10-06 2016-04-07 Oticon A/S Hearing device comprising a low-latency sound source separation unit
US20160111108A1 (en) 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Audio Signal using Phase Information
US20170061978A1 (en) 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CHEN JIANMING ET AL: "The Application of Deep Neural Network in Speech Enhancement Processing", 2018 5TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING (ICISCE), IEEE, 20 July 2018 (2018-07-20), pages 1263 - 1266, XP033501883, DOI: 10.1109/ICISCE.2018.00257 *
DARIO RETHAGE ET AL: "A Wavenet for Speech Denoising", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 June 2017 (2017-06-22), XP080771751 *
GAO TIAN ET AL: "A unified DNN approach to speaker-dependent simultaneous speech enhancement and speech separation in low SNR environments", SPEECH COMMUNICATION, vol. 95, 18 October 2017 (2017-10-18), pages 28 - 39, XP085288305, ISSN: 0167-6393, DOI: 10.1016/J.SPECOM.2017.10.003 *
LUO YI ET AL: "Real-time Single-channel Dereverberation and Separation with Time-domain Audio Separation Network", INTERSPEECH 2018, 2 September 2018 (2018-09-02) - 6 September 2018 (2018-09-06), ISCA, pages 342 - 346, XP055586461, DOI: 10.21437/Interspeech.2018-2290 *
LUO YI ET AL: "TaSNet: Time-Domain Audio Separation Network for Real-Time, Single-Channel Speech Separation", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 15 April 2018 (2018-04-15), pages 696 - 700, XP033401435, DOI: 10.1109/ICASSP.2018.8462116 *
S. VENKATARAMANI ET AL.: "End-to-end Source Séparation with adaptive front-ends", ARXIV :1705.02514V2, 6 May 2017 (2017-05-06), Retrieved from the Internet <URL:www.arxiv.org>
SANTIAGO PASCUAL ET AL: "SEGAN: Speech Enhancement Generative Adversarial Network", INTERSPEECH 2017, 9 June 2017 (2017-06-09), ISCA, pages 3642 - 3646, XP055579756, DOI: 10.21437/Interspeech.2017-1428 *
Y. LUO ET AL.: "TasNet : Time-Domain Audio Séparation Network for Real-Time, Single Channel Speech Séparation", ARXIV : 1711.00541, 1 November 2017 (2017-11-01), Retrieved from the Internet <URL:www.arxiv.org>

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241091A (zh) * 2021-05-28 2021-08-10 思必驰科技股份有限公司 声音分离的增强方法及系统

Also Published As

Publication number Publication date
FR3085784A1 (fr) 2020-03-13

Similar Documents

Publication Publication Date Title
Tu et al. Speech enhancement based on deep neural networks with skip connections
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
CN101593522B (zh) 一种全频域数字助听方法和设备
JP2019191558A (ja) 音声を増幅する方法及び装置
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
RU2411595C2 (ru) Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
EP1849157B1 (fr) Procede de mesure de la gene due au bruit dans un signal audio
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
US20240127843A1 (en) Processing and utilizing audio signals according to activation selections
WO2020049263A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
FR2764469A1 (fr) Procede et dispositif de traitement optimise d&#39;un signal perturbateur lors d&#39;une prise de son
Zheng et al. Low-latency monaural speech enhancement with deep filter-bank equalizer
Chhetri et al. Speech Enhancement: A Survey of Approaches and Applications
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
Roy et al. Deep residual network-based augmented Kalman filter for speech enhancement
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
Nugraha Deep neural networks for source separation and noise-robust speech recognition
Li et al. An improved fully convolutional network based on post-processing with global variance equalization and noise-aware training for speech enhancement
Nossier et al. Environmental Noise Adaptable Hearing Aid using Deep Learning.
Vanjari et al. Hearing Loss Adaptivity of Machine Learning Based Compressive Sensing Speech Enhancement for Hearing Aids
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
Sinha et al. Speaker-conditioned target speaker extraction based on customized lstm cells
Parameswaran Objective assessment of machine learning algorithms for speech enhancement in hearing aids
WO2022207994A1 (fr) Estimation d&#39;un masque optimise pour le traitement de donnees sonores acquises

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19787016

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19787016

Country of ref document: EP

Kind code of ref document: A1