WO2017207286A1 - Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise - Google Patents

Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise Download PDF

Info

Publication number
WO2017207286A1
WO2017207286A1 PCT/EP2017/061931 EP2017061931W WO2017207286A1 WO 2017207286 A1 WO2017207286 A1 WO 2017207286A1 EP 2017061931 W EP2017061931 W EP 2017061931W WO 2017207286 A1 WO2017207286 A1 WO 2017207286A1
Authority
WO
WIPO (PCT)
Prior art keywords
signals
speech
headset
detectors
acoustic
Prior art date
Application number
PCT/EP2017/061931
Other languages
English (en)
Inventor
Guillaume Vitte
Fabien REMOND
Nicolas Renard
Alexandre Briot
Original Assignee
Parrot Drones
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot Drones filed Critical Parrot Drones
Publication of WO2017207286A1 publication Critical patent/WO2017207286A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1008Earpieces of the supra-aural or circum-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • Microphone / headset audio combo comprising multiple voice activity detection means with supervised classifier
  • the invention relates to a set of "headset" type, comprising an audio headset, combined with a microphone assembly adapted to capture the voice of the wearer of the headset.
  • the headset generally comprises two earphones joined by a bow, each earpiece comprising a closed shell housing a sound reproduction transducer.
  • This shell surrounds the ear ("circum-aural” helmet) or is supported on it (helmet “supra-aural”), with the interposition of an insulating pad.
  • earphones With an element to be placed in the auditory canal and overflowing into the hollow of the auricle of the ear beyond the auditory canal, without surrounding cushion or covering the ear.
  • earphones joined by a hoop where the transducer is housed in a shell surrounding the ear (helmet "circum-aural") or in support thereon (helmet “supra-aural” ) or with headphones of "in-ear” type or the like.
  • the headset can be used to listen to an audio source (music for example) from a device such as MP3 player, radio, smartphone, etc. to which it is connected by a wired connection or by a wireless link, in particular of the Bluetooth type. Thanks to the microphone set, it is also possible, in addition to listening to the audio source, to use this headset for communication functions such as "hands-free" telephony functions and / or communication functions. Speech Recognition. The headphone transducer then reproduces the voice of the remote speaker with whom the headphone wearer (nearby looser) is in conversation.
  • Such a combined headset assembly is for example described in EP 2 518 724 A1, EP 2 930 942 A1 and EP 2 945 399 A1 (all three in the name of Parrot).
  • the level of the environmental noise (of acoustic origin) present on the signal picked up by the microphonic set should be as low as possible, so as to preserve the subjective quality the voice of the helmet wearer (near speaker) on this signal, to transmit to the remote speaker a faithful and intelligible signal through the telephone communication.
  • the reference parameter to evaluate this requirement is the signal-to-noise ratio, hereinafter "SNR", which is the ratio of the useful signal (corresponding to the voice of the helmet wearer), to the noise that surrounds it, of essentially acoustic origin.
  • the most favorable configuration is that of a "wired kit", where the microphone is mounted on a wire connecting the helmet to the smartphone of the helmet wearer.
  • This placement is advantageous for the voice recording because the microphone is then positioned just below the chin, so close to the mouth, with the additional possibility for the wearer of the headset to bring the microphone to his mouth in a noisy situation .
  • This configuration is comparable, from the point of view of the SNR, to that of a phone worn against the cheek (smartphone with integrated microphone).
  • a headset-type headset "Bluetooth headset” where the microphone is then close to the ear, has a degradation of the SNR, of the order of -3 dB.
  • An even more unfavorable configuration is that of a closed circumaural wireless headset, where the microphone is located on the headset and the helmet isolates the two ears of the wearer of the helmet.
  • the SNR is then typically of the order of -7 to -9 dB.
  • the typical behavior of a helmet wearer shows that, on the one hand, the level of voice, strong or weak, that a person spontaneously adopts when speaking is significantly modified when wearing a headset (compared to a situation where no headphones are worn) and that, on the other hand, this level of voice also depends on the type of helmet worn (circum-aural, supra-aural or intra-auricular), more or less insulating.
  • the voice level of the headset wearer during the telephone conversation is relatively unaffected by the wearing of this device, since only one ear is obstructed while the second remains free, allowing to the wearer of the helmet to perceive both the surrounding noise and his own voice in an almost natural way.
  • the wearer of the helmet wears an acoustically insulating headset, he generally adopts a significantly lower voice level than normal in noisy situations.
  • the level of voice adopted may be so low that it becomes almost imperceptible to a person in the vicinity (for example to one meter), because the wearer of the helmet sees himself as being in a "bubble” and no longer has the reflex to raise the level of his voice to place it above the ambient noise so as to be understood.
  • This "behavioral" degradation of the SNR can be estimated at about 4 to 6 dB of acoustic deficit in the most typical situations of use of a nomadic helmet in urban context.
  • the voice level of the helmet wearer can be affected by the "social" context in which he finds himself: in a situation of promiscuity (subway, office, ...) the level of voice of the wearer of the helmet is modulated, by discretion or politeness, to avoid not to embarrass the people nearby.
  • This natural decrease in the voice level is in addition to the deficits described above, which can lead to a very degraded acoustic SNR, close to -10 dB, as input to the denoising algorithm (note that this "social” degradation "The SNR is not specific to a headset, unlike the two other degradations mentioned above (" geometric "and” behavioral "), but it aggravates a SNR already strongly degraded).
  • the cumulative deficit of SNR is in a typical situation between 10 and 12 dB between a conventional system (wired kit) and a closed wireless type headset.
  • the problem of the invention is related in particular to the use of a wireless headset that uses a Bluetooth technology for its coupling with a mobile phone, because this feature makes it impossible to integrate the microphone within a mobile phone. cable as is traditionally done on wired headphones - so without benefiting from this advantageous placement for the capture of the voice, and without possibility offered to the wearer of the headset to bring the microphone of his mouth in a noisy situation.
  • This configuration therefore shows a deteriorated initial acoustic situation, with a "geometrical" degradation of the acoustic SNR of the order of about 6 dB, which will have to be caught up by the denoising algorithm to obtain a similar qualitative level of output, even superior to a wired kit.
  • the headset can be equipped with a system called “active noise control” or ANC (Active Noise Control), acting on the signal reproduced by the transducers of the helmet (whether or not it is provided with 'a microphone).
  • ANC Active Noise Control
  • the ANC principle consists of capturing the ambient noise component and temporally and spatially superimposing on this noise component an acoustic wave which is ideally the inverted copy of the pressure wave of the noise component. This is to create in this way a destructive interference with the noise component and to reduce, ideally neutralize, the pressure variations of the acoustic wave. parasitic tick.
  • EP 2 597 889 A1 (Parrot) describes a helmet provided with such an ANC system.
  • the activation of the ANC modifies the behavior of the helmet wearer, in that it reinforces the "bubble" effect by a further attenuation of the perceived ambient noise, with a slight degradation of the input SNR with respect to the port of the helmet.
  • a passive headset without ANC.
  • This additional degradation remains moderate, of the order of approximately 1 dB, since the activation of the ANC also has the side effect of reducing the level perceived by the wearer of the helmet on his own voice, in particular in the low frequencies. frequencies that will be much less deaf, and to encourage him to speak louder.
  • AOC anti-occlusion
  • AOC Active Occlusion Cancellation
  • ANC Active Occlusion Cancellation
  • Occlusion is the phenomenon of increasing low frequencies, around 200 Hz, in the user's perception of his own voice when he wears a headset, the voice appearing much duller than natural, which creates a real embarrassment.
  • the sounds of voices driven by bone conduction to the auditory canal are very poorly perceived because they are evacuated towards the outside of the ear, which presents the lowest acoustic impedance compared to that of the tympanic membrane.
  • this helmet when a helmet is worn, this helmet completely or partially obstructs the auditory canal, that is to say it introduces a significant acoustic impedance at the outer end of the ear canal: this impedance causes the resonance within the auditory canal of sounds transmitted by bone conduction, and thus an amplification of the low frequency part of the voice signal with respect to a situation where the auditory canal is open, with a rise in the level of the order of 20 dB below 500 Hz. The wearer of the headset then perceives his voice much more muted.
  • the aim of the AOC treatment is precisely to reproduce a perception of sounds as close to natural as when no helmet is worn.
  • the wearer of the helmet sometimes wants to perceive his own voice in a natural way, for example he wishes to be able to talk with the distant speaker in a hands-free telephone conversation, or with a person physically present near him, in perceiving his own voice in the same way as if he was not wearing a helmet.
  • the helmet wearer wishes to perceive his environment perfectly in order to hear, for example, the traffic, to evaluate the distance of the vehicles or to hear an alarm signal, a message broadcast by the driver of a public transport etc.
  • the activation of the AOC is intended to virtually transform, by purely electronic and digital means, a "closed" type helmet to simulate an "open” helmet with apparent suppression of the occlusion phenomenon.
  • a "closed” type helmet to simulate an "open” helmet with apparent suppression of the occlusion phenomenon.
  • the activation of the anti-occlusion AOC function induces a slight increase in the speaker's voice level, of the order of +1 to +2 dB.
  • the AOC partially erases the "bubble" effect of the ANC and puts the helmet wearer in contact with its environment, which typically results in an increase in the SNR input, it is also a reason why the AOC mode, when present, is enabled by default during a telephone call.
  • a general aim of the invention is to propose a technique which makes it possible, with such a headset, to improve the SNR of the signal picked up by the headphone microphone assembly, while preserving the subjective quality of the voice signal of the wearer of this headset. , so as to output an intelligent and intelligible signal transmitted for the telephone communication to a remote party. It is also a question of obtaining this improvement of the SNR whatever the situation of noise in which the wearer of the helmet is (noise of street, subway, train, office ...) taken into account by the algorithm of treatment ANC.
  • the signal denoising algorithms collected by the microphone of the headset and intended to be transmitted to the remote speaker implement a "voice activity detector” or VAD (Voice Activity Detector) to discriminate periods when the carrier of the headphones speak (so with a denoising adapted to not deform the voice and keep all its intelligibility), and those where it does not speak (where we can then apply a much more aggressive denoising).
  • VAD Voice Activity Detector
  • this probability of speech presence is carried out on narrow frequency ranges, or "frequency bins", of the signal collected, for example on 256 frequency bins of a signal time frame after digitization of the signal. this one and analysis in the frequency domain after Fourier transformation.
  • frequency bins narrow frequency ranges
  • the probability of presence of speech there are 256 different speech presence probability values, each corresponding to the presence / absence analysis of speech performed for a specific frequency bin.
  • Many techniques for determining the probability of presence of speech have been proposed, but none of them makes it possible to obtain results of constant quality irrespective of the surrounding noise situations likely to be encountered in the real world (the quality of the speech). - The results can be quantified in terms of the true positive rate compared to the false positive rate.
  • the voice activity detection simply delivers a binary indicator of the "all or nothing" type (presence vs. absence of speech);
  • the decision tree is purely binary, the switch to one branch or another of the tree is according to whether the binary value delivered by each pre-classifier is 0 or 1;
  • the different processes upstream of the decision tree are operated by different methods, but on the same input signal.
  • the object of the invention is to propose a new voice activity detection technique making it possible to overcome the various disadvantages described above, in order to be able to deliver results with in all circumstances a reliability that is much greater than what could have been achieved. to be obtained so far.
  • Another object is to provide an improved signal denoising circuit adapted to specifically use the results of the voice activity detector of the invention.
  • microcasque handset comprising, in a manner known per se:
  • an array of detectors capable of delivering respective picked signals, each picked-up signal comprising a noise component and, where appropriate, a speech component of the helmet wearer, the detector array comprising:
  • a plurality of acoustic detectors of the microphonic type placed outside the acoustic cavity; and optionally, at least one physiological type non-acoustic detector capable of capturing non-acoustic vocal vibrations transmitted by internal bone conduction of the wearer of the helmet.
  • this headset handset furthermore comprises:
  • classifying means of the observation vector suitable for:
  • the analysis means of the invention operate in such a way that (unlike in particular the Shin et al algorithm mentioned above):
  • the inputs of the tree are values of probabilities with continuous value over the interval [0, 1], resulting from an analysis of a signal;
  • the decision tree is a tree formed of hierarchical thresholds, the tree being traversed by comparing with each branch the value of presence probability, the result of the analysis carried out upstream, with a corresponding threshold;
  • prior processing upstream of the decision tree is processing performed on different input signals, in this case signals delivered by microphones different from the microphone array, or different combinations of these microphones of the network, and not on the same input signal by different methods.
  • signals delivered by microphones different from the microphone array or different combinations of these microphones of the network, and not on the same input signal by different methods.
  • the global indicator of presence / absence of speech is a quantified global indicator, quantifying a probability of presence of speech between two extrema respectively corresponding to a situation of proven vocal activity and to a situation of absence of proven vocal activity .
  • a threshold comparator may be provided for this purpose, receiving as input the global quantified indicator of presence / absence of speech and outputting an overall binary indicator of presence / absence of speech;
  • the signals collected are signals digitized in successive frames with, for each frame, a decomposition into frequency bins, and in which the means for analyzing the signals picked up, the voice activity detectors and the classifying means are means implemented implement for each bin of each frame of the signals;
  • the analysis means comprise means of analysis in the frequency domain of the signals sensed by all or part of the acoustic or non-acoustic detectors of the detector array, of the group formed by: spatial coherence analysis means between signals sensed by certain predetermined acoustic detectors of the detector array; means for quantizing the phase difference between signals picked up by certain predetermined acoustic detectors of the detector array; means for estimating the signal-to-noise ratio of the sensed signals and / or combinations of signals picked up by certain predetermined acoustic detectors of the detector array; probabilistic means for detecting vocal activity from the signals picked up by the acoustic detectors; and means for estimating the signal-to-noise ratio of the signals picked up by the at least one non-acoustic detector of the detector array; the analysis means comprise means for analysis in the time domain of the successive frames of the signals picked up by the at least one non-acoustic detector of the detector array;
  • the headset furthermore comprises noise reduction means, receiving as input the signals picked up and / or combinations of said signals picked up and operating on these signals and / or combinations of signals. It can be set according to the value of the global indicator of presence / absence of speech delivered by the classifying means.
  • the parameterizable processing may in particular comprise an estimation processing of a noise spectral density, selectively implemented, or not, according to a Boolean value of the global indicator of presence / absence of speech.
  • Figure 1 is a front view of a first type of headset to which the invention is applicable, namely a headset provided with circumaural headphones.
  • Figure 2 is a perspective view of the headset of Figure 1.
  • 3 is a side view of the helmet of FIG. 1 in position on the head of a wearer of this helmet, showing more precisely the orientation of the directivity axes of the microphone array relative to the helmet wearer's mouth; .
  • Figure 4 is a front view of a second type of headset which is applicable to the invention, namely a sports-type headset with ear-type ear-type.
  • Figure 5 is a side view of the helmet of Figure 4 in position on the head of a wearer of this helmet, showing more precisely the orientation of the directivity axes of the microphone array relative to the mouth of the wearer of the helmet .
  • Figure 7 is a block schematic overview showing and explaining how the signals from the various acoustic (microphonic) and non-acoustic (accelerometer) detectors of the headset are analyzed to produce a certain amount of noise. number of elementary indicators combined by a classifier of the decision tree type, in order to obtain as output an overall indicator, quantized or binary, of presence / absence of speech.
  • Figure 8 is an ROC (True Positive versus False Positive Rate) chart illustrating the efficiency provided by the classifier of the invention.
  • Figure 9 illustrates, in block diagram form, a noise reducer using the global indicators produced by the decision tree of Figure 7.
  • the invention is implemented by mainly software means, by means of appropriate algorithms executed for example by microcontrollers or digital signal processors.
  • various treatments applied will be decomposed and schematized by a number of distinct functional blocks presented in the form of interconnected circuits, but this representation is however only illustrative, these circuits comprising common elements and corresponding in practice to a plurality of functions globally executed within the same software.
  • FIGS. 1 to 3 show a headset handset comprising, in a conventional manner, two earphones 10, 10 'connected by a holding bar 12.
  • Each earpiece comprises an outer shell 14, 14' coming from to apply on the contour of the ear of the helmet wearer with the interposition of a circumaural soft pad 16, 16 'intended to provide an acoustically satisfactory seal between the region of the ear and the external sound environment.
  • the headset is provided with a network formed of a plurality of microphones (hereinafter also referred to as “acoustic detectors”), in the example illustrated in number of four, namely:
  • the microphones 18 and 20 disposed on the left earphone 10 are arranged relative to each other at a distance from the order of 2 to 3 cm, so that the axis ⁇ passing through the two points where these microphones 18 and 20 are located is directed towards the mouth of the wearer of the helmet, forming with the ideal direction D passing through this mouth an angle as small as possible.
  • the microphones 18, 18 ', 20 and 20' are advantageously omnidirectional microphones, which will thus be brought to capture both the acoustic waves produced by the wearer's mouth when it speaks, the ambient noise parasite it This will eliminate in the best possible conditions to make intelligible the useful voice signal of the wearer of the helmet.
  • the headset handset also comprises at least one physiological detector 22 accelerometer or other type (hereinafter also called “non-acoustic detector”), for example disposed at the pad 16 'so as to be applied against the cheek or the head of the helmet wearer with the closest possible coupling. It is a question of collecting by means of this detector a signal transmitted directly by bone (and not by an acoustic air way as in the case of microphonic detectors), which presents the characteristic of being, by nature, very little corrupted by the surrounding noise.
  • physiological detector 22 accelerometer or other type hereinafter also called “non-acoustic detector”
  • the signal thus collected by this non-acoustic detector 22 makes it possible, after filtering and combining with the signals picked up by the acoustic detectors constituted by the microphones 18, 18 ', 20 and 20', to deliver to the system communicating a speech signal from the close speaker (the helmet wearer) whose intelligibility has been greatly improved.
  • FIGS. 4 to 6 are homologous to Figures 1 to 3 described above, and show by way of illustration a second type of headset which is applicable to the invention, namely a sports-type headset with earphones intra-auricular type.
  • the same references designate elements identical or functionally similar to the headset provided with circumaural headphones of Figures 1 to 3.
  • the overall configuration of such a sports-type headset is for example that of the Zik Sport helmet which was recently presented by Parrot, Paris, France.
  • the signals TopL, BotL, TopR and BotR produced by the N 4 acoustic detectors (the microphones 18, 18 ', 20 and 20') are subjected to a high-pass filtering (HPF, blocks 100) so as to eliminate the parasitic components of lower frequency.
  • HPF high-pass filtering
  • the signals TopL, BotL, TopR and BotR can be combined in pairs, so as to perform a number of specific analyzes taking into account the particular geometric position on the headset of the microphones of the pair in question.
  • a block 102 combines the signals from the TopL and BotL microphones for a left-side axial coherence analysis (L). It is an "axial" pair in the sense that it includes two microphones located on the same earphone of the helmet (the left earpiece in this case) and whose common axis ⁇ is oriented towards the mouth of the helmet carrier (see Figures 3 and 6).
  • the combined signals of the axial pair ⁇ TopL, BotL ⁇ are subjected, for example, to a quantization processing of the phase shift of the picked-up signal, evaluated between the TopL microphone and the BotL microphone (block 104), and to another evaluation process of the signal-to-noise ratio (block 106) on this axial pair of microphones located on the left side.
  • a quantization processing of the phase shift of the picked-up signal evaluated between the TopL microphone and the BotL microphone (block 104)
  • block 106 another evaluation process of the signal-to-noise ratio
  • the processing performed by block 106 it will be possible to refer in particular to the algorithms described in WO 2007/099222 A1 (Parrot SA), which are based on noise estimation via the use of a MCRA algorithm ( M ' ⁇ nima Controlled Recursive Averaging), recursive averaging by minima control, for example described by I. Cohen and B.
  • the signals of these pairs, combined by the block 108, are subject, for example, to a quantization analysis analysis of the phase shift of the sensed signal, evaluated between the left and right sides (block 1 10). and another process for estimating the signal-to-noise ratio (block 1 12) from the signals collected by these transverse pairs.
  • the signals TopL, BotL, TopR and BotR resulting from the four microphones 18, 18 ', 20 and 20' are also applied together to a circuit 120 of the probabilistic voice activity detector type, for example implementing an algorithm of the type MCRA.
  • a detection in itself known, is based on the estimation of the energy of the pseudo-stationary noise component in the signals picked up by the microphones, which is evaluated by an algorithm of the MCRA type.
  • the delivered signal is subjected to various analysis treatments (block 124) comprising, for example:
  • the processing it performs for measuring the SNR of the accelerometric signal is mainly a measurement of SNR with respect to an electrical noise, because the noise present on the signal
  • the accelerometer is essentially an electrical blast noise related to the sensor (thermal noise) and the digitization of the signal (quantization noise). Since this electrical noise is stationary, it is easy to obtain an evaluation of the SNR.
  • the SNR evaluation algorithm plans to update the estimate of the noise floor to take into account the elevation of this same noise floor in the event of loud acoustic noise.
  • an activity detection is obtained in the operating range of the accelerometer, namely for frequencies below 1500 Hz.
  • the processing it performs takes account of the fact that it is possible to artificially extend the operating range of the accelerometer sensor beyond the limit of 1500 Hz, in a range corresponding to low-order harmonics of the voice, by a band extension technique, in particular by the application of a nonlinear function of harmonic generation.
  • this band extension technique is applicable because the noise level is low on the sensor, and an extension can typically be achieved up to a frequency of 3 kHz.
  • the estimation of the SNR is then carried out in the same way as previously in the field of low frequencies. There is thus an additional voice activity detector, whose field of analysis is extended in the medium.
  • the processing it performs is a time-domain analysis, unlike the analyzes performed by the blocks 104, 106, 1 10, 1 12, 1 16, 1 18 , 120, 126 and 128, all of which operate in the frequency domain.
  • This time domain analysis distributes the received successive signal frames into two classes, depending on whether the algorithm detects:
  • the voiced signals are those which involve a vibration of the vocal chords, which is transmitted to the cheek, unlike unwanted voice signals corresponding to fricative sound plosives), or ii) noise alone or a mixture of noise and unvoiced speech.
  • N + M signals are operated in parallel n different analysis treatments.
  • n 10 different treatments, corresponding to the blocks 104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126, 128 and 130.
  • n different treatments produce a battery of n respective elementary indicators each giving, for the bin considered, a corresponding value of probability of presence of speech (n voice activity detections schematized by the blocks 140).
  • one 10 different information for each frequency bin of each time frame, this information being derived from the signals from four microphones and an accelerometer.
  • This information will have a variable reliability depending on the noise context present. Indeed, some detectors can effectively distinguish the voice of directional noise by arrival direction properties, other detectors are specialized to detect voice and noise in low frequencies with low SNR, others are specialized to separate the voice from a field of diffuse noises, etc. In fact, the detectors rely on different assumptions and their relevance is variable depending on the noise situation and the assumptions that are actually verified.
  • the object of the invention is, from these n complementary elementary and all imperfect indicators, to produce a single global indicator of high reliability, that is to say having a very low rate of false positives.
  • the basic idea of the invention consists in concurrently applying these n elementary indicators of speech presence probability to a supervised classifier of decision tree type 142, in order ultimately to obtain a single global indicator of presence / absence of speech, for each frequency bin and each frame of the signal collected.
  • the decision tree 142 uses as input information the "observation vector" consisting of n elementary indicators of the probability of presence of speech produced by the n treatments described above. It will be noted that this input information is obtained by processes known per se (processing of blocks 102 to 130).
  • This supervised classification method can also make it possible to select among the n different analysis treatments those that are most relevant on each frequency band, thus avoiding performing all of these treatments on all of the frequency bins. It is thus possible to obtain differentiated and specialized classifying subsets according to the frequency domain.
  • the decision tree is a method, itself well known in other fields, based on an algorithm in which a multiplicity of input data (in this case the n elementary indicators of probability of presence of speech delivered by the n voice activity detectors 140 at the output of the n respective different analysis treatments) are compared with respective thresholds hierarchized with each other.
  • a multiplicity of input data in this case the n elementary indicators of probability of presence of speech delivered by the n voice activity detectors 140 at the output of the n respective different analysis treatments
  • Such an algorithm can be formalized by a Boolean equation comprising a succession of terms (corresponding to the comparisons of the different parameters with respect to the respective thresholds) which are combined by a sequence of logical AND's, and the result of which is a single overall result.
  • the different thresholds 144 of the decision tree 142 are thresholds determined beforehand from a learning base including in particular a base of real noises captured under conditions representative of the possible use of the headset. Recordings are made with all acoustic and non-acoustic sensors, then mixed with voice signals obtained in the absence of noise (in an anechoic room) for a variety of possible users, and with different levels of noise. SNR.
  • the values of the thresholds obtained are introduced into the decision tree, where these thresholds are stored in a memory and frozen.
  • decision trees there are as many decision trees as there are frequency bins, for example 256 independent trees in the case where each frame is divided into 256 bins.
  • Each decision tree 146 outputs a value of 148 indications tor overall probability of presence of speech supervised P é e! ⁇ k, l) for the bin / of the frame of rank k.
  • the value P supervised é e! ⁇ k, l) of this global indicator (hereinafter referred to as the "quantified global indicator" of presence of speech) is a continuous value probability over the interval [0,1], the value 0 corresponding to a certain absence of speech and the value 1 corresponding to a certain presence of speech.
  • the value P supervised é e! ⁇ k, l) (continuous value probability) given by the decision tree is applied to a threshold comparator 150 to output 152 a binary value of presence of speech, hereinafter referred to as "global bit indicator" of presence of speech), this for each bin of each successive frame.
  • Figure 8 illustrates the performance of the voice activity detector of the invention, based on a probability supervised by decision tree classifier.
  • This Figure 8 and a representation of the ROC type quantifying the performance in the form of a characteristic curve rate of true positives / false-positive rate, the performance being all the better that the area under the curve is high (compared to a purely random decision, corresponding to curve A).
  • This example shows a significant improvement (a sharp decrease in the false-positive rate) compared to one or other of the detectors taken in isolation. It will be understood that, for a greater number of detectors (up to ten detectors in the example illustrated in FIG. 7), this improvement will be greater the more the number of different elementary detectors is important, each being capable of to take into account a particular situation of noise environment encountered by the wearer of the headset.
  • a particular application of the voice activity detector of the invention has been illustrated to an improved signal denoise processing adapted to specifically use the results of the voice activity detector of the invention.
  • the purpose of the processing illustrated in FIG. 9 is to improve the SNR of an input signal y (t) 154, for example a microphone signal intended to be used as a speaker signal in the context of a telephone conversation, while by taking great care in preserving a subjectively satisfactory quality of listening.
  • the signal y (k, l) obtains Naked is the object (branch 160) of a signal standard evaluation processing (block 162), whose output 164 is applied to a noise estimator (block 168).
  • the estimated probability supervised output of the decision tree (P value supervised é e! (K, l) continuing value 148 and VAD value upervised S (k, l) 152 bit speech presence probability ) and applied to the noise reducer of FIG. 9 is used at the input of a reduction stage of the MMSE-OMLSA type (Minimum Mean-Squared Eror - Optimally Modified Log Spectral Amplitude) of known type, and for example described in WO 2007/099222 A1 (Parrot SA) or EP 2 772 916 A1 (Parrot SA), to which reference may be made for further details.
  • MMSE-OMLSA type Minimum Mean-Squared Eror - Optimally Modified Log Spectral Amplitude
  • an essential quantity is the estimation of the power spectral density of the PSDNoise noise (k), since this density is used to estimate the SNR a priori SNR_prio (k, l) and the SNR a posteriori SNR_post (k, l), quantities which are at the heart of the OM-LSA algorithm (the noise spectral density intervening at the denominator of these two quantities).
  • PSDNoise estimation model (k) Because of the reliability of the probability of supervised speech obtained by the implementation of the invention, it is possible to develop a new PSDNoise estimation model (k). In fact, the increased accuracy of the probability of presence of speech, resulting from the N + M voice activity detectors and their supervised fusion, compared to a more traditional presence probability (single-channel or deduced from acoustic sensors only) brings into causes the calculation of PSDNoise (k). Concretely, PSDNoise (k) can be updated more directly on the basis of supervised probability, thus eliminating some classical protection and smoothing mechanisms, in order to obtain maximum fidelity and detail in the PSDNoise (k). noise estimation.
  • PSDNoise (k) a pS d (k, l) * PSDNoise (/, / - 1) + (1 - a pS d (k, l) * Normlnput (k, l),
  • Normlnput (k) being the smoothed standard of the Fourier transform of the input acoustic signal lnput (t).
  • the binary value of the probability of presence of speech is also taken into account.
  • this value is very reliable (false positive rate between 1% and 5%), which makes it possible to carry out a full update of the noise estimate on the current standard of the input signal when
  • the following denoising steps are performed in a conventional manner, with an OM-LSA gain calculation stage (block 174) receiving on the one hand the signal y (k, l) (branch 176) and on the other hand the estimate of the PSDNoise noise (k) calculated as described above, that is to say advantageously taking advantage of the global binary indicator in addition to the quantized indicator Psupervised (k, l).
  • an OM-LSA algorithm improves the calculation of the LSA gain (Log-Spectral Amplitude) by weighting it by the probability of presence of speech, the noise reduction applied being all the more important that the probability the presence of speech is weak, that is to say that the applied gain will be even lower than the probability of presence of speech is low.
  • Another processing input data operated by the OM-LSA gain calculation stage 174 is a Gmin parameter called "denoising hardness", determined according to subjective criteria obtained during listening tests. It may be advantageous to have, as illustrated in 178, two different settings of denoising hardness, depending on whether the sampling frequency is narrowband at 8 kHz or wideband at 16 kHz. In the first case (narrowband) experience shows that aggressive denoising, typically -21 dB, is essential to bring out the voice of a high amount of noise and enhance the intelligibility, at the cost of a distortion on the timbre on this signal which will have in any case a reproduction fidelity limited by the lower sampling frequency.
  • aggressive denoising typically -21 dB
  • the gain GOMLSA (1 ⁇ , I) calculated by the stage 174 is applied to a stage 182 receiving the signal y (k, l) (branch 184), to give a denoised signal 1 86.
  • This signal is subjected to a transformation.
  • inverse Fourier 188 to reconstitute the signal 190 in the time domain, and then the initially segmented frames are synthesized (block 192) to give the output signal 194 reflecting the input initial signal 154 after denoise processing.

Abstract

Le casque supporte un réseau de détecteurs acoustiques et non-acoustiques délivrant des signaux respectifs (TopL, BotL, TopR, BotR, Acc) comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque. Une pluralité de n traitements d'analyse distincts (104, 106, 110, 112, 116, 118, 120, 126, 128, 130) de détection d'activité vocale sont effectués sur les signaux captés et/ou des combinaisons de ces signaux, traitements qui délivrent en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant des valeurs différentes respectives de probabilité à valeur continue de présence de parole. Des moyens classifieurs du vecteur d'observation formé par les n indicateurs élémentaires comparent ces n indicateurs élémentaires à un ensemble de seuils successifs prédéfinis (144) hiérarchisés selon une configuration booléenne d'arbre de décision (142), et génèrent en réponse un indicateur global de présence/absence de parole (Psupervised(k,l); VADsupervised(k,l)).

Description

Combiné audio micro/casque comprenant des moyens de détection d'activité vocale multiples à classifieur supervisé
L'invention concerne un ensemble de type "micro-casque", comprenant un casque audio, combiné avec un ensemble microphonique apte à capter la voix du porteur du casque.
Le casque comprend généralement deux écouteurs réunis par un arceau, chaque écouteur comprenant une coque fermée logeant un transducteur de reproduction sonore. Cette coque entoure l'oreille (casque "circum- aural") ou est en appui sur celle-ci (casque "supra-aural"), avec interposition d'un coussinet isolant. Il existe également des écouteurs de type dit "intra-auriculaire" ou "intra-conque" avec un élément à placer dans le conduit auditif et débordant dans le creux du pavillon de l'oreille au-delà du conduit auditif, sans coussinet entourant ou recouvrant l'oreille. Dans la suite, on fera indifféremment référence à des écouteurs réunis par un arceau, où le transducteur est logé dans une coque entourant l'oreille (casque "circum-aural") ou en appui sur celle-ci (casque "supra-aural") ou avec des écouteurs de type "intra-auriculaire" ou analogue.
Dans tous les cas, le casque peut être utilisé pour l'écoute d'une source audio (musique par exemple) provenant d'un appareil tel qu'un lecteur MP3, radio, smartphone, etc. auquel il est relié par une liaison filaire ou bien par une liaison sans fil, notamment de type Bluetooth. Grâce à l'en- semble microphonique, il est également possible, en complément de l'écoute de la source audio d'utiliser ce casque pour des fonctions de communication telles que des fonctions de téléphonie "mains libres" et/ou de fonctions de reconnaissance vocale. Le transducteur du casque reproduit alors la voix du locuteur distant avec lequel le porteur du casque (lo- cuteur proche) est en conversation.
Un tel ensemble combiné micro-casque est par exemple décrit dans les EP 2 518 724 A1 , EP 2 930 942 A1 et EP 2 945 399 A1 (tous trois au nom de Parrot).
Lorsque le microphone est utilisé par le porteur du casque, il convient que le niveau du bruit d'environnement (d'origine acoustique) présent sur le signal capté par l'ensemble microphonique soit le plus faible possible, de manière à préserver la qualité subjective de la voix du porteur du casque (locuteur proche) sur ce signal, afin de transmettre au locuteur distant un signal fidèle et intelligible au travers de la communication téléphonique. Le paramètre de référence pour évaluer cet impératif est le rapport signal sur bruit, ci-après "SNR", qui est le rapport du signal utile (correspondant à la voix du porteur du casque), sur le bruit qui l'entoure, d'origine essentiellement acoustique.
Il s'agit d'un paramètre important pour évaluer notamment l'efficacité d'un algorithme de débruitage appliqué au signal de voix du porteur du casque (locuteur proche). Un tel algorithme est mis en œuvre pour réduire le bruit d'environnement, d'origine acoustique, présent sur ce signal, mais doit aussi préserver la qualité subjective de la voix du porteur du casque, de façon à transmettre au locuteur distant un signal fidèle et intelligible dans toutes les conditions de bruit auxquelles le porteur du casque pourra être exposé.
En premier lieu, lors d'une conversation téléphonique, le réflexe consistant à parler plus fort dans un environnement bruyant (effet Lombard) agit déjà sur le niveau de la voix et sur le contenu fréquentiel de la voix (élévation de la hauteur et aplatissement du spectre) en fonction du bruit perçu.
De plus, divers effets psycho-acoustiques et de positionnement des capteurs microphoniques ont une influence notable sur le niveau du SNR. À cet égard, plusieurs configurations peuvent ainsi être utilement comparées.
La configuration la plus favorable est celle d'un "kit filaire", où le micro- phone est monté sur un fil reliant le casque au smartphone du porteur du casque. Ce placement est avantageux pour la captation de la voix car le microphone est alors positionné juste au-dessous du menton, donc près de la bouche, avec au surplus la possibilité pour le porteur du casque de rapprocher le microphone de sa bouche dans une situation bruyante. Cette configuration est comparable, du point de vue du SNR, à celle d'un téléphone porté contre la joue (smartphone avec microphone intégré). Pour une situation typique de communication téléphonique nomade, en contexte urbain, on observe généralement un SNR de l'ordre de +3 dB avec un téléphone porté contre la joue ou un kit filaire. Par comparaison, la configuration d'un combiné micro-écouteur de type "oreillette Bluetooth", où le microphone est alors proche de l'oreille, présente une dégradation du SNR, de l'ordre de -3 dB.
Une configuration encore plus défavorable est celle d'un casque sans fil fermé de type circumaural, où le microphone est situé sur l'oreillette et le casque isole les deux oreilles du porteur du casque. Le SNR est alors typiquement de l'ordre de -7 à -9 dB.
En effet, outre l'éloignement du microphone (introduisant une dégradation "géométrique" du SNR de l'ordre de 6 dB par rapport à un kit filaire), le comportement typique d'un porteur de casque, évalué sur un panel de personnes, montre que, d'une part, le niveau de voix, fort ou faible, qu'une personne adopte spontanément quand elle parle est modifié sensiblement lorsqu'elle porte un casque audio (par rapport à une situation où elle ne porte aucun casque) et que, d'autre part, ce niveau de voix dé- pend aussi du type de casque porté (circum-aural, supra-aural ou intra- auriculaire), plus ou moins isolant.
Dans le cas d'une oreillette Bluetooth, le niveau de voix du porteur du casque pendant la conversation téléphonique est assez peu affecté par le port de cet appareil, car une seule oreille est obstruée alors que la se- conde reste libre, ce qui permet au porteur du casque de percevoir à la fois le bruit environnant et sa propre voix de façon quasiment naturelle. En revanche, lorsque le porteur du casque porte un casque audio assez isolant du point de vue acoustique, il adopte généralement un niveau de voix notablement plus faible que la normale dans les situations bruyantes. Ainsi, dans un contexte urbain de rue passante, le niveau de voix adopté peut être si faible qu'il en devient quasiment imperceptible pour une personne se trouvant à proximité (par exemple à un mètre), car le porteur du casque se perçoit comme étant dans une "bulle" et n'a plus le réflexe d'élever le niveau de sa voix pour la placer au-dessus du bruit ambiant de façon à être bien compris. Cette dégradation "comportementale" du SNR peut être estimée à environ 4 à 6 dB de déficit acoustique dans les situations les plus typiques d'utilisation d'un casque nomade en contexte urbain.
Enfin, le niveau de voix du porteur du casque peut être affecté par le con- texte "social" dans lequel il se trouve : en effet, dans une situation de promiscuité (métro, bureau,...) le niveau de voix du porteur du casque est modulé, par discrétion ou politesse, pour éviter de ne pas trop gêner les personnes à proximité. Cette diminution naturelle du niveau de voix vient s'ajouter aux déficits décrits plus haut, ce qui peut aboutir à un SNR acoustique très dégradé, voisin de -10 dB, en entrée de l'algorithme de débruitage (on notera que cette dégradation "sociale" du SNR n'est pas spécifique à un casque audio, à la différence des deux autres dégradations mentionnées plus haut ("géométrique" et "comportementale"), mais elle vient aggraver un SNR déjà fortement dégradé).
De fait, à titre illustratif, le déficit cumulé de SNR est dans une situation typique compris entre 10 et 12 dB entre un système classique (kit filaire) et un casque fermé de type sans fil.
Le problème de l'invention est lié notamment à l'utilisation d'un casque d'écoute sans fil qui utilise une technologie Bluetooth pour son couplage avec un téléphone portable, car cette caractéristique rend impossible l'intégration du microphone au sein d'un câble comme cela se fait traditionnellement sur les casques filaires - donc sans bénéficier de ce placement avantageux pour la captation de la voix, et sans possibilité offerte au porteur du casque de rapprocher le microphone de sa bouche dans une situation bruyante.
Cette configuration fait dès lors apparaître une situation acoustique initiale dégradée, avec une dégradation "géométrique" du SNR acoustique de l'ordre de 6 dB environ, qui devra être rattrapée par l'algorithme de débruitage pour obtenir un niveau qualitatif de sortie similaire, voire supé- rieur, à celui d'un kit filaire.
D'autre part, le casque peut être muni d'un système dit de "contrôle actif de bruit" ou ANC (Active Noise Control), agissant sur le signal reproduit par les transducteurs du casque (que celui-ci soit ou non pourvu d'un microphone). Le principe de l'ANC consiste à capter la composante de bruit ambiant et à superposer, temporellement et spatialement, à cette composante de bruit une onde acoustique qui est idéalement la copie inversée de l'onde de pression de la composante de bruit. Il s'agit de créer de cette manière une interférence destructive avec la composante de bruit et réduire, idéalement neutraliser, les variations de pression de l'onde acous- tique parasite. Le EP 2 597 889 A1 (Parrot) décrit un casque muni d'un tel système ANC.
L'activation de l'ANC modifie le comportement du porteur du casque, en ce qu'il renforce l'effet "bulle" par une atténuation supplémentaire du bruit environnant perçu, avec une légère dégradation du SNR d'entrée par rapport au port d'un casque passif (sans ANC). Cette dégradation additionnelle reste toutefois modérée, de l'ordre de 1 dB environ, car l'activation de l'ANC a aussi pour effet secondaire d'atténuer le niveau perçu par le porteur du casque sur sa propre voix, en particulier dans les basses fréquences qui seront beaucoup moins sourdes, et de l'inciter à parler plus fort.
L'activation d'une autre technique, dite "anti-occlusion", ci-après "AOC", est également de nature à dégrader le SNR d'entrée par rapport au port d'un casque passif.
L'AOC (Active Occlusion Cancellation) est un mode de contrôle actif, différent de l'ANC, qui vise à effacer à la fois le phénomène d'occlusion entendu sur la voix et l'effet d'isolation du casque.
L'occlusion est le phénomène d'augmentation des basses fréquences, autour de 200 Hz, dans la perception de sa propre voix par l'utilisateur lors- que celui-ci porte un casque, la voix apparaissant beaucoup plus sourde qu'au naturel, ce qui crée une réelle gêne. En effet, en l'absence de casque, lorsque l'oreille n'est pas obstruée les sons de voix conduits par conduction osseuse au canal auditif sont très faiblement perçus, car ils sont évacués vers l'extérieur de l'oreille, qui présente l'impédance acous- tique la plus faible par rapport à celle de la membrane tympanique. En revanche, lorsqu'un casque est porté, ce casque obstrue totalement ou partiellement le canal auditif, c'est-à-dire qu'il introduit une impédance acoustique importante à l'extrémité externe du canal auditif : cette impédance entraine la mise en résonance au sein du canal auditif des sons transmis par conduction osseuse, et ainsi une amplification de la partie basse fréquence du signal de voix par rapport à une situation où le conduit auditif est ouvert, avec une élévation du niveau de l'ordre de 20 dB au-dessous de 500 Hz. Le porteur du casque perçoit alors sa voix de manière beaucoup plus sourde. Le but du traitement AOC est précisément de reproduire une perception des sons au plus proche du naturel, comme lorsqu'aucun casque n'est porté. En particulier, le porteur du casque souhaite parfois percevoir de manière naturelle sa propre voix, par exemple il souhaite pouvoir conver- ser avec le locuteur distant dans une conversation téléphonique "mains- libres", ou avec une personne physiquement présente près de lui, en percevant sa propre voix de la même manière que s'il ne portait pas de casque. Dans d'autres situations, le porteur du casque souhaite percevoir parfaitement son environnement afin d'entendre par exemple la circulation automobile, évaluer la distance des véhicules ou entendre un signal d'alarme, un message diffusé par le conducteur d'un transport en commun, etc.
En d'autres termes, l'activation de l'AOC a pour but de transformer virtuellement, par des moyens purement électroniques et numériques, un casque de type "fermé" pour simuler un casque "ouvert" avec suppression apparente du phénomène d'occlusion lorsque le porteur du casque parle et suppression active, à volonté, de l'isolation passive du casque.
En ce qui concerne le SNR, l'activation de la fonction AOC anti-occlusion induit une légère augmentation du niveau de voix du locuteur, de l'ordre de +1 à +2 dB. L'AOC efface en effet en partie l'effet "bulle" de l'ANC et remet le porteur du casque en contact avec son environnement, ce qui se traduit typiquement par une augmentation du SNR d'entrée, c'est d'ailleurs une raison pour laquelle le mode AOC, lorsqu'il est présent, est activé par défaut lors d'une communication téléphonique.
Toutefois, cette augmentation du niveau de voix du locuteur ne compense que très partiellement la dégradation "comportementale" du SNR décrite plus haut, et certains porteurs de casque préfèrent "rester dans leur bulle", c'est-à-dire en mode ANC sans AOC, et ne pas activer le mode AOC lors d'une communication téléphonique.
L'un dans l'autre, compte tenu des divers phénomènes exposés ci- dessus, on constate généralement, comme indiqué plus haut, un déficit cumulé du SNR compris entre -10 et -12 dB entre un système conventionnel dans la configuration la plus favorable (kit filaire) et un casque fermé de type sans fil tel que décrit plus haut, susceptible de mettre en œuvre des fonctions de type ANC/AOC. Un but général de l'invention est de proposer une technique permettant, avec un tel casque, d'améliorer le SNR du signal capté par l'ensemble microphonique du casque, tout en préservant la qualité subjective du signal de voix du porteur de ce casque, de façon à délivrer en sortie un signal fi- dèle et intelligible transmis pour la communication téléphonique à un interlocuteur distant. Il s'agit également d'obtenir cette amélioration du SNR quelle que soit la situation de bruit dans laquelle se trouve le porteur du casque (bruit de rue, métro, train, bureau...) prise en compte par l'algorithme de traitement ANC.
Plus particulièrement, les algorithmes de débruitage du signal recueilli par le microphone du casque et destiné à être transmis au locuteur distant mettent en œuvre un "détecteur d'activité vocale" ou VAD (Voice Activity Detector) destiné à discriminer les périodes où le porteur du casque parle (donc avec un débruitage adapté pour ne pas déformer la voix et lui con- server toute son intelligibilité), et celles où il ne parle pas (où l'on peut alors appliquer un débruitage beaucoup plus agressif).
De fait, dans nombre de situations cette détection d'activité vocale est difficile à opérer ou conduit à des résultats imprécis.
C'est d'ailleurs pour ces raisons que le résultat de l'analyse VAD n'est généralement pas donné sous forme binaire (parole présente ou parole absente), mais en termes de probabilité de présence de parole ou SPP (Speech Présence Probability), variant de façon continue sur un intervalle [0,1 ].
Plus précisément, la détermination de cette probabilité de présence de parole est effectuée sur d'étroites plages de fréquence, ou "bins fréquen- tiels", du signal recueilli, par exemple sur 256 bins fréquentiels d'une trame temporelle de signal après numérisation de celui-ci et analyse dans le domaine fréquentiel après transformation de Fourier. On dispose ainsi, pour une trame de signal donnée, de 256 valeurs de probabilité de pré- sence de parole différentes, correspondant chacune à l'analyse de présence/absence de parole effectuée pour un bin fréquentiel spécifique. De nombreuses techniques de détermination de probabilité de présence de parole ont été proposées, mais aucune ne permet d'obtenir des résultats de qualité constante quelles que soient les situations de bruit envi- ronnant susceptibles d'être rencontrées dans la réalité (la qualité des ré- sultats peut être notamment quantifiée en termes de taux de vrais positifs par rapport au taux de faux positifs).
Ainsi, l'article de WH Shin et al. "Speech/non-Speech Classification Using Multiple Features for Robust Endpoint Détection", 2000 IEEE International Conférence on Acoustics, Speech, and Signal Processing ICASSP '00 Proceedings, Istanbul, 5-9 juin 2000, Vol. 3, pp. 1399-1402 décrit un détecteur d'activité vocale mettant en œuvre un classifieur à arbre de décision (algorithme CART). La technique décrite par ce document est toutefois une technique simplifiée dans laquelle :
- la détection d'activité vocale délivre simplement un indicateur binaire de type "tout ou rien" (présence vs. absence de parole) ;
- l'arbre de décision est purement binaire, l'aiguillage vers une branche ou une autre de l'arbre se faisant selon que la valeur binaire délivrée par chaque pré-classifieur est 0 ou 1 ; et
- les différents traitements en amont de l'arbre de décision sont opérés par des méthodes différentes, mais sur un même signal d'entrée.
Le but de l'invention est de proposer une nouvelle technique de détection d'activité vocale permettant de pallier les différents inconvénients exposés ci-dessus, afin de pouvoir délivrer des résultats avec en toutes circons- tances une fiabilité très supérieure à ce qui a pu être obtenu jusqu'à présent.
Un autre but est de proposer un circuit amélioré de débruitage du signal, adapté pour utiliser spécifiquement les résultats du détecteur d'activité vocale de l'invention.
À cet effet, l'invention propose, plus précisément, un combiné microcasque comprenant, de manière en elle-même connue :
- deux écouteurs d'oreille logeant chacun un transducteur de reproduction d'un signal audio ; et
- un réseau de détecteurs aptes à délivrer des signaux captés respec- tifs, chaque signal capté comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque, le réseau de détecteurs comprenant :
• une pluralité de détecteurs acoustiques de type microphonique placés à l'extérieur de la cavité acoustique ; et facultativement, au moins un détecteur non acoustique de type physiologique, apte à capter des vibrations vocales non acoustiques transmises par conduction osseuse interne du porteur du casque.
De façon caractéristique de l'invention, ce combiné micro-casque comprend en outre :
- des moyens d'analyse des signaux captés :
• recevant sur des entrées respectives les signaux captés et/ou des combinaisons desdits signaux délivrés séparément par chacun desdits détecteurs du réseau de détecteurs,
• opérant sur ces signaux et/ou combinaisons une pluralité de n traitements d'analyse distincts de détection d'activité vocale, et délivrant en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant une probabilité à valeur continue de pré- sence de parole,
l'ensemble des n indicateurs élémentaires formant un vecteur d'observation ; et
- des moyens classifieurs du vecteur d'observation, aptes à :
• comparer les n indicateurs élémentaires à valeur continue à un en- semble de seuils successifs prédéfinis hiérarchisés selon une configuration booléenne d'arbre de décision, et à
générer en réponse en sortie de l'arbre de décision un indicateur global de présence/absence de parole.
En résumé, les moyens d'analyse de l'invention opèrent de telle manière que (à la différence notamment de l'algorithme de Shin et al. mentionné plus haut) :
- les entrées de l'arbre soient des valeurs de probabilités à valeur continue sur l'intervalle [0, 1 ], résultant d'une analyse d'un signal ;
- l'arbre de décision soit un arbre formé de seuils hiérarchisés, l'arbre étant parcouru en comparant à chaque embranchement la valeur de probabilité de présence, résultat de l'analyse opérée en amont, avec un seuil correspondant ; et
- les traitements préalables en amont de l'arbre de décision soient des traitements opérés sur des signaux d'entrée différents, en l'espèce des signaux délivrés par des micros différents du réseau de micros, ou des combinaisons différentes de ces micros du réseau, et non sur un même signal d'entrée par des méthodes différentes. De plus, selon diverses caractéristiques subsidiaires avantageuses de l'invention :
- l'indicateur global de présence/absence de parole est un indicateur global quantifié, quantifiant une probabilité de présence de parole comprise entre deux extrema correspondant respectivement à une situation d'activité vocale avérée et à une situation d'absence d'activité vocale avérée. Il peut notamment être prévu à cet effet un comparateur à seuil, recevant en entrée l'indicateur global quantifié de présence/absence de parole et délivrant en sortie un indicateur global bi- naire de présence/absence de parole ;
- les signaux captés sont des signaux numérisés en trames successives avec, pour chaque trame, une décomposition en bins fréquentiels, et dans lequel les moyens d'analyse des signaux captés, les détecteurs d'activité vocale et les moyens classifieurs sont des moyens mis en œuvre pour chaque bin de chaque trame des signaux ;
- les moyens d'analyse comprennent des moyens d'analyse dans le domaine fréquentiel des signaux captés par tout ou partie des détecteurs acoustiques ou non-acoustiques du réseau de détecteurs, du groupe formé par : des moyens d'analyse de cohérence spatiale entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens de quantification du déphasage entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens d'estimation du rapport signal sur bruit des signaux captés et/ou combinaisons de signaux cap- tés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens probabilistes de détection d'activité vocale à partir des signaux captés par les détecteurs acoustiques ; et des moyens d'estimation du rapport signal sur bruit des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs ; - les moyens d'analyse comprennent des moyens d'analyse dans le domaine temporel des trames successives des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs ;
- le casque comprend en outre des moyens de réduction de bruit, recevant en entrée les signaux captés et/ou des combinaisons desdits si- gnaux captés et opérant sur ces signaux et/ou combinaisons de si- gnaux un traitement paramétrable fonction de la valeur de l'indicateur global de présence/absence de parole délivré par les moyens classi- fieurs. Le traitement paramétrable peut notamment comprendre un traitement d'estimation d'une densité spectrale de bruit, sélectivement mis en œuvre, ou non, en fonction d'une valeur booléenne de l'indicateur global de présence/absence de parole.
0 On va maintenant décrire un exemple de mise en œuvre de la présente invention, en référence aux dessins annexés où les mêmes références désignent d'une figure à l'autre des éléments identiques ou fonctionnel- lement semblables.
La Figure 1 est une vue de face d'un premier type de micro-casque au- quel est applicable l'invention, à savoir un micro-casque muni d'écouteurs de type circumaural.
La Figure 2 est une vue en perspective du micro-casque de la Figure 1 . La Figure 3 est une vue de côté du casque de la Figure 1 en position sur la tête d'un porteur de ce casque, montrant plus précisément l'orientation des axes de directivité du réseau de microphones par rapport à la bouche du porteur du casque.
La Figure 4 est une vue de face d'un second type de micro-casque auquel est applicable l'invention, à savoir un micro-casque de type sportif, muni d'écouteurs de type intra-auriculaire.
La Figure 5 est une vue de côté du casque de la Figure 4 en position sur la tête d'un porteur de ce casque, montrant plus précisément l'orientation des axes de directivité du réseau de microphones par rapport à la bouche du porteur du casque.
La Figure 7 est une vue générale, sous forme de schéma par blocs, mon- trant et explicitant la manière dont les signaux issus des divers détecteurs acoustiques (microphoniques) et non acoustiques (accélérométriques) du micro-casque sont analysés, pour produire un certain nombre d'indicateurs élémentaires combinés par un classifieur de type arbre de décision, afin d'obtenir en sortie un indicateur global, quantifié ou binaire, de pré- sence/absence de parole. La Figure 8 est un diagramme de type ROC (taux de vrais positifs en fonction du taux de faux positifs) illustrant l'efficacité procurée par le clas- sifieur de l'invention.
La Figure 9 illustre, sous forme de schéma par blocs, un réducteur de bruit utilisant les indicateurs globaux produits par l'arbre de décision de la Figure 7.
0
On va maintenant décrire un exemple de mise en œuvre de la technique de l'invention.
De façon générale, l'invention est mise en œuvre par des moyens principalement logiciels, au moyen d'algorithmes appropriés exécutés par exemple par des microcontrôleurs ou processeurs numériques de signal. Pour la clarté de l'exposé, les divers traitements appliqués seront décom- posés et schématisés par un certain nombre de blocs fonctionnels distincts présentés sous forme de circuits interconnectés, mais cette représentation n'a toutefois qu'un caractère illustratif, ces circuits comprenant des éléments communs et correspondant en pratique à une pluralité de fonctions globalement exécutées au sein d'un même logiciel.
Sur les Figures 1 à 3 on a représenté un combiné micro-casque comportant, de manière en elle-même classique, deux écouteurs 10, 10' réunis par un arceau de maintien 12. Chaque écouteur comprend une coque extérieure 14, 14' venant s'appliquer sur le contour de l'oreille du porteur du casque avec interposition d'un coussinet souple circumaural 16, 16' des- tiné à assurer une étanchéité satisfaisante, du point de vue acoustique, entre la région de l'oreille et l'environnement sonore extérieur.
Le micro-casque est muni d'un réseau formé d'une pluralité de microphones (ci-après également dénommés "détecteurs acoustiques"), dans l'exemple illustré au nombre de quatre, à savoir :
- un microphone 18 disposé en partie haute de l'écouteur gauche 10, délivrant un signal ci-après référencé TopL ;
- un microphone 18' situé en partie haute de l'écouteur droit 10', délivrant un signal désigné par la suite TopR ;
- un microphone 20 disposé en partie basse de l'écouteur gauche 10, délivrant un signal ci-après désigné BotL ; et - un microphone 20' situé en partie basse de l'écouteur droit 10', délivrant un signal ci-après désigné BotR.
Les microphones 18 et 20 disposés sur l'écouteur gauche 10 (et de même les microphones 18' et 20' disposés sur l'écouteur droit 10') sont disposés l'un par rapport à l'autre, à une distance de l'ordre de 2 à 3 cm, de manière que l'axe Δ passant par les deux points où se trouvent ces microphones 18 et 20 soit dirigé vers la bouche du porteur du casque, en formant avec la direction D idéale passant par cette bouche un angle aussi réduit que possible.
Les microphones 18, 18', 20 et 20' sont avantageusement des microphones omnidirectionnels, qui seront donc amenés à capter aussi bien les ondes acoustiques produites par la bouche du porteur du casque lorsque celui-ci parle, que le bruit ambiant parasite qu'il s'agira d'éliminer dans les meilleures conditions possibles pour rendre intelligible le signal utile de voix du porteur du casque.
Le combiné micro-casque comprend également au moins un détecteur physiologique 22 de type accélérométrique ou autre (ci-après également dénommés "détecteur non acoustique"), par exemple disposé au niveau du coussinet 16' de manière à être appliqué contre la joue ou la tempe du porteur du casque avec un couplage le plus étroit possible. Il s'agit de recueillir au moyen de ce détecteur un signal transmis directement par voie osseuse (et non par voie acoustique aérienne comme dans le cas des détecteurs microphoniques), qui présente la caractéristique d'être, par nature, très peu corrompu par le bruit environnant. De manière en elle- même connue, le signal ainsi recueilli par ce détecteur non acoustique 22 permet, après filtrage et combinaison avec les signaux captés par les détecteurs acoustiques constitués par les microphones 18, 18', 20 et 20', de délivrer au système de communication un signal de parole du locuteur proche (le porteur du casque) dont l'intelligibilité aura été grandement améliorée.
Cette technique, ainsi que d'autres avantages procurés par le capteur physiologique (en particulier la possibilité d'utiliser le signal qu'il délivre pour calculer une fréquence de coupure d'un filtre dynamique), sont exposés notamment dans le EP 2 518 724 A1 (Parrot), auquel on pourra se référer pour de plus amples détails. Les Figures 4 à 6 sont homologues des Figures 1 à 3 décrites ci-dessus, et montrent à titre illustratif un second type de micro-casque auquel est applicable l'invention, à savoir un micro-casque de type sportif, muni d'écouteurs de type intra-auriculaire. Les mêmes références y désignent des éléments identiques ou fonctionnellement semblables au microcasque muni d'écouteurs de type circumaural des Figures 1 à 3.
La configuration d'ensemble d'un tel micro-casque de type sportif est par exemple celle du casque Zik Sport qui a été récemment présenté par la société Parrot, Paris, France.
En référence à la Figure 7, on va maintenant décrire la manière dont les signaux issus des divers détecteurs acoustiques (microphoniques) et non acoustiques (accélérométriques) du micro-casque sont analysés selon la technique spécifique de l'invention, pour produire un certain nombre d'indicateurs élémentaires combinés par un classifieur de type arbre de décision, afin d'obtenir en sortie un indicateur global, quantifié ou binaire, de présence/absence de parole.
Les signaux TopL, BotL, TopR et BotR produits par les N = 4 détecteurs acoustiques (les microphones 18, 18', 20 et 20') sont soumis à un filtrage passe-haut (HPF, blocs 100) de manière à en éliminer les composantes parasites de plus basse fréquence.
Les signaux TopL, BotL, TopR et BotR peuvent être combinés en paires, de manière à réaliser un certain nombre d'analyses spécifiques tenant compte de la position géométrique particulière sur le casque des microphones de la paire considérée.
Ainsi, un bloc 102 combine les signaux issus des microphones TopL et BotL pour une analyse de cohérence axiale côté gauche (L). Il s'agit d'une paire "axiale" en ce sens qu'elle regroupe deux microphones situés sur un même écouteur du casque (l'écouteur gauche en l'espèce) et dont l'axe commun Δ est orienté vers la bouche du porteur du casque (cf. Figures 3 et 6).
Les signaux combinés de la paire axiale {TopL, BotL} sont soumis par exemple à un traitement de quantification du déphasage du signal capté, évalué entre le microphone TopL et le microphone BotL (bloc 104), et à un autre traitement d'estimation du rapport signal/bruit (bloc 106) sur cette paire axiale de microphones situés du côté gauche. En ce qui concerne le traitement opéré par le bloc 106, on pourra notamment se référer aux algorithmes décrits dans le WO 2007/099222 A1 (Parrot SA), qui sont basés sur une estimation du bruit via l'utilisation d'un algorithme MCRA (M'\nima Controlled Recursive Averaging), moyennage récursif par contrôle des minima, par exemple décrit par I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1 , pp. 12-15, Jan. 2002), avec une hypothèse de bruit stationnaire pour déduire une probabilité de présence/absence de parole. Le SNR est cal- culé a posteriori comme le ratio de la norme du signal bruité capté par les microphones et de l'estimation du bruit délivré par l'algorithme MCRA. On pourra se référer au document précité pour de plus amples détails sur la manière d'opérer ce traitement.
Outre les paires axiales, il est également possible de considérer des paires "transverses" de microphones, correspondant à des microphones symétriques dont l'un se situe côté gauche et l'autre côté droit, par exemple la paire {TopL, TopR} et/ou la paire {BotL, BotR}.
Les signaux de ces paires, combinés par le bloc 108, font l'objet par exemple d'un traitement d'analyse de quantification du déphasage du si- gnal capté, évalué entre le côté gauche et le côté droit (bloc 1 10), et d'un autre traitement d'estimation du rapport signal/bruit (bloc 1 12) à partir des signaux recueillis par ces paires transverses.
Il est également prévu de combiner (bloc 1 14) les signaux de la paire axiale {TopR, BotR}, par un traitement de quantification du déphasage du signal capté, évalué entre le microphone TopR et le microphone BotR (bloc 1 16), et un autre traitement d'estimation du rapport signal/bruit (bloc 1 18) sur cette paire axiale de microphones situés du côté droit.
Les traitements de signal opérés côté droit par les blocs 1 16 et 1 18 sont les mêmes que ceux, décrits plus hauts, opérés côté gauche par les blocs 104 e 106.
Enfin, les signaux TopL, BotL, TopR et BotR issus des quatre microphones 18, 18', 20 et 20' sont également appliqués ensemble à un circuit 120 du type détecteur d'activité vocale probabiliste, par exemple mettant en œuvre un algorithme de type MCRA. Une telle détection, en elle-même connue, est basée sur l'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans les signaux captés par les microphones, qui est évaluée par un algorithme du type MCRA.
En ce qui concerne le capteur physiologique (accéléromètre 22), après traitement par un filtre passe-haut 122, le signal délivré est soumis à divers traitements d'analyse (bloc 124) comprenant par exemple :
- un traitement d'estimation du rapport signal/bruit du signal accéléro- métrique dans les basses fréquences correspondant à la gamme de fonctionnement utile de l'accéléromètre, à savoir les fréquences inférieures à 1500 Hz (bloc 126) ;
- un traitement d'estimation du rapport signal/bruit du signal accéléro- métrique en bande étendue (bloc 128) ; et
- une analyse temporelle des trames successives (bloc 130).
En ce qui concerne le bloc 126, on notera que le traitement qu'il opère de mesure du SNR du signal accélérométrique est principalement une mesure de SNR vis-à-vis d'un bruit électrique, du fait que le bruit présent sur le signal accélérométrique est essentiellement un bruit de souffle électrique lié au capteur (bruit thermique) et à la numérisation du signal (bruit de quantification). Ce bruit électrique étant stationnaire, il est aisé d'obtenir une évaluation du SNR.
Toutefois, lorsque le bruit acoustique environnant est très élevé (par exemple un bruit de marteau-piqueur dans l'environnement immédiat du porteur du casque) et qu'il entraine une légère vibration physique de la joue du locuteur, on peut observer une composante de bruit acoustique parasite qui dépasse le bruit de souffle électrique. Pour tenir compte de cette éventuelle situation, l'algorithme d'évaluation du SNR prévoit de mettre à jour l'estimation du plancher de bruit pour tenir compte de l'élévation de ce même plancher de bruit en cas de bruit acoustique fort. On obtient ainsi en sortie du bloc 126 une détection d'activité dans la plage de fonctionnement de l'accéléromètre, à savoir pour des fréquences inférieures à 1500 Hz.
En ce qui concerne le bloc 128, le traitement qu'il opère tient compte du fait qu'il est possible d'étendre artificiellement la gamme de fonctionne- ment du capteur accélérométrique au-delà de la limite de 1500 Hz, dans une plage correspondant aux harmoniques de rang faible de la voix, par une technique d'extension de bande, notamment par l'application d'une fonction non linéaire de génération d'harmoniques.
Dans le cas présent, cette technique d'extension de bande est applicable car le niveau de bruit est faible sur le capteur, et l'on peut atteindre une extension typiquement jusqu'à une fréquence de 3 kHz. L'estimation du SNR est ensuite opérée de la même manière que précédemment dans le domaine des basses fréquences. On dispose ainsi d'un détecteur d'activité vocale supplémentaire, dont le domaine d'analyse est étendu dans le médium.
En ce qui concerne le bloc 130, on notera que le traitement qu'il effectue est une analyse opérée dans le domaine temporel, à la différence des analyses opérées par les blocs 104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126 et 128, qui sont toutes opérées dans le domaine fréquentiel.
Cette analyse dans le domaine temporel répartit les trames de signal successives reçues en deux classes, selon que l'algorithme détecte :
i) un signal de parole voisé présent dans le signal capté (les signaux voisés sont ceux qui impliquent une vibration des cordes vocales, qui est transmise vers la joue, à la différence des signaux vocaux non voi- sés correspondant à des émissions sonores fricatives ou plosives), ou ii) du bruit seul ou bien un mélange de bruit et de signal de parole non voisé.
Cette discrimination en deux classes est en particulier utile dans les basses fréquences, où l'on peut observer un SNR très faible. L'absence de parole voisée permet à l'algorithme de mettre à jour son estimation de bruit de façon réactive, et sans risque sur la parole. Cette analyse est basée sur l'hypothèse que si l'on détecte des signaux vocaux dans les fréquences basses, il est très probable qu'on en retrouve également dans les fréquences plus élevées.
En résumé :
- on dispose d'un réseau de N détecteurs acoustiques et M détecteurs non acoustiques délivrant simultanément des signaux respectifs tous différents. Dans l'exemple illustré on a N = 4 détecteurs acoustiques, à savoir les microphones 18, 18', 20 et 20' délivrant les signaux TopL, BotL, TopR et BotR, et M = 1 détecteur non acoustique, à savoir le capteur physiologique accélérométrique 22 délivrant le signal Acc ; et
- sur ces N+M signaux on opère parallèlement n traitements d'analyse différents. Dans l'exemple illustré, on a n = 10 traitements différents, correspondant aux blocs 104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126, 128 et 130.
On notera que ces n traitements d'analyse sont opérés distinctement et simultanément sur chaque bande de fréquence ou "bin" fréquentiel de chaque trame successive de signal (une trame comprenant typiquement 256 bins).
Ces n traitements différents produisent une batterie de n indicateurs élémentaires respectifs donnant chacun, pour le bin considéré, une valeur correspondante de probabilité de présence de parole (n détections d'activité vocale schématisées par les blocs 140).
On évalue ainsi, pour chaque bin de chaque trame, une pluralité d'indicateurs de présence/absence de parole différents, indicateurs :
- qui sont tous complémentaires, car ils sont établis chacun à partir de caractéristiques différentes et de traitements différents : analyse de cohérence axiale ou transversale de détecteurs acoustiques, estima- tions du SNR selon différentes techniques et à partir d'informations différentes, analyses d'un signal non acoustique selon plusieurs aspects différents, etc.,
- mais qui sont tous imparfaits, et ne peuvent donc être utilisés individuellement pour décider en toutes circonstances et avec un degré élevé de vraisemblance de la présence ou non d'un signal de parole à un instant donné dans un bin fréquentiel donné.
Dans l'exemple illustré, on a n = 10 informations différentes pour chaque bin fréquentiel de chaque trame temporelle, ces informations étant issues des signaux provenant de quatre microphones et d'un accéléromètre. Ces informations auront une fiabilité variable selon le contexte de bruit présent. En effet, certains détecteurs permettent de distinguer efficacement la voix d'un bruit directif par des propriétés de direction d'arrivée, d'autres détecteurs sont spécialisés pour détecter voix et bruit dans les basses fréquences à SNR faible, d'autres encore sont spécialisés pour séparer la voix d'un champ de bruits diffus, etc. De fait, les détecteurs s'appuient sur des hypothèses distinctes et leur pertinence est variable selon la situation de bruit et les hypothèses qui sont effectivement vérifiées.
Le but de l'invention est, à partir de ces n indicateurs élémentaires tous complémentaires et tous imparfaits, de produire un indicateur global unique de fiabilité élevée, c'est-à-dire présentant un très faible taux de faux positifs.
L'idée de base de l'invention consiste à appliquer concurremment ces n indicateurs élémentaires de probabilité de présence de parole à un classifieur supervisé de type arbre de décision 142, pour obtenir in fine un indicateur global unique de présence/absence de parole, pour chaque bin fréquentiel et chaque trame du signal recueilli.
L'arbre de décision 142 utilise comme information d'entrée le "vecteur d'observation" constitué des n indicateurs élémentaires de probabilité de présence de parole produits par les n traitements décrits plus haut. On notera que ces informations d'entrée sont obtenues par des traitements en eux-mêmes connus (traitements des blocs 102 à 130).
La classification supervisée par un arbre de décision 142 permet de réduire la détection de l'activité vocale à une cascade de comparaisons à des seuils 144 prédéfinis respectifs, la classification étant opérée entre deux classes (Classe 1 = voix absente ; Classe 2 = voix présente).
Ce procédé de classification supervisée peut également permettre de sélectionner parmi les n traitements d'analyse différents ceux qui sont les plus pertinents sur chaque bande de fréquence, évitant ainsi d'exécuter la totalité de ces traitements sur la totalité des bins fréquentiels. On peut ainsi obtenir des sous-ensembles classifieurs différenciés et spécialisés selon le domaine fréquentiel.
L'arbre de décision est une méthode, en elle-même bien connue dans d'autres domaines, basés sur un algorithme dans lequel une multiplicité de données d'entrées (dans le cas présent, les n indicateurs élémentaires de probabilité de présence de parole délivrés par les n détecteurs d'activité vocale 140 en sortie des n traitements d'analyse respectifs différents) sont comparées à des seuils respectifs hiérarchisés entre eux.
Un tel algorithme peut être formalisé par une équation booléenne comprenant une succession de termes (correspondant aux comparaisons des différents paramètres par rapport aux seuils respectifs) qui sont combinés par une suite de ET logiques, et dont le résultat est un résultat global unique.
Dans le cas présent, les différents seuils 144 de l'arbre de décision 142 sont des seuils déterminés préalablement à partir d'une base d'apprentis- sage comprenant notamment une base de bruits réels captés dans des conditions représentatives de l'usage possible du micro-casque. Des enregistrements sont réalisés avec l'ensemble des capteurs acoustiques et non acoustiques, puis mixés à des signaux de voix obtenus en l'absence de bruit (dans une salle anéchoïque) pour une diversité d'utilisateurs pos- sibles, et avec différents niveaux de SNR.
Une fois l'apprentissage statistique ainsi réalisé, les valeurs des seuils obtenues sont introduites dans l'arbre de décision, où ces seuils sont conservés dans une mémoire et figés.
On notera que l'on utilise un arbre de décision indépendant, et de profon- deur différente, pour chaque bin fréquentiel .
On dispose ainsi d'autant d'arbres de décision que de bins fréquentiels, par exemple 256 arbres indépendants dans le cas où chaque trame est divisée en 256 bins.
Chaque arbre de décision délivre en sortie 146 une valeur 148 d'indica- teur global de probabilité de présence de parole P supervisée! {k,l) pour le bin / de la trame de rang k. La valeur P supervisée! {k,l) de cet indicateur global (ci- après dénommé "indicateur global quantifié" de présence de parole) est une probabilité à valeur continue sur l'intervalle [0,1 ], la valeur 0 correspondant à une absence certaine de parole et la valeur 1 correspondant à une présence certaine de parole.
La valeur P supervisée! {k,l) (probabilité à valeur continue) donnée par l'arbre de décision est appliquée à un comparateur à seuil 150 pour délivrer en sortie 152 une valeur binaire
Figure imgf000022_0001
de probabilité de présence de parole, ci-après dénommée "indicateur global binaire" de présence de parole), ceci pour chaque bin de chaque trame successive. Le seuil P1 du comparateur est paramétrable (le paramètre étant prédéterminé et conservé dans une mémoire, ce paramètre étant éventuellement réajustable par le porteur du casque), typiquement P1 = 0,5. La Figure 8 illustre les performances du détecteur d'activité vocale de l'invention, basé sur une probabilité supervisée par classifieur à arbre de décision.
Cette Figure 8 et une représentation de type ROC (Receiver Operating Characteristic) quantifiant la performance sous forme d'une courbe caractéristique taux de vrais positifs/taux de faux positifs, la performance étant d'autant meilleure que l'aire sous la courbe est élevée (à comparer à une décision purement aléatoire, correspondant à la courbe A).
On a reporté sur ce diagramme ROC en B1 et B2 les résultats respectifs obtenus par deux détecteurs individuels d'activité vocale (correspondant à deux types de traitements distincts) opérant indépendamment, et en C le résultat obtenu par fusion de ces deux détecteurs au moyen du classifieur à arbre de décision selon l'invention.
Cet exemple, donné pour deux détecteurs élémentaires, montre une amé- lioration significative (forte diminution du taux de faux positifs) par rapport à l'un ou l'autre des détecteurs pris isolément. On comprendra que, pour un plus grand nombre de détecteurs (jusqu'à dix détecteurs dans l'exemple illustré Figure 7), cette amélioration sera d'autant plus élevée que le nombre de détecteurs élémentaires différents est important, cha- cun étant susceptible de prendre en compte une situation particulière d'environnement de bruit rencontrée par le porteur du micro-casque.
Sur la Figure 9, on a illustré une application particulière du détecteur d'activité vocale de l'invention à un traitement amélioré de débruitage du signal, adapté pour utiliser spécifiquement les résultats du détecteur d'acti- vité vocale de l'invention.
Le but du traitement illustré Figure 9 est d'améliorer le SNR d'un signal d'entrée y(t) 154, par exemple un signal microphonique destiné à être utilisé comme signal de locuteur proche dans le cadre d'une conversation téléphonique, tout en apportant beaucoup de soin à la préservation d'une qualité d'écoute subjectivement satisfaisante.
Le signal d'entrée y(t) est segmenté en trames temporelles successives (bloc 156), et chaque trame temporelle y(k) est analysée dans le domaine fréquentiel par transformation rapide de Fourier (bloc 158), pour donner une série de signaux y(k,l) correspondant à / bins fréquentiels, par exemple / = 256 bins, pour chaque trame de rang k. Le signal y(k,l) obte- nu fait l'objet (branche 160) d'un traitement d'évaluation de la norme du signal (bloc 162), dont la sortie 164 est appliquée à un estimateur de bruit (bloc 168).
De façon caractéristique, la probabilité supervisée estimée en sortie de l'arbre de décision (valeur P supervisée! (k,l) à valeur continue 148 et valeur VADSupervised(k,l) binaire 152 de probabilité de présence de parole) et appliquée au réducteur de bruit de la Figure 9 est utilisée en entrée d'un étage de réduction de type MMSE-OMLSA (Minimum Mean-Squared Er- ror - Optimally-Modified Log Spectral Amplitude) en lui-même de type connu, et par exemple décrit dans les WO 2007/099222 A1 (Parrot SA) ou EP 2 772 916 A1 (Parrot SA), auxquels on pourra se référer pour de plus amples détails.
Plus précisément, dans la structure classique de débruitage OM-LSA, une grandeur essentielle est l'estimation de la densité spectrale de puissance du bruit PSDNoise(k ), car cette densité est utilisée pour estimer le SNR a priori SNR_prio(k,l) et le SNR a posteriori SNR_post(k,l), grandeurs qui sont au cœur de l'algorithme OM-LSA (la densité spectrale de bruit intervenant au dénominateur de ces deux grandeurs).
Du fait de la fiabilité de la probabilité de parole supervisée obtenue par la mise en ouvre de l'invention, il est possible d'élaborer un nouveau modèle d'estimation de PSDNoise(k ). En effet, la précision accrue de la probabilité de présence de parole, issue des N+M détecteurs d'activité vocale et de leur fusion supervisée, par rapport à une probabilité de présence plus classique (monocanal ou déduite de capteurs acoustiques uniquement) remet en cause le calcul de PSDNoise(k ). Concrètement, on peut effectuer une mise à jour plus directe de PSDNoise(k ) sur la base de la probabilité supervisée, et ainsi éliminer certains mécanismes classiques de protection et de lissage, afin d'obtenir le maximum de fidélité et de détail dans l'estimation du bruit.
On commence par définir, pour chaque bin fréquentiel et chaque trame, un facteur de lissage apSd(k,l) = α + (1 -a) * Psupervised (k,l), où Psupervised (k,l) est la probabilité supervisée à valeur continue et est un facteur de lissage fixe compris entre 0 et 1 (typiquement 0,85).
apsd est donc grand si la probabilité est élevée, ce qui permet de ne pas tenir compte de la norme courante du signal utile. A contrario, si la proba- bilité est faible, on met à jour l'estimation du bruit sur la norme courante, en appliquant la formule :
PSDNoise(k ) = apSd(k,l) * PSDNoise (/ ,/-1 ) + (1 - apSd(k,l) * Normlnput(k,l),
Normlnput(k ) étant la norme lissée de la transformée de Fourier du signal acoustique d'entrée lnput(t).
De façon caractéristique de l'invention, la valeur binaire de probabilité de présence de parole
Figure imgf000025_0001
est également prise en compte. En ef- fet, cette valeur est très fiable (taux de faux positifs compris entre 1 % et 5 %), ce qui permet de réaliser une mise à jour intégrale de l'estimation du bruit sur la norme courante du signal d'entrée lorsque
Figure imgf000025_0002
= 0 (absence de parole). Ceci revient à forcer apSd(k,l) à zéro dans la formule précédente. Ainsi, si
Figure imgf000025_0003
= 0, alors apSd(k,l) = 0 et PSDNoise{k,l) = Normlnput{k,l).
Cette modification simple a beaucoup d'impact, car concrètement les valeurs continues de PsupemSec/(/ ,/) ne seront utilisées que lorsque le seuil P1 sera dépassé ; dans le cas inverse, on peut effectuer une mise à jour instantanée qui permet de récupérer tous les détails du bruit et de son "grain".
Il faut signaler qu'il peut toutefois être avantageux d'appliquer un lissage fréquentiel sur Psupen//sec/(/ ,/) avant le calcul de
Figure imgf000025_0004
de façon à renforcer encore la robustesse de ce détecteur (ceci n'ayant pas d'impact sur le caractère instantané de la mise à jour décrite ci-dessus).
La manière de procéder, particulière à l'invention, que l'on vient de décrire est schématisée sur la Figure 9 par le fait que, selon la valeur de l'indicateur global binaire
Figure imgf000025_0005
on met en œuvre l'estimation du bruit de façon conventionnelle par calcul de la densité spectrale (sortie 170 du bloc 168), ou non, comme cela est schématisé par le commutateur 172 commandé par la valeur binaire
Figure imgf000025_0006
= 0, alors le traitement du bloc 168 est remplacé par l'application du signal 164 directement issu du bloc 162 de calcul de la norme du signal utile. En effet, dans la mesure où l'algorithme retient l'hypothèse qu'il n'y a pas de parole dans le signal recueilli, il peut décider que le spectre du bruit cor- respond au spectre du signal d'entrée 164, et qu'il n'est pas nécessaire de procéder à une estimation de ce bruit par le bloc 168.
Les étapes suivantes du débruitage sont réalisées de manière en elle- même conventionnelle, avec un étage de calcul de gain OM-LSA (bloc 174) recevant d'une part le signal y(k,l) (branche 176) et d'autre part l'estimation du bruit PSDNoise(k ) calculée de la façon que l'on a décrite plus haut, c'est-à-dire en tirant avantageusement parti de l'indicateur global binaire
Figure imgf000026_0001
en sus de l'indicateur quantifié Psupervised (k,l).
De façon en elle-même connue, un algorithme OM-LSA améliore le calcul du gain LSA (Log-Spectral Amplitude) en le pondérant par la probabilité de présence de parole, la réduction de bruit appliquée étant d'autant plus importante que la probabilité de présence de parole est faible, c'est-à-dire que le gain appliqué sera d'autant plus faible que la probabilité de présence de parole est faible.
On pourra se référer pour de plus amples détails à la description du EP 2 772 916 A1 (Parrot) qui décrit un procédé de débruitage mettant en œuvre un tel type de traitement de réduction du bruit avec un algorithme OM-LSA.
Une autre donnée d'entrée du traitement opéré par l'étage 174 de calcul du gain OM-LSA est un paramètre Gmin dénommé "dureté de débruitage", déterminé en fonction de critères subjectifs obtenus lors de tests d'écoute. Il peut être avantageux de disposer, comme illustré en 178, de deux réglages différents de dureté de débruitage, selon que la fréquence d'échantillonnage est de type narrowband à 8 kHz ou wideband à 16 kHz. Dans le premier cas (narrowband) l'expérience montre qu'un débruitage agressif, typiquement de -21 dB, est indispensable pour faire ressortir la voix d'une quantité de bruit élevée et valoriser l'intelligibilité, au prix d'une distorsion sur le timbre sur ce signal qui aura de toute façon une fidélité de restitution limitée par la fréquence d'échantillonnage moindre. Le pro- blême se pose de façon différente en mode wideband, car le signal d'entrée est naturellement de meilleure qualité et plus intelligible, même en présence de bruit, en raison de l'ajout de la partie des fréquences les plus élevées dans le domaine 4 khz-8 kHz, qui comporte souvent moins de bruit et apporte beaucoup de détails dans la voix. Dans ce mode, un dé- bruitage plus modéré, typiquement de -15 dB, est plus approprié, car les défauts introduits par le débruitage sur la fidélité du timbre seront moins bien tolérés par le locuteur distant qu'en mode narrowband.
Le gain GOMLSA(1<,I) calculé par l'étage 174 est appliqué à un étage 182 recevant le signal y(k,l) (branche 184), pour donner un signal débruité 1 86. Ce signal est soumis à une transformation rapide de Fourier inverse 188 pour reconstituer le signal 190 dans le domaine temporel, puis les trames initialement segmentées sont synthétisées (bloc 192) pour donner le signal de sortie 194 reflétant le signal initial d'entrée 154 après traitement de débruitage.

Claims

REVENDICATIONS
1 . Un casque audio de type combiné micro-casque, comprenant :
- deux écouteurs d'oreille (10, 10') logeant chacun un transducteur de reproduction d'un signal audio ; et
- un réseau de détecteurs aptes à délivrer des signaux captés respectifs, chaque signal capté comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque, le réseau de détecteurs comprenant :
• une pluralité de détecteurs acoustiques (18, 18', 20, 20') de type microphonique placés à l'extérieur de la cavité acoustique ; et facultativement, au moins un détecteur non acoustique (22) de type physiologique, apte à capter des vibrations vocales non acoustiques transmises par conduction osseuse interne du porteur du casque,
caractérisé en ce qu'il comprend en outre :
- des moyens d'analyse des signaux captés (TopL, BotL, TopR, BotR, Acc) :
• recevant sur des entrées respectives les signaux captés et/ou des combinaisons desdits signaux délivrés séparément par chacun desdits détecteurs du réseau de détecteurs,
• opérant sur ces signaux et/ou combinaisons une pluralité de n traitements d'analyse distincts (104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126, 128, 130) de détection d'activité vocale, et
délivrant en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant une probabilité à valeur continue de présence de parole,
l'ensemble des n indicateurs élémentaires formant un vecteur d'observation ; et
- des moyens classifieurs (142, 144) du vecteur d'observation, aptes à :
• comparer les n indicateurs élémentaires à valeur continue à un ensemble de seuils successifs prédéfinis (144) hiérarchisés selon une configuration booléenne d'arbre de décision (142), et à générer en réponse en sortie de l'arbre de décision un indicateur global de présence/absence de parole (148).
2. Le casque de la revendication 1 , dans lequel l'indicateur global de présence/absence de parole est un indicateur global quantifié (Psu ervised(k,l)), quantifiant une probabilité de présence de parole comprise entre deux ex- trema correspondant respectivement à une situation d'activité vocale avé- rée et à une situation d'absence d'activité vocale avérée.
3. Le casque de la revendication 2, comprenant en outre :
- un comparateur (1 50) à seuil (P1 ), recevant en entrée l'indicateur global quantifié de présence/absence de parole (1 48) et délivrant en sor- tie un indicateur global binaire (VADsu ervised(k,l)),de présence/absence de parole.
4. Le casque de la revendication 1 , dans lequel les signaux captés sont des signaux numérisés en trames successives avec, pour chaque trame, une décomposition en bins fréquentiels, et dans lequel les moyens d'analyse des signaux captés, les détecteurs d'activité vocale et les moyens classifieurs sont des moyens mis en œuvre pour chaque bin de chaque trame des signaux.
5. Le casque de la revendication 1 , dans lequel les moyens d'analyse comprennent des moyens d'analyse dans le domaine fréquentiel des signaux captés par tout ou partie des détecteurs acoustiques ou non- acoustiques du réseau de détecteurs, du groupe formé par : des moyens (1 02-1 1 8) d'analyse de cohérence spatiale entre signaux captés par cer- tains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (1 04, 1 1 0, 1 1 6) de quantification du déphasage entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (1 06, 1 1 8) d'estimation du rapport signal sur bruit des signaux captés et/ou combinaisons de signaux captés par cer- tains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (1 20) probabilistes de détection d'activité vocale à partir des signaux captés par les détecteurs acoustiques ; et des moyens (1 26, 1 28) d'estimation du rapport signal sur bruit des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs.
6. Le casque de la revendication 1 , dans lequel les moyens d'analyse comprennent des moyens (1 30) d'analyse dans le domaine temporel des trames successives des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs.
7. Le casque de la revendication 1 , comprenant en outre :
- des moyens de réduction de bruit (156-192), recevant en entrée les signaux captés et/ou des combinaisons desdits signaux captés et opérant sur ces signaux et/ou combinaisons de signaux un traitement paramétrable fonction de la valeur de l'indicateur global de présence/absence de parole (Psu ervised(k,l) (148) ; VADSu ervised(k,l) (152)) délivré par les moyens classifieurs.
8. Le casque de la revendication 7, dans lequel ledit traitement paramétrable comprend un traitement d'estimation d'une densité spectrale de bruit (168), sélectivement mis en œuvre, ou non, en fonction d'une valeur booléenne de l'indicateur global de présence/absence de parole
(VADsupervised(k,l)).
PCT/EP2017/061931 2016-06-02 2017-05-18 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise WO2017207286A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1655019 2016-06-02
FR1655019A FR3052319A1 (fr) 2016-06-02 2016-06-02 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise.

Publications (1)

Publication Number Publication Date
WO2017207286A1 true WO2017207286A1 (fr) 2017-12-07

Family

ID=56896704

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2017/061931 WO2017207286A1 (fr) 2016-06-02 2017-05-18 Combine audio micro/casque comprenant des moyens de detection d'activite vocale multiples a classifieur supervise

Country Status (2)

Country Link
FR (1) FR3052319A1 (fr)
WO (1) WO2017207286A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933140A (zh) * 2020-08-27 2020-11-13 恒玄科技(上海)股份有限公司 检测耳机佩戴者的语音的方法、装置及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970050B (zh) * 2019-12-20 2022-07-15 北京声智科技有限公司 语音降噪方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHOU P A: "OPTIMAL PARTITIONING FOR CLASSIFICATION AND REGRESSION TREES", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 13, no. 4, 1 April 1991 (1991-04-01), pages 340 - 354, XP000214961, ISSN: 0162-8828, DOI: 10.1109/34.88569 *
WON-HO SHIN ET AL: "Speec/non-speech classification using multiple features for robust endpoint detection", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2000. ICASSP '00. PROCEEDING S. 2000 IEEE INTERNATIONAL CONFERENCE ON 5-9 JUNE 2000, PISCATAWAY, NJ, USA,IEEE, vol. 3, 5 June 2000 (2000-06-05), pages 1399 - 1402, XP010507610, ISBN: 978-0-7803-6293-2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933140A (zh) * 2020-08-27 2020-11-13 恒玄科技(上海)股份有限公司 检测耳机佩戴者的语音的方法、装置及存储介质
CN111933140B (zh) * 2020-08-27 2023-11-03 恒玄科技(上海)股份有限公司 检测耳机佩戴者的语音的方法、装置及存储介质

Also Published As

Publication number Publication date
FR3052319A1 (fr) 2017-12-08

Similar Documents

Publication Publication Date Title
EP2518724B1 (fr) Combiné audio micro/casque comprenant des moyens de débruitage d&#39;un signal de parole proche, notamment pour un système de téléphonie &#34;mains libres&#34;
US11710473B2 (en) Method and device for acute sound detection and reproduction
EP3171612A1 (fr) Casque audio à contrôle actif de bruit, contrôle anti-occlusion et annulation de l&#39;atténuation passive, en fonction de la présence ou de l&#39;absence d&#39;une activité vocale de l&#39;utilisateur de casque
EP2530673B1 (fr) Equipement audio comprenant des moyens de débruitage d&#39;un signal de parole par filtrage à délai fractionnaire
EP2945399B1 (fr) Casque audio à contrôle actif de bruit anc avec prévention des effets d&#39;une saturation du signal microphonique feedback
EP2930942A1 (fr) Casque audio à contrôle actif de bruit anc avec réduction du souffle électrique
EP2772916B1 (fr) Procédé de débruitage d&#39;un signal audio par un algorithme à gain spectral variable à dureté modulable dynamiquement
US11832072B2 (en) Audio processing using distributed machine learning model
EP0998166A1 (fr) Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
WO2017207286A1 (fr) Combine audio micro/casque comprenant des moyens de detection d&#39;activite vocale multiples a classifieur supervise
US11711647B1 (en) Voice detection using ear-based devices
US11750984B2 (en) Machine learning based self-speech removal
WO2020049263A1 (fr) Dispositif de rehaussement de la parole par implementation d&#39;un reseau de neurones dans le domaine temporel
WO2009077665A1 (fr) Baladeur audio ou audio-video comprenant des moyens de capture d&#39;un signal audio externe
US20240127785A1 (en) Method and device for acute sound detection and reproduction
FR2921747A1 (fr) Procede de traitement d&#39;un signal audio dans un dispositif portable
WO2022231977A1 (fr) Récupération de qualité audio de voix à l&#39;aide d&#39;un modèle d&#39;apprentissage profond
EP1148700B1 (fr) Téléphone mobile sans souffle
FR2921746A1 (fr) Baladeur audio ou audio-video comprenant des moyens de capture d&#39;un signal audio externe
FR3050897A1 (fr) Appareil et systeme d&#39;assistance a l&#39;audition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17723421

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17723421

Country of ref document: EP

Kind code of ref document: A1