WO2021239280A1 - Procede d'identification d'un locuteur - Google Patents
Procede d'identification d'un locuteur Download PDFInfo
- Publication number
- WO2021239280A1 WO2021239280A1 PCT/EP2021/055164 EP2021055164W WO2021239280A1 WO 2021239280 A1 WO2021239280 A1 WO 2021239280A1 EP 2021055164 W EP2021055164 W EP 2021055164W WO 2021239280 A1 WO2021239280 A1 WO 2021239280A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- identification
- voice
- extension
- computer
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 51
- 230000006870 function Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 abstract 2
- 238000004883 computer application Methods 0.000 description 4
- 239000004020 conductor Substances 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Definitions
- the present invention relates generally to the field of identifying persons on the basis of their voices. It finds a particularly advantageous application in the identification of a user of a motor vehicle.
- the speaker again transmits an identification voice signal, which is mixed with the same extension signal and then is processed to derive an identification voice signature.
- Another advantage of this solution is that it allows for better IT security. Indeed, if a hacker manages to obtain a recording of the voice of a registered user, he will be able to do nothing with it since he does not know the extension signals that would have to be added to the voice signal to succeed. 'identification.
- the particular speaker is identified taking into account the scores deduced;
- the complete signal is produced by affixing the extension signal before and / or after said voice identification signal;
- the maximum amplitude of the extension signal is less than or equal to the maximum amplitude of the identification speech signal, and is preferably less than or equal to 80% of the maximum amplitude of the identification speech signal;
- the maximum duration of said at least one extension signal is less than or equal to one third of the total duration of the complete signal, and is preferably equal to 20% of the total duration of the complete signal;
- the invention also relates to a method of recording a particular speaker by means of a computer which includes a computer memory, the method comprising the steps of:
- the invention also relates to a motor vehicle comprising a passenger compartment, means for acquiring a voice signal emitted by a particular speaker located in the passenger compartment, and a calculation unit programmed to implement one and / or one. other of the aforementioned methods.
- a motor vehicle comprising a passenger compartment, means for acquiring a voice signal emitted by a particular speaker located in the passenger compartment, and a calculation unit programmed to implement one and / or one. other of the aforementioned methods.
- a motor vehicle comprising a passenger compartment, means for acquiring a voice signal emitted by a particular speaker located in the passenger compartment, and a calculation unit programmed to implement one and / or one. other of the aforementioned methods.
- the different characteristics, variants and embodiments of the invention can be associated with each other in various combinations insofar as they are not incompatible or mutually exclusive.
- FIG. 1 is a graph illustrating a configurable function that can be used in the context of a method according to the invention
- FIG. 2 is a graph illustrating an observation window function that can be used within the framework of the method according to the invention
- FIG. 3 is a graph illustrating an extension function which can be used within the framework of the method according to the invention.
- the computer can read the data acquired by the microphones.
- the computer can control the implementation of certain functions of the motor vehicle, such as, for example, opening windows or starting the engine.
- the Human-Machine interface can take various forms. It will be considered here that it comprises a touch screen and speakers located in the passenger compartment of the vehicle.
- the invention relates mainly to the identification of a speaker on the basis of a phrase uttered vocally by the latter.
- locution is understood here to mean a group of words constituting a fixed phrase. These are in practice predefined keywords.
- the identification of the speaker is possible only if the latter has previously registered with the information processing system.
- the speaker identification process consists in determining, among a set of vehicle users who have registered beforehand, the one who emits the phrase.
- the first step here is for the driver to initiate the procedure by selecting a corresponding menu in the computer application, using the touch screen.
- the computer generates a request by means of the Man-Machine interface, which consists in asking the driver to pronounce or even preferentially to repeat several times the same predetermined phrase.
- the first criterion is a criterion of understanding.
- the second criterion is a criterion of time.
- the phrase must in fact be quick to utter so that the driver can say it easily and quickly, without this becoming tiresome for him. This criterion is fulfilled when the phrase has three or four syllables. In this way, the phrase can be spoken in less than a second.
- the calculator records a long voice signal, which is then split into three voice signals corresponding to the three times when the phrase was spoken. These three voice signals are then combined into a single recording voice signal S4i, which is considered to form a typical example of the utterance of the phrase by the driver.
- the computer can deduce from this recording voice signal S4i a basic voice signature, using a conventional processing process well known to those skilled in the art, which will hereinafter be called "fingerprint generation process. acoustic ".
- acoustic analysis which consists of extracting relevant and characteristic information from the recorded voice signal. For this, sets of acoustic coefficients are calculated at regular time intervals (that is to say for successive observation windows), on signal blocks of fixed length. These sets of coefficients together constitute an acoustic matrix which forms a digital signature characteristic of the voice of the driver.
- Each set of coefficients is for example calculated using transforms of Discrete cosine of the logarithm of the energy spectral density of the signal.
- the cepstral coefficients resulting from such an analysis indeed characterize the shape of the spectrum.
- cepstral coefficients used are the MFCC ("from the English" Mel Frequency Cepstral Coefficients). They have the advantage of being poorly correlated with each other.
- the process is also supplemented here by filtering of the “mel-filterbank” type, which makes it possible to privilege the richness of the voiced sounds.
- the acoustic fingerprint generation process thus generates, based on the S4i recording voice signal, a basic voice signature characteristic of the driver's voice.
- the computer will seek to calculate another so-called extended voice signature.
- the calculator first determines an extension signal.
- This extension signal is intended to be appended to the recorded voice signal, in order to prolong it, so that a complete signal can be obtained which can be processed by means of the acoustic fingerprint generation process in order to generate the extended voice signature.
- This configurable function S1 (t) is preferably a sum of at least one sine wave with a frequency of between 100 and 500 Hz.
- this configurable function S1 (t) is expressed in the following form:
- the adjustable parameters are:
- This function is preferably modulated in amplitude (A, then being a function of time t) and / or in frequency (f, then being a function of time t).
- the set of parameters chosen to create the extension signal is selected such that the extension signals associated with the different speakers are distinct from each other.
- the sets of parameters can be predetermined and saved in the computer's memory, in which case the computer can, on each recording of a new speaker, search its memory for a new set of parameters not yet used.
- the parameterizable function S1 (t) obtained is then modified so that once next to the recording voice signal S4-i, no discontinuity appears at the level of the junction between the curves.
- the observation window function (S2 (t)) is here an apodization function. It makes it possible to ensure that the product of the configurable function S1 (t) with the observation window function (S2 (t)) takes the value zero at the start and at the end of the time window considered.
- the equation of the observation window function (S2 (t)) is as follows.
- - r is a cosine weighting coefficient, here chosen equal to 0.25.
- the extension signal S3 is then chosen equal to the product of the configurable signal S1 and this observation window function S2. It is shown in figure 3.
- the extension signal S3 is configured so that its maximum amplitude is less than or equal to 80% of the maximum amplitude of the recorded voice signal, and that the total duration of the extension signal (s) attached to the recording voice signal S4i does not exceed 20% of the total duration of the complete signal.
- This complete signal is then obtained by appending the extension signal S3 to the beginning and / or the end of the recorded voice signal. Here it is attached to the start and the end of the voice signal.
- the complete signal S4 thus obtained is represented in FIG. 4. It is observed there that it comprises two identical signals S3i, S3 2 which surround the recording voice signal S4i, and which correspond to the extension signal S3. It is also observed that the recording voice signal S4i comprises four parts S4 2 , S43, S4 4 , S4s which correspond to the four syllables of the phrase “Hello Renault”.
- the complete signal S4 is processed by means of the acoustic fingerprint generation process, so as to obtain the extended voice signature.
- This extended voice signature, the basic voice signature and the S3 extension signal used are then stored in the computer memory of the computer, in association with the driver.
- the basic voice signature, the extended voice signature and the S3 extension signal are recorded in three fields of a database record.
- This recording also includes a fourth field which stores the name of the driver (entered beforehand on the touch screen) and a fifth field which stores the driver's access rights (chosen by the latter in a menu displayed on the screen). touch). Any other variant is also possible.
- the computer stores a closed set of N voice signature triplets (each triplet comprising a basic voice signature, an extended voice signature associated with one of the N recorded speakers and an associated S3 extension signal).
- An extended voice signature stored in computer memory at the end of a recording procedure is called a reference voice signature.
- a basic voice signature stored in computer memory at the end of a recording procedure is called a reference voice signature.
- the first embodiment is illustrated in Figure 5.
- step E1 the computer is supplied with current and it goes into a standby state (step E1). In this state, it just processes the data received from the microphones.
- the driver orally formulates the agreed phrase (here "Hello Renault")
- the computer can detect this phrase. It then records in its memory the new voice signal picked up by the microphones and containing this phrase. This new voice signal is an identifying voice signal.
- step E4i the computer determines a new extended voice signature.
- This new extended voice signature is an identifying voice signature. It is based for this on the complete signal obtained in step E3i, by applying the process of generating an acoustic fingerprint to it.
- step E5i the computer compares this extended voice signature with the extended voice signature which is stored in the first recording of its database. In other words, the computer compares the identification voice signature with the reference voice signature.
- This comparison step is carried out in a manner known per se, by comparing the sets of acoustic coefficients of these two signatures. This comparison makes it possible to determine a score, which is here the higher the closer the sets of acoustic coefficients of these two signatures are.
- the calculator thus obtains as many scores as there are speakers stored in its memory.
- the computer compares all of these scores and selects the highest. This maximum score is associated with one of the recorded speakers, hereinafter called the selected speaker.
- the computer could conclude that the conductor corresponds to the selected speaker.
- the computer compares this maximum score with a predetermined threshold.
- this maximum score is less than the predetermined threshold, during a step E8, the computer displays on the touch screen or transmits on the speakers a message telling the driver that it has not been recognized. Indeed, this score is considered insufficient to recognize with sufficient reliability whether the selected speaker does indeed correspond to the driver. In this event, the driver is offered either to register or to reformulate the phrase.
- the computer considers that the maximum score is high enough to consider with sufficient reliability that the selected speaker does indeed correspond to the driver. In this event, the driver is well recognized. It can then issue instructions, such as commanding the windows to open or starting the engine. These instructions will then be followed by the facts provided that the driver's access rights allow it.
- steps E1 and E2 are identical to those mentioned above and described with reference to FIG. 5.
- step E2 provision is made for the computer to calculate a basic voice signature, taking into account the new voice signal just emitted by the driver.
- This basic voice signature is a basic identification voice signature
- the computer compares this basic identification voice signature with each of the reference base voice signatures stored in the memory of the computer. He does this in the same way as above, which allows him to obtain N scores.
- the computer can consider that the driver is recognized (step E9).
- the computer may consider that the driver is not recognized and that he will not be able to not be (step E8).
- extension signals used for the different speakers recorded in the database could be the same, but this would again have the consequence of reducing the reliability of the results.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
L'invention concerne un procédé d'identification d'un locuteur particulier parmi un ensemble de locuteurs, au moyen d'un calculateur qui comporte une mémoire informatique dans laquelle sont enregistrées des signatures vocales chacune associée à un des locuteurs dudit ensemble, le procédé comprenant des étapes de : - acquisition d'un signal vocal (S41) émis par le locuteur particulier, - élaboration d'une nouvelle signature vocale en fonction dudit signal vocal, - comparaison de ladite nouvelle signature vocale avec au moins une des signatures vocales enregistrées dans la mémoire informatique, et - identification du locuteur particulier en fonction du résultat de ladite comparaison. Selon l'invention, il est prévu, avant l'étape d'élaboration, une étape de génération d'un signal complet (S4) qui comprend ledit signal vocal et au moins un signal d'extension (S31, S32) prédéterminé, et il est prévu qu'à l'étape d'élaboration, la nouvelle signature vocale soit élaborée en fonction également de chaque signal d'extension.
Description
PROCEDE D’IDENTIFICATION D’UN LOCUTEUR
La présente invention concerne de manière générale le domaine de l’identification de personnes sur la base de leurs voix. Elle trouve une application particulièrement avantageuse dans l’identification d’un usager d’un véhicule automobile.
Elle concerne plus particulièrement un procédé d’identification d’un locuteur particulier parmi un ensemble de locuteurs, au moyen d’un calculateur qui comporte une mémoire informatique dans laquelle est enregistrée au moins une signature vocale de référence associée à un des locuteurs dudit ensemble, le procédé comprenant des étapes de :
- acquisition d’un signal vocal d’identification émis par le locuteur particulier,
- élaboration d’une signature vocale d’identification en fonction dudit signal vocal d’identification, - comparaison de ladite signature vocale d’identification avec l’au moins une signature vocale de référence enregistrée dans la mémoire informatique, et
- identification du locuteur particulier en fonction du résultat de ladite comparaison. Elle concerne également un procédé d’enregistrement d’un nouveau locuteur dans la mémoire du calculateur. Elle concerne enfin un véhicule automobile comportant les moyens techniques nécessaires à la mise en oeuvre de l’un et/ou l’autre de ces deux procédés.
Il est connu d’utiliser des locutions de réveil pour sortir un appareil électronique de veille afin de pouvoir ensuite commander une fonction particulière. Un exemple de locution de réveil est « Hello Google ». Cette locution permet de sortir de veille un appareil Android® afin qu’il puisse ensuite effectuer une action particulière (rechercher une réponse à une question, allumer une lumière...).
Ces locutions de réveil sont choisies de façon à être particulièrement courtes, de manière à être rapides à prononcer par le locuteur. Une des difficultés est que le locuteur a tendance à prononcer cette locution de façon rapide et parfois tronquée. On constate alors des difficultés de détection de cette locution par l’appareil.
Dès lors, on comprend qu’il ne sera pas possible d’identifier de façon fiable le
locuteur sur la base de cette seule locution de réveil.
Or, notamment dans le domaine automobile, on souhaite pouvoir identifier les passagers qui émettent des commandes vocales afin par exemple de s’assurer s’ils sont autorisés ou non à émettre ces commandes. A titre d’exemple, on souhaite pouvoir s’assurer que le passager qui commande l’ouverture totale de sa fenêtre est autorisé à le faire.
Une solution connue dans le domaine de la biométrie vocale pour identifier une personne consiste à lui demander d’émettre une locution plus longue, telles que « Ma voix est le mot de passe ». Grâce à la longueur de cette locution, il s’avère alors possible d’identifier le locuteur parmi les différents locuteurs qui se sont enregistrées dans le système.
L’inconvénient de ces locutions est que, du fait de leurs grandes longueurs, elles s’avèrent trop fastidieuses à prononcer pour être employées régulièrement.
Afin de remédier à l’inconvénient précité de l’état de la technique, la présente invention propose d’utiliser des locutions courtes puis de les enrichir informatiquement et de façon invisible pour les usagers, afin de pouvoir identifier avec une grande fiabilité toute personne qui émet une locution.
Plus particulièrement, on propose selon l’invention un procédé d’identification tel que défini dans l’introduction, dans lequel il est prévu, en amont, qu’au moins une signature vocale de référence enregistrée dans la mémoire informatique a été déterminée en fonction d’un signal vocal d’enregistrement et d’un signal d’extension prédéterminé, et dans lequel il est prévu, avant l’étape d’élaboration, une étape de génération d’un signal complet qui comprend ledit signal vocal d’identification et ledit signal d’extension prédéterminé, et dans lequel, à l’étape d’élaboration, la signature vocale d’identification est élaborée en fonction également dudit signal d’extension.
Le signal vocal d’enregistrement permet au locuteur de s’enregistrer sur l’application informatique. Ce signal est mixé avec un signal d’extension puis est traité afin d’en déduire une signature vocale d’enregistrement.
Au cours du procédé d’identification, le locuteur émet à nouveau un signal vocal d’identification, qui est mixé avec le même signal d’extension puis est traité afin d’en déduire une signature vocale d’identification.
Cette signature vocale d’identification va alors être comparée à toutes les
signatures vocales d’enregistrement stockées dans la mémoire de l’application, de façon à pouvoir trouver qui est le locuteur.
Ainsi, on compare des signatures vocales enrichies grâce au signal d’extension.
En d’autres termes, grâce à l’invention, le signal vocal utilisé peut être une courte locution dans la mesure où il est ensuite rallongé au moyen du signal d’extension, ce qui permet d’en faire une locution plus longue, assurant une meilleure reconnaissance du locuteur parmi les locuteurs enregistrés dans le système.
Un avantage de cette solution est qu’elle est indolore pour l’usager, puisque ce dernier procède comme auparavant en se contentant d’énoncer une courte locution.
Un autre avantage de cette solution est qu’elle permet d’assurer une meilleure sécurité informatique. En effet, si un pirate informatique parvient à se procurer un enregistrement de la voix d’un usager enregistré, il ne pourra rien en faire puisqu’il ne connaît pas les signaux d’extension qu’il faudrait ajouter au signal vocal pour réussir l’identification.
Encore un autre avantage est que cette solution assure une meilleure robustesse aux bruits parasites extérieurs, puisque les signaux d’extension ajoutés ne sont pas bruités et abaissent donc le niveau de bruit global du signal complet servant à l’identification. D’autres caractéristiques avantageuses et non limitatives du procédé d’identification conforme à l’invention, prises individuellement ou selon toutes les combinaisons techniquement possibles, sont les suivantes :
- la mémoire informatique comporte une pluralité de signatures vocales de référence respectivement associées à une pluralité de locuteurs dudit ensemble, le signal d’extension étant associé à un des locuteurs et étant différent des signaux d’extension associés aux autres locuteurs, ladite mémoire stockant chaque signal d’extension de manière associée à un des locuteurs ;
- à l’étape de génération, le calculateur génère au moins autant de signaux complets qu’il y a de locuteurs dans ledit ensemble, chaque signal complet comprenant ledit signal vocal d’identification et un desdits signaux d’extension enregistrés dans ladite mémoire ;
- à l’étape d’élaboration, le calculateur élabore une signature vocale d’identification pour chaque signal complet ;
- à l’étape de comparaison, le calculateur compare chaque signature vocale
d’identification avec chaque signature vocale de référence enregistrée dans la mémoire afin d’en déduire un score ;
- à l’étape d’identification, le locuteur particulier est identifié compte tenu des scores déduits ; - le signal complet est élaboré en apposant le signal d’extension avant et/ou après ledit signal vocal d’identification ;
- le signal d’extension est une fonction d’une somme d’au moins une sinusoïde de fréquence comprise entre 50 et 650 Hz, et de préférence entre 100 et 500 Hz ;
- le signal d’extension est issu du produit d’une fonction paramétrable et d’une fonction fenêtre d’observation, ladite fonction paramétrable étant préférentiellement modulée en amplitude et/ou en fréquence ;
- l’amplitude maximum du signal d’extension est inférieure ou égale à l’amplitude maximum du signal vocal d’identification, et est de préférence inférieure ou égale à 80% de l’amplitude maximum du signal vocal d’identification ; - la durée maximum dudit au moins un signal d’extension est inférieure ou égale au tiers de la durée totale du signal complet, et est de préférence égale à 20% de la durée totale du signal complet ;
- le signal vocal d’identification comporte un nombre de syllabes inférieur ou égal à quatre. L’invention porte également sur un procédé d’enregistrement d’un locuteur particulier au moyen d’un calculateur qui comporte une mémoire informatique, le procédé comprenant des étapes de :
- acquisition d’un signal vocal d’enregistrement émis par le locuteur particulier,
- détermination d’un signal d’extension, - génération d’un signal complet d’enregistrement qui comprend ledit signal vocal d’enregistrement et le signal d’extension,
- détermination d’une signature vocale de référence en fonction du signal complet d’enregistrement, et
- stockage de ladite signature vocale de référence dans ladite mémoire de façon associée avec le locuteur particulier.
L’invention concerne aussi un véhicule automobile comprenant un habitacle, des moyens d'acquisition d’un signal vocal émis par un locuteur particulier situé dans l’habitacle, et une unité de calcul programmé pour mettre en œuvre l’un et/ou l’autre des procédés précités.
Bien entendu, les différentes caractéristiques, variantes et formes de réalisation de l'invention peuvent être associées les unes avec les autres selon diverses combinaisons dans la mesure où elles ne sont pas incompatibles ou exclusives les unes des autres.
La description qui va suivre en regard des dessins annexés, donnés à titre d’exemples non limitatifs, fera bien comprendre en quoi consiste l’invention et comment elle peut être réalisée.
Sur les dessins annexés :
La figure 1 est un graphique illustrant une fonction paramétrable utilisable dans le cadre d’un procédé conforme à l’invention ;
La figure 2 est un graphique illustrant une fonction fenêtre d’observation utilisable dans le cadre du procédé conforme à l’invention ;
La figure 3 est un graphique illustrant une fonction d’extension utilisable dans le cadre du procédé conforme à l’invention ;
La figure 4 est un graphique illustrant un signal complet comprenant la fonction d’extension de la figure 3 ;
La figure 5 est un diagramme illustrant un mode de mise en œuvre d’un procédé d’identification conforme à l’invention.
L’invention peut être mise en œuvre sur tout type d’appareil.
Dans l’exemple qui sera ici décrit, elle sera mise en œuvre dans un véhicule automobile, et plus précisément dans une voiture pouvant accueillir plusieurs usagers (un conducteur et des passagers).
Ce véhicule automobile se présentera sous une forme classique.
Il comporte ainsi un châssis qui délimite un habitacle pour les usagers.
Il comporte également des moyens d’acquisition de signaux vocaux. Ces moyens d’acquisition se présentent par exemple sous la forme de microphones disposés dans le véhicule automobile de façon à pouvoir enregistrer les locutions émises par les différents passagers du véhicule automobile.
Le véhicule automobile comporte également un calculateur qui est connecté aux microphones et qui forme un système de traitement d’informations programmé de manière particulière pour mettre en œuvre l’invention.
Le calculateur comporte plus précisément au moins un processeur, une mémoire, différentes interfaces d'entrée et de sortie, ainsi qu’une interface homme-machine.
Grâce à sa mémoire, le calculateur mémorise une application informatique, constituée de programmes d’ordinateur comprenant des instructions dont l’exécution par le processeur permet la mise en œuvre par le calculateur des procédés décrits ci-après.
Grâce à ses interfaces d’entrée, le calculateur peut lire les données acquises par les microphones.
Grâce à ses interfaces de sortie, le calculateur peut commander la mise en œuvre de certaines fonctions du véhicule automobile, telles que par exemple l’ouverture des fenêtres ou le démarrage du moteur.
L’interface Homme-Machine peut se présenter sous diverses formes. On considérera ici qu’elle comporte un écran tactile et des enceintes situés dans l’habitacle du véhicule.
Comme cela sera bien décrit dans la suite de cet exposé, l’invention porte principalement sur l’identification d’un locuteur sur la base d’une locution émise vocalement par ce dernier.
On entend ici par « locution » un groupe de mots constituant un syntagme figé. Il s’agit en pratique de mots clefs prédéfinis.
Dans l’exemple qui sera considéré, le locuteur sera le conducteur du véhicule, mais il pourrait en variante s’agir de n’importe quel autre passager.
Selon la présente invention, l’identification du locuteur est possible seulement si ce dernier s’est enregistré au préalable auprès du système de traitement d’informations.
Le processus d’identification du locuteur consiste en effet à déterminer, parmi un ensemble d’usagers du véhicule qui se sont au préalable enregistrés, celui qui émet la locution.
Dans une première partie de cet exposé, on décrira donc la manière selon laquelle le conducteur peut s’enregistrer auprès du système. La seconde partie de l’exposé portera quant à elle sur l’identification proprement dite du conducteur.
La procédure d’enregistrement est réalisée en plusieurs étapes successives. Elle vise à permettre de générer une signature vocale associée au locuteur.
La première étape consiste ici pour le conducteur à initier la procédure en sélectionnant un menu correspondant dans l’application informatique, au moyen de l’écran tactile.
Une fois la procédure initiée, le calculateur génère une requête au moyen de
l’interface Homme-Machine, qui consiste à demander au conducteur de prononcer ou même préférentiellement de répéter plusieurs fois une même locution prédéterminée.
Cette locution est préférentiellement choisie lors de la conception de l’application informatique de façon à répondre à deux critères.
Le premier critère est un critère de compréhension.
Pour que le calculateur soit en mesure de détecter chaque moment où le conducteur prononcera cette locution, cette dernière doit être voisée. En d’autres termes, elle doit comporter des intonations à basses fréquences. On la choisira donc de manière à ce qu’elle comporte autant de voyelles que possible.
Le second critère est un critère de temps.
La locution doit en effet être rapide à énoncer de façon que le conducteur puisse la dire facilement et rapidement, sans que cela ne devienne fastidieux pour lui. Ce critère est rempli lorsque la locution comporte trois ou quatre syllabes. De cette façon, la locution peut être énoncée en une durée inférieure à la seconde.
La locution ici choisie est « Hello Renault ».
Lors de la procédure d’enregistrement, le calculateur enregistre un long signal vocal, qui est ensuite découpé en trois signaux vocaux correspondant aux trois moments où la locution a été énoncée. Ces trois signaux vocaux sont ensuite combinés en un seul signal vocal d’enregistrement S4i, dont on considère qu’il forme un exemple caractéristique d’énonciation de la locution par le conducteur.
Le calculateur peut déduire de ce signal vocal d’enregistrement S4i une signature vocale de base, en utilisant un processus de traitement classique et bien connu de l’homme de l’art, qui sera ci-après appelé « processus de génération d’empreinte acoustique ».
On peut décrire succinctement ce processus de la façon suivante.
Il comporte tout d’abord une analyse acoustique qui consiste à extraire du signal vocal d’enregistrement des informations pertinentes et caractéristiques. Pour cela, des jeux de coefficients acoustiques sont calculés à intervalles de temps réguliers (c’est-à-dire pour des fenêtres d’observations successives), sur des blocs de signal de longueur fixe. Ces jeux de coefficients constituent ensemble une matrice acoustique qui forme une signature numérique caractéristique de la voix du conducteur.
Chaque jeu de coefficient est par exemple calculé en utilisant des transformées de
Cosinus Discret du logarithme de la densité spectrale d’énergie du signal. Les coefficients cepstraux issus d’une telle analyse caractérisent en effet bien la forme du spectre.
En l’espèce, les coefficients cepstraux utilisés sont les MFCC (« de l’anglais « Mel Frequency Cepstral Coefficients). Ils présentent en effet l’avantage d’être peu corrélés entre eux.
Le processus est en outre ici complété par un filtrage de type « mel-filterbank », ce qui permet de privilégier la richesse des sons voisés.
Le processus de génération d’empreinte acoustique permet ainsi de générer, en fonction du signal vocal d’enregistrement S4i, une signature vocale de base caractéristique de la voix du conducteur.
Une fois cette signature vocale de base obtenue, selon l’invention, le calculateur va chercher à calculer une autre signature vocale dite étendue.
L’idée est que la seule locution « Hello Renault » est trop courte pour permettre d’identifier de façon robuste le locuteur parmi plusieurs locuteurs enregistrés en utilisant seulement sa signature vocale de base. C’est notamment le cas lorsque le conducteur est affecté par un état pathologique particulier (maladie, émotion, fatigue...), lorsque les conditions de prise de son ne sont pas bonnes (bruit ambiant...), ou lorsque le conducteur a prononcé la locution de manière peu compréhensible (mot tronqué... ).
Pour obtenir la signature vocale étendue, le calculateur détermine tout d’abord un signal d’extension.
Ce signal d’extension est destiné à être accolé au signal vocal enregistré, afin de le prolonger, de façon à pouvoir obtenir un signal complet qui pourra être traité au moyen du processus de génération d’empreinte acoustique afin de générer la signature vocale étendue.
Le signal d’extension est associé au conducteur. Il est donc choisi de façon à être différent des signaux d’extension déjà utilisés pour les autres locuteurs enregistrés dans le système. Ce signal d’extension est issu d’une fonction paramétrable S1(t), dont un exemple est illustré sur la figure 1.
Cette fonction paramétrable S1(t) est de préférence une somme d’au moins une sinusoïde de fréquence comprise entre 100 et 500 Hz.
Dans le mode de réalisation ici décrit, cette fonction paramétrable S1(t) s’exprime
sous la forme suivante :
Dans cette équation, les paramètres réglables sont :
- M : le nombre de sinusoïdes,
- A, : l’amplitude de chaque sinusoïde,
- fi : la fréquence de chaque sinusoïde, et
- cp, : la phase de chaque sinusoïde.
Cette fonction est de préférence modulée en amplitude (A, étant alors une fonction du temps t) et/ou en fréquence (f, étant alors une fonction du temps t).
Le jeu de paramètres choisis pour créer le signal d’extension est sélectionné de telle sorte que les signaux d’extension associés aux différents locuteurs soient bien distincts les uns des autres.
On pourra considérer que deux signaux d’extension sont distincts l’un de l’autre en fréquence lorsqu’au moins un pas de 20 Hz sépare chacune de deux fréquences. On pourra considérer que deux signaux d’extension sont distincts l’un de l’autre en phase lorsqu’au moins un pas de p 14 radian sépare chacune de deux phases. On pourra considérer les amplitudes proches de l’unité afin de maximiser la présence fréquentielle (énergie) du signal d’extension.
Ces jeux de paramètres pourront être choisis aléatoirement par le calculateur, auquel cas ce dernier vérifiera ensuite qu’ils satisfont bien les conditions de distinction précitées.
En variante, des jeux de paramètres pourront être prédéterminés et enregistrés dans la mémoire du calculateur, auquel cas le calculateur pourra, à chaque enregistrement d’un nouveau locuteur, aller chercher dans sa mémoire un nouveau jeu de paramètres non encore utilisé.
Dans l’exemple illustré sur la figure 1, le jeu de paramètres suivant a été utilisé :
M=3
(Ai, fi, fi)= (1, 127, 0) (A2, f2, cp2)= (1, 241, 0)
(A3, f3, f3)= (1, 353, 0)
La fonction paramétrable S1(t) obtenue est ensuite modifiée de façon qu’une fois
accolée au signal vocal d’enregistrement S4-i, il n’apparaisse pas de discontinuité au niveau de la jonction entre les courbes.
Pour cela, il est prévu de calculer le produit de cette fonction paramétrable S1(t) avec une fonction fenêtre d’observation (S2(t)) prédéterminée et illustrée sur la figure 2.
La fonction fenêtre d’observation (S2(t)) est ici une fonction d’apodisation. Elle permet de s’assurer que le produit de la fonction paramétrable S1(t) avec la fonction fenêtre d’observation (S2(t)) prenne la valeur nulle au début et à la fin de la fenêtre de temps considérée. Dans l’exemple ici décrit, l’équation de la fonction fenêtre d’observation (S2(t)) est la suivante.
Dans cette équation :
- x est la durée de temps normalisée par rapport à la durée de la fenêtre de temps considérée, et
- r est un coefficient de pondération en cosinus, ici choisi égale à 0,25.
Le signal d’extension S3 est alors choisi égal au produit du signal paramétrable S1 et de cette fonction fenêtre d’observation S2. Il est représenté sur la figure 3.
A ce stade, on notera que le signal d’extension S3 est paramétré de façon que son amplitude maximum soit inférieure ou égale à 80% de l’amplitude maximum du signal vocal enregistré, et que la durée totale du ou des signaux d’extension accolé(s) au signal vocal d’enregistrement S4i ne dépasse pas 20% de la durée totale du signal complet.
Ce signal complet est ensuite obtenu en accolant le signal d’extension S3 au début et/ou à la fin du signal vocal enregistré. Il est ici accolé au début et à la fin du signal vocal.
Le signal complet S4 ainsi obtenu est représenté sur la figure 4. On y observe qu’il comporte deux signaux S3i, S32 identiques qui encadrent le signal vocal d’enregistrement S4i, et qui correspondent au signal d’extension S3. On y observe également que le signal vocal d’enregistrement S4i comporte quatre
parties S42, S43, S44, S4s qui correspondent aux quatre syllabes de la locution « Hello Renault ».
A ce stade, le signal complet S4 est traité au moyen du processus de génération d’empreinte acoustique, de manière à obtenir la signature vocale étendue. Cette signature vocale étendue, la signature vocale de base et le signal d’extension S3 utilisé sont ensuite stockés dans la mémoire informatique du calculateur, de façon associée au conducteur.
Cette association peut prendre différentes formes.
Ainsi, ces différents éléments peuvent simplement être mémorisés dans un enregistrement qui stocke des droits d’accès du conducteur (droit d’ouvrir les fenêtres, droit de demander le démarrage du moteur...).
Ici, on considérera plutôt que la signature vocale de base, la signature vocale étendue et le signal d’extension S3 sont enregistrés dans trois champs d’un enregistrement d’une base de données. Cet enregistrement comporte en outre un quatrième champ qui stocke le nom du conducteur (saisi au préalable sur l’écran tactile) et un cinquième champ qui stocke les droits d’accès du conducteur (choisis par ce dernier dans un menu affiché sur l’écran tactile). Toute autre variante est également envisageable.
Quoiqu’il en soit, à l’issue de plusieurs procédures d’enregistrement successives, le calculateur mémorise un ensemble fermé de N triplets de signatures vocales (chaque triplet comprenant une signature vocale de base, une signature vocale étendue associées à l’un des N locuteurs enregistrés et un signal d’extension S3 associé). Une signature vocale étendue stockée dans la mémoire informatique à l’issue d’une procédure d’enregistrement est dite signature vocale de référence. Une signature vocale de base stockée dans la mémoire informatique à l’issue d’une procédure d’enregistrement est dite signature vocale de référence. Alternativement, dans le but de gagner de la place dans la mémoire informatique du calculateur, il est possible de stocker une signature vocale de base et des paramètres permettant de reconstruire une signature vocale étendue. On peut maintenant décrire comment le procédé d’identification du conducteur est mis en œuvre.
Pour cela, on peut décrire deux modes de réalisation différents.
Le premier mode de réalisation est illustré sur la figure 5.
Dès que les portes du véhicule automobile sont déverrouillées, le calculateur est
alimenté en courant et il se met dans un état de veille (étape E1). Dans cet état, il se contente de traiter les données reçues des microphones.
Ainsi, lorsqu’au cours d’une étape E2 d’initiation du procédé d’identification, le conducteur formule oralement la locution convenue (ici « Hello Renault »), le calculateur peut détecter cette locution. Il enregistre alors dans sa mémoire le nouveau signal vocal capté par les microphones et contenant cette locution. Ce nouveau signal vocal est un signal vocal d’identification.
La longueur de ce nouveau signal vocal est ajustée à la durée de formulation de la locution. Au cours d’une étape E3i, le calculateur accole le nouveau signal vocal avec le premier des N signaux d’extension enregistrés dans sa mémoire, à savoir celui qui est associé au premier locuteur qui s’est enregistré et qui est stocké dans le premier enregistrement de sa base de données. Cette opération est réalisée de la même façon que pendant la procédure d’enregistrement, ici en apposant le signal d’extension avant et après le nouveau signal vocal.
Puis, au cours d’une étape E4i, le calculateur détermine une nouvelle signature vocale étendue. Cette nouvelle signature vocale étendue est une signature vocale d’identification. Il se base pour cela sur le signal complet obtenu à l’étape E3i, en lui appliquant le processus de génération d’empreinte acoustique. Enfin, au cours d’une étape E5i, le calculateur compare cette signature vocale étendue avec la signature vocale étendue qui est stockée dans le premier enregistrement de sa base de données. Autrement dit, le calculateur compare la signature vocale d’identification avec la signature vocale de référence.
Cette étape de comparaison est réalisée de façon connue en soi, en comparant les jeux de coefficients acoustiques de ces deux signatures. Cette comparaison permet de déterminer un score, qui est ici d’autant plus élevé que les jeux de coefficients acoustiques de ces deux signatures sont proches.
Ces trois étapes E3i, E4i, E5i sont ici répétées N fois (voir les étapes E32..E3N, E42..E4N, E52..E5N, sur la figure 5), en exploitant les données mémorisées dans les N enregistrements de la base de données associés aux N locuteurs enregistrés.
Le calculateur obtient ainsi autant de scores qu’il y a de locuteurs enregistrés dans sa mémoire.
Une fois ces scores calculés, au cours d’une étape E6, le calculateur compare l’ensemble de ces scores et sélectionne le plus élevé. Ce score maximum est
associé à l’un des locuteurs enregistrés, ci-après appelé locuteur sélectionné.
A ce stade, le calculateur pourrait conclure que le conducteur correspond au locuteur sélectionné.
Toutefois, pour plus de sécurité, au cours d’une étape E7, le calculateur compare ce score maximum avec un seuil prédéterminé.
Si ce score maximum est inférieur au seuil prédéterminé, au cours d’une étape E8, le calculateur affiche sur l’écran tactile ou émet sur les enceintes un message signifiant au conducteur qu’il n’a pas été reconnu. En effet, ce score est considéré comme insuffisant pour reconnaître avec une fiabilité suffisante si le locuteur sélectionné correspond bien au conducteur. Dans cette éventualité, il est proposé au conducteur soit de s’enregistrer, soit de reformuler la locution.
Dans le cas contraire, au cours d’une étape E9, le calculateur considère que le score maximum est suffisamment élevé pour considérer avec une fiabilité suffisante que le locuteur sélectionné correspond bien au conducteur. Dans cette éventualité, le conducteur est bien reconnu. Il peut alors ensuite émettre des instructions, telle que la commande de l’ouverture des fenêtres ou le démarrage du moteur. Ces instructions seront alors suivies des faits à condition que les droits d’accès du conducteur le permettent.
On peut maintenant décrire le second mode de réalisation du procédé d’identification.
Dans ce second mode, les étapes E1 et E2 sont identiques à celles précitées et décrites en référence à la figure 5.
A l’issue de l’étape E2, il est toutefois prévu que le calculateur procède au calcul d’une signature vocale de base, compte tenu du nouveau signal vocal venant d’être émis par le conducteur. Cette signature vocale de base est une signature vocale de base d’identification
Puis le calculateur compare cette signature vocale de base d’identification avec chacune des signatures vocales de base de référence enregistrées dans la mémoire du calculateur. Il procède pour cela de la même façon que précité, ce qui lui permet d’obtenir N scores.
Puis si le score maximum obtenu est supérieur à un premier seuil prédéterminé, le calculateur peut considérer que le conducteur est reconnu (étape E9).
En revanche, si le score maximum est inférieur à un second seuil prédéterminé, le calculateur peut considérer que le conducteur n’est pas reconnu et qu’il ne pourra
pas l’être (étape E8).
Si le score maximum est compris entre ces deux seuils, le calculateur peut tenter de reconnaître le conducteur en procédant alors comme dans le premier mode de réalisation, en se basant non plus sur les signaux vocaux de base mais plutôt sur les signaux vocaux étendus. Pour cela, il peut mettre en œuvre les étapes E3i et suivantes du premier mode de réalisation décrit.
La présente invention n’est nullement limitée aux modes de réalisation décrits et représentés, mais l’homme du métier saura y apporter toute variante conforme à l’invention. En particulier, on pourrait prévoir que la signature associée à un locuteur soit formée non pas par un jeu de coefficients acoustiques, comme cela a été décrit supra, mais par tout autre élément. A titre d’exemple, la signature vocale d’un locuteur pourra être formée par le signal vocal d’enregistrement lui-même (par le signal brut ou par un signal éventuellement retravaillé, par exemple pour supprimer les bruits parasites).
Encore en variante, le signal d’extension pourra ne pas être accolé directement au début ou à la fin du signal vocal enregistré par les microphones, mais on pourra prévoir de laisser un laps de temps vide entre le signal d’extension et le signal vocal. On notera que de préférence, ces deux signaux ne se recouvriront pas, en tout ou partie, puisque cela aurait pour conséquence de réduire la fiabilité des résultats.
Encore en variante, les signaux d’extension utilisés pour les différents locuteurs enregistrés dans la base de données pourraient être les mêmes, mais cela aurait pour conséquence ici encore de réduire la fiabilité des résultats.
Claims
1. Procédé d’identification d’un locuteur particulier parmi un ensemble de locuteurs, au moyen d’un calculateur qui comporte une mémoire informatique dans laquelle est enregistrée au moins une signature vocale de référence associée à un des locuteurs dudit ensemble, le procédé comprenant des étapes de :
- acquisition d’un signal vocal d’identification (S4i) émis par le locuteur particulier, - élaboration d’une signature vocale d’identification en fonction dudit signal vocal d’identification (S4i),
- comparaison de ladite signature vocale d’identification avec l’au moins une signature vocale de référence enregistrée dans la mémoire informatique, et - identification du locuteur particulier en fonction du résultat de ladite comparaison, caractérisé en ce que l’au moins une signature vocale de référence enregistrée dans la mémoire informatique a été déterminée en fonction d’un signal vocal d’enregistrement et d’un signal d’extension (S3i, S32) prédéterminé, en ce qu’il est prévu, avant l’étape d’élaboration, une étape de génération d’un signal complet (S4) qui comprend ledit signal vocal d’identification (S4i) et ledit signal d’extension (S3i, S32) prédéterminé, et en ce que, à l’étape d’élaboration, la signature vocale d’identification est élaborée en fonction également dudit signal d’extension (S3i, S32).
2. Procédé d’identification selon la revendication précédente, dans lequel la mémoire informatique comporte une pluralité de signatures vocales de référence respectivement associées à une pluralité de locuteurs dudit ensemble, le signal d’extension (S3i, S32) étant associé à un des locuteurs et étant différent des signaux d’extension associés aux autres locuteurs, ladite mémoire stockant chaque signal d’extension de manière associée à un des locuteurs .
3. Procédé d’identification selon la revendication précédente, dans lequel :
- à l’étape de génération, le calculateur génère au moins autant de signaux complets (S4) qu’il y a de locuteurs dans ledit ensemble, chaque signal complet (S4) comprenant ledit signal vocal d’identification (S4i) et un desdits signaux d’extension (S3i, S32) enregistrés dans ladite mémoire,
- à l’étape d’élaboration, le calculateur élabore une signature vocale d’identification pour chaque signal complet (S4),
- à l’étape de comparaison, le calculateur compare chaque signature vocale d’identification avec chaque signature vocale de référence enregistrée dans la mémoire afin d’en déduire un score, et
- à l’étape d’identification, le locuteur particulier est identifié compte tenu des scores déduits.
4. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal complet (S4) est élaboré en apposant le signal d’extension (S3i, S32) avant et/ou après ledit signal vocal d’identification(S4i).
5. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal d’extension (S3i, S32) est une fonction d’une somme d’au moins une sinusoïde de fréquence comprise entre 50 et 650 Hz, et de préférence entre 100 et 500 Hz.
6. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal d’extension (S3i, S32) est issu du produit d’une fonction paramétrable (S1) et d’une fonction fenêtre d’observation (S2), ladite fonction paramétrable (S1) étant préférentiellement modulée en amplitude et/ou en fréquence.
7. Procédé d’identification selon l’une des revendications précédentes, dans lequel :
- l’amplitude maximum du signal d’extension (S3i, S32) est inférieure ou égale à l’amplitude maximum du signal vocal d’identification (S4i), et est de préférence inférieure ou égale à 80% de l’amplitude maximum du signal vocal d’identification (S4i), et/ou
- la durée maximum dudit au moins un signal d’extension (S3i, S32) est inférieure ou égale au tiers de la durée totale du signal complet (S4), et est de préférence égale à 20% de la durée totale du signal complet (S4).
8. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal vocal d’identification (S4i) comporte un nombre de syllabes inférieur ou égal à quatre.
9. Procédé d’enregistrement d’un locuteur particulier au moyen d’un calculateur qui comporte une mémoire informatique, le procédé comprenant des étapes de :
- acquisition d’un signal vocal d’enregistrement émis par le locuteur particulier,
- détermination d’un signal d’extension, - génération d’un signal complet d’enregistrement qui comprend ledit signal vocal d’enregistrement et le signal d’extension,
- détermination d’une signature vocale de référence en fonction du signal complet d’enregistrement, et
- stockage de ladite signature vocale de référence dans ladite mémoire de façon associée avec le locuteur particulier.
10. Véhicule automobile comprenant un habitacle, des moyens d'acquisition d’un signal vocal émis par un locuteur particulier situé dans l’habitacle, et une unité de calcul programmé pour mettre en oeuvre un procédé conforme à l’une des revendications précédentes.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21708020.9A EP4158622B1 (fr) | 2020-05-29 | 2021-03-02 | Procede d'identification d'un locuteur |
US18/000,250 US20230206927A1 (en) | 2020-05-29 | 2021-03-02 | System for identifying a speaker |
CN202180048655.4A CN115836345A (zh) | 2020-05-29 | 2021-03-02 | 用于识别说话者的方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR2005690 | 2020-05-29 | ||
FR2005690A FR3111004B1 (fr) | 2020-05-29 | 2020-05-29 | Procédé d’identification d’un locuteur |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021239280A1 true WO2021239280A1 (fr) | 2021-12-02 |
Family
ID=72560751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/EP2021/055164 WO2021239280A1 (fr) | 2020-05-29 | 2021-03-02 | Procede d'identification d'un locuteur |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230206927A1 (fr) |
EP (1) | EP4158622B1 (fr) |
CN (1) | CN115836345A (fr) |
FR (1) | FR3111004B1 (fr) |
WO (1) | WO2021239280A1 (fr) |
-
2020
- 2020-05-29 FR FR2005690A patent/FR3111004B1/fr active Active
-
2021
- 2021-03-02 US US18/000,250 patent/US20230206927A1/en active Pending
- 2021-03-02 CN CN202180048655.4A patent/CN115836345A/zh active Pending
- 2021-03-02 WO PCT/EP2021/055164 patent/WO2021239280A1/fr unknown
- 2021-03-02 EP EP21708020.9A patent/EP4158622B1/fr active Active
Non-Patent Citations (2)
Title |
---|
PODDAR ARNAB ET AL: "Speaker verification with short utterances: a review of challenges, trends and opportunities", IET BIOMETRICS, IEEE, MICHAEL FARADAY HOUSE, SIX HILLS WAY, STEVENAGE, HERTS. SG1 2AY, UK, vol. 7, no. 2, 1 March 2018 (2018-03-01), pages 91 - 101, XP006076454, ISSN: 2047-4938, DOI: 10.1049/IET-BMT.2017.0065 * |
TIWARI VIBHA: "MFCC and its applications in speaker recognition", INTERNATIONAL JOURNAL ON EMERGING TECHNOLOGIES, 1 January 2010 (2010-01-01), XP055773015, Retrieved from the Internet <URL:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.689.4627&rep=rep1&type=pdf> [retrieved on 20210205] * |
Also Published As
Publication number | Publication date |
---|---|
US20230206927A1 (en) | 2023-06-29 |
FR3111004B1 (fr) | 2022-05-20 |
EP4158622A1 (fr) | 2023-04-05 |
FR3111004A1 (fr) | 2021-12-03 |
EP4158622B1 (fr) | 2024-08-21 |
CN115836345A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1154405B1 (fr) | Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant | |
EP0867856B1 (fr) | "Méthode et dispositif de detection d'activité vocale" | |
EP0974221B1 (fr) | Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile | |
EP0594480B1 (fr) | Procédé de détection de la parole | |
EP1362343B1 (fr) | Procede, module, dispositif et serveur de reconnaissance vocale | |
US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
EP0905677B1 (fr) | Procédé de reconnaissance de parole | |
WO2003048711A2 (fr) | System de detection de parole dans un signal audio en environnement bruite | |
EP3627510B1 (fr) | Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale | |
EP2917868B1 (fr) | Procede d'identification | |
FR2738382A1 (fr) | Systeme de dialogue vocal destine a la fourniture automatisee d'informations | |
EP4158622B1 (fr) | Procede d'identification d'un locuteur | |
BE1023427B1 (fr) | Méthode et système de détermination de validité d'un élément d'un résultat de reconnaissance vocale | |
EP4198971A1 (fr) | Method for selecting voice contents recorded in a database, according to their veracity factor | |
EP1665231B1 (fr) | Procede pour le dopage non supervise et le rejet des mots hors vocabulaire en reconnaissance vocale | |
FR3143787A1 (fr) | Procédé d’identification ou d’authentification d’un occupant de véhicule automobile | |
WO2023232609A1 (fr) | Procédé et dispositif de vérification de l'utilisation d'une interface homme/machine par un opérateur humain | |
EP3065131B1 (fr) | Méthode et système de post-traitement d'un résultat de reconnaissance vocale | |
FR2966635A1 (fr) | Procede et dispositif d'affichage de donnees vocales d'un contenu audio | |
FR3130422A1 (fr) | Procédé de sélection de contenus vocaux en- registrés dans une base de données, en fonction de leur facteur de véracité. | |
WO2005112000A1 (fr) | Procede et systeme de reconnaissance vocale par modelisation contextuelle d’unites vocales | |
FR2923043A1 (fr) | Procede et systeme de creation automatisee de modeles de reconnaissance de contenu sonore | |
FR2689292A1 (fr) | Procédé et système de reconnaissance vocale à réseau neuronal. | |
WO2002082424A1 (fr) | Procede et dispositif d'extraction de parametres acoustiques d'un signal vocal | |
FR2936086A1 (fr) | Procede de reconnaissance rapide de mots ou expressions dans un flux audio incident et dispositif de mise en oeuvre. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21708020 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2021708020 Country of ref document: EP Effective date: 20230102 |