WO2019224434A2 - Improving embedded voice recognition devices - Google Patents

Improving embedded voice recognition devices Download PDF

Info

Publication number
WO2019224434A2
WO2019224434A2 PCT/FR2019/000081 FR2019000081W WO2019224434A2 WO 2019224434 A2 WO2019224434 A2 WO 2019224434A2 FR 2019000081 W FR2019000081 W FR 2019000081W WO 2019224434 A2 WO2019224434 A2 WO 2019224434A2
Authority
WO
WIPO (PCT)
Prior art keywords
nlu
words
model
user
acoustic model
Prior art date
Application number
PCT/FR2019/000081
Other languages
French (fr)
Other versions
WO2019224434A3 (en
Inventor
Joseph DUREAU
Alaa Saade
Alexandre GAULIER
Alice Coucke
Adrien BALL
Théodore BLUCHE
David LEROY
Clément DOUMOURO
Thibault Gisselbrecht
Francesco CALTAGIRONE
Thibaut LAVRIL
Maël PRIMET
Original Assignee
Snips, Sas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Snips, Sas filed Critical Snips, Sas
Publication of WO2019224434A2 publication Critical patent/WO2019224434A2/en
Publication of WO2019224434A3 publication Critical patent/WO2019224434A3/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the field of the invention is that of the adaptation of speech recognition techniques, including those allowing the comprehension of voice commands, to the constraints of a connected object, such as for example a digital assistant, providing autonomous processing.
  • the technical problem to which the present invention responds therefore lies in the possibility of obtaining a speech processing and its interpretation which is carried out in real time and which is of good quality by implementing only the processing and storage capacities. very limited, that is to say the level of that the current embedded devices usable in connected objects can provide, as, by way of example, pico-computers Raspberry Pi 3.
  • the invention proposes to optimize the performance of the three main processes that are usually implemented in speech recognition devices or understanding voice commands, personal assistant type or other connected object, namely: the model acoustic (MA),
  • ML language model
  • the invention lies in the fact of using a network of artificial neurons whose small size and depth are compatible with the storage capacities of an onboard computer of the type mentioned above. , namely of the order of a few tens of Mbytes.
  • a network sized to approximately 3 million parameters makes it possible to hold in a storage space of approximately 10 Mbytes, while the solutions using, to also make the recognition
  • cloud-based resources can contain more than one hundred million parameters and have memory requirements of several gigabytes.
  • the invention makes it possible to compensate for this loss of resolution by implementing, as will be developed below, an optimization of the efficiency of the language model (ML) as well as the natural language interpretation engine (NLU).
  • ML language model
  • NLU natural language interpretation engine
  • This compactness of the acoustic model embedded in the device does not prevent that, in an initial phase of its industrialization prior to its use by the end user, the acoustic model has been connected to a server containing a very developed set of voice recordings. and a generic lexicon indicating in particular the possible correspondence between sounds and phonemes. It is after having accessed and processed these external resources that the neural network of its acoustic model will have been trained to be able to then carry out the sound recognition during operational use.
  • the device may be configured, in a variant of the invention, to mention in its place and place a code indicating that it is is an unknown word.
  • ML language model
  • ASR Automatic Speech Recognition
  • NLU natural language
  • the present invention provides that the data set that is used to drive the language model that it uses is a restricted dataset that only has a specialized vocabulary previously established according to the scope of application. of the onboard device object of the invention.
  • the present invention can use datasets from said method or produced by any other means, including manuals, provided that the data set obtained is sufficiently specific to the intended application domain and requires only a storage space not exceeding the permanent memory capacity of an onboard computer as described above.
  • the voice recognition and command device it is also possible to program the voice recognition and command device so that it can enrich its reference data set according to the particular uses and needs of its user, whether manually by G's initiative.
  • user who can transmit different data by any means (including voice input) or, always with the agreement of the user more automatically, for example by allowing him to read the data contained in a notebook d 'email address.
  • This capacity for personalized enrichment of the reference data of the device is also a technical advantage peculiar to the invention, since on-line voice recognition and voice control systems are instead based in nature on the generic nature of their reference data which must be usable by all their users indifferently.
  • an autonomous embedded system allows its personalization by each of its users.
  • the invention uses a combination of two approaches: on the one hand, a statistical approach (of the "n-gram model” type). ") Which evaluates for each word and phrase the probability of what the next word might be in terms of the context and examples available in the training data set; on the other hand, an approach based on the identification of entities, which are categories of information that can take different values, for example the entity "city” which can take different values corresponding to different cities (Paris, London , New York, ...) that the speech recognition system can integrate into its reference dataset as it is implemented by the user. Some of the most common entities (such as: dates, numbers, temperatures, ...) are already predetermined in the dataset provided to the language model.
  • the language model does not have a pre-existing general graph for all the words in the reference dataset, but the device is programmed to be word-based. identified by the acoustic engine during the voice recognition phase, the different relevant sub-graphs are called in memory and dynamically combined on demand to enable it to analyze the terms of the sentence or the phrase decoded by the acoustic motor.
  • the language model retranscribes in a standardized form comprehensible by the NLU entities, values and queries identified from the dataset drive.
  • the request "to raise the lighting of the chamber to 70% brightness” will be associated with a specialized intention (as a function of the predetermined data set corresponding to the use of the device) and standardized for example under the form “SetLightBrightness”.
  • This intention will be completed by the values of the different entities involved in the query (ie “room” and “brightness”) and expressed for example in a standardized way: “set the (room) [kitchen] lights intensity to (brightness) [65] %].
  • this one is organized in different complementary engines: lexicon, model of statistical interpretation of the queries, model of treatment of the entities, which will be dynamically called and successively implemented during the process interpretation.
  • the invention firstly provides that it is driven from the same limited and specialized data set as that used for training. of the language model.
  • the device can be programmed so that during the training phase of the NLU, it is injected into the reference dataset that it randomly uses a certain proportion of the corresponding code. to an unknown word, a proportion that is chosen to be substantially equal to the occurrence of said code in the results obtained by the acoustic model during its own training phase.
  • NLU natural language interpretation
  • NLU natural language interpretation engine
  • the natural language interpretation engine can use the probability score of each word given by the language model to refuse detection of an entity or an intention whose confidence index seems to be too low.
  • the device can then be programmed to ask a question by any means (including through a voice synthesis) to the user to remove the doubt about the element considered too uncertain.
  • the subject of the invention is an autonomous information processing device that provides embedded voice recognition via a dedicated human-machine interface, and comprising at least:
  • NLU natural language processing engine
  • the acoustic model of this device is driven into an initial initial phase on a generic corpus of sounds in order to improve its automatic speech recognition function and implements an embedded artificial neural network configured so as to be compatible with the reduced storage capacity of said device.
  • FIG. 1 schematically represents the invention in which it can be seen that the sound of the user speaker of the device is firstly processed by the acoustic model (MA) which uses a neural network (RN) and then that results from the acoustic model are successively implemented the language model (ML) then the natural language interpretation engine (NLÜ) to lead for example to the execution of an order consistent with the request formulated by the user, symbolized here by the illumination of a light source.
  • MA acoustic model
  • RN neural network
  • ML language model
  • NLÜ natural language interpretation engine
  • Another aspect of the invention relates to the training phase of the language model (ML) as well as the natural language processing engine (NLU) which are both driven in a prior phase from the same set of predetermined and specialized data depending on the type of use of the information processing device concerned.
  • ML language model
  • NLU natural language processing engine
  • the invention also covers the implementation of a method of improving voice recognition by an onboard device as described above and schematized in the aforementioned FIG. 1, by which the language model is programmed to allow, during the analysis of the words identified by the acoustic module, an improved detection of the words that the automatic speech recognition system has not recognized, by implementing the following steps:
  • the language model is also programmed to distinguish on the one hand categories of information (formerly called “entities”, which may take different values and, on the other hand, for each of these entities, the This approach based on the relationship between entities and values is combined with a statistical approach of the "n-gram model" type in order to reinforce voice recognition capabilities.
  • Another variant allows the end user of a voice recognition device implementing this method to enrich its reference data set according to its particular uses and needs of its user, whether manually by said user who may transmit various data to him by any means (including voice input) or more automatically by allowing him to access data resources that he has or has access to.
  • the voice recognition method above can also be improved by the fact that the language model does not have a pre-existing general graph of all the words in the reference dataset but dynamically combines with the request and function of the words identified by the acoustic module, the relevant sub-graphs enabling it to analyze the terms of the sentence or phrase decoded by the acoustic module. In this way also, it ensures the compactness of the data necessary for the processing of voice recognition or understanding of voice commands without losing performance but allowing it to be fully realized within an embedded device.
  • NLU natural language interpretation engine
  • Another method for improving the interpretation capacity of the intentions and values contained in the voice requests addressed to the voice recognition device consists in carrying out during the operational phase of use of said method the following two steps:

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to methods for improving voice recognition, implemented by a stand-alone information processing device, providing for embedded voice recognition via a dedicated human-machine interface, based on the optimisation of the three essential components, which are: an acoustic model for automatic speech recognition (MA) using an artificial neural network, a language model (ML), and a natural language processing engine (NLU) that must be able to function completely autonomously and efficiently even considering the limited storage capacities and computational power that the connected objects and pico-computers provide.

Description

Description  Description
Titre de l’invention : Amélioration des dispositifs embarqués de reconnaissance vocale Invention Title: Improved On-Board Voice Recognition Devices
Le domaine de l’invention est celui de l’adaptation des techniques de reconnaissance vocale, y compris celles permettant la compréhension des commandes vocales, aux contraintes d’un objet connecté, tel par exemple qu’un assistant numérique, assurant un traitement autonome. The field of the invention is that of the adaptation of speech recognition techniques, including those allowing the comprehension of voice commands, to the constraints of a connected object, such as for example a digital assistant, providing autonomous processing.
On connaît déjà de nombreuses techniques de reconnaissance ou de commande vocale qui utilisent les capacités que procurent les réseaux numériques de type « en nuage » (ou communément « cloud ») pour faire fonctionner un assistant numérique. Numerous recognition or voice command techniques are already known that use the capabilities provided by digital "cloud" (or commonly "cloud") networks to operate a digital assistant.
De telles configurations ont des avantages certains en matière de capacité de calcul et de stockage à distance mais elles impliquent que les données personnelles des utilisateurs, et notamment l’enregistrement de leurs voix sont partiellement ou totalement transmises en ligne et traitées à distance, ce qui induit des risques importants en matière de sécurité et de protection des données personnelles, particulièrement au regard des nouvelles exigences issues du nouveau règlement européen de protection des données, dit « RGPD ». Such configurations have definite advantages in computing capacity and remote storage, but they imply that users' personal data, including the recording of their voices, are partially or fully transmitted online and remotely processed. induces significant risks in terms of security and the protection of personal data, especially with regard to the new requirements of the new European Data Protection Regulation, known as the "RGPD".
Le problème technique auquel répond la présente invention réside donc dans la possibilité d’obtenir un traitement de la parole et son interprétation qui s’effectue en temps réel et qui soit de bonne qualité en ne mettant en œuvre que des capacités de traitement et de stockage très limitées, à savoir du niveau de celles que les dispositifs embarqués actuels utilisables dans les objets connectés peuvent fournir, comme, à titre d’exemple non limitatif, des pico- ordinateurs Raspberry Pi 3. The technical problem to which the present invention responds therefore lies in the possibility of obtaining a speech processing and its interpretation which is carried out in real time and which is of good quality by implementing only the processing and storage capacities. very limited, that is to say the level of that the current embedded devices usable in connected objects can provide, as, by way of example, pico-computers Raspberry Pi 3.
Un tel problème technique est déjà posé par un article de 2017 ayant pour titre « Speech Récognition and Understanding on Harware-Accelerated DSP » (G. Stemmer et Ali, Proceedings Of Interspeech 2017, Show & Telle Contribution, 20/08/2017, pp. 2036-2037) mais qui reste très générique et imprécis s’agissant des moyens techniques pouvant permettre de le résoudre. Such a technical problem is already posed by a 2017 article entitled "Speech Recognition and Understanding on Harware-Accelerated DSP" (G. Stemmer and Ali, Proceedings Of Interspeech 2017, Show & Telle Contribution, 20/08/2017, pp 2036-2037) but which remains very generic and imprecise with regard to the technical means that can be used to solve it.
Pour ce faire, l’invention propose d’optimiser les performances des trois principaux processus qui sont usuellement mis en œuvre dans les dispositifs de reconnaissance vocale ou de compréhension des commandes vocales, de type assistant personnel ou autre objet connecté, à savoir : le modèle acoustique (MA),  To do this, the invention proposes to optimize the performance of the three main processes that are usually implemented in speech recognition devices or understanding voice commands, personal assistant type or other connected object, namely: the model acoustic (MA),
le modèle de langage (désigné ci-après comme « ML »), et  the language model (hereinafter referred to as "ML"), and
le moteur d’interprétation du langage naturel (communément identifié comme « NLU » pour « Natural Language Understanding »)  the natural language interpretation engine (commonly identified as "NLU" for "Natural Language Understanding")
L’optimisation effectuée à chacun de ces trois niveaux facilite celle des autres processus, de telle sorte que leur coopération produise un effet technique conjoint en termes de réduction des besoins de capacité de traitement numérique et de stockage de données. The optimization performed at each of these three levels facilitates that of the other processes, so that their cooperation produces a joint technical effect in terms of reducing the need for digital processing capacity and data storage.
S’agissant en premier lieu du modèle acoustique, l’invention réside dans le fait d’utiliser un réseau de neurones artificiels dont la petite taille et la profondeur sont compatibles avec les capacités de stockage d’un calculateur embarqué du type évoqué ci-dessus, à savoir de l’ordre de quelques dizaines de Moctets. Pour obtenir une telle compacité tout en assurant néanmoins un niveau satisfaisant de reconnaissance vocale en temps réel, on peut réduire en particulier le nombre de paramètres du réseau de neurones. Dans l’état actuel de la technique, par exemple, un réseau dimensionné à hauteur d’environ 3 Millions de paramètres permet de tenir dans un espace de stockage d’environ 10 Moctets, alors que les solutions utilisant, pour faire également de la reconnaissance de parole en temps réel, des ressources de type cloud, peuvent contenir plus d’une centaine de millions de paramètres et présentent des besoins en mémoire de plusieurs Goctets. As regards the acoustic model in the first place, the invention lies in the fact of using a network of artificial neurons whose small size and depth are compatible with the storage capacities of an onboard computer of the type mentioned above. , namely of the order of a few tens of Mbytes. To obtain such compactness while nevertheless ensuring a satisfactory level of speech recognition in real time, it is possible to reduce in particular the number of parameters of the neural network. In the current state of the art, for example, a network sized to approximately 3 million parameters makes it possible to hold in a storage space of approximately 10 Mbytes, while the solutions using, to also make the recognition In real-time, cloud-based resources can contain more than one hundred million parameters and have memory requirements of several gigabytes.
H est également possible selon l’invention de réduire, outre le nombre, la précision des paramètres du réseau de neurones, notamment en recourant à des techniques de décomposition en valeur singulière qui permettent de remplacer une matrice décrivant les connexions du réseau de neurones par la multiplication de matrices plus petites. It is also possible according to the invention to reduce, in addition to the number, the accuracy of the parameters of the neural network, in particular by resorting to singular value decomposition techniques which make it possible to replace a matrix describing the connections of the neural network by the multiplication of smaller matrices.
Si la compacité du réseau de neurones, et donc du modèle acoustique qui repose dessus, ainsi obtenue diminue nécessairement la performance du modèle acoustique en termes de finesse de détection des sons, l’invention permet de compenser cette perte de résolution en mettant en œuvre, comme cela va être développé ci-dessous, une optimisation de l’efficacité du modèle de langage (ML) ainsi que du moteur d’interprétation du langage naturel (NLU). If the compactness of the neural network, and therefore of the acoustic model which rests on it, thus obtained necessarily reduces the performance of the acoustic model in terms of the fineness of sound detection, the invention makes it possible to compensate for this loss of resolution by implementing, as will be developed below, an optimization of the efficiency of the language model (ML) as well as the natural language interpretation engine (NLU).
Cette compacité du modèle acoustique embarqué dans le dispositif n’empêche pas que, dans une phase initiale de son industrialisation préalable à son utilisation par l’utilisateur final, le modèle acoustique a été connecté à un serveur contenant un ensemble très développé d’enregistrements vocaux et un lexique générique lui indiquant notamment la correspondance possible entre sons et phonèmes. C’est après avoir accédé et traité ces ressources extérieures préalables que le réseau de neurones de son modèle acoustique aura été entraîné pour pouvoir effectuer ensuite en situation d’utilisation opérationnelle la reconnaissance des sons. This compactness of the acoustic model embedded in the device does not prevent that, in an initial phase of its industrialization prior to its use by the end user, the acoustic model has been connected to a server containing a very developed set of voice recordings. and a generic lexicon indicating in particular the possible correspondence between sounds and phonemes. It is after having accessed and processed these external resources that the neural network of its acoustic model will have been trained to be able to then carry out the sound recognition during operational use.
Lorsque, en situation ultérieure d’utilisation le modèle acoustique n’arrivera cependant pas à identifier un mot, le dispositif pourra être configuré, dans une variante de l’invention, pour mentionner en son lieu et place un code indiquant qu’il s’agit d’un mot inconnu. When, in a subsequent situation of use, the acoustic model will not succeed in identifying a word, the device may be configured, in a variant of the invention, to mention in its place and place a code indicating that it is is an unknown word.
S’agissant en second lieu du modèle de langage (ML), il s’agit d’un élément central du système qui dans le cadre de la présente invention va coopérer tout à la fois avec le moteur acoustique afin de constituer un système de reconnaissance automatisé de la voix (ci-après désigné comme « ASR » pour « Automatic Speech Récognition ») et avec le moteur d’interprétation du langage naturel (NLU) avec lequel il va partager notamment un jeu de données commun pour leur entraînement. Secondly, as regards the language model (ML), it is a central element of the system which, in the context of the present invention, will cooperate at the same time with the acoustic motor in order to constitute a recognition system. automated speech (hereinafter referred to as "ASR" for "Automatic Speech Recognition") and with the engine of interpretation of the natural language (NLU) with which it will share in particular a common set of data for their training.
C’est en effet le modèle de langage (ML) qui transforme les prédictions produites par le modèle acoustique en phrases, à partir desquelles le moteur d’interprétation du langage naturel (NLU) va extraire des intentions et identifier des champs pouvant prendre différentes valeurs. It is indeed the language model (ML) that transforms the predictions produced by the acoustic model into sentences, from which the natural language interpretation engine (NLU) will extract intentions and identify fields that can take different values. .
Les systèmes de reconnaissance vocale connus utilisent pour entraîner leur modèle de langage des bases de données lexicales généralistes très volumineuses, qui nécessitent souvent plusieurs téraoctets de stockage, ainsi que d’importantes ressources de calcul pour réaliser le décodage. A l’inverse, la présente invention prévoit que le jeu de données qui est utilisé pour entraîner le modèle de langage qu’elle utilise est un jeu de données restreint qui ne comporte qu’un vocabulaire spécialisé établi préalablement en fonction du domaine d’application du dispositif embarqué objet de l’invention. Known voice recognition systems use for their language model very large general purpose lexical databases, which often require several terabytes of storage, as well as significant computing resources to perform the decoding. Conversely, the present invention provides that the data set that is used to drive the language model that it uses is a restricted dataset that only has a specialized vocabulary previously established according to the scope of application. of the onboard device object of the invention.
Pour engendrer un tel jeu de données spécialisé, il est possible d’employer différentes techniques plus ou moins automatisées capables de produire à partir d’un certain nombre de requêtes concernant le domaine d’utilisation visé, un ensemble diversifié de mots et de phrases exprimant de manière différente les mêmes intentions et utilisant les mêmes champs. To generate such a specialized data set, it is possible to use various more or less automated techniques capable of producing from a number of queries concerning the intended field of use a diverse set of words and sentences expressing in a different way the same intentions and using the same fields.
Le déposant a notamment décrit dans sa demande de brevet européen n° 17200837.7 une méthode qui permet de produire de façon semi-automatique et dans des délais courts des jeux de données spécialisés de taille réduite aptes à servir en particulier à l’entraînement d’un moteur d’interprétation du langage naturel. The applicant has in particular described in his European patent application No. 17200837.7 a method which makes it possible to produce semiautomatically and in a short time, specialized data sets of reduced size which can be used in particular for training a trainer. natural language interpretation engine.
La présente invention peut utiliser des jeux de données issues de ladite méthode ou produite par tous autres moyens, y compris manuels, dès lors que le jeu de données obtenu est suffisamment spécifique du domaine d’application visé et ne requiert qu’un espace de stockage ne dépassant la capacité de mémoire permanente d’un calculateur embarqué tel que décrit plus haut.  The present invention can use datasets from said method or produced by any other means, including manuals, provided that the data set obtained is sufficiently specific to the intended application domain and requires only a storage space not exceeding the permanent memory capacity of an onboard computer as described above.
On peut également selon l’invention programmer le dispositif de reconnaissance et de commande vocale pour qu’il puisse enrichir son jeu de données de référence en fonction des usages et des besoins particuliers de son utilisateur, que ce soit manuellement à l’initiative de G utilisateur qui pourra lui transmettre différentes données par tout moyen (y compris par saisie vocale) ou, toujours avec l’accord de l’utilisateur de manière plus automatique, comme par exemple en l’autorisant à prendre connaissance des données contenues dans un carnet d’adresse électronique. Cette capacité d’enrichissement personnalisé des données de référence du dispositif est également un avantage technique propre à l’invention, puisque les systèmes de reconnaissance et de commande vocale en ligne sont au contraire basés par nature sur le caractère générique de leurs données de références qui doivent pouvoir être utilisés par tous leurs utilisateurs indifféremment. A l’inverse, un système embarqué autonome permet sa personnalisation par chacun de ses utilisateurs. According to the invention, it is also possible to program the voice recognition and command device so that it can enrich its reference data set according to the particular uses and needs of its user, whether manually by G's initiative. user who can transmit different data by any means (including voice input) or, always with the agreement of the user more automatically, for example by allowing him to read the data contained in a notebook d 'email address. This capacity for personalized enrichment of the reference data of the device is also a technical advantage peculiar to the invention, since on-line voice recognition and voice control systems are instead based in nature on the generic nature of their reference data which must be usable by all their users indifferently. On the contrary, an autonomous embedded system allows its personalization by each of its users.
Pour favoriser l’efficacité du modèle de langage (ML), qui est entraîné sur un tel jeu de données limité, l’invention utilise une combinaison de deux approches : d’une part, une approche statistique (de type « n-gram model ») qui évalue pour chaque mot et membre de phrase la probabilité de ce que pourrait être le mot suivant au regard du contexte et des exemples disponibles dans le jeu de données d’entraînement ; d’autre part, une approche basée sur l’identification d’entités, qui sont des catégories d’information pouvant prendre différentes valeurs, comme par exemple l’entité « ville » qui peut prendre différentes valeurs correspondant à différentes villes (Paris, Londres, New-York, ...) que le système de reconnaissance vocale pourra intégrer à son jeu de données de référence au fur et à mesure de sa mise en œuvre par l’utilisateur. Certaines des entités les plus courantes (comme par exemple : dates, nombres, températures, ...) sont déjà prédéterminées dans le jeu de données fourni au modèle de langage. Pour alléger le poids des données à stocker et à traiter, le modèle de langage n’est pas doté d’un graphe général préexistant portant sur tous les mots du jeu de données de référence mais le dispositif est programmé pour qu‘en fonction des mots qu’identifie le moteur acoustique lors de la phase de reconnaissance vocale, les différents sous-graphes pertinents soit appelés en mémoire et combinés dynamiquement à la demande afin de lui permettre d’analyser les termes de la phrase ou du membre de phrase décodés par le moteur acoustique. To promote the efficiency of the language model (ML), which is driven on such a limited data set, the invention uses a combination of two approaches: on the one hand, a statistical approach (of the "n-gram model" type). ") Which evaluates for each word and phrase the probability of what the next word might be in terms of the context and examples available in the training data set; on the other hand, an approach based on the identification of entities, which are categories of information that can take different values, for example the entity "city" which can take different values corresponding to different cities (Paris, London , New York, ...) that the speech recognition system can integrate into its reference dataset as it is implemented by the user. Some of the most common entities (such as: dates, numbers, temperatures, ...) are already predetermined in the dataset provided to the language model. To reduce the weight of the data to be stored and processed, the language model does not have a pre-existing general graph for all the words in the reference dataset, but the device is programmed to be word-based. identified by the acoustic engine during the voice recognition phase, the different relevant sub-graphs are called in memory and dynamically combined on demand to enable it to analyze the terms of the sentence or the phrase decoded by the acoustic motor.
Pour faciliter ensuite l’interprétation de ses résultats par le moteur d’interprétation du langage naturel (NLU), le modèle de langage retranscrit sous une forme normalisée et compréhensible par le NLU les entités, valeurs et les requêtes identifiées à partir du jeu de données d’entraînement. To then facilitate the interpretation of its results by the NLU, the language model retranscribes in a standardized form comprehensible by the NLU entities, values and queries identified from the dataset drive.
A titre d’exemple, la requête « monter l’éclairage de la chambre à 70% de luminosité » va être associée avec une intention spécialisée (en fonction du jeu de donnée prédéterminé correspondant à l’usage du dispositif) et normalisée par exemple sous la forme ”SetLightBrightness”. Cette intention sera complétée par les valeurs des différentes entités impliquées dans la requête (à savoir“room” et“brightness”) et exprimée par exemple de manière normalisée :“set the (room)[kitchen] lights intensity to (brightness)[65%]”. By way of example, the request "to raise the lighting of the chamber to 70% brightness" will be associated with a specialized intention (as a function of the predetermined data set corresponding to the use of the device) and standardized for example under the form "SetLightBrightness". This intention will be completed by the values of the different entities involved in the query (ie "room" and "brightness") and expressed for example in a standardized way: "set the (room) [kitchen] lights intensity to (brightness) [65] %]. "
Pour réduire également la taille du modèle de langage, celui-ci est organisé en différents moteurs complémentaires : lexique, modèle d’interprétation statistique des requêtes, modèle de traitement des entités, qui vont être dynamiquement appelés et successivement mis en oeuvre au cours du processus d’interprétation. To reduce also the size of the language model, this one is organized in different complementary engines: lexicon, model of statistical interpretation of the queries, model of treatment of the entities, which will be dynamically called and successively implemented during the process interpretation.
S’agissant en troisième lieu du moteur d’interprétation du langage naturel (NLU), l’invention prévoit tout d’abord qu’il est entraîné à partir du même jeu de données limité et spécialisé que celui qui a servi à l’entraînement du modèle de langage. Thirdly, as regards the natural language interpretation engine (NLU), the invention firstly provides that it is driven from the same limited and specialized data set as that used for training. of the language model.
Pour renforcer sa capacité à identifier des mots inconnus, on peut programmer le dispositif pour que lors de la phase d’entrainement du NLU, il soit injecté dans le jeu de données de référence qu’il utilise de manière aléatoire une certaine proportion du code correspondant à un mot inconnu, proportion qui est choisie pour être sensiblement égale à l’occurrence du dit code dans les résultats obtenus par le modèle acoustique lors de sa propre phase d’entraînement. To reinforce its capacity to identify unknown words, the device can be programmed so that during the training phase of the NLU, it is injected into the reference dataset that it randomly uses a certain proportion of the corresponding code. to an unknown word, a proportion that is chosen to be substantially equal to the occurrence of said code in the results obtained by the acoustic model during its own training phase.
Pour déterminer les intentions exprimées par les requêtes que le modèle de langage a extrait des résultats de la phase de reconnaissance vocale par le modèle acoustique et qu’il a traduit de manière normalisée, le moteur d’interprétation du langage naturel (NLU) peut aussi croiser deux approches qui seront successivement mises en oeuvre : To determine the intentions expressed by the queries that the language model has extracted from the speech recognition phase results by the acoustic model and that it has translated in a standardized manner, the natural language interpretation (NLU) engine can also to cross two approaches that will successively be implemented:
- un premier traitement déterministe de type « expression régulière » par lequel le NLU ne retiendra le résultat que s’il lui paraît strictement conforme à ce que son jeu de données de référence lui indique, et, dans le cas où le NLU n’a pas pu retenir le résultat à l’issue de la première étape, un traitement probabiliste de type « conditionnal random field », permettant d’extrapoler un résultat à partir d’une probabilité de détection d’une intention. Le moteur d’interprétation du langage naturel (NLU) traite également les entités identifiées par le modèle de langage et leur attribue les valeurs correspondant à celles que le modèle acoustique a détecté à partir de la requête de commande prononcée par l’utilisateur. - a first deterministic "regular expression" type of processing by which the NLU will retain the result only if it appears strictly consistent with what its reference dataset indicates to it, and, in the case where the NLU does not could not retain the result at the end of the first step, a probabilistic treatment of the type "conditional random field", allowing to extrapolate a result from a probability of detection of an intention. The natural language interpretation engine (NLU) also processes the entities identified by the language model and assigns them the values corresponding to those that the acoustic model has detected from the command request uttered by the user.
Pour améliorer la performance de cette détection des intentions, on peut également prévoir selon l’invention que le moteur d’interprétation du langage naturel (NLU) puisse utiliser le score de probabilité de chaque mot donné par le modèle de langage pour refuser la détection d’une entité ou d’une intention dont l’indice de confiance lui semble trop faible. Le dispositif peut alors être programmé pour poser une question par tout moyen (y compris par le biais d’une synthèse vocale) à l’utilisateur afin de lever le doute sur l’élément considéré comme trop incertain.  To improve the performance of this detection of intentions, it is also possible according to the invention that the natural language interpretation engine (NLU) can use the probability score of each word given by the language model to refuse detection of an entity or an intention whose confidence index seems to be too low. The device can then be programmed to ask a question by any means (including through a voice synthesis) to the user to remove the doubt about the element considered too uncertain.
Ci-après, un exposé de l’invention. Hereinafter, a presentation of the invention.
Selon un premier aspect, l’invention a pour objet un dispositif autonome de traitement de l’information assurant de manière embarquée la reconnaissance vocale par le biais d’une interface homme-machine dédiée, et comprenant au moins :  According to a first aspect, the subject of the invention is an autonomous information processing device that provides embedded voice recognition via a dedicated human-machine interface, and comprising at least:
un modèle acoustique pour la reconnaissance automatique de la parole,  an acoustic model for automatic speech recognition,
un modèle de langage (ML), et  a language model (ML), and
- un moteur de traitement du langage naturel (NLU) tel que l’ensemble de ces moyens ainsi que les jeux de données et les bases qu’ils utilisent pour la reconnaissance et la commande vocale, tels que notamment les lexiques de vocabulaire, sont entièrement stockés localement dans le dispositif autonome de traitement de l’information, et que la mise en œuvre par l’utilisateur final d’aucune des phases opérationnelles de reconnaissance et de commande vocale au travers du dit système n’implique l’accès à des ressources extérieures ni ne comporte la transmission à un serveur extérieur de données issues de ces traitements.  a natural language processing engine (NLU) such that all these means as well as the data sets and the bases that they use for recognition and voice control, such as in particular vocabulary lexicons, are entirely stored locally in the autonomous information processing device, and that the implementation by the end user of any of the operational phases of recognition and voice control through the said system does not imply access to resources external or does not include the transmission to an external server of data from these treatments.
Selon un second aspect de l’invention, le modèle acoustique de ce dispositif est entraîné dans une phase préalable initiale sur un corpus générique de sons afin de perfectionner sa fonction de reconnaissance automatique de la parole et met en œuvre un réseau de neurones artificiels embarqué configuré de manière à être compatible avec les capacités de stockage réduit du dit dispositif.  According to a second aspect of the invention, the acoustic model of this device is driven into an initial initial phase on a generic corpus of sounds in order to improve its automatic speech recognition function and implements an embedded artificial neural network configured so as to be compatible with the reduced storage capacity of said device.
La figure 1 représente schématiquement l’invention où l’on voit que le son du locuteur utilisateur du dispositif est tout d’abord traité par le modèle acoustique (MA) lequel fait appel à un réseau de neurones (RN) puis qu’à partir des résultats issus du modèle acoustique sont successivement mis en œuvre le modèle de langage (ML) puis le moteur d’interprétation du langage naturel (NLÜ) pour aboutir par exemple à l’exécution d’une commande conforme à la requête formulée par l’utilisateur, symbolisée ici par l’éclairage d’une source lumineuse. FIG. 1 schematically represents the invention in which it can be seen that the sound of the user speaker of the device is firstly processed by the acoustic model (MA) which uses a neural network (RN) and then that results from the acoustic model are successively implemented the language model (ML) then the natural language interpretation engine (NLÜ) to lead for example to the execution of an order consistent with the request formulated by the user, symbolized here by the illumination of a light source.
Un autre aspect de l’invention concerne la phase d’entraînement du modèle de langage (ML) ainsi que du moteur de traitement du langage naturel (NLU) qui sont tous les deux entraînés dans une phase préalable à partir d’un même jeu de données prédéterminées et spécialisées en fonction du type d’utilisation du dispositif de traitement de l’information concerné. Another aspect of the invention relates to the training phase of the language model (ML) as well as the natural language processing engine (NLU) which are both driven in a prior phase from the same set of predetermined and specialized data depending on the type of use of the information processing device concerned.
L’invention couvre également la mise en œuvre d’un procédé d’amélioration de la reconnaissance vocale par un dispositif embarqué tel que décrit précédemment et schématisé dans la figure 1 précitée, par lequel le modèle de langage est programmé pour permettre, lors de l’analyse des mots identifiés par le module acoustique, une détection améliorée des mots que le système de reconnaissance automatique de la parole n’a pas reconnus, par la mise en œuvre des étapes suivantes : The invention also covers the implementation of a method of improving voice recognition by an onboard device as described above and schematized in the aforementioned FIG. 1, by which the language model is programmed to allow, during the analysis of the words identified by the acoustic module, an improved detection of the words that the automatic speech recognition system has not recognized, by implementing the following steps:
- identifier parmi les mots prononcés par l’utilisateur, chacun de ceux qui n’ont pas leur correspondance précise dans le jeu de vocabulaire prédéterminé,  identify among the words pronounced by the user, each of those who do not have their precise correspondence in the predetermined vocabulary game,
- s’agissant de ces mots, refuser de les rapprocher d’autres mots présents dans le vocabulaire prédéterminé dont la prononciation est proche,  - in the case of these words, refuse to relate them to other words present in the predetermined vocabulary whose pronunciation is near,
- les remplacer par une valeur générique les identifiant comme mots inconnus.  - replace them with a generic value identifying them as unknown words.
Dans une variante du même procédé, le modèle de langage est également programmé pour distinguer d’une part des catégories d’information (précédemment dénommées « entités », susceptibles de prendre différentes valeurs et d’autre part, pour chacune de ces entités, les différentes valeurs qu’elle peut prendre. Cette approche basée sur la relation entre entités et valeurs se combine avec une approche statistique du type « n-gram modèle » afin de renforcer les capacités de reconnaissance vocale. In a variant of the same method, the language model is also programmed to distinguish on the one hand categories of information (formerly called "entities", which may take different values and, on the other hand, for each of these entities, the This approach based on the relationship between entities and values is combined with a statistical approach of the "n-gram model" type in order to reinforce voice recognition capabilities.
Une autre variante permet à l’utilisateur final d’un dispositif de reconnaissance vocale mettant en œuvre ce procédé d’enrichir son jeu de données de référence en fonction de ses usages et besoins particuliers de son utilisateur, que ce soit manuellement par ledit utilisateur qui peut lui transmettre différentes données par tout moyen (y compris par saisie vocale) ou de manière plus automatique en l’autorisant à accéder à des ressources de données dont il dispose ou dont il a l’accès.  Another variant allows the end user of a voice recognition device implementing this method to enrich its reference data set according to its particular uses and needs of its user, whether manually by said user who may transmit various data to him by any means (including voice input) or more automatically by allowing him to access data resources that he has or has access to.
Le procédé de reconnaissance vocale ci-dessus peut être également amélioré par le fait que le modèle de langage ne dispose pas au préalable d’un graphe général préexistant portant sur tous les mots du jeu de données de référence mais combine dynamiquement à la demande et en fonction des mots qu’identifie le module acoustique, les sous-graphes pertinents lui permettant d’analyser les termes de la phrase ou du membre de phrase décodés par le module acoustique. De cette manière également, il assure la compacité des données nécessaires au traitement de la reconnaissance vocale ou de la compréhension des commandes vocales sans perdre en performances mais en permettant qu’il soit entièrement réalisé au sein d’un dispositif embarqué.  The voice recognition method above can also be improved by the fact that the language model does not have a pre-existing general graph of all the words in the reference dataset but dynamically combines with the request and function of the words identified by the acoustic module, the relevant sub-graphs enabling it to analyze the terms of the sentence or phrase decoded by the acoustic module. In this way also, it ensures the compactness of the data necessary for the processing of voice recognition or understanding of voice commands without losing performance but allowing it to be fully realized within an embedded device.
Une autre variante du procédé fait en sorte que le moteur d’interprétation du langage naturel (NLU) soit programmé pour renforcer la difficulté de son apprentissage afin d’améliorer sa performance en injectant aléatoirement dans le jeu de données de référence utilisé pour son entrainement une certaine proportion de mots inconnus, et en tenant compte pour le calcul de cette proportion de la fréquence des mots identifiés comme inconnus par le module acoustique (MA) lors de son propre apprentissage.  Another variant of the method ensures that the natural language interpretation engine (NLU) is programmed to reinforce the difficulty of its learning in order to improve its performance by injecting randomly into the reference data set used for its training. certain proportion of unknown words, and taking into account for the calculation of this proportion of the frequency of the words identified as unknown by the acoustic module (MA) during its own learning.
Une autre méthode pour améliorer la capacité d’interprétation des intentions et valeurs contenues dans les requêtes vocales adressées au dispositif de reconnaissance vocale consiste à réaliser lors de la phase opérationnelle d’utilisation du dit procédé les deux étapes suivantes :  Another method for improving the interpretation capacity of the intentions and values contained in the voice requests addressed to the voice recognition device consists in carrying out during the operational phase of use of said method the following two steps:
- un traitement déterministe par lequel le NLU ne retient le résultat que s’il lui paraît strictement conforme à ce que son jeu de données de référence lui indique, et, dans le cas où le NLU n’a pas pu retenir le résultat à l’issue de la première étape, un traitement probabiliste permettant d’extrapoler un résultat à partir d’une probabilité de détection d’une intention. - a deterministic treatment by which the NLU retains the result only if it appears to him strictly consistent with what his reference dataset indicates to him, and, in the case where the NLU was unable to retain the result at the end of the first step, a probabilistic process that makes it possible to extrapolate a result from a probability of detection of an intention.

Claims

Revendications claims
1. Procédé d’amélioration de la reconnaissance vocale mis en œuvre par un dispositif autonome de traitement de l’information assurant de manière embarquée la reconnaissance vocale par le biais d’une interface homme-machine dédiée, et comprenant en local au moins les trois éléments suivant : A method for improving speech recognition implemented by an autonomous information processing device that ensures embedded voice recognition via a dedicated human-machine interface, and locally comprising at least the three next items:
- un modèle acoustique pour la reconnaissance automatique de la parole (MA), - an acoustic model for automatic speech recognition (AD),
- un modèle de langage (ML), et  - a language model (ML), and
- un moteur de traitement du langage naturel (NLU) caractérisé en ce que le modèle acoustique est entraîné sur corpus générique de sons et utilise un réseau de neurones artificiels stocké dans la mémoire permanente du dit dispositif embarqué et en ce que le modèle de langage est programmé pour permettre, lors de l’analyse des mots identifiés par le modèle acoustique, une détection améliorée des mots que le système de reconnaissance automatique de la parole n’a pas reconnus, par la mise en œuvre des étapes suivantes :  a natural language processing engine (NLU) characterized in that the acoustic model is driven on a generic corpus of sounds and uses an artificial neural network stored in the permanent memory of said embedded device and in that the language model is programmed to allow, during the analysis of the words identified by the acoustic model, an improved detection of the words that the automatic speech recognition system has not recognized, by the implementation of the following steps:
- identifier parmi les mots prononcés par l’utilisateur, chacun de ceux qui n’ont pas leur correspondance précise dans le jeu de vocabulaire spécialisé, - identify among the words pronounced by the user, each of those who do not have their exact match in the specialized vocabulary game,
- s’agissant de ces mots, refuser de les rapprocher d’autres mots présents dans le vocabulaire spécialisé dont la prononciation est proche, - in the case of these words, refuse to relate them to other words in the specialized vocabulary whose pronunciation is close,
- les remplacer par une valeur générique les identifiant comme mots inconnus. - replace them with a generic value identifying them as unknown words.
2. Procédé selon la revendication 1, caractérisé en ce que le modèle de langage est programmé de manière à distinguer d’une part des entités correspondant à des catégories d’information susceptibles de prendre différentes valeurs et d’autre part, pour chacune de ces entités, les différentes valeurs que chacune d’entre elle peut prendre, et en ce que cette approche basée sur la relation entre entités et valeurs se combine avec une approche statistique du type « n- gram modèle » afin de renforcer les capacités de reconnaissance vocale. 2. Method according to claim 1, characterized in that the language model is programmed so as to distinguish firstly entities corresponding to categories of information likely to take different values and secondly, for each of these entities, the different values that each of them can take, and that this approach based on the relationship between entities and values combines with a statistical approach of the type "n-gram model" in order to reinforce the voice recognition capabilities .
3. Procédé selon l’une ou plusieurs des revendications 1 à 2, caractérisé en ce que le dispositif mettant en œuvre ledit procédé est programmé pour que son jeu de données de référence puisse être enrichi en fonction des usages et des besoins particuliers de son utilisateur soit à partir de données saisies par le dit utilisateur soit récupérées par connexion à des ressources de données extérieures dont le dit utilisateur a autorisé l’accès. 3. Method according to one or more of claims 1 to 2, characterized in that the device implementing said method is programmed so that its reference data set can be enriched according to the uses and particular needs of its user. or from data entered by said user or retrieved by connection to external data resources which said user has authorized access.
4. Procédé selon l’une ou plusieurs des revendications 1 à 3, caractérisé en ce que le modèle de langage ne dispose pas au préalable d’un graphe général préexistant portant sur tous les mots du jeu de données de référence mais combine dynamiquement à la demande et en fonction des mots qu’identifie le modèle acoustique, les sous-graphes pertinents lui permettant d’analyser les termes de la phrase ou du membre de phrase décodés par le modèle acoustique. Method according to one or more of claims 1 to 3, characterized in that the language model does not have beforehand a pre-existing general graph for all the words of the reference data set but dynamically combines with the asks and according to the words identified by the acoustic model, the relevant subgraphs allowing him to analyze the terms of the sentence or the phrase decoded by the acoustic model.
5. Procédé selon l’une ou plusieurs des revendications 1 à 4, caractérisé en ce que le moteur d’interprétation du langage naturel (NLU) est programmé pour renforcer la difficulté de son apprentissage afin d’améliorer sa performance, en injectant aléatoirement dans le jeu de données de référence utilisé pour son entrainement une certaine proportion de mots inconnus, Method according to one or more of claims 1 to 4, characterized in that the natural language interpretation engine (NLU) is programmed to reinforce the difficulty of its learning to improve performance, by randomly injecting into the reference dataset used for training a certain proportion of unknown words,
- et en tenant compte pour le calcul de cette proportion de la fréquence des mots identifiés comme inconnus par le modèle acoustique (ASR) lors de son propre apprentissage. and taking into account for the calculation of this proportion of the frequency of the words identified as unknown by the acoustic model (ASR) during its own learning.
6. Procédé selon l’une ou plusieurs des revendications 1 à 5, caractérisé en ce que : Method according to one or more of claims 1 to 5, characterized in that:
- le moteur d’interprétation du langage naturel (NLU) réalise sur les résultats normalisés issus du modèle de langage un traitement déterministe par lequel le NLU ne retient le résultat que s’il lui paraît strictement conforme à ce que son jeu de données de référence lui indique,- the natural language interpretation engine (NLU) performs on the standardized results from the language model a deterministic processing by which the NLU retains the result only if it appears strictly consistent with its reference dataset tells him,
- puis dans le cas où le NLU n’a pas pu retenir le résultat à l’issue de la première étape, un traitement probabiliste permettant d’extrapoler un résultat à partir d’une probabilité de détection d’une intention. and then in the case where the NLU could not retain the result at the end of the first step, a probabilistic process making it possible to extrapolate a result from a probability of detection of an intention.
7. Procédé selon l’une ou plusieurs des revendications 1 à 6, caractérisé en ce qu’il met en œuvre les étapes suivantes : 7. Method according to one or more of claims 1 to 6, characterized in that it implements the following steps:
- le moteur d’interprétation du langage naturel (NLU) utilise le score de probabilité de chaque mot donné par le modèle de langage pour refuser la détection d’une entité ou d’une intention dont l’indice de confiance lui semble trop faible, the natural language interpretation engine (NLU) uses the probability score of each word given by the language model to refuse the detection of an entity or an intention whose confidence index seems to be too low,
- dans le cas d’un tel refus, le dispositif est programmé pour interroger, notamment mais non exclusivement par le biais d’une synthèse vocale, G utilisateur afin que le dit utilisateur puisse lever le doute sur l’interprétation de l’élément considéré comme incertain. in the case of such a refusal, the device is programmed to interrogate, in particular but not exclusively by means of a voice synthesis, the user so that the said user can remove the doubt as to the interpretation of the element considered. as uncertain.
8. Dispositif autonome de traitement de l’information assurant de manière embarquée la reconnaissance vocale par le biais d’une interface homme-machine dédiée, et comprenant en local au moins les trois éléments suivant : 8. A standalone information processing device that provides embedded voice recognition via a dedicated human-machine interface, and locally comprising at least the following three elements:
- un modèle acoustique pour la reconnaissance automatique de la parole (MA), - an acoustic model for automatic speech recognition (AD),
- un modèle de langage (ML), et  - a language model (ML), and
- un moteur de traitement du langage naturel (NLU), caractérisé en ce qu’il met en œuvre un procédé d’amélioration de la reconnaissance vocale selon l’une ou plusieurs des revendication 1 à 7.  a natural language processing engine (NLU), characterized in that it implements a method for improving speech recognition according to one or more of claims 1 to 7.
PCT/FR2019/000081 2018-05-24 2019-05-24 Improving embedded voice recognition devices WO2019224434A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1870602 2018-05-24
FR1870602A FR3081599A1 (en) 2018-05-24 2018-05-24 IMPROVEMENT OF VOICE RECOGNITION VOICE RECEIVING DEVICES

Publications (2)

Publication Number Publication Date
WO2019224434A2 true WO2019224434A2 (en) 2019-11-28
WO2019224434A3 WO2019224434A3 (en) 2020-10-01

Family

ID=66218159

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2019/000081 WO2019224434A2 (en) 2018-05-24 2019-05-24 Improving embedded voice recognition devices

Country Status (2)

Country Link
FR (1) FR3081599A1 (en)
WO (1) WO2019224434A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515618A (en) * 2020-04-09 2021-10-19 北京搜狗科技发展有限公司 Voice processing method, apparatus and medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
G. STEMMER ET AL.: "Speech Récognition and Understanding on Harware-Accelerated DSP", PROCEEDINGS OF INTERSPEECH 2017, SHOW & TELLE CONTRIBUTION, 20 August 2017 (2017-08-20), pages 2036 - 2037, XP055584811

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515618A (en) * 2020-04-09 2021-10-19 北京搜狗科技发展有限公司 Voice processing method, apparatus and medium

Also Published As

Publication number Publication date
WO2019224434A3 (en) 2020-10-01
FR3081599A1 (en) 2019-11-29

Similar Documents

Publication Publication Date Title
RU2747425C2 (en) Real-time answer system to questions from different fields of knowledge
US20240194190A1 (en) Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
US10922491B2 (en) Natural transfer of knowledge between human and artificial intelligence
CN109509470B (en) Voice interaction method and device, computer readable storage medium and terminal equipment
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
Mirheidari et al. Detecting Signs of Dementia Using Word Vector Representations.
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US11423885B2 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
EP3508991A1 (en) Man-machine interaction method and apparatus based on artificial intelligence
US20200075024A1 (en) Response method and apparatus thereof
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
WO2002067142A2 (en) Device for retrieving data from a knowledge-based text
WO2015049198A1 (en) Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method
US11276403B2 (en) Natural language speech processing application selection
US9886951B2 (en) Analysis of professional-client interactions
Xin et al. Cross-Lingual Text-To-Speech Synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker Space.
Zhang Voice keyword retrieval method using attention mechanism and multimodal information fusion
WO2019224434A2 (en) Improving embedded voice recognition devices
US11508372B1 (en) Natural language input routing
EP1285435B1 (en) Syntactic and semantic analysis of voice commands
WO2016116459A1 (en) Lemmatisation method, and corresponding device and program
Kumala et al. Indonesian speech emotion recognition using cross-corpus method with the combination of MFCC and Teager energy features
Khan et al. Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis
CN112820274B (en) Voice information recognition correction method and system
Li et al. Unsupervised speech representation learning for behavior modeling using triplet enhanced contextualized networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19731319

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19731319

Country of ref document: EP

Kind code of ref document: A2