Connect public, paid and private patent data with Google Patents Public Datasets

Method, device and computer program for searching for keywords in a speech signal

Info

Publication number
WO2009101319A1
WO2009101319A1 PCT/FR2009/050159 FR2009050159W WO2009101319A1 WO 2009101319 A1 WO2009101319 A1 WO 2009101319A1 FR 2009050159 W FR2009050159 W FR 2009050159W WO 2009101319 A1 WO2009101319 A1 WO 2009101319A1
Authority
WO
Grant status
Application
Patent type
Prior art keywords
speech
signal
search
segmentation
converting
Prior art date
Application number
PCT/FR2009/050159
Other languages
French (fr)
Inventor
Corentin Dubois
Delphine Charlet
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

A method of identifying at least one keyword in a speech signal, comprising the steps consisting in: a/ performing a search for a series of sub-lexical units which is obtained by converting the keyword, in a sequence of sub-lexical units which is obtained by converting the speech signal, b/ detecting segmentation marks in the speech signal, and c/ using the segmentation marks detected in step b/ to validate or deny the results of the search of step a/.

Description

Procédé, dispositif et programme d'ordinateur pour la recherche de mots-clés dans un signal de parole The method, device and computer program to search for keywords in a speech signal

L'invention se rapporte au domaine de l'identification de mots-clés dans un signal de parole. The invention relates to the field of identification of keywords in a speech signal.

Lorsqu'une personne prononce une phrase, elle génère un signal acoustique. When a person makes a statement, it generates an acoustic signal. Ce signal acoustique peut être transformé en signal électrique pour être traité. This acoustic signal can be converted into electrical signals for processing. Néanmoins, dans la suite de la description, on utilisera le terme « signal acoustique », « signal de parole » ou « phrase prononcée » pour désigner tout signal représentatif du signal acoustique. However, in the following description, the term we use "acoustic signal", "speech signal" or "phrase uttered" to refer to any signal representative of the acoustic signal.

On peut chercher à reconnaître les mots prononcés en procédant par recherche de mots-clés dans le signal de parole, par exemple selon un procédé STD (de l'anglais « Spoken Term Détection »). We can try to recognize the words uttered by process of search keywords in the speech signal, such as an STD process (from the English "Spoken Term Detection"). Par exemple, on peut chercher à détecter et localiser toutes les occurrences de prononciation d'un mot-clé dans le signal de parole émis par un présentateur de journal télévisé. For example, we can try to detect and locate all the pronunciation of occurrences of a keyword in the speech signal from a television news presenter. Le mot-clé peut être saisi de façon textuelle par un utilisateur. The keyword can be entered textually by a user.

Une approche connue consiste à utiliser un procédé de reconnaissance automatique de la parole à grand vocabulaire ou LVCSR (de l'anglais « Large Vocabulary Continuous Speech Recognizer »), pour transcrire le signal de parole en un texte. A known approach is to use an automatic recognition method of speech large vocabulary or LVCSR (from the English "Large Vocabulary Continuous Speech Recognizer") to transcribe the speech signal into text. Une recherche textuelle classique est ensuite effectuée pour identifier le ou les mot(s)-clé(s) recherché(s) dans le texte. A classic text search is then performed to identify the word (s) (s) desired (s) in the text. Toutefois, les procédés LVCSR conduisent à un taux d'erreurs non négligeable, par exemple de 15 à 20%. However, LVCSR processes result in a significant error rate, for example 15 to 20%.

En outre, les procédés LVCSR utilisent des dictionnaires fermés, ce qui constitue une limite, même si certains dictionnaires peuvent présenter un nombre d'entrées relativement élevé, de l'ordre de 70000 actuellement. In addition, the methods use LVCSR closed dictionaries, which constitutes a limit, even if some dictionaries may have a relatively large number of inputs, of the order of 70 000 currently. En effet, une requête formulée par un utilisateur peut contenir un ou plusieurs mot(s)-clé(s) n'appartenant pas au dictionnaire. Indeed, a request by a user may contain one or more word (s) (s) not belonging to the dictionary. Ces mots-clés sont dits hors vocabulaire ou OOV (de l'anglais « Out Of Vocabulary »). These keywords are called out vocabulary or OOV (from the English "Out Of Vocabulary"). Un mot-clé OOV contenu dans un signal de parole est donc absent de la transcription de ce signal de parole. OOV keyword contained in a speech signal is absent from the transcript of the speech signal. De plus, ces mots OOV, qui peuvent comprendre par exemple des noms propres, sont en général porteurs d'informations et peuvent être prioritairement recherchés en tant que mots-clés. In addition, these OOV words, which may include for example, proper names, are usually carriers of information and can be sought primarily as keywords. Le traitement des mots- clés OOV représente donc un réel défi dans le domaine de la STD. Treatment of OOV keywords represents a real challenge in the area of ​​STD.

Une autre approche, basée sur une recherche phonétique, permet de prendre en considération les mots-clés OOV. Another approach, based on a phonetic search, lets consider the keywords OOV. Cette approche utilise une représentation du signal de parole en unités sous-lexicales, par exemple en phonèmes. This approach uses a representation of the speech signal into sub-word units, such as phonemes. Ces unités sous-lexicales sont plus courtes que la plupart des mots et peuvent être combinées de façon à représenter n'importe quel mot- clé. These sub-lexical units are shorter than most of the words and can be combined to represent any word-key. La représentation en unités sous-lexicales peut être obtenue par exemple par décodage du signal de parole en séquence de phonèmes ou en treillis de phonèmes, ou bien encore en phonétisant une transcription textuelle du signal de parole obtenue par LVCSR. Representation sub-word units can be obtained for example by decoding the speech signal sequence of phonemes or phoneme lattice, or even in phonétisant a verbatim transcript of the speech signal obtained by LVCSR. La recherche d'un mot-clé est alors effectuée en utilisant une représentation en unités sous-lexicales de ce mot-clé d'une part, et la représentation du signal de parole en unités sous-lexicales d'autre part. The search for a keyword is then performed using a representation of sub-word units that keyword one hand, and the representation of the speech signal into sub-lexical units on the other. Cependant, une telle recherche basée sur des représentations en unités sous- lexicales est susceptible de générer des fausses alarmes, en particulier pour des mots-clés relativement courts. However, such research based on performances in sub-lexical units is likely to generate false alarms, particularly for relatively short keywords.

Il existe donc un besoin d'amélioration de la fiabilité des recherches basées sur des représentations en unités sous-lexicales. There is therefore a need to improve the reliability of research based on performances in sub-word units.

Selon un premier aspect, l'invention a pour objet un procédé d'identification d'au moins un mot-clé dans un signal de parole, comportant, pour chaque mot-clé, une étape consistant à: a/ effectuer une recherche d'une suite d'unités sous-lexicales, dite requête, obtenue par conversion du mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole. According to a first aspect, the invention relates to a method of identifying at least one keyword in a speech signal, comprising, for each keyword, a step of: a / search of a sequence of sub-word units, said request, obtained by converting the keyword in a sequence of sub-word units obtained by converting the speech signal.

Le procédé comporte en outre les étapes consistant à : b/ détecter des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser les frontières détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/. The method further comprises the steps of: b / detecting segmentation marks, said borders, in the speech signal, and c / use the boundaries detected by the step b / to validate or invalidate the results of the search step a /.

Cette prise en compte des frontières du signal de parole permet de rejeter au moins une partie des résultats de la recherche qui correspondraient à de fausses alarmes. This consideration of the speech signal of the borders to reject at least part of the search results that correspond to false alarms. On contraint ainsi les résultats de la recherche basée sur des représentations en unités sous-lexicales à rester cohérents avec les résultats de la détection de frontières. Thus forced the search results based on representations in sub-word units to remain consistent with the results of detection of frontiers.

La recherche de l'étape a/ peut permettre d'identifier une (ou plusieurs) sous-séquence d'unités sous-lexicales de la séquence correspondant au signal de parole, cette sous-séquence identifiée, dite sous- séquence candidate ou détection, concordant avec la requête. The search step a / may identify one (or more) sub-sequence of sub-word units of the sequence corresponding to the speech signal, the identified sub-sequence, said sub-candidate detection or sequence, consistent with the request.

Par exemple, les frontières détectées peuvent comprendre des frontières de mots. For example, the detected boundaries may include word boundaries. Si une détection est exactement encadrée par deux frontières de mots consécutives, on peut penser que cette détection correspond effectivement à un mot et la détection est retenue. If detection is exactly framed by two borders of consecutive words, one can think that this detection actually corresponds to a word and detection is retained. En revanche, si par exemple les frontières de mots qui encadrent une détection sont relativement éloignées de cette détection, la détection correspond probablement à une partie seulement d'un mot prononcé, et la détection est rejetée. However, if for example the word boundaries that frame detection are relatively distant from this detection, detection is probably a part only of a spoken word, and detection is rejected. Les unités sous-lexicales peuvent par exemple comprendre des phones, des phonèmes, des diphones, des syllabes, ou autre. The sub-word units may for example include phones, phonemes, diphones, syllables, or otherwise.

Les segments détectés peuvent être des mots, des groupes de souffle, des phrases ou autre. The segments can be detected words, breath groups, sentences or other. Les marques de segmentation, ou frontières, peuvent comprendre des frontières de mots, de phrase ou autre. segmentation marks, or borders, boundaries may include words, phrase or other. Avantageusement, le procédé peut comprendre une étape de transcription du signal de parole à l'aide d'un dictionnaire. Advantageously, the method may comprise a step of transcription of the speech signal using a dictionary. La transcription peut être effectuée suivant un procédé LVCSR, en utilisant par exemple un logiciel LVCSR existant. Transcription can be performed according to a LVCSR method, for example using an existing software LVCSR.

La transcription ainsi obtenue peut être utilisée pour l'étape b/ de détection de frontières. Transcription thus obtained can be used for step b / boundary detection. Cette étape b/ est ainsi mise en œuvre relativement simplement. This step b / is well implemented relatively simply. L'invention n'est bien entendu pas limitée par l'utilisation d'une transcription du signal de parole pour détecter les frontières. The invention is of course not limited by the use of a transcript of the speech signal to detect borders.

Avantageusement, la transcription obtenue peut être utilisée pour la conversion du signal de parole. Advantageously, the transcript obtained can be used for the conversion of the speech signal. Par exemple, le signal de parole est d'abord transcrit et la transcription textuelle du signal de parole ainsi obtenue, par exemple par LVCSR, est ensuite transformée en une séquence d'unités sous- lexicales. For example, the speech signal is first transcribed and the textual transcription of the speech signal thus obtained, for example by LVCSR, is then converted into a sequence of sub-lexical units.

La conversion du signal de parole est ainsi effectuée de façon relativement fiable, la transcription pouvant être mise en œuvre par le biais d'un logiciel connu, et avec un taux d'erreur relativement faible. The conversion of the speech signal is thus performed fairly reliably, transcription can be implemented by means of a known software, and with relatively low error rate.

Bien entendu, l'invention n'est en rien limitée par cette étape de transcription pour réaliser la conversion du signal de parole. Of course, the invention is in no way limited by this transcription step to effect the conversion of the speech signal. Par exemple, on peut prévoir d'effectuer des conversions du signal de parole directement en phonèmes. For example, there may be provided to perform speech signal conversions directly into phonemes. On peut prévoir de rechercher un ou plusieurs mot(s)-clé(s). Provision may be to seek one or more word (s) (s). Le nombre de mots-clés peut être relativement élevé. The number of keywords can be relatively high.

Les termes « mot » et « mot-clé » désignent à la fois des mots au sens habituel du terme et des locutions, c'est à dire des suites de mots formant des unités de sens. The terms "word" and "keyword" refer to both words in the usual sense and phrases, ie sequences of words forming units of meaning. Avantageusement, le procédé comporte une étape de recherche textuelle dans la transcription du signal de parole. Advantageously, the method includes a textual search step in the transcription of the speech signal. La recherche peut porter sur le même mot-clé que pour la recherche à base d'unités sous-lexicales, ou pour un autre mot-clé. You can search on the same keyword for search-based sub-word units, or another keyword. Les résultats de la recherche textuelle peuvent être combinés aux résultats de la recherche de l'étape a/. The results of the text search can be combined with search results from step a /. On peut ainsi bénéficier à la fois de la relativement bonne précision de la recherche textuelle et de la capacité à traiter les mots-clés OOV de la recherche basée sur les unités sous-lexicales. One can thus benefit both the relatively good accuracy of text search and the ability to process the keywords OOV research-based sub-word units.

Le procédé peut ainsi comprendre une étape de transcription du signal de parole, dont les résultats peuvent être utilisés pour l'étape b/ de détection de frontière, pour la conversion du signal de parole, et/ou pour une recherche textuelle. The method may thus comprise a step of transcription of the speech signal, the results can be used for step b / boundary detection, for converting the speech signal, and / or for a text search. Néanmoins, le procédé selon un aspect de l'invention peut tout à fait être mis en œuvre sans aucune transcription du signal de parole. However, the method according to an aspect of the invention may well be implemented without any transcript of the speech signal.

Avantageusement, pour chaque détection ou sous-séquence candidate obtenue à l'étape a/ de recherche, on estime un score. Advantageously, for each detection or candidate sub-sequence obtained in step a / search, it is estimated a score. L'estimation d'un score peut permettre de nuancer la prise en compte des frontières de mots. The estimate of a score can help qualify the inclusion of the words boundaries.

On peut décider de conserver ou de rejeter une sous-séquence candidate selon la valeur du score correspondant. One can decide to keep or reject a candidate sub-sequence according to the value of the corresponding score. Par exemple, on peut ne conserver que les détections dont le score dépasse un certain seuil ou est en dessous d'un certain seuil. For example, you can keep only the detections whose score exceeds a certain threshold or is below a certain threshold.

Par exemple, si plusieurs mots-clés sont recherchés, les différentes étapes de recherche peuvent conduire à associer à des mots-clés différents une même sous-séquence ou des sous-séquences se recouvrant au moins en partie. For example, if several tags are sought, the different search steps may lead to associate with different keywords same sub-sequence or sub-sequences overlapping at least in part. On peut alors prévoir de calculer un score pour chaque sous-séquence et pour chacun de ces mots-clés, et de choisir l'association sous- séquence/mot-clé correspondant au score le plus faible. a score can then be provided to calculate for each subsequence and for each of these keywords, and choose the subsequence Association / keyword corresponding to the lowest score.

L'invention n'est en rien limitée par cette étape d'estimation d'un score. The invention is in no way limited by this step of estimating a score. On peut par exemple prévoir de conserver une détection seulement si la première unité sous-lexicale de cette détection vient immédiatement après une frontière de mot et si la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot. expected to maintain a detection only if the first sub-lexical unit can be for example that detection comes immediately after a word boundary and if the last sub-token of this detection is immediately followed by a word boundary.

Avantageusement, pour chaque détection, le score est estimé à partir d'au moins une distance correspondant à cette détection. Advantageously, for each detection, the score is estimated from at least a distance corresponding to this detection. Ce paramètre de distance peut être obtenu à l'étape a/ de recherche et caractérise l'alignement entre la sous-séquence candidate et la suite d'unités sous- lexicales correspondant au mot-clé. This distance parameter can be obtained in step a / R and characterizes the alignment between the candidate subsequence and the following sub-lexical units corresponding to the keyword. Ainsi, l'alignement est pris en compte pour décider de conserver ou de rejeter telle ou telle détection. Thus, the alignment is taken into account in deciding to keep or disallow detection.

Alternativement, le score peut ne pas tenir compte de l'alignement entre la détection et le mot-clé recherché. Alternatively, the score may not reflect the alignment between the detection and the search term. Avantageusement et de façon non limitative, le score est estimé à partir d'un nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la détection, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la détection et la frontière suivant immédiatement la détection. Advantageously and in a nonlimiting manner, the score is estimated from a number of sub-lexical units obtained by subtracting the number of sub-word units of the detection, the number of tokens between the previous border immediately detecting and immediately following detection border. Si la première unité sous-lexicale de la détection vient immédiatement après une frontière de mot et la dernière unité sous-lexicale de cette détection est immédiatement suivie par une frontière de mot, ce nombre est nul. If the first sub-token detection comes immediately after a word boundary and the last sub-token of this detection is immediately followed by a word boundary, that number is zero. En revanche, si par exemple la détection fait partie d'un mot plus long, ce nombre peut avoir une valeur relativement élevée. However, if such detection is part of a longer word, that number may have a relatively high value. On prend ainsi en compte le fait que la détection coïncide plus ou moins bien avec un mot prononcé, dans le cas de frontières de mots. It thus takes into account the fact that the detection coincides more or less with a spoken word in the case of word boundaries. Avantageusement et de façon non limitative, le score est estimé à partir d'un résultat d'une comparaison entre le nombre de frontières, par exemple des frontières de mots, à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières de la détection. Advantageously and in a nonlimiting manner, the score is estimated from a result of comparison between the number of boundaries, for example word boundaries, within the following sub-word units and the desired number of boundaries of the detection. Si ces nombres de frontières sont différents, la détection risque d'être rejetée. If these numbers are different borders, detection may be rejected. Par exemple, si la détection recouvre (au moins partiellement) plus d'un mot, alors que le mot-clé correspond à un seul mot, la détection risque d'être rejetée. For example, if the detection cover (at least partially) over a word, while the keyword corresponds to one word, detection may be rejected. La détection risque également d'être rejetée si la détection, correspondant par exemple au mot prononcé « jambon », recouvre un seul mot, alors que le mot-clé, par exemple « Jean Bon » correspond à deux mots. The detection also may be rejected if the detection, for example corresponding to the spoken word "ham" covers a single word, as the keyword, for example "John Good" is two words. Il est rappelé que dans la présente description, le terme « mot » désigne à la fois un mot isolé et une locution. It is recalled that in the present description, the term "word" refers both to a single word and phrase.

Avantageusement et de façon non limitative, le score est estimé à partir du nombre d'unités sous-lexicales de la détection. Advantageously and in a nonlimiting manner, the score is estimated from the number of sub-word units of the detection. En effet, plus ce nombre est faible, plus le risque de fausse alarme est élevé. Indeed, the higher the number, the lower the risk of false alarms is high. En revanche, si la détection est relativement longue, les résultats de la recherche ont de bonnes chances d'être corrects. However, if the detection is relatively long, the search results are likely to be correct.

On notera que l'invention n'est limitée par l'ordre des étapes que dans la mesure où cet ordre est nécessaire à la mise en œuvre du procédé. Note that the invention is not limited by the order of steps to the extent that this order is necessary for the implementation of the method. Par exemple, l'étape b/ peut être effectuée avant l'étape a/. For example, step b / may be carried out before step a /. Selon un autre aspect, l'invention a pour objet un programme d'ordinateur, le programme d'ordinateur étant destiné à être stocké dans une mémoire d'un dispositif d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur de l'unité centrale de ce dispositif et/ou téléchargé via un réseau de télécommunication, caractérisé en ce qu'il comprend des instructions pour la mise en œuvre du procédé selon un aspect de l'invention, lorsque les instructions sont exécutées par un processeur de ce dispositif. According to another aspect, the invention relates to a computer program, the computer program being designed to be stored in a memory of an identification device of keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a CPU player of this device and / or downloaded via a telecommunication network, characterized in that it comprises instructions for the implementation of the method according to one aspect of invention, when the instructions are executed by a processor of that device.

Selon encore un autre aspect, l'invention a pour objet un dispositif d'identification d'au moins un mot-clé dans un signal de parole, comprenant: In yet another aspect, the invention relates to a device for identifying at least one keyword in a speech signal, comprising:

- des moyens de recherche automatique pour effectuer une recherche d'au moins une suite d'unités sous-lexicales respectivement obtenue par conversion du au moins un mot-clé, dans une séquence d'unités sous-lexicales obtenue par conversion du signal de parole, - automatic search means for searching at least a sequence of sub-word units respectively obtained by converting the at least one keyword, in a sequence of sub-word units obtained by converting the speech signal ,

- des moyens de détection pour détecter des marques de segmentation du signal de parole, - des moyens de traitement reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection. - detection means for detecting marks of segmentation of the speech signal, - detection processing means connected to and automatically search for means to validate or invalidate the results of the search using the segmentation marks obtained from detection means.

Les moyens de recherche automatique, les moyens de détection et les moyens de traitement peuvent être intégrés dans une même puce électronique, par exemple un processeur, un microprocesseur, un DSP (de l'anglais « Digital Signal Processor ») ou autre. automatic search means, detection means and processing means may be integrated in a single chip, such as a processor, a microprocessor, a DSP (standing for "Digital Signal Processor") or otherwise.

Le dispositif peut en outre comporter tout autre moyen pour la mise en œuvre du procédé selon l'un des modes de réalisation de l'invention. The device may further comprise any other means for the implementation of the method according one of the embodiments of the invention. Le dispositif d'identification d'au moins un mot-clé dans un signal de parole peut comprendre un ordinateur, un terminal, un serveur éventuellement distant, une puce ou autre. The identification device of at least one keyword in a speech signal may include a computer terminal, possibly remote server, chip or other.

Le signal de parole peut par exemple être mémorisé sous différents supports, comme un CD (de l'anglais « Compact Disc ») ou autre. The speech signal can for example be stored in different media such as a CD (from the English "Compact Disc") or otherwise. L'invention trouve une application particulièrement avantageuse dans le domaine de la reconnaissance de parole spontanée, dans lequel l'utilisateur bénéficie d'une totale liberté de parole, mais n'est bien entendu pas limitée à ce domaine. The invention finds a particularly advantageous application in the field of recognition of spontaneous speech, in which the user enjoys full freedom of speech, but is of course not limited to this area. D'autres particularités et avantages de la présente invention apparaîtront dans la description détaillée ci-après, faite en référence aux dessins annexés sur lesquels : - La figure 1 montre un exemple de dispositif d'identification de mots-clés dans un signal de parole selon une réalisation de la présente invention. Other features and advantages of the present invention appear in the detailed description below, with reference to the accompanying drawings in which: - Figure 1 shows an example of identifying keywords device in a speech signal according an embodiment of the present invention.

- La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés selon un mode de réalisation de la présente invention. - Figure 2 shows an exemplary architecture of an identification device of keywords according to an embodiment of the present invention.

- La figure 3 est un organigramme d'un exemple de procédé de d'identification de mots-clés dans un signal de parole, mis en œuvre dans un dispositif selon le mode de réalisation de la figure 2. - Figure 3 is a flowchart of an exemplary method of identifying keywords in a speech signal, implemented in a device according to the embodiment of Figure 2.

- La figure 4 montre un exemple de portion de séquence d'unités sous-lexicales incluant une détection, selon un mode de réalisation de l'invention. - Figure 4 shows an example sequence portion of sub-lexical units including a detection, according to an embodiment of the invention.

- La figure 5 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole, selon un mode de réalisation de la présente invention. - Figure 5 is a flowchart of an exemplary method for identifying keywords in a speech signal, according to an embodiment of the present invention. - La figure 6 est un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole selon un autre mode réalisation de la présente invention. - Figure 6 is a flowchart of an exemplary method for identifying keywords in a speech signal according to another embodiment of the present invention.

Des références identiques désignent des objets identiques ou similaires d'une figure à l'autre. Identical references designate identical or similar objects from one figure to another. On se réfère tout d'abord à la figure 1 , sur laquelle un dispositif d'identification de mots-clés dans un signal de parole 1 comprend une unité centrale 2. Des moyens d'enregistrement d'un signal acoustique, par exemple un microphone 13, communiquent avec des moyens de traitement des signaux acoustiques, par exemple une carte son 7. La carte son 7 permet d'obtenir un signal présentant un format adapté pour un traitement par un microprocesseur 8. Un programme d'ordinateur d'identification de mots-clés dans un signal de parole peut être stocké dans une mémoire, par exemple un disque dur 6. Lors de l'exécution de ce programme d'ordinateur par le microprocesseur 8, le programme d'ordinateur ainsi que le signal représentatif du signal acoustique peuvent être momentanément stockés dans une mémoire vive 9 communiquant avec le microprocesseur 8. firstly refers to Figure 1, on which an identification device of keywords in a speech signal 1 comprises a central processing unit 2. The recording means of an acoustic signal, for example a microphone 13, communicate with the acoustic signal processing means, such as a sound card 7. The sound card 7 provides a signal having a format suitable for processing by a microprocessor 8. a computer program identification keywords in a speech signal can be stored in a memory, for example a hard disk 6. During the execution of this computer program by the microprocessor 8, the computer program and the signal representative of the signal sound may be temporarily stored in a random access memory 9 communicating with the microprocessor 8.

Le programme d'ordinateur peut également être stocké sur un support mémoire, par exemple une disquette ou un CD-ROM, destiné à coopérer avec un lecteur, par exemple un lecteur de disquettes 10a ou un lecteur de CD-ROM 10b. The computer program may also be stored on a memory medium, such as a diskette or a CD-ROM, intended to cooperate with a reader, for example a floppy disk 10a or CD-ROM 10b.

Le programme d'ordinateur peut également être téléchargé via un réseau de télécommunication, par exemple Internet, représenté sur la figure 1 par la référence 12. Un modem 1 1 peut être utilisé à cet effet. The computer program can also be downloaded via a telecommunication network, for example Internet, represented in Figure 1 by reference numeral 12. A 1 modem 1 can be used for this purpose.

Le dispositif 1 peut également comprendre des périphériques. The device 1 may also include devices. On peut citer à titre d'exemple un écran 3, un clavier 4 et une souris 5. These include for example a screen 3, a keyboard 4 and a mouse 5.

La figure 2 montre un exemple d'architecture d'un dispositif d'identification de mots-clés dans un signal de parole selon un mode de réalisation de l'invention. 2 shows an exemplary architecture of an identification device of keywords in a speech signal according to one embodiment of the invention.

Des premiers moyens de conversion 21 permettent de convertir un signal de parole S(t), dit également document, en une séquence d'unités sous- lexicales P, par exemple une séquence de phonèmes. 21 of the first conversion means can convert a speech signal S (t), also said document into a sequence of sub-lexical units P, such as a phoneme sequence. Les premiers moyens de conversion 21 peuvent comprendre des moyens de transcription LVCSR 22 ainsi que des moyens de phonétisation 23. 21 the first conversion means may include transcriptional LVCSR means 22 and means 23 phonetisation.

Les moyens de transcription LVCSR 22 sont agencés pour effectuer une transcription du signal de parole S(t) à l'aide d'un dictionnaire de par exemple 65000 entrées. Transcription LVCSR means 22 is arranged to perform a transcription of the speech signal S (t) using a dictionary for example 65000 entries. La transcription T du signal de parole S(t) comprend des mots W j correspondant au signal de parole S(t), et des indicateurs temporels t (0) j , t (1) j . The transcript T of the speech signal S (t) includes the words W j corresponding to the speech signal S (t), and time stamps t (0) j, t (1) j. Par exemple, les indicateurs temporels peuvent comprendre, pour chaque mot de la transcription, un instant de début et une durée, ou bien un instant de début t (0) j et un instant de fin t (1) j . For example, time indicators may include, for each word of the transcript, a start time and a duration, or a start time t (0) j and an end time t (1) j. La variable j sert à indicer les mots de la transcription T. Les moyens de phonétisation 23 permettent d'obtenir une séquence de phonèmes P à partir de la transcription T en sortie des moyens de transcription LVCSR 22. Chaque mot W j de la transcription T peut être phonétisé séparément, c'est-à-dire qu'aucun phonème de raccord n'est rajouté entre deux mots de la transcription T. On facilite ainsi la reconnaissance de mots-clés convertis en phonèmes parmi la séquence de phonèmes, dans la mesure où les mots-clés sont convertis de façon isolée, sans contexte particulier, par des deuxièmes moyens de conversion 24 décrits ci-dessous. The variable j is used to subscript words of T. The phonetic transcription means 23 allow to obtain a phoneme sequence P from the transcript T outputting LVCSR transcription means 22. Each word W j of the transcript T can be phonetized separately, that is to say that no coupling phoneme is added between two words of transcription T. this facilitates recognition of keywords converted into phonemes from the phoneme sequence, in the since the tags are converted in isolation, without particular context, by second conversion means 24 described below.

Chaque mot W j de la transcription T est phonétisé en ayant recours à la prononciation la plus probable de ce mot. Every word W j of T phonetized transcription is by using the most likely pronunciation of the word.

La séquence de phonèmes P comporte, outre les phonèmes eux- mêmes pi, des indicateurs temporels t,. The phonemes P sequence comprises, besides the phonemes themselves pi, timing indicators t ,. Chaque phonème peut ainsi être localisé dans le temps. Each phoneme can thus be located in time. Ces indicateurs temporels t, sont obtenus à partir de la transcription T. Cette transcription T comportant des indicateurs temporels t (0) j , t (1) j pour les mots seulement, on déduit les indicateurs temporels t, de séquence de phonèmes P par interpolation linéaire par exemple. These time t, indicators are obtained from the T. This transcription transcript T comprising timing indicators t (0) j, t (1) j for words only, we deduce the time indicators t, phoneme sequence P by linear interpolation for example. On peut prendre en compte les périodes de silence si elles excèdent une certaine durée, par exemple 0,2 secondes. One can take into account periods of silence if they exceed a certain length, for example 0.2 seconds.

La variable i sert à indicer les phonèmes de la séquence P. Les premiers moyens de conversion 21 permettent ainsi d'obtenir une transcription T et une séquence de phonèmes P à partir du signal de parole S(t). The variable i serves to subscript the phonemes of the sequence P. The first converting means 21 thus make it possible to obtain a T transcription and a phoneme sequence P from the speech signal S (t).

Les deuxièmes moyens de conversion 24 permettent de convertir les mots-clés W Q en suite W P de phonèmes pi. The second conversion means 24 can convert the keyword W Q W following phoneme P pi. La variable I sert à indicer les phonèmes de la suite W P . The variable I is used to subscript the phonemes of the sequence W P.

Dans un mode de réalisation alternatif et non représenté, les deuxièmes moyens de conversion peuvent être confondus avec les moyens de phonétisation. In an alternative embodiment not shown, the second conversion means may be combined with the means phonetisation.

Des moyens de recherche automatique 25, par exemple un DSP, permettent d'effectuer une recherche de la suite W P dans la séquence de phonèmes P. La recherche peut être effectuée en tenant compte ou en ne tenant pas compte des variantes de prononciations. Auto search means 25, for example a DSP can perform a search result W P in the phoneme sequence P. The search can be done taking or not taking into account the pronunciations variants. Dans le premier cas, on peut se limiter aux prononciations les plus probables, dans la mesure où les moyens de phonétisation 23 ne prennent en compte que la prononciation la plus probable. In the first case, it can be limited to the most likely pronunciations, since the means 23 phonetization only take into account that the most likely pronunciation. Si un mot-clé est reconnu avec plusieurs prononciations possibles, dans une même sous-séquence de la séquence P, on ne conserve que la prononciation pour laquelle une mesure de distance caractérisant l'alignement est la plus faible. If a keyword is recognized with several possible pronunciations, in a same sub-sequence of the sequence P, it retains only the pronunciation for which a distance measurement characterizing the alignment is the lowest.

La recherche peut être effectuée en faisant des alignements entre la suite Wp et la séquence P, chaque alignement étant caractérisé par une distance. The search can be performed by alignments between more Wp and the sequence P, each alignment being characterized by a distance.

La distance peut être estimée comme une somme des coûts d'opérations, comme la substitution, l'insertion, la suppression, à effectuer pour faire concorder une partie de la séquence P et la suite W P . The distance can be estimated as a sum of the operating costs such as substitution, insertion, deletion, to perform to match a part of the sequence P and subsequently W P. Ces coûts peuvent être tirés de matrices préprogrammées, mémorisées par exemple dans des tables LUT (de l'anglais « Look-Up Table »). These costs can be learned from preset templates, stored for example in LUTs (from the English "Look-Up Table").

La recherche effectuée par les moyens 25 peut être une recherche phonétique, de type connu de l'homme du métier. Research by the means 25 may be a phonetic search, of a type known in the art.

La recherche conduit à obtenir au moins une sous-séquence Ck de la séquence P. Les moyens de recherche 25 peuvent être configurés pour ne conserver que les sous-séquences Ck correspondant à une distance au- dessous d'un certain seuil THR1. The search leads to obtain at least one Ck subsequence of the sequence P. The search means 25 can be configured to retain only the subsequences Ck corresponding to a distance below a certain threshold THR1. La variable k sert à indicer les sous- séquences obtenues par les moyens de recherche 25. The variable subscript k is used to sub-sequences obtained by the search means 25.

Des moyens de détection 26 permettent de détecter des frontières de mots dans le signal de parole S(t). Detection means 26 can detect word boundaries in the speech signal S (t). Dans cet exemple, les moyens de détection reçoivent la transcription T des moyens de transcription LVCSR 22, de sorte que la détection des indicateurs temporels de début t (0) j et de fin t (1 ) j de mot est triviale. In this example, the detection means receive the transcript T transcription LVCSR means 22 so that the detection timing indicators start t (0) j and t end (1) word j is trivial.

Ces frontières de mots sont utilisées par des moyens de traitement 27 pour valider ou infirmer les résultats obtenus des moyens de recherche 25, comme détaillé plus loin. The word boundaries are used by the processing means 27 to validate or invalidate the results of the search means 25, as detailed below. Seules les sous-séquences validées C * m sont conservées, la variable m servant à indicer ces sous-séquences conservées. Only subsequences validated C * m are retained, the variable m for subscript these conserved subsequences.

On notera que les différents moyens 21 , 24, 25, 26 et 27 peuvent être intégrés en un seul composant, par exemple un microprocesseur. It will be noted that the various means 21, 24, 25, 26 and 27 may be integrated into a single component, for example a microprocessor. La figure 3 représente un organigramme d'un exemple de procédé d'identification de mots-clés dans un signal de parole mis en œuvre dans un dispositif conforme au mode de réalisation de la figure 2. Dans ce mode de réalisation, la conversion du signal de parole en phonèmes est effectuée via une transcription en mots, cette transcription étant également utilisée pour la détection de frontières. 3 shows a flowchart of an exemplary method for identifying keywords in a speech signal used in a device according to the embodiment of Figure 2. In this embodiment, the signal conversion speech into phonemes is done via a transcription into words, this transcript is also used for the detection of borders.

Après une étape 30 de réception d'un signal de parole S(t), une transcription LVSCR est effectuée lors d'une étape 31 , puis la transcription T ainsi obtenue est phonétisée lors d'une étape 32. After a step 30 for receiving a speech signal S (t), a LVSCR transcription is performed at a step 31, then the transcript T thus obtained is phonetised during a step 32.

Pour un mot-clé W Q donné, après une étape 33 de réception de ce mot-clé, une étape de phonétisation 34 est mise en œuvre pour convertir le mot-clé en suite de phonèmes W P , ou requête. For a keyword W Q afford, after a step 33 of reception of this keyword, a phonetic step 34 is implemented to convert the keyword into phoneme string W P, or query.

Lors d'une étape 35 de recherche phonétique, des sous-séquences Ck (ou détections) de la séquence T sont identifiées comme relativement proches de la requête W P . At a step 35 of phonetic research, subsequences Ck (or detections) of the sequence are identified as T relatively close to the query W P. L'algorithme mis en œuvre attribue à chaque détection Ck une distance D k indicatrice de l'alignement entre cette détection Ck et la requête W P . The algorithm used assigns to each detection Ck a distance D k indicative of the alignment between this detection and Ck request W P. Cette distance D k est dite distance d'alignement. This distance D k is said alignment distance. Seules sont conservées les détections C k pour lesquelles la distance D k est en dessous d'un certain seuil THR1. Only are kept C k for which the detection distance D k is below a certain threshold THR1.

Une étape 36 de détection de frontières de mots permet de repérer les instants de début t (0) j et de fin t (1 ) j de chaque mot transcrit lors de l'étape de recherche LVSCR 31. Ces instants de début t (0) j et de fin t (1) constituent les frontières de mots détectées dans le signal de parole. A step 36 of detecting word boundaries helps identify early times t (0) j and t end (1) d of every word transcribed at the research stage LVSCR 31. These start times t (0 ) j and t end (1) form the word boundaries detected in the speech signal.

Pour chaque détection Ck obtenue de la recherche phonétique, on teste si cette détection est cohérente avec des frontières de mots détectées dans le signal de parole. Each detection Ck obtained phonetic search, it is tested whether this detection is consistent with word boundaries detected in the speech signal. Une boucle 37 est mise en œuvre pour parcourir les différentes détections Ck, avec des étapes classiques d'initialisation, de test et d'incrémentation. A loop 37 is implemented to browse the different detections Ck, with conventional initialization steps, test and incrementation.

Pour chaque détection Ck, on estime lors d'une étape 38 un nombre N b (k) d'unités sous-lexicales précédent la première unité sous-lexicale de la détection et situées entre les mêmes frontières que ladite première unité sous- lexicale. Ck for each detection, it is estimated during a step 38 a number N b (k) of sub-lexical units preceding the first sub-token detection and located between the same boundaries as said first sub-token.

Pour mieux comprendre ce qu'on entend par ce nombre N b (k) , on peut se reporter par exemple à la portion de séquence de phonèmes de la figure 4. Sur cette figure, une seule sous-séquence candidate 49 est représentée, et le nombre N b (k) est dit N b pour plus de simplicité. To better understand what is meant by this number N b (k), reference may be made for example to the phoneme sequence portion of Figure 4. In this figure, only one candidate subsequence 49 is shown, and the number N b (k) is said N b for simplicity.

La portion de la figure 4 correspond à la transcription d'un signal de parole correspondant au texte « grandir ensemble ». The portion of Figure 4 corresponds to the transcription of a speech signal corresponding to the text "growing together." Les phonèmes sont référencés 48. On a superposé à cette portion de séquence de phonèmes les frontières de mots détectées, représentées par des doubles barres verticales. Phonemes are referenced 48. It was superimposed on the phoneme sequence portion of the detected word boundaries, represented by the double vertical bars.

Pour un mot-clé « Iran », l'étape de recherche phonétique conduit à sélectionner la sous-séquence encadrée 49. For keyword "Iran", a phonetic search step leads to select the framed subsequence 49.

Le nombre N b correspond au nombre de phonèmes entre la frontière de mot précédent la détection 49 et le premier phonème « I » de la détection 49, soit N b = 4. The number N b is the number of phonemes between the previous word boundary detection 49 and the first phoneme "I" of the detection 49, be N b = 4.

Egalement, lors de cette étape 38, on estime un nombre N a (k) d'unités sous-lexicales suivant la dernière unité sous-lexicale de la sous- séquence candidate 49 et situées entre les mêmes frontières que cette dernière unité sous-lexicale. Also, in this step 38, a number N is estimated a (k) of sub-word units of the last sub-lexical unit of the sub-candidate sequence 49 and located between the same boundaries as the latter sub-lexical unit . Ce nombre, dit N a sur la figure 4, correspond au nombre de phonèmes entre le dernier phonème « AN » de la détection et la frontière de mot suivant la détection, soit N a = 4. This number, said N has in Figure 4, is the number of phonemes from the last phoneme "AN" of the detection and word boundary of detection, or N a = 4.

Le résultat de la soustraction du nombre d'unités sous-lexicales de la détection au nombre d'unités sous-lexicales entre la frontière précédent immédiatement la détection 49 et la frontière suivant immédiatement la détection 49, est donc N a , b = N a + N b = 8. Cette somme indique dans quelle mesure la détection correspond à une partie seulement d'un ou plusieurs mot(s) plus grand(s). The result of subtracting the number of sub-word units of the detection to the number of sub-word units between the immediately previous boundary detection 49 and the boundary immediately following the detection 49, is thus N a, N b = a N + b = 8. This sum indicates how the detection corresponds to a part of one or more word (s) bigger (s).

En outre, lors de cette étape 38, on estime un nombre N s d de frontières de mots à l'intérieur de la détection 49, soit ici N s d =1 , car la détection 49 recouvre en partie deux mots. In addition, in this step 38, it is estimated a number N s of word boundaries within the detection 49, be here N s d = 1, because the detection part 49 overlaps two words. On estime également nombre N s q de frontières de mots à l'intérieur de la suite de phonèmes recherchée « IR AN », dite requête. It is also estimated number N s q word boundaries within the sequence of phonemes sought "IR AN" said petition. Soit N s q =0, car la requête correspond à un seul mot « Iran ». Let N s q = 0 because the query corresponds to one word "Iran". On calcule une différence entre ces deux derniers nombres : Calculating a difference between these two numbers:

N = N d - N q Dans l'exemple de la figure 4, on a donc N s =1. N = N d - N q In the example of Figure 4, so there are N s = 1. Cette différence est dite N s (k) dans le cadre de la boucle 37 de la figure 3. This difference is called N s (k) as part of the loop 37 of Figure 3.

Enfin, lors de l'étape 38, on mémorise un nombre L (k) d'unités sous- lexicales de la détection, soit dans l'exemple de la figure 4, L=3. Finally, at step 38, it stores a number L (k) of sub-lexical units of detection, ie in the example of FIG 4, L = 3. En effet, une détection relativement courte risque davantage de correspondre à une fausse alerte qu'une détection relativement longue. Indeed, a relatively short detection is more likely to correspond to a false alarm that a relatively long detection. Par exemple, la distance caractérisant l'alignement entre une requête relativement courte et une portion d'un mot plus long peut être relativement faible. For example, the distance characterizing the alignment between a query and a relatively short portion of a longer word can be relatively low. Une détection relativement courte peut aussi empiéter sur deux mots, comme dans l'exemple de la figure 4. Aussi ce nombre L (k) , ou L dans le contexte de la figure 4, est-il pris en considération. A relatively short detection may also infringe on two words, as in the example of Figure 4. Also this number L (k), or L in the context of Figure 4, is it considered.

Les nombres N a (k) , N b (k) , N s (k) , L (k) sont ainsi estimés à partir des résultats de la recherche (la détection, référencée 49 sur la figure 4, C k sur la figure 2) et à partir des résultats de la détection de frontières (les frontières de mots, représentées sur la figure 4 par des doubles barres verticales). The numbers N a (k), N b (k), N s (k), L (k) are thus estimated from the results of search (detection, referenced 49 in Figure 4, C k in Figure 2) and from the results of the detection boundaries (word boundaries, represented in Figure 4 by double vertical bars). Ces nombres N a (k) , N b (k) , N s (k) , L (k) permettent ainsi de décrire la configuration textuelle de la détection Ck. These numbers N a (k), N b (k), N s (k), L (k) and can describe the textual configuration Ck detection.

L'étape 38 d'estimation des paramètres N a (k) , N b (k) , N s (k) et L (k) est suivie d'une étape 39 de calcul d'un score D' k , suivant la formule : c3 + N w + Ni k) + N w The step 38 for estimating the parameters N a (k), N b (k), N s (k) and L (k) is followed by a step 39 of calculating a score D 'k, according to formula: c3 + N w Ni + k) + N w

D\ = cl*D k + c2- r(k) Où d , c2 et c3 désignent des constantes positives ou nulles. D \ D = cl * k + C2 r (k) Where d, c2 and c3 denote positive or zero constants. Le triplet {d , c2, c3} peut être optimisé de façon à obtenir une mesure de performance la plus élevée possible. The triplet {d, c2, c3} can be optimized so as to obtain a measure of the highest possible performance.

Pour une détection relativement longue, le nombre L (k) risque d'être relativement élevé, de sorte que le poids de la somme c3 + N a (k) + Nl k) +N^ k) est relativement faible. For a relatively long detection, the number L (k) may be relatively high, so that the weight of the sum c3 + N a (k) + Nl k) + N ^ k) is relatively low. En effet, la recherche phonétique (étape 35) fournit en général des résultats relativement corrects pour les détections relativement longues, et les frontières de mots peuvent être moins prises en considération dans ce cas. In fact, the phonetic search (step 35) generally provides relatively accurate results for relatively long detections, and word boundaries may be less considered in this case. Ainsi, pour un mot-clé relativement court, comme « Iran », une détection du type de la détection 49 sur la figure 4 correspondra à un score D' k relativement élevé. Thus, for a relatively short keyword, such as "Iran", a type detection detection 49 in Figure 4 correspond to a score D 'k relatively high. Une étape de test 40 au cours de laquelle on compare le score D' k à un deuxième seuil permet ainsi de rejeter les détections pour lesquelles le score correspondant est trop élevé. A test step 40 in which it compares the score D 'k to a second threshold and to reject the detections where the corresponding score is too high. Seules les détections C * m correspondant à des scores D' k suffisamment faibles sont conservées (étape 41 ). Only detections C * m corresponding to scores D 'k are kept sufficiently low (step 41).

La figure 5 montre un exemple de mode de réalisation dans lequel une recherche phonétique améliorée, comme par exemple la recherche décrite en référence aux figures 2 et 3, est combinée à une recherche textuelle. 5 shows an exemplary embodiment wherein an improved phonetic research, such as research described with reference to Figures 2 and 3, is combined with a text search.

Dans l'exemple de la figure 5, une étape 50 de réception d'un mot- clé à rechercher est suivie d'une étape 51 de test pour déterminer si ce mot- clé appartient à un dictionnaire fixé. In the example of Figure 5, a step 50 for receiving a keyword to search is followed by a step 51 tests to determine if this key word belongs to a fixed dictionary.

Si ce mot-clé appartient effectivement au dictionnaire, on procède à une recherche textuelle (étape 52), en recourant à un procédé connu de l'art antérieur, et en utilisant ce dictionnaire. If this keyword actually belongs to the dictionary, is performed a text search (step 52), using a method known in the prior art, and use the dictionary.

Dans le cas contraire, on procède à une recherche phonétique améliorée (étape 53), en recourant par exemple au procédé du mode de réalisation décrit en référence aux figures 2 et 3. Un mot-clé donné est ainsi recherché selon l'un ou l'autre d'une recherche textuelle et d'une recherche phonétique améliorée. Otherwise, one proceeds to an improved phonetic search (step 53), using for example the method of the embodiment described with reference to Figures 2 and 3. A given keyword is searched and in accordance with one or the other a text search and improved phonetic search. Les résultats de ces deux recherches sont recueillis (étape 54). The results of these two studies is collected (step 54).

La figure 6 est un algorithme correspondant à un autre mode de réalisation, dans lequel une recherche textuelle classique est combinée à une recherche phonétique améliorée. 6 is an algorithm corresponding to another embodiment, in which a conventional text search combined with improved phonetic search.

Dans cet exemple, après une étape 60 de réception d'un mot-clé, une étape de recherche textuelle 61 est effectuée. In this example, after a step 60 of receiving a keyword, a text search of step 61 is performed. Suit une étape de test 62 : si la recherche textuelle a conduit à ne sélectionner aucune détection, alors on procède à une recherche phonétique améliorée (étape 63). Following a test step 62: if the text search led to detection select no, then we proceed to improved phonetic search (step 63).

On recueille lors d'une étape 64 les résultats de la recherche textuelle de l'étape 61 et/ou les résultats de la recherche phonétique améliorée de l'étape 63. It collects in a step 64 the results of the text search step 61 and / or the results of the improved phonetic search step 63.

Les tableaux 1 et 2 ci-dessous montrent les résultats d'un exemple d'application de l'invention. Tables 1 and 2 below show the results of an application example of the invention. Les expérimentations portent sur la recherche de deux listes de mots-clés. The experiments focus on seeking two lists of keywords. La première liste est composée de tous les noms propres prononcés dans le signal de parole. The first list consists of all proper names pronounced in the speech signal. La deuxième liste est composée de noms propres non prononcés dans le signal de parole. The second list consists of unspoken own names in the speech signal.

Le signal de parole provient de huit journaux télévisés français, diffusés en 2002 et 2003, et a une durée de 2h30 environ. The speech signal comes from eight French television news broadcast in 2002 and 2003, and has approximately 2h30.

Le "rappel" est le rapport du nombre de détections correctes sur le nombre de détections à effectuer. The "recall" is the ratio of correct detections of the number of detections to perform. La "précision" est le rapport du nombre de détections correctes sur le nombre de détections effectuées. "Accuracy" is the ratio of correct detections made on the number of detections. La mesure F max est une moyenne harmonique de la précision et du rappel. The measure F max is a harmonic mean of precision and recall. Cette mesure de performance F max peut servir de critère d'optimisation du triplet {d , c2, c3} dans le mode de réalisation de la figure 3. This performance measure F max can be used as optimization criterion of the triplet {d, c2, c3} in the embodiment of Figure 3.

Les termes « recherche textuelle » et « recherche phonétique classique » désignent respectivement une recherche textuelle classique et une recherche phonétique classique, telle que décrites plus haut en référence à l'art antérieur. The terms "text search" and "classic phonetic search" mean respectively a classical text search and a classic phonetic search, as described above with reference to the prior art. Le terme « recherche phonétique améliorée » désigne une recherche selon le mode de réalisation des figures 2 et 3. Lorsque le critère de combinaison est le dictionnaire du LVCSR, le procédé mis en œuvre est du type du procédé décrit en référence à la figure 5. Lorsque le critère de combinaison est le résultat de la recherche textuelle, le procédé mis en œuvre est du type du procédé décrit en référence à la figure 6. The term "improved phonetic search" means a search according to the embodiment of Figures 2 and 3. When the combination criterion is the dictionary LVCSR the method used is the method of the type described with reference to Figure 5. when the combination criterion is the result of the text search, the method used is the method of the type described with reference to Figure 6.

La recherche des mots-clés de la première liste permet d'évaluer les performances du procédé selon un aspect de l'invention, en termes de rappel et de précision. Search for keywords in the first list evaluates the performance of the method according to an aspect of the invention, in terms of recall and precision. La recherche des mots-clés des première et deuxième listes conjointement permet de tester plus spécifiquement la robustesse du procédé, dans la mesure où la recherche de mots de la deuxième liste tend à diminuer la précision sans modifier le rappel. The search keywords first and second lists together specifically to test the robustness of the process, since the search words on the second list tends to decrease the accuracy without changing the recall.

Le tableau 1 ci-dessous montre les résultats de la recherche des mots-clés de la première liste. Table 1 below shows the results of search keywords on the first list.

Figure imgf000019_0001

Tableau 1 Table 1

Le tableau 2 ci-dessous montre les résultats de la recherche des mots-clés de l'union des première et deuxième listes. Table 2 below shows the results of search keywords of the union of the first and second lists.

Figure imgf000020_0001

Tableau 2 Table 2

Ces résultats montrent la capacité de la recherche phonétique améliorée à éliminer une bonne partie des fausses alarmes. These results show the phonetic research capacity improved to eliminate a lot of false alarms. Même dans le cas où seulement une recherche phonétique est effectuée, le rappel est bien entendu augmenté par rapport à la recherche textuelle, du fait de la prise en compte de mots-clés OOV, mais la précision est aussi améliorée par rapport à la recherche phonétique classique, pour atteindre un niveau comparable à celui de la recherche textuelle. Even if only a phonetic search is performed, the reminder is obviously increased compared with the text search, due to the inclusion of keywords OOV, but accuracy is also improved compared with the phonetic search classic, to a level comparable to that of the text search.

Dans le cas de combinaison de deux types de recherches, ce gain en précision est d'autant plus marqué, car la recherche de mots-clés relativement courts, c'est à dire risquant de générer de fausses alarmes, est souvent prise en charge par la recherche textuelle. In the case of combining two types of searches, this gain in precision is all the more marked because the research relatively short keywords, ie that might generate false alarms, often supported by text search. Des deux modes de réalisation envisagés pour combiner les recherches, c'est le mode de réalisation utilisant comme critère de combinaison le résultat de la recherche textuelle qui permet d'obtenir les meilleurs résultats. Two embodiments envisaged to combine the research is the embodiment using such combination criterion the result of textual research that provides the best results. En effet, ce mode de réalisation permet, en plus de la gestion des mots-clés OOV, une certaine correction des erreurs de transcription faites par le procédé LVCSR, en ayant recours à la recherche phonétique. Indeed, this embodiment provides, in addition to managing keywords OOV, some correction of clerical errors made by the LVCSR process, using the phonetic search.

Claims

Revendications claims
1. Procédé d'identification d'au moins un mot-clé dans un signal de parole, le procédé comportant pour chaque mot-clé une étape consistant à: a/ effectuer une recherche (35) d'une suite d'unités sous-lexicales obtenue par conversion (34) du mot-clé, dans une séquence d'unités sous- lexicales obtenue par conversion (31 , 32) du signal de parole, caractérisé en ce qu'il comporte en outre les étapes consistant à b/ détecter (36) des marques de segmentation, dites frontières, dans le signal de parole, et c/ utiliser (37) les marques de segmentation détectées à l'étape b/ pour valider ou infirmer les résultats de la recherche de l'étape a/. 1. A method of identifying at least one keyword in a speech signal, the method comprising for each keyword a step of: a / search (35) of a sequence of sub-units lexical obtained by converting (34) the keyword, in a sequence of sub-lexical units obtained by converting (31, 32) of the speech signal, characterized in that it further comprises the steps of b / detect (36) the segmentation marks, said borders, in the speech signal, and c / use (37) the segmentation marks detected in step b / to validate or invalidate the search results of step a / .
2. Procédé selon la revendication 1 , comprenant en outre des étapes consistant à transcrire le signal de parole à l'aide d'un dictionnaire, effectuer une recherche textuelle (52 ; 61 ) dans la transcription du signal de parole ainsi obtenue, et combiner (54 ; 64) les résultats de la recherche textuelle aux résultats validés à l'étape c/. 2. The method of claim 1, further comprising the steps of transcribing the speech signal using a dictionary, search for text (52; 61) in the transcription of the speech signal thus obtained, and combining (54; 64) the results of the text search results validated in step c /.
3. Procédé selon l'une des revendications 1 ou 2, comprenant une étape consistant à transcrire (31 ) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour la conversion (32) du signal de parole. 3. A method according to one of claims 1 or 2, comprising a step of transcribing (31) the speech signal by using a dictionary, transcription thus obtained being used for the conversion (32) of the signal word.
4. Procédé selon l'une des revendications 1 à 3, comprenant une étape consistant à transcrire (31 ) le signal de parole à l'aide d'un dictionnaire, la transcription ainsi obtenue étant utilisée pour l'étape b/ de détection de frontières (36). 4. A method according to one of claims 1 to 3, comprising a step of transcribing (31) the speech signal by using a dictionary, transcription thus obtained is used for step b / detection borders (36).
5. Procédé selon l'une des revendications 1 à 4, dans lequel, à l'étape a/ de recherche, on obtient, pour la suite de sous-unités lexicales recherchée (W P ), au moins une sous-séquence de sous-unités lexicales candidate (C k ; 49) de la séquence de sous-unités lexicales (P), et à l'étape c/ on estime un score (D' k ) pour chaque sous-séquence candidate obtenue à l'étape a/ de recherche. 5. A method according to one of claims 1 to 4, wherein, in step a / search is obtained, to read the searched word sub-units (W P), at least one sub-sequence of sub -Units lexical candidate (C k; 49) of the sequence of word sub-units (P), and in step c / estimating a score (D 'k) for each candidate sub-sequence obtained in step a / of research.
6. Procédé selon la revendication 5, dans lequel, pour chaque sous-séquence candidate (Ck ; 49), le score est estimé à partir d'au moins un paramètre parmi : 6. The method of claim 5, wherein, for each candidate sub-sequence (Ck; 49), the score is estimated from at least one of:
- une distance (D k ) correspondant à ladite sous-séquence candidate, ladite distance étant obtenue à l'étape a/ de recherche, - a distance (D k) corresponding to said candidate subsequence, said distance being obtained in step a / search,
- un nombre d'unités sous-lexicales (N a ,b) obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous-séquence candidate et la frontière suivant immédiatement la sous- séquence candidate, - a number of sub-word units (N a, b) obtained by subtracting the number of sub-word units of the candidate sub-sequence, the number of tokens between the border immediately previous sub-sequence candidate and the boundary immediately following the sub-candidate sequence,
- un résultat (N s ) d'une comparaison entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, et - a result (N s) of a comparison between the number of boundaries within the following sub-lexical units searched and the number of boundaries within the candidate sub-sequence, and
- le nombre d'unités sous-lexicales (L) de la sous-séquence candidate. - the number of sub-lexical units (L) of the candidate subsequence.
7. Procédé selon la revendication 6, dans lequel pour chaque sous-séquence candidate (Ck ; 49), le score est estimé en utilisant la formule : c3 + N ^ + N. 7. The method of claim 6, wherein for each candidate sub-sequence (Ck; 49), the score is estimated using the formula: c3 + N ^ + N.
D' = cl*D + c2- ' a,b D '= D + cl * C2' a, b
L où D' désigne le score, D la distance, N a,b le nombre d'unités sous-lexicales obtenu par la soustraction du nombre d'unités sous-lexicales de la sous-séquence candidate, au nombre d'unités lexicales comprises entre la frontière précédent immédiatement la sous- séquence candidate et la frontière suivant immédiatement la sous-séquence candidate, L wherein D 'denotes the score, the distance D, N a, b the number of sub-lexical units obtained by subtracting the number of sub-word units of the candidate sub-sequence, the number of tokens plus between the border immediately previous sub candidate sequence and the boundary immediately following the candidate subsequence,
N s la valeur absolue de la différence entre le nombre de frontières à l'intérieur de la suite d'unités sous-lexicales recherchée et le nombre de frontières à l'intérieur de la sous-séquence candidate, N s the absolute value of the difference between the number of boundaries within the following sub-lexical units searched and the number of boundaries within the candidate sub-sequence,
L le nombre d'unités sous-lexicales de la sous-séquence candidate, et d , c2, c3 trois valeurs constantes, ces valeurs étant positives ou nulles. L the number of sub-word units of the candidate subsequence and, c2, c3 three constant values, these values ​​being positive or zero.
8. Programme d'ordinateur destiné à être stocké dans une mémoire d'un dispositif (2) d'identification de mots-clés dans un signal de parole, et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur (10a, 10b) dudit dispositif et/ou téléchargé via un réseau de télécommunication (12), caractérisé en ce qu'il comporte des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque lesdites instructions sont exécutées par un processeur dudit dispositif d'identification de mots-clés dans un signal de parole. 8. A computer program intended to be stored in a memory of a device (2) for identifying keywords in a speech signal, and / or stored on a memory medium intended to cooperate with a reader (10a, 10b) of said device and / or downloaded via a telecommunication network (12), characterized in that it comprises instructions for implementing the method according to one of the preceding claims, when said instructions are executed by a processor of said identification device of keywords in a speech signal.
9. Dispositif d'identification d'au moins un mot-clé (WQ) dans un signal de parole (S(t)), ledit dispositif comportant 9. A device for identifying at least one keyword (WQ) in a speech signal (S (t)), said apparatus comprising
- des moyens de recherche automatique (25) pour effectuer une recherche d'au moins une suite d'unités sous-lexicales (W P ) respectivement obtenue par conversion dudit au moins un mot-clé, dans une séquence d'unités sous-lexicales (T) obtenue par conversion du signal de parole, caractérisé en ce qu'il comporte en outre - automatic search means (25) for searching at least a sequence of sub-word units (W P) respectively obtained by converting said at least one keyword, in a sequence of sub-word units (T) obtained by converting the speech signal, characterized in that it further comprises
- des moyens de détection (26) pour détecter des marques de segmentation du signal de parole, et - des moyens de traitement (27) reliés aux moyens de détection et aux moyens de recherche automatique, pour valider ou infirmer les résultats de la recherche en utilisant les marques de segmentation obtenues des moyens de détection. - detecting means (26) for detecting marks of segmentation of the speech signal, and - processing means (27) connected to the detection means and the automatic search means to validate or invalidate the results of research using the segmentation marks obtained from the detection means.
10. Dispositif selon la revendication 9, caractérisé en ce qu'il comporte des moyens pour la mise en œuvre du procédé selon l'une quelconque des revendications 2 à 7. 10. Device according to claim 9, characterized in that it comprises means for implementing the method according to any one of claims 2 to 7.
PCT/FR2009/050159 2008-02-08 2009-02-03 Method, device and computer program for searching for keywords in a speech signal WO2009101319A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR0850810A FR2927461A1 (en) 2008-02-08 2008-02-08 Method, apparatus and computer program to search for keywords in a speech signal
FR0850810 2008-02-08

Publications (1)

Publication Number Publication Date
WO2009101319A1 true true WO2009101319A1 (en) 2009-08-20

Family

ID=39333045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2009/050159 WO2009101319A1 (en) 2008-02-08 2009-02-03 Method, device and computer program for searching for keywords in a speech signal

Country Status (2)

Country Link
FR (1) FR2927461A1 (en)
WO (1) WO2009101319A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0800158A1 (en) * 1996-04-01 1997-10-08 Hewlett-Packard Company Word spotting
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
EP0800158A1 (en) * 1996-04-01 1997-10-08 Hewlett-Packard Company Word spotting

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
THAMBIRATNAM K ET AL: "Dynamic Match Phone-Lattice Searches For Very Fast And Accurate Unrestricted Vocabulary Keyword Spotting" ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP ' 05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, vol. 1, 18 mars 2005 (2005-03-18), pages 465-468, XP010792075 ISBN: 978-0-7803-8874-1 *

Also Published As

Publication number Publication date Type
FR2927461A1 (en) 2009-08-14 application

Similar Documents

Publication Publication Date Title
Furui et al. Speech-to-text and speech-to-speech summarization of spontaneous speech
Wright et al. Spot me if you can: Uncovering spoken phrases in encrypted VoIP conversations
US6876966B1 (en) Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US20060206324A1 (en) Methods and apparatus relating to searching of spoken audio data
Morgan et al. The meeting project at ICSI
US6223155B1 (en) Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US20080162132A1 (en) Mass-Scale, User-Independent, Device-Independent Voice Messaging System
Ng et al. Subword-based approaches for spoken document retrieval
US20110013756A1 (en) Highlighting of Voice Message Transcripts
Zhou et al. Efficient audio stream segmentation via the combined T/sup 2/statistic and Bayesian information criterion
US20140012586A1 (en) Determining hotword suitability
US20120053935A1 (en) Speech recognition model
US20050021331A1 (en) Speech recognition apparatus, speech recognition method, conversation control apparatus, conversation control method, and programs for therefor
US6405166B1 (en) Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US20090030680A1 (en) Method and System of Indexing Speech Data
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US8131545B1 (en) Aligning a transcript to audio data
US7725318B2 (en) System and method for improving the accuracy of audio searching
Arisoy et al. Turkish broadcast news transcription and retrieval
US8380507B2 (en) Systems and methods for determining the language to use for speech generated by a text to speech engine
US20080063155A1 (en) Mass-Scale, User-Independent, Device-Independent Voice Messaging System
US20090136014A1 (en) Method for Determining the On-Hold Status in a Call
Zhang Automatic singer identification
EP1043665A2 (en) Methods and apparatus for retrieving audio information using content and speaker information
Yu et al. Vocabulary-independent indexing of spontaneous speech

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09710069

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct app. not ent. europ. phase

Ref document number: 09710069

Country of ref document: EP

Kind code of ref document: A1