WO1990009656A1 - Appareil de traitement de la parole - Google Patents

Appareil de traitement de la parole Download PDF

Info

Publication number
WO1990009656A1
WO1990009656A1 PCT/FR1990/000091 FR9000091W WO9009656A1 WO 1990009656 A1 WO1990009656 A1 WO 1990009656A1 FR 9000091 W FR9000091 W FR 9000091W WO 9009656 A1 WO9009656 A1 WO 9009656A1
Authority
WO
WIPO (PCT)
Prior art keywords
card
speech
speaker
parameters
voice
Prior art date
Application number
PCT/FR1990/000091
Other languages
English (en)
Inventor
Jean-Louis Ripoll
Original Assignee
Alcept
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcept filed Critical Alcept
Publication of WO1990009656A1 publication Critical patent/WO1990009656A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • G07C9/257Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically

Definitions

  • the invention relates to speech analysis and synthesis, and more generally even speech coding and decoding.
  • the medium for transmitting information is an acoustic vibration of the air.
  • This vibration is constituted by a succession of acoustic waves of complex shapes.
  • Language sounds can be emitted in several ways: first there is a distinction between voiced sounds and unvoiced sounds.
  • the voiced sounds are emitted from a vibration of the vocal cords and are modulated through the pharynx and the oral cavity (and in particular by the tongue and the lips); some sounds also use the nasal cavity.
  • Unvoiced sounds are not output from the vocal cords; they are produced directly inside the oral cavity.
  • the fricative consonants (s, f, z, v) are produced respectively by a flow of air in the narrow gap between the teeth (s, z) or between the lips (f, v).
  • the consonants ' s and f are not seen. But the consonants z and v are seen.
  • Plosive consonants involve a complete occlusion of the vocal tract at one point or another, followed by an abrupt release of pressure accumulated in the conduit. The closing point determines the sound produced. This sound can be, again, voiced or unvoiced.
  • the consonants p (unvoiced) and b (voiced) correspond to a closure of the lips; t (unvoiced) and d (voiced) correspond to an occlusion by the tongue in the anterior part of the palate.
  • the consonants (unvoiced) and g (voiced) correspond to an occlusion by the tongue towards the back of the palate.
  • the human ear distinguishes them very well from each other, but the acoustic waveforms that distinguish them do not seem to be sufficiently characteristics so that a machine can easily recognize them, especially in continuous speech.
  • the acoustic waves corresponding to vowels have a simpler and narrower frequency spectrum than consonants.
  • the vowels actually represent rather a stable part of the vocal signal, while the consonants represent rather transitions.
  • Plosives for example represent sudden transitions, with a very wide frequency spectrum during the transition.
  • a method of frequency analysis which has already proven its effectiveness as well in speech recognition as in speech synthesis is the method of formants.
  • the formants are the frequencies corresponding to energy peaks of the voice signal: it is clearly seen that the frequency spectrum resulting from the analysis of the acoustic signal corresponding to a vowel is a spectrum comprising hollows and bumps.
  • the bumps are the formants; and we generally distinguish several successive formants in the spectrum corresponding to a determined phoneme.
  • the formants are identified by their position in the frequency spectrum. We will speak of the first forming for the lowest frequency peak, of the second forming for the next peak, etc.
  • the emission of the phoneme is indeed linked to very precise positions of the various mobile elements of the oral cavity (position of the lips, of the tongue , soft palate, etc.); and there is a link between the forming frequencies and the shape of the vocal tract; it is therefore understood that there is also a direct link between an emitted phoneme and the forming frequencies detected in the frequency spectrum of the acoustic signal corresponding to this phoneme.
  • the vowel A is an acoustic signal the first of which is located between 500 and 800 hertz, the second is located between 1000 and 1600 hertz but is not separated from the first more from 600 to 900 hertz, and the third component is located between 2300 and 3200 hertz.
  • the vowel I would have a first forming between 200 and 400 hertz, a second forming located between 2100 and 2400 hertz, but spaced at least 2000 hertz of the first.
  • the third forming is at an even higher frequency.
  • FIG. 1 represents a schematic table of the pronunciation zones of different phonetic vowels.
  • the letters in square brackets represent usual phonemes in French, according to the phonetics code of the Association Internationale de Phonographic.
  • the table is a frequency diagram representing the areas of value of the first form (on the ordinate) and of the second form (on the abscissa).
  • certain zones overlap which means that the same sound emitted by two different people can correspond to two phonemes of different meaning.
  • the zones are close enough to each other so that it can be difficult for a machine to recognize the phonemes present in human speech.
  • the speech recognition machines proposed so far are usually capable of recognizing only a small number of isolated words, spoken by a well-defined speaker who has recorded the words to be recognized in the machine (which he has spoken himself).
  • the machine will be unavailable to perform its recognition function; the operator will also be obliged to reserve a time for this operation. But this operation is a priori essential because the probability is very low for the machine to reliably recognize the words spoken by a speaker other than the one who recorded the reference words. It is needless to specify that if the machine is intended for example for use by the public in a public place, there is no question of carrying out a learning phase for each user who comes before the machine. One can think for example of a telephone booth in which the dialing of the called number is done orally. For such machines, we are currently obliged to limit the number of words to be recognized as much as possible, in order to increase the certainty of recognizing the word spoken regardless of the person who pronounces it.
  • the object of the present invention is, among other things, to propose a simple means making it easier to use a recognition machine by several different speakers, without excessively reducing the possibilities of the machine.
  • Another object of the invention is to propose a simple means making it possible to improve speech synthesis by adapting as closely as possible the synthesized voice to the voice of a well-defined speaker, so that for example if the voice of a the speaker is coded, then transmitted over a telephone line, then re-synthesized before being returned to a listener, the synthesized voice can come as close as possible to the voice of the initial speaker.
  • the present invention provides a speech processing system comprising a speech coding or decoding apparatus suitable for multi-speaker coding or decoding, characterized in that specific parameters of a determined speaker are contained in a card. personal portable that the speaker keeps with him, the system comprising a card reader adapted to read the content of the card and to communicate this content to the coding or decoding apparatus, to adapt it instantly, without learning phase, to this speaker .
  • the card could contain in the form of coded data a pronunciation of a certain number of words by the card holder (as many words as the machine must be able to recognize or synthesize for example). But it is more advantageous that the card rather contains parameters of the voice independently of the words to be recognized or synthesized, because that widens the possibilities of recognition or synthesis.
  • the parameters recorded in the card can then be encoded electrical signals representing the shapes of temporal or spectral wave 'of phonemes or diphones or frequency of diphones made by the cardholder.
  • vectors corresponding to these phonemes or diphonemes or diphones for example vectors of three or four formants; each vector of three or four formants will therefore include three or four frequency values (or more probably three or four frequency ranges) representing a determined phoneme or diphoneme or diphone.
  • These vectors will be stored in the card, and transferred to the machine at the time of use, replacing the vectors that the machine may have previously received during use by another speaker with another personal card.
  • consonants or diphones including consonants will be expressed more easily by parameters relating to the way in which the formants vary: more or less rapid fall of the first forming and simultaneously more or less rapid rise of the second, etc.
  • Coefficients of sampled transfer functions could also be stored as voice parameters in a portable personal card.
  • the card could be a magnetic stripe or optical strip card; but it will preferably be a smart card incorporating an integrated circuit chip with in particular a non-volatile memory containing the personal parameters of the voice.
  • the card can also be another portable information medium such as, for example: magnetic cards with high storage density, the magnetic surface of which covers all or almost all of one of the faces; non-volatile EPROM or EEPROM or RAM storage memory stored in a very compact and easily transportable case; chip keys not specially in the form of a flat card, etc.
  • FIG. 1, already described, represents a position diagram of various phonemes in the space of formants (first two formants);
  • FIG. 2 schematically represents an application of the invention to the voice control of a machine;
  • FIG. 3 schematically shows an application of the invention to telephone communications.
  • a first application of the invention is speech recognition, such as it can be used for example for controlling a robot, an industrial machine, a vehicle, etc., or, in a more sophisticated application, for a dictation machine or a translator.
  • FIG. 2 shows schematically this application in the case of controlling a robot.
  • a recognition device 10 is connected to an industrial robot 12 to supply it with orders for on, off, rotation, etc. control.
  • the recognition apparatus is coupled to a microphone 14 so that control commands can be given orally in the form of simple words such as "on", “stop", “right”, “left”, etc.
  • the apparatus is also coupled to a chip card reader 16 into which a chip card 18 can be inserted which contains in non-volatile memory (EPROM or EEPROM memory) personalized data relating to the voice of a derivative speaker of this card.
  • EPROM or EEPROM memory non-volatile memory
  • the card data is first loaded into the recognition device; this data is used to modify either configurations of electronic circuits in the device, or recognition algorithms used in the device.
  • the modified configurations or the modified algorithms are such that the device is then optimally adapted to the recognition of the words or sentences spoken by the speaker holding the card.
  • the modifications of algorithm can consist of modifications of the mean values and limit values of the frequencies of formants for each phoneme or diphoneme or diphone likely to be pronounced; or modifications of coefficients of polynomials in calculation algorithms based on the z-transform of the sampled acoustic signals.
  • Modifications of electronic circuit configurations could for example consist of modifications of capacitance values (by switching switches) in filters with switched capacitors used to determine formant frequencies.
  • the recognition device 10 Depending on the sophistication of the recognition device 10, it will be possible to recognize more or less complex words or sentences. If the apparatus 10 is very efficient (and its performance vis-à-vis multiple speakers will be considerably improved by the invention), it can be envisaged that the machine 12 controlled is a word processor, or even a speech machine. automatic translation. This of course presupposes that the recognition device is capable of recognizing not only individual words but continuous sentences.
  • the signal received by the microphone of the telephone handset is coded; the coding is a phonetic coding instead of being a digital coding of the waveforms of the speech signal: we code the speech by decomposing it into successive phonemes or diphones; it is therefore a speech recognition operation. Then we send on the telephone line successive data vectors, each vector comprising several data relating to the phoneme which has just been pronounced in the handset. Upon reception, the vectors are reconverted s of data in phonemes; it is a speech synthesis operation.
  • the compression achieved can be very important: we can consider limiting the amount of data necessary to transmit a normal conversation to 2 kilobits per second. Indeed, the number of phonemes emitted does not exceed ten per second.
  • a first coder / decoder 20 interposed between a first telephone apparatus 22 and a digital telephone line 24 will be used according to the invention.
  • the function of this first coder is to encode the speech transmitted and to decode the speech received. It is coupled with a first reader of smart cards 26 into which a card 28 can be inserted containing personalized data on the voice of the person who telephones.
  • a second coder / decoder 30 similar to the first, connected to the other end of the line 24, interposed between the line and a second telephone device 32.
  • the second coder / decoder is also coupled to a second card reader 36 in which one can insert a card 38 containing personalized data relating to the voice of the correspondent at the other end of the line.
  • the coders / decoders which are in fact complete speech recognition and synthesis devices, receive the data contained in the two cards, so that the coding part is adapted to the recognition of the voice of the person located at the same end of the line than the coder / decoder, while the decoding part is adapted to the synthesis of the voice of the person located at the other end of the line.
  • a data exchange protocol is therefore provided at the start of the telephone conversation to send the appropriate data to the coders / decoders. Then the conversation can take place .
  • one of the people is speaking; his voice is converted into coded phonemes, by the coder which has been specially adapted to the speaker's voice; it is sent over the line; it is received by the decoder at the other end of the line.
  • the decoder was also adapted to the voice of the same speaker; it will therefore optimally synthesize the voice of this speaker before transmitting it to the telephone set listener.
  • coding and decoding are specially adapted to his voice so that at the other end of the line the correspondent will receive a synthesized voice in a personalized manner.
  • the interrogation is done by speech and not by means of a keyboard.
  • An example is the telephone reservation of air transport.
  • the user has, as in the previous application, a telephone device with which a card reader is associated; the card contains the holder's voice settings.
  • Parameters can be used in two ways: on the one hand they can be sent on the line as elements of identification of an authorized holder; if the parameters are not those of an authorized holder, the database is not made accessible; on the other hand, after the voice parameters have been transmitted to the database, a speech recognition system uses these parameters to best adapt to the voice of the person who is going to speak on the telephone line.
  • the user can then speak; its voice is transmitted normally on the line (unlike the previous application where it is coded for a reduction in bit rate); a speech analysis is done at the other end of the line, adapted to the speaker's voice, to determine the message transmitted by machine and to establish human-machine dialogue via the telephone line.
  • the personal parameters of the voice are entered in the card of a holder by a specialized machine whose main function is to determine and save these parameters.
  • the card holder will have to pronounce a number of characteristic words in front of the machine which will be used to make this determination.

Abstract

L'invention concerne l'analyse et la synthèse de la parole, et plus généralement même le codage et le décodage de la parole. Etant donné que la reconnaissance de parole multilocuteurs est très difficile du fait des différences de prononciation des mêmes phonèmes par des locuteurs différents, l'invention propose un système de reconnaissance utilisant des cartes portatives, et tout particulièrement des cartes à puces, dans lesquelles on enregistre des paramètres caractéristiques de la voix du locuteur titulaire de la carte. Ces paramètres sont lus par un lecteur (16), transmis à un appareil de reconnaissance de parole (10) qui adapte ses algorithmes ou circuits de traitement en fonction du contenu de la carte pour optimiser la reconnaissance en fonction d'un locuteur déterminé. L'appareil de reconnaissance (10) peut alors commander avec une fiabilité maximale une machine (12), en fonction d'un signal de parole transmis par un microphone (14).

Description

APPAREIL DE TRAITEMENT DE LA PAROLE
L'invention concerne l'analyse et la synthèse de la parole, et plus généralement même le codage et le décodage de la parole.
Les applications dans lesquelles on envisage de traiter électroniquement les signaux de voix humaine sont de plus en plus nombreuses. Il y a d'abord la reconnaissance et la synthèse de parole en vue de faciliter la communication homme-machine qui se fait jusqu'à maintenant principalement à travers un clavier de saisie et un écran de visualisation, ou à travers de boutons et manettes de commande. Il y a aussi la reconnaissance de parole en vue de 1 'identification d'une personne par ses caractéristiques vocales. Et il y a également des applications dans lesquelles le traitement sert à comprimer les informations émises oralement pour les transmettre à une plus grande vitesse ou avec une plus faible bande passante, etc.
Mais le traitement de la parole est une opération très difficile, à cause de la complexité des mécanismes physiologiques par lesquels la parole est produite et par lesquels elle est entendue et comprise.
Le support de transmission de 1'information est une vibration acoustique de l'air. Cette vibration est constituée par une succession d'ondes acoustiques de formes complexes. Lorsqu'on enregistre ces formes d'onde, on constate qu'il est pratiquement impossible, par simple observation visuelle, de faire un lien entre telle ou telle partie du diagramme et le son qui a été prononcé.
Il en résulte qu'il est très difficile d'établir des circuits électroniques ou programmes de traitement de données qui seraient capables de reconnaître autre chose que des sons isolés très simples. Les problèmes sont également difficiles en synthèse vocale si on veut reproduire des sons qui ressemblent suffisamment fidèlement au langage humain.
Pour donner une idée plus précise des difficultés rencontrées, on va rappeler ci-dessous quelques notions relatives à l'analyse, la reconnaissance et la synthèse de la parole.
Les sons du langage peuvent être émis de plusieurs manières : il y a d'abord une distinction entre les sons voisés et les sons non voisés. Les sons voisés sont émis à partir d'une vibration des cordes vocales et sont modulés à travers le pharynx et la cavité buccale (et notamment par la langue et les lèvres) ; certains sons utilisent également la cavité nasale. Les sons non voisés ne sont pas émis à partir des cordes vocales; ils sont directement, produits à 1'intérieur de la cavité buccale.
D'autre part, que ce soit parmi les sons voisés ou les sons non voisés, on peut faire la distinction entre les sons produits par des turbulences d'air (dans une ouverture étroite) , et ceux qui correspondent plutôt à un écoulement régulier. Les consonnes sont en général produites par des turbulences. Les voyelles correspondent plutôt à des écoulements réguliers.
Les consonnes fricatives (s, f, z, v) sont produites respectivement par un flux d'air dans l'intervalle étroit entre les dents (s, z) ou entre les lèvres (f, v) . Les consonnes' s et f ne sont pas voisées. Mais les consonnes z et v sont voisées.
Les consonnes plosives font intervenir une occlusion complète du conduit vocal en un point ou un autre, suivie d'une libération brusque de la pression accumulée dans le conduit. Le point de fermeture détermine le son produit. Ce son peut être, là encore, voisé ou non voisé. Les consonnes p (non voisée) et b (voisée) correspondent à une fermeture des lèvres; t (non voisée) et d (voisée) correspondent à une occlusion par la langue dans la partie antérieure du palais. Les consonnes (non voisée) et g (voisée) correspondent à une occlusion par la langue vers l'arrière du palais.
On peut ainsi décrire comment sont produits la plupart des phonèmes correspondant à une langue donnée. Le phonème est le plus petit élément sonore permettant de distinguer un mot d'un autre ou plus précisément de modifier sa signification. Il n'y a guère que quelques dizaines de phonèmes différents dans une langue donnée. On considère qu'il y en a une quarantaine dans la langue française.
Mais c'est un chiffre théorique. Dans la pratique on s'aperçoit que les phonèmes sont prononcés différemment selon les phonèmes qui les précèdent ou les suivent. C'est le phénomène de coarticulation entre phonèmes, qui complique sérieusement les problèmes de reconnaissance ou synthèse car il multiplie par 4 ou 5 le nombre de phonèmes pratiquement émis. Il est d'ailleurs souvent plus simple de fonder la reconnaissance de parole ou la synthèse non pas sur les phonèmes mais soit sur des "diphoné es" qui sont des couples de phonèmes associés incluant la transition entre ces phonèmes, soit sur des "diphones" qui sont des segments sonores débutant au milieu d'un phonème et s'arrêtant au milieu du phonème suivant, (incluant donc la transition entre deux phonèmes mais pas la totalité de chacun des deux phonèmes) .
L'oreille humaine les distingue très bien les uns des autres, mais les formes d'onde acoustique qui les distinguent ne semblent pas être suffisamment caractéristiques pour qu'une machine puisse facilement les reconnaître, surtout dans une parole en continu.
Les ondes acoustiques correspondant aux voyelles ont un spectre de fréquences plus simple et plus étroit que les consonnes. Les voyelles représentent en effet plutôt une partie stable du signal vocal, tandis que les consonnes représentent plutôt des transitions. Les plosives par exemple représentent des transitions brutales, avec un spectre de fréquences très large durant la transition.
C'est pourquoi on a essayé de proposer des méthodes de traitement de la parole fondées essentiellement sur l'analyse fréquentielle des signaux acoustiques.
Par ces analyses fréquentielles on arrive mieux à discerner des paramètres correspondant aux différents phonèmes ou diphones émis.
A titre d'exemple, une méthode d'analyse fréquentielle qui a déjà prouvé son efficacité aussi bien en reconnaissance vocale qu'en synthèse vocale est la méthode des formants. On va rappeler en quelques paragraphes ce que sont les formants, pour mieux faire comprendre l'invention, bien que l'invention ne soit pas limitée aux systèmes utilisant une analyse ou une synthèse à formants. Les formants sont les fréquences correspondant à des pics d'énergie du signal vocal : on voit clairement que le spectre de fréquences résultant de l'analyse du signal acoustique correspondant à une voyelle est un spectre comprenant des creux et des bosses. Les bosses sont les formants; et on distingue en général plusieurs formants successifs dans le spectre correspondant à un phonème déterminé.
Les formants sont repérés par leur position dans le spectre de fréquences. On parlera de premier formant pour le pic de plus basse fréquence, de deuxième formant pour le pic suivant, etc.
Ces pics correspondent physiquement à des résonances de la cavité buccale, et la parole humaine consiste justement à moduler la forme de la cavité buccale de manière à modifier les différentes fréquences de résonance de cette cavité.
Il y a un lien direct entre la prononciation d'un phonème et la forme du conduit vocal : l'émission du phonème est en effet liée à des positions bien précises des différents éléments mobiles de la cavité buccale (position des lèvres, de la langue, du voile du palais, etc.); et il y a un lien entre les fréquences de formant et la forme du conduit vocal; on comprend donc qu'il y a aussi un lien direct entre un phonème émis et les fréquences de formant détectées dans le spectre de fréquences du signal acoustique correspondant à ce phonème.
L'analyse et la synthèse à formants sont fondés sur cette notion. Effectivement, on constate que la présence de certains formants est tout-à-fait caractéristique de l'émission de tel ou tel phonème. Pour les voyelles, dont le spectre de fréquences est relativement stable, on peut très bien caractériser une voyelle déterminée par la position (sur l'axe des fréquences) des trois premiers formants, c'est-à-dire des trois premiers pics du spectre du signal acoustique correspondant.
A titre indicatif, on peut donner l'exemple suivant: la voyelle A est un signal acoustique dont le premier formant est situé entre 500 et 800 hertz, le deuxième est situé entre 1000 et 1600 hertz mais n'est pas écarté du premier de plus de 600 à 900 hertz, et le troisième formant est situé entre 2300 et 3200 hertz.
Un autre exemple : la voyelle I aurait un premier formant entre 200 et 400 hertz, un deuxième formant situé entre 2100 et 2400 hertz, mais espacé d'au moins 2000 hertz du premier. Le troisième formant est à une fréquence plus élevée encore.
Avec un vecteur mathématique composé de trois nombres qui sont les fréquences des trois premiers formants on peut assez bien caractériser toutes les voyelles et certaines consonnes. Pour d'autres consonnes l'utilisation des formants est plus malaisée, mais d'autres méthodes peuvent être utilisées, et notamment une évaluation du sens et de la rapidité de variation des fréquences de formant dans les diphones comportant une transition par consonne.
Cependant, un problème supplémentaire vient de la diversité des prononciations des mêmes phonèmes par des personnes différentes. L'oreille humaine rétablit automatiquement la signification du phonème, même prononcé par plusieurs personnes différentes. Mais une machine de reconnaissance vocale confrontée à plusieurs vecteurs de formants aura beaucoup de mal à reconnaître ces différents vecteurs comme représentant un seul et même phonème si les vecteurs sont assez différents les uns des autres du fait qu'ils émanent de personnes différentes. C'est d'ailleurs d'autant plus vrai qu'on a déjà envisagé de réaliser des machines d'identification de personnes dont le fonctionnement repose sur la reconnaissance vocale, ce qui montre que dans une certaine mesure il peut y avoir des différences très significatives dans 1 'émission des mêmes phonèmes par des personnes différentes.
A titre d'exemple, la figure 1 représente un tableau schématique des zones de prononciation de différentes voyelles phonétiques. Les lettres entre crochets représentent des phonèmes usuels en français, selon le code de phonétique de l'Association Internationale de Phonétique. Le tableau est un diagramme fréquentiel représentant les zones de valeur du premier formant (en ordonnée) et du deuxième formant (en abscisse) . On voit notamment que certaines zones se recoupent, ce qui veut dire que le même son émis par deux personnes différentes peut correspondre à deux phonèmes de signification différentes. Et plus généralement, les zones sont assez proches les unes des autres de sorte qu'il peut être difficile à une machine de reconnaître les phonèmes présents dans la parole humaine. Les machines de reconnaissance vocale proposées jusqu'à maintenant sont habituellement capables de reconnaître seulement un petit nombre de mots isolés, prononcés par un locuteur bien déterminé qui a enregistré dans la machine les mots à reconnaître (qu'il a prononcé lui-même) .
On a proposé de rendre ces machines capables de reconnaître les mêmes mots, prononcés par plusieurs locuteurs différents. Mais alors, le passage d'un locuteur à un autre nécessite d'abord une phase d'apprentissage de la machine : le deuxième locuteur doit prononcer devant la machine la succession des différents mots qu'elle doit pouvoir reconnaître, de manière que la machine enregistre en mémoire la manière dont ces mots sont prononcés, et qu'elle puisse ensuite les reconnaître. Cette phase d'apprentissage est très lourde; d'autant plus lourde que la machine doit pouvoir reconnaître plus de mots. Si elle doit reconnaître 1000 mots, il faudra les prononcer tous; il faudra même peut-être les prononcer chacun plusieurs fois pour établir une prononciation moyenne (car la prononciation d'un mot par une personne n'est pas quelque chose de figé et invariable). Pendant la phase d'apprentissage, la machine sera indisponible pour exécuter sa fonction de reconnaissance; l'opérateur sera aussi contraint de réserver un temps pour cette opération. Mais cette opération est a priori indispensable car la probabilité est très faible pour que la machine reconnaisse d'une manière fiable les mots prononcés par un locuteur autre que celui qui a enregistré les mots de référence. II est inutile de préciser que si la machine est destinée par exemple à une utilisation par le public dans un lieu public, il est hors de question de procéder à une phase d'apprentissage pour chaque utilisateur qui se présente devant la machine. On peut penser par exemple à une cabine téléphonique dans laquelle la composition du numéro appelé est faite oralement. Pour de telles machines, on est actuellement obligé de limiter au maximum le nombre de mots à reconnaître, pour augmenter la certitude de reconnaître le mot prononcé quelle que soit la personne qui le prononce.
La présente invention a entre autres pour but de proposer un moyen simple permettant de rendre plus facile l'utilisation d'une machine de reconnaissance par plusieurs locuteurs différents, sans réduire excessivement les possibilités de la machine.
Un autre but de 1'invention est de proposer un moyen simple permettant d'améliorer la synthèse vocale en adaptant aussi étroitement que possible la voix synthétisée à la voix d'un locuteur bien déterminé, de sorte que par exemple si la voix d'un locuteur est codée, puis transmise sur une ligne téléphonique, puis resynthétisée avant d'être restituée à un auditeur, la voix synthétisée puisse se rapprocher aussi près que possible de la voix du locuteur initial. Pour atteindre ces buts, la présente invention propose un système de traitement de parole comprenant un appareil de codage ou décodage de parole adapté à un codage ou un décodage multilocuteurs, caractérisé en ce que des paramètres spécifiques d'un locuteur déterminé sont contenus dans une carte portative personnelle que le locuteur conserve avec soi, le système comportant un lecteur de carte adapté à lire le contenu de la carte et à communiquer ce contenu à l'appareil de codage ou décodage, pour l'adapter instantanément, sans phase d'apprentissage, à ce locuteur.
On comprend qu'avec ce système, on peut aller jusqu'à installer dans des lieux publics des machines complexes utilisant la reconnaissance ou la synthèse de parole, et que toute personne possédant une carte personnelle contenant les paramètres propres de sa voix, pourra communiquer avec cette machine ou à travers cette machine, alors qu'elle ne pourrait le faire autrement.
La carte pourrait contenir sous forme de données codées une prononciation d'un certain nombre de mots par le titulaire de la carte (autant de mots que la machine doit pouvoir reconnaître ou synthétiser par exemple) . Mais il est plus avantageux que la carte contienne plutôt des paramètres de la voix indépendamment des mots à reconnaître ou synthétiser, car cela élargit les possibilités de reconnaissance ou synthèse.
Les paramètres enregistrés dans la carte peuvent alors être des signaux électriques codés représentant les formes d'onde temporelle ou les spectres ' de fréquence de phonèmes ou diphonèmes ou diphones prononcés par le titulaire de la carte. Mais on préférera utiliser comme paramètres des vecteurs correspondant à ces phonèmes ou diphonèmes ou diphones, par exemple des vecteurs de trois ou quatre formants; chaque vecteur de trois ou quatre formants comprendra donc trois ou quatre valeurs de fréquences (ou plus vraisemblablement trois ou quatre gammes de fréquences) représentant un phonème ou diphonème ou diphone déterminé. Ces vecteurs seront stockés dans la carte, et transférés à la machine au moment de l'utilisation, en remplacement des vecteurs que la machine aura pu recevoir précédemment lors de l'utilisation par un autre locuteur disposant d'une autre carte personnelle.
On comprendra que si les formants semblent être les vecteurs les plus commodes pour représenter les voyelles, d'autres paramètres existent et peuvent être stockés pour d'autres phonèmes, diphonèmes ou diphones. Notamment, les consonnes ou les diphones incluant des consonnes s'exprimeront plus facilement par des paramètres relatifs à la manière dont les formants varient: chute plus ou moins rapide du premier formant et simultanément montée plus ou moins rapide du deuxième, etc.
Des coefficients de fonctions de transfert échantillonnées (fonction de transfert en z) pourraient également être stockés comme paramètres de la voix dans une carte personnelle portative.
La carte pourrait être une carte à piste magnétique, ou optique; mais elle sera de préférence une carte à puce incorporant une puce de circuit-intégré avec notamment une mémoire non volatile contenant les paramètres personnels de la voix. La carte peut être aussi un autre support d'information portable tel que par exemple : cartes magnétiques à haute densité de stockage, dont la surface magnétique couvre la totalité ou la quasi-totalité d'une des faces; mémoire de stockage de type EPROM ou EEPROM ou RAM non-volatile stockée dans un boîtier de forme très compacte et facilement transportable; clés à puce n'ayant pas spécialement la forme d'une carte plate, etc.
D'autres caractéristiques et avantages de 1'invention apparaîtront à la lecture de la description qui suit et qui est faite en référence aux dessins annexés dans lesquels : la figure 1, déjà décrite, représente un diagramme de position de divers phonèmes dans l'espace des formants (deux premiers formants) ; la figure 2 représente schématiquement une application de l'invention à la commande vocale d'une machine;
- la figure 3 représente schématiquement une application de l'invention aux communications téléphoniques.
Une première application de l'invention est la reconnaissance de la parole, telle qu'on peut l'utiliser par exemple pour la commande d'un robot, d'une machine industrielle, d'un véhicule, etc., ou, dans une application plus sophistiquée, pour une machine à dicter ou une machine à traduire.
La figure 2 schématise cette application dans le cas de la commande d'un robot. Un appareil de reconnaissance 10 est connecté à un robot industriel 12 pour lui fournir des ordres de commande de marche, d'arrêt, de rotation, etc. L'appareil de reconnaissance est couplé à un microphone 14 de sorte que les ordres de commande peuvent être donnés oralement sous la forme de mots simples tels que "marche", "stop", "droite", "gauche", etc. L'appareil est par ailleurs couplé à un lecteur de carte à puces 16 dans lequel on peut introduire une carte à puce 18 qui contient dans une mémoire non volatile (mémoire EPROM ou EEPROM) des données personnalisées relatives à la voix d'un locuteur titulaire de cette carte.
Lors du fonctionnement, les données de la carte sont d'abord chargées dans l'appareil de reconnaissance; ces données servent à modifier soit des configurations de circuits électroniques dans l'appareil, soit des algorithmes de reconnaissance utilisés dans l'appareil. Les configurations modifiées ou les algorithmes modifiés sont tels que 1 'appareil soit alors adapté de manière optimale à la reconnaissance des mots ou phrases prononcés par le locuteur titulaire de la carte. Par exemple, les modifications d'algorithme peuvent consister en modifications des valeurs moyennes et valeurs limites des fréquences de formants pour chaque phonème ou diphonème ou diphone susceptible d'être prononcé; ou encore des modifications de coefficients de polynômes dans des algorithmes de calcul fondés sur la transformée en z des signaux acoustiques échantillonnés. Des modifications de configurations de circuits électroniques pourraient par exemple consister en modifications de valeurs de capacités (par commutation d'interrupteurs) dans des filtres à capacités commutées utilisés pour déterminer des fréquences de formants.
Selon la sophistication de l'appareil de reconnaissance 10, on pourra reconnaître des mots ou phrases plus ou -moins' complexes. Si l'appareil 10 est très performant (et ses performances vis-à-vis de locuteurs multiples seront considérablement améliorées par 1'invention) , on peut envisager que la machine 12 commandée soit une machine de traitement de texte, voire même une machine de traduction automatique. Cela suppose bien entendu que l'appareil de reconnaissance soit capable de reconnaître non pas seulement des mots isolés mais des phrases continues.
Pour le choix des paramètres que 1'on peut inscrire dans la carte pour représenter de manière personnalisée la voix du titulaire de la carte, on pourra utiliser d'une manière générale les théories de reconnaissance et synthèse de la voix telles qu'elles ont été formulées jusqu'à maintenant. On trouvera une indication des méthodes mathématiques permettant de faire ces choix dans le traité de René Boite et Murât Kunt : "Traitement de la parole", complément au Traité d'Electricité, publié aux Presses Polytechniques Romandes, ainsi que les ouvrages référencés dans la bibliographie de ce traité. Une autre application de 1'invention est représentée à la figure 3. Dans cette application, on cherche à coder le signal de parole émis sur une ligne téléphonique, pour comprimer le signal et ainsi limiter le débit d'informations utile pour une communication. Pour cela, on code le signal reçu par le microphone du combiné téléphonique; le codage est un codage phonétique au lieu d'être un codage numérique des formes d'onde du signal de parole : on code la parole en la décomposant en phonèmes ou diphones successifs; c'est donc une opération de reconnaissance de parole. Puis on envoie sur la ligne téléphonique des vecteurs successifs de données, chaque vecteur comportant plusieurs données relatives au phonème qui vient d'être prononcé dans le combiné. A la réception, on reconvertit les vecteurs de données en phonèmes; c'est une opération de synthèse de parole. La compression réalisée peut être très importante : on peut envisager de limiter à 2 kilobits par seconde la quantité de données nécessaire pour transmettre une conversation normale. En effet, le nombre de phonèmes émis ne dépasse pas une dizaine par seconde. On dispose donc de 200 bits pour coder chaque phonème ou diphone ainsi que la prosodie (c'est-à-dire la mélodie engendrée par la variation de la fréquence fondamentale des cordes vocales au cours de la phrase) . Dans cette application, on utilisera selon l'invention un premier codeur/décodeur 20 interposé entre un premier appareil téléphonique 22 et une ligne téléphonique numérique 24. Ce premier codeur a pour fonction de coder la parole émise et de décoder la parole reçue. Il est couplé à un premier lecteur de cartes à puces 26 dans lequel on pourra introduire une carte 28 comportant les données personnalisées sur la voix de la personne qui téléphone. On utilisera aussi un deuxième codeur/décodeur 30 semblable au premier, raccordé à l'autre bout de la ligne 24, interposé entre la ligne et un deuxième appareil téléphonique 32. Le deuxième codeur/décodeur est aussi couplé à un deuxième lecteur de cartes 36 dans lequel on peut insérer une carte 38 comportant les données personnalisées relatives à la voix du correspondant à l'autre bout de la ligne.
Les codeur/décodeurs, qui sont en fait des appareils complets de reconnaissance et synthèse vocale, reçoivent les données contenues dans les deux cartes, de sorte que la partie codage est adaptée à la reconnaissance de la voix de la personne située au même bout de la ligne que le codeur/décodeur, alors que la partie décodage est adaptée à la synthèse de la voix de la personne située à l'autre bout de la ligne.
On prévoit donc en début de conversation téléphonique un protocole d'échanges de données pour envoyer dans les codeurs/décodeurs les données qui conviennent. Puis la conversation peut avoir lieu. l'une des personnes parle; sa voix est convertie en phonèmes codés, par le codeur qui a été spécialement adapté à la voix du locuteur; elle est envoyée sur la ligne; elle est reçue par le décodeur à l'autre bout de la ligne. Le décodeur a été lui aussi adapté à la voix du même locuteur; il synthétisera donc d'une manière optimale la voix de ce locuteur avant de la transmettre à l'écouteur du poste téléphonique. De même pour l'autre locuteur, codage et décodage sont spécialement adaptés à sa voix de sorte qu'à l'autre bout de la ligne le correspondant recevra une voix synthétisée d'une manière personnalisée.
Dans une autre application encore, on cherche à interroger par téléphone une base de données. L'interrogation est faite par la parole et non par l'intermédiaire d'un clavier. Un exemple est la réservation téléphonique de transports aériens. L'utilisateur dispose, comme dans l'application précédente, d'un appareil téléphonique auquel est associé un lecteur de carte; la carte contient les paramètres de la voix de son titulaire. Les paramètres peuvent être utilisés de deux manières : d'une part ils peuvent être envoyés sur la ligne à titre d'éléments d'identification d'un titulaire autorisé; si les paramètres ne sont pas ceux d'un titulaire autorisé, la base de données n'est pas rendue accessible; d'autre part, après que les paramètres de la voix aient été transmis vers la base de données, un système de reconnaissance de parole utilise ces paramètres pour s'adapter au mieux à la voix de celui qui va parler sur la ligne téléphonique. L'utilisateur peut alors parler; sa voix est transmise normalement sur la ligne (contrairement à l'application précédente où elle est codée en vue d'une réduction du débit) ; une analyse de parole est faite à l'autre bout de la ligne, adaptée à la voix du locuteur, pour déterminer par machine le message transmis et instaurer le dialogue homme-machine via la ligne téléphonique.
Dans toutes les applications, on prévoira de préférence que les paramètres personnels de la voix, sont inscrits dans la carte d'un titulaire par une machine spécialisée dont la fonction principale est de déterminer et enregistrer ces paramètres. Le titulaire de la carte devra à cet effet prononcer devant la machine un certain nombre de mots caractéristiques qui serviront à faire cette détermination.

Claims

REVENDICATIONS
1. Système de traitement de la parole, comprenant un appareil de codage ou décodage de parole adapté à un codage ou un décodage multilocuteurs, des paramètres spécifiques de la voix d'un locuteur déterminé étant contenus dans une carte portative personnelle que le locuteur conserve avec soi, le système comportant un lecteur de carte adapté à lire le contenu de la carte et à communiquer ce contenu à l'appareil de codage ou décodage pour l'adapter instantanément, sans phase d'apprentissage, à ce locuteur, caractérisé en ce qu'il comprend un appareil de codage et décodage phonétique de parole interposé entre un appareil téléphonique et une ligne téléphonique, et capable de transmettre successivement sur la ligne des vecteurs de données correspondant à une succession de phonèmes ou diphonèmes ou diphones, et un lecteur de carte, l'appareil de codage et décodage étant apte à adapter sa fonction de codage en fonction de paramètres personnels de voix contenus dans la carte introduite dans le lecteur, et l'appareil étant apte par ailleurs à adapter sa fonction de décodage en fonction de paramètres personnels de voix reçus de la ligne téléphoniques»
2. Système de traitement de la parole, comprenant un appareil de codage ou décodage de parole adapté à un codage ou un décodage multilocuteurs, des paramètres spécifiques de la voix d'un locuteur déterminé étant contenus dans une carte portative personnelle que le locuteur conserve avec soi, le système comportant un lecteur de carte adapté à lire le contenu de la carte et à communiquer ce contenu à 1'appareil de codage ou décodage pour l'adapter instantanément, sans phase d'apprentissage, à ce locuteur, caractérisé en ce qu'il comporte un appareil téléphonique couplé à une ligne téléphonique, et un lecteur de carte associé à l'appareil, des moyens pour transmettre sur la ligne les paramètres de la voix contenue dans la carte, et un système de reconnaissance de parole à l'autre bout de la ligne pour dans un premier temps recevoir de la ligne les dits paramètres et dans un deuxième temps recevoir un signal de parole en provenance de l'appareil téléphonique, le système de reconnaissance de parole étant apte à adapter son fonctionnement en fonction des paramètres de voix reçus.
3. Système de traitement de parole selon la revendication 1 ou la revendication 2, caractérisé en ce que les paramètres spécifiques du locuteur comprennent des vecteurs de données acoustiques correspondant à des phonèmes ou diphonèmes ou diphones, tels qu'ils sont prononcés par le locuteur titulaire de la carte
4. Système de traitement de parole selon la revendication 3, caractérisé en ce que chaque vecteur est constitué par un ensemble de données acoustiques, parmi lesquelles on trouve des valeurs de fréquence de formants correspondant à un phonème ou diphonème ou diphone tel que prononcé par le locuteur titulaire de la carte.
5. Système de traitement de parole selon 1'une des revendications l à 4, caractérisé en ce que les paramètres spécifiques contenus dans la carte comprennent des données relatives aux variations de fréquence de formants correspondant à des phonèmes ou diphonèmes ou diphones déterminés.
6. Système de traitement de parole selon l'une des revendications l à 5, caractérisé en ce que les paramètres contenus dans la carte comprennent des coefficients de fonctions de transfert échantillonnées (fonction de transfert en z) de signaux acoustiques correspondant à des phonèmes ou diphonèmes ou diphones prononcés par le titulaire de la carte.
7. Système de traitement de parole selon l'une des revendications 1 à 6, caractérisé en ce que la carte est une carte à piste magnétique, ou optique, ou de préférence une carte à puce incorporant une puce de circuit-intégré avec notamment une mémoire non volatile contenant les paramètres personnels de la voix.
8. Système de traitement de parole selon l'une des revendications 1 à 6, caractérisé en ce que la carte est une carte magnétique à haute densité de stockage dont la surface magnétique couvre la totalité ou la quasi totalité d'une face, ou une clé à circuit intégré n'ayant pas spécifiquement une forme de carte plate.
PCT/FR1990/000091 1989-02-07 1990-02-06 Appareil de traitement de la parole WO1990009656A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR8901542A FR2642882B1 (fr) 1989-02-07 1989-02-07 Appareil de traitement de la parole
FR89/01542 1989-02-07

Publications (1)

Publication Number Publication Date
WO1990009656A1 true WO1990009656A1 (fr) 1990-08-23

Family

ID=9378539

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1990/000091 WO1990009656A1 (fr) 1989-02-07 1990-02-06 Appareil de traitement de la parole

Country Status (3)

Country Link
EP (1) EP0456742A1 (fr)
FR (1) FR2642882B1 (fr)
WO (1) WO1990009656A1 (fr)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010013546A1 (en) 1996-01-09 2001-08-16 Ross William Leslie Identification system
GB2309110B (en) * 1996-01-09 1999-12-08 Personal Biometric Encoders Identification system
US6496099B2 (en) 1996-06-24 2002-12-17 Computer Motion, Inc. General purpose distributed operating room control system
DE19726265C2 (de) * 1997-06-20 2001-08-02 Deutsche Telekom Ag Verfahren zum Betreiben einer Anlage zur Nutzung einer Chipkarte
DE69736014T2 (de) * 1997-10-20 2006-11-23 Computer Motion, Inc., Goleta Verteiltes allzweck-steuerungssystem für operationssäle
EP1120752A1 (fr) * 2000-01-24 2001-08-01 Franke & Co. Verwaltungs KG Système pour le contrôle des droits d'entrée ou d'accès

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3129282A1 (de) * 1981-07-24 1983-02-10 Siemens AG, 1000 Berlin und 8000 München Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen
EP0071716A2 (fr) * 1981-08-03 1983-02-16 Texas Instruments Incorporated Vocodeur allophonique
FR2533513A1 (fr) * 1982-09-23 1984-03-30 Renault Procede et systeme pour communiquer a bord d'un vehicule automobile des informations complexes relatives au vehicule et a son environnement
GB2139389A (en) * 1983-04-29 1984-11-07 Voice Electronic Technology Li Identification apparatus
DE3416238A1 (de) * 1983-05-02 1984-12-20 Motorola, Inc., Schaumburg, Ill. Extremschmalband-uebertragungssystem
WO1986006197A1 (fr) * 1985-04-09 1986-10-23 Drexler Technology Corporation Systeme de cartes de donnees pour initialiser des unites de reconnaissance de mots parles
WO1987004292A1 (fr) * 1986-01-03 1987-07-16 Motorola, Inc. Procede et appareil pour synthetiser la parole a partir de modeles de reconnaissance de la parole
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3129282A1 (de) * 1981-07-24 1983-02-10 Siemens AG, 1000 Berlin und 8000 München Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen
EP0071716A2 (fr) * 1981-08-03 1983-02-16 Texas Instruments Incorporated Vocodeur allophonique
FR2533513A1 (fr) * 1982-09-23 1984-03-30 Renault Procede et systeme pour communiquer a bord d'un vehicule automobile des informations complexes relatives au vehicule et a son environnement
GB2139389A (en) * 1983-04-29 1984-11-07 Voice Electronic Technology Li Identification apparatus
DE3416238A1 (de) * 1983-05-02 1984-12-20 Motorola, Inc., Schaumburg, Ill. Extremschmalband-uebertragungssystem
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns
WO1986006197A1 (fr) * 1985-04-09 1986-10-23 Drexler Technology Corporation Systeme de cartes de donnees pour initialiser des unites de reconnaissance de mots parles
WO1987004292A1 (fr) * 1986-01-03 1987-07-16 Motorola, Inc. Procede et appareil pour synthetiser la parole a partir de modeles de reconnaissance de la parole

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Electrical Communication, Vol. 59, No. 3, 1985, (Harlow, GB), H. Mulla et al.: "Application of Speech Recognition and Synthesis to PABX Services", pages 273-280 *
ICASSP 80, IEEE International Conference on Acoustics, Speech and Signal Processing, Denver, Colorado, 9-11 Avril 1980, Vol. 1, IEEE (New York, US), R. SCHWARTZ et al.: "A Preliminary Design of a Phonetic Vocoder Based on a Diphone Model", pages 32-35 *
ICASSP 85, IEEE International Conference on Acoustics, Speech, and Signal Processing, Tampa, Florida, 26-29 Mars 1985, Vol. 1, IEEE, (New York, US), S. ROUCOS et al.: "The Waveform Segment Vocoder: A New Approach for Very-Low-Rate Speech Coding", pages 236-239 *

Also Published As

Publication number Publication date
EP0456742A1 (fr) 1991-11-21
FR2642882B1 (fr) 1991-08-02
FR2642882A1 (fr) 1990-08-10

Similar Documents

Publication Publication Date Title
Greenberg On the origins of speech intelligibility in the real world
EP0974221B1 (fr) Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
Ainsworth Mechanisms of Speech Recognition: International Series in Natural Philosophy
McLoughlin Applied speech and audio processing: with Matlab examples
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
Syrdal et al. Applied speech technology
US20120016674A1 (en) Modification of Speech Quality in Conversations Over Voice Channels
EP0867856A1 (fr) "Méthode et dispositif de detection d'activité vocale"
CA2602633A1 (fr) Dispositif pour la communication par des personnes handicapees de la parole et/ou de l'ouie
EP2215626A1 (fr) Systeme d'interpretation simultanee automatique
WO2018146305A1 (fr) Methode et appareil de modification dynamique du timbre de la voix par decalage en fréquence des formants d'une enveloppe spectrale
CN113724718A (zh) 目标音频的输出方法及装置、系统
US6502073B1 (en) Low data transmission rate and intelligible speech communication
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN113724683A (zh) 音频生成方法、计算机设备及计算机可读存储介质
CA2343701A1 (fr) Methode de communication en langage naturel a l'aide d'un langage de balisage
WO1990009656A1 (fr) Appareil de traitement de la parole
Hermansky Auditory modeling in automatic recognition of speech
CN113724690B (zh) Ppg特征的输出方法、目标音频的输出方法及装置
EP1271469A1 (fr) Procédé de génération de caractéristiques de personnalité et procédé de synthèse de la parole
Westall et al. Speech technology for telecommunications
FR2859566A1 (fr) Procede de transmission d'un flux d'information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
Gao Audio deepfake detection based on differences in human and machine generated speech
JP2009271315A (ja) 音声二次元コードから音声を再生可能な携帯電話機および音声二次元コードを含む二次元コードが表示された印刷物

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB IT LU NL SE

WWE Wipo information: entry into national phase

Ref document number: 1990903181

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1990903181

Country of ref document: EP

NENP Non-entry into the national phase in:

Ref country code: CA

WWW Wipo information: withdrawn in national office

Ref document number: 1990903181

Country of ref document: EP