SE506003C2 - Speech-to-speech conversion method and system with extraction of prosody information - Google Patents

Speech-to-speech conversion method and system with extraction of prosody information

Info

Publication number
SE506003C2
SE506003C2 SE9601811A SE9601811A SE506003C2 SE 506003 C2 SE506003 C2 SE 506003C2 SE 9601811 A SE9601811 A SE 9601811A SE 9601811 A SE9601811 A SE 9601811A SE 506003 C2 SE506003 C2 SE 506003C2
Authority
SE
Sweden
Prior art keywords
speech
information
input
dialect
fundamental tone
Prior art date
Application number
SE9601811A
Other languages
Swedish (sv)
Other versions
SE9601811L (en
SE9601811D0 (en
Inventor
Bertil Lyberg
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9601811A priority Critical patent/SE506003C2/en
Publication of SE9601811D0 publication Critical patent/SE9601811D0/en
Priority to DK97919840T priority patent/DK0919052T3/en
Priority to EP97919840A priority patent/EP0919052B1/en
Priority to PCT/SE1997/000583 priority patent/WO1997043756A1/en
Priority to DE69723449T priority patent/DE69723449T2/en
Publication of SE9601811L publication Critical patent/SE9601811L/en
Publication of SE506003C2 publication Critical patent/SE506003C2/en
Priority to NO19985179A priority patent/NO318557B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Abstract

The invention provides a speech-to-speech conversion system and method wherein prosody information is extracted from speech, applied to the input of the system, or handled by the method; the prosody information is in the form of the fundamental tone curve of the input speech; the fundamental tone curve is used to obtain dialectal and sentence accent information for the input speech; the sentence accent information is used in the interpretation of the speech inputs, the result of the interpretation being used to obtain speech information data form a database which is used in the formulation of voice responses to the speech inputs; and the dialectal information is used to ensure that the voice responses to the speech inputs have a dialect to match that of respective speech inputs.

Description

25 30 35 506 003 och/eller system som producerar tal i olika sammanhang. Med kända talsvararrangemang är det reproducerade talet svårt att förstå och tolka. Det finns därför ett behov av ett tal-till- tal-omvandlingssystem i vilket de artificiella talutmatning- arna är naturliga, har den korrekta betoningen och är lätta att förstå. 25 30 35 506 003 and/or systems that produce speech in various contexts. With known speech response arrangements, the reproduced speech is difficult to understand and interpret. There is therefore a need for a speech-to-speech conversion system in which the artificial speech outputs are natural, have the correct emphasis and are easy to understand.

I språk som har väl utvecklad satsbetoning och/eller tonhöjd i individuella ord är identifieringen av den naturliga betydelsen av orden/satserna mycket svår. Det faktum att betoningar kan placeras fel ökar risken för feltolkning, eller att betydelsen helt går förlorad för den lyssnande parten.In languages that have well-developed sentence stress and/or pitch in individual words, identifying the natural meaning of the words/sentences is very difficult. The fact that stresses can be placed incorrectly increases the risk of misinterpretation, or that the meaning is completely lost to the listening party.

Olika typer av taligenkänningssystem är kända. Det är 1 sådana system vanligt att taligenkänningsutrustningen lärs at: känna igen tal från ett stort antal personer. Talinlärningon följer också en speciell dialekt eller dialekter. Den information som samlas genom denna process används sedan av systemet för att tolka inkommande tal. Sålunda kan sådana system normalt inte känna igen dialektvariationer i tal som ligger utanför den speciella dialekt eller de dialekter for vilket systemet är upplärt.Various types of speech recognition systems are known. It is common in such systems that the speech recognition equipment is trained to: recognize speech from a large number of people. Speech learning also follows a particular dialect or dialects. The information gathered through this process is then used by the system to interpret incoming speech. Thus, such systems are normally unable to recognize dialect variations in speech that lie outside the particular dialect or dialects for which the system is trained.

I språk med tonande ordaccenter och tonande språk utgör intonationsmönstret i språket en mycket viktig del i förståelsen av språket, men kända system tar ingen hänsyn till dessa talkarakteristika. Som en följd av detta kan igen- kännandet av ord och fraser, med kända taligenkänningssystem. ge upphov till feltolkningar. De kända taligenkänningssystemen som är anpassade att ta hänsyn till dialekter i tal är specifikt skräddarsydda för eh'speciell dialekt och är därför inte anpassade att känna igen olika dialekter i ett språk.In languages with voiced word accents and voiced languages, the intonation pattern of the language is a very important part of the understanding of the language, but known systems do not take these speech characteristics into account. As a result, the recognition of words and phrases, with known speech recognition systems, can give rise to misinterpretations. The known speech recognition systems that are adapted to take into account dialects in speech are specifically tailored for eh'particular dialect and are therefore not adapted to recognize different dialects in a language.

I framtiden kommer taligenkänningsutrustningar i allt större utsträckning att användas i många olika applikationer där det finns behov av att kunna känna igen olika dialekter i i det och som en konsekvens ett språk. Dialektvariationerna i ett språk har, förgångna, varit svåra att fastställa, 20 30 506 003 3 av detta har man erfarit svårigheter med att få en korrekt förståelse av artificiellt producerat tal..Dessutom kan de kända taligenkänningsutrustningarna i allmänhet inte användas för olika språk.In the future, speech recognition equipment will be increasingly used in many different applications where there is a need to be able to recognize different dialects in a language. The dialect variations in a language have, in the past, been difficult to determine, 20 30 506 003 3 of this, difficulties have been experienced in obtaining a correct understanding of artificially produced speech. Furthermore, the known speech recognition equipment generally cannot be used for different languages.

Sålunda; medan kända taligenkänningssystem är anpassade att känna igen, genom inlärning, en speciell dialekt i ett språk, är det inte möjligt för sådana system att känna igen olika dialekter i det språket, eller dialekter i olika språk, vid användning av samma taligenkänningsutrustning, utan ytterligare inlärning.Thus; while known speech recognition systems are adapted to recognize, through learning, a particular dialect of a language, it is not possible for such systems to recognize different dialects of that language, or dialects of different languages, using the same speech recognition equipment, without further learning.

Den artificiella tolkningen av tal har, därför, varit svår eller omöjlig att utföra med kända taligenkänningsutrust- ningar, beroende på oförmågan hos sådana system att känna igen dialektvariationer.The artificial interpretation of speech has, therefore, been difficult or impossible to perform with known speech recognition equipment, due to the inability of such systems to recognize dialect variations.

Bortsett från de tekniska problemen med att korrekt tolka tal, är det nödvändigt i röstsvars-/styrsystem för de muntliga instruktionerna, eller kommandona, att blir korrekt tolkade, annars kommer det inte att vara möjligt att tillhandahålla korrekta svar, eller effektuera rätt styrning av olika typer till exempel i ett av utrustningar, och/eller tjänster, telekommunikationsnät.Apart from the technical problems of correctly interpreting speech, it is necessary in voice response/control systems for the spoken instructions, or commands, to be correctly interpreted, otherwise it will not be possible to provide correct responses, or to effect correct control of various types, for example in a telecommunications network of equipment, and/or services.

För att klara av dessa svårigheter är det nödvändigt för ett röstsvarskomunikationssystem att kunna tolka den mottagna talinformationen, oberoende av dialekt, och att matcha dialekten hos det utgående talet mot dialekten hos respektive ingående tal. Likaså för att på ett otvetydigt sätt kunna bestäma betydelsen hos enstaka ord eller fraser i en talad sekvens är det nödvändigt för de tal-till-tal-omvandlare som används i ett röstsvarskommunikationssystem att kunna bestämma, och ta hänsyn till, betoningar i den talade sekvensen.To overcome these difficulties, it is necessary for a voice response communication system to be able to interpret the received speech information, regardless of dialect, and to match the dialect of the outgoing speech to the dialect of the respective incoming speech. Similarly, in order to be able to unambiguously determine the meaning of individual words or phrases in a spoken sequence, it is necessary for the speech-to-speech converters used in a voice response communication system to be able to determine, and take into account, accents in the spoken sequence.

Det är ett mål med den föreliggande uppfinningen att tillhandahålla ett system för tal-till-tal-omvandling som kan 20 25 30 5 4 50_6 003 matcha dialekten hos det utmatade talet mot dem för respektive talinmatningar.It is an object of the present invention to provide a speech-to-speech conversion system that can match the dialect of the output speech to those of the respective speech inputs.

Ett annat mål med den föreliggande uppfinningen är att tillhandahålla ett system för tal-till-tal-omvandling som är anpassat att känna igen och tolka tal som matas in, speciellt dialekten, satsbetoningen och betoningen i talade satsar, med användning av grundtonskurvan i de talade sekvenserna.Another object of the present invention is to provide a speech-to-speech conversion system adapted to recognize and interpret input speech, particularly the dialect, sentence stress and the stress in spoken sentences, using the pitch curve of the spoken sequences.

Ytterligare ett mål med den föreliggande uppfinningen är att tillhandahålla röstsvarkommunikationssystem som inkluderar ett tal-till-tal-omvandlingssystem som kan matcha dialekterna hos de utmatade talen med de hos respektive inmatade tal.A further object of the present invention is to provide a voice response communication system that includes a speech-to-speech conversion system that can match the dialects of the output speech with those of the respective input speech.

Uppfinningen tillhandahåller ett tal-till-tal- omvandlingssystem som vid utmatning ger talade svar på inmatade tal till systemet, inkluderande taligenkännings- hjälpmedel för det inmatade talet; tolkning av innehållet i det igenkända inmatade talet; databas som innehåller talinformationsdata som används vid formuleringen av nämnda talade svar, där utgången på nämnda tolkningshjälpmedel används för att accessa nämnda databas och tolkningshjälpmedel för och en erhålla talinformationsdata därifrån, kännetecknat av att systemet dessutom inkluderar extraktionshjälpmedel för att extrahera prosodi-information från det inmatade talet; hjälpmedel för att erhålla dialektinformation från nämnda prosodi-information; och text-till-tal-omvandlingshjälpmedel för att omvandla den talinformationsdata som erhålles från nämnda databas till ett talat svar med användning av nämnda dialektinformation, där dialektinformationen matchas mot motsvarande hos det inmatade talet.The invention provides a speech-to-speech conversion system that upon output provides spoken responses to input speech to the system, including speech recognition means for the input speech; interpretation of the content of the recognized input speech; database containing speech information data used in formulating said spoken responses, wherein the output of said interpretation means is used to access said database and interpretation means for and obtain speech information data therefrom, characterized in that the system further includes extraction means for extracting prosody information from the input speech; means for obtaining dialect information from said prosody information; and text-to-speech conversion means for converting the speech information data obtained from said database into a spoken response using said dialect information, wherein the dialect information is matched to the corresponding one in the input speech.

Taligenkänningshjälpmedlet kan anpassas att identifiera ett antal fonem från ett segment av det inmatade talet och för att att tolka fonemen som möjliga ord, eller ordkombinationer, upprätta en modell av talet där talmodellen har ord- och 20 25 30 35 satsaccenter enligt ett standardiserat mönster för spràket för det tal som matas in.The speech recognition tool can be adapted to identify a number of phonemes from a segment of the input speech and to interpret the phonemes as possible words, or word combinations, to establish a model of the speech where the speech model has word and sentence accents according to a standardized pattern for the language of the input speech.

Prosodi-informationen som extraheras fràn det inmatade talet är företrädesvis grundtonskurvan för det inmatade talet.The prosody information extracted from the input speech is preferably the fundamental pitch curve of the input speech.

I detta fall inkluderar hjälpmedlet för att erhålla dialekt- -information frän nämnda prosodi-information ett första analyseringshjälpmedel för att bestämma intonationsmönstret hos grundtonen i det inmatade talet, och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; ett andra analyseringshjälpmedel för att bestämma intonationsmönstret hos grundtonskurvan i talmodellen och därigenom maximum- och mínimumvärdena hos grundtonskurvan och deras respektive positioner; jämförelsehjälpmedel för att jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret hos talmodellen för att identifiera en ,tidsdifferens mellan förekomsten av maximum- och minimum- värdena i grundtonskurvan i det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtonskurvan i talmodellen, där den identifierade tidsskillnaden indikerar dialektkarakteristik hos det inmatade talet. Tidsdifferensen kan bestämmas i förhållande till en referenspunkt i intona- tionsmönstret, till exempel den punkt där en gräns mellan konsonant och vokal uppträder.In this case, the means for obtaining dialect information from said prosody information includes a first analysis means for determining the intonation pattern of the fundamental tone in the input speech, and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; a second analysis means for determining the intonation pattern of the fundamental tone curve in the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; comparison means for comparing the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve in the incoming speech relative to the maximum and minimum values of the fundamental tone curve in the speech model, where the identified time difference indicates dialect characteristics of the input speech. The time difference can be determined in relation to a reference point in the intonation pattern, for example the point where a boundary between consonant and vowel occurs.

Tal-till-tal-omvandlingssystemet kan inkludera hjälpmedel för att erhålla information om satsaccenter frän nämnda prosodi-information. I vilket fall taligenkänningshjälpmedlet inkluderar kontrollhjälpmedel för att lexikaliskt kontrollera orden i talmodellen och för att syntaktiskt kontrollera fraserna i talmodellen, där de ord och fraser som inte är lingvistiskt möjliga utesluts från talmodellen. Kontroll- hjälpmedlet är, med detta arrangemang, anpassat att kon- trollera ortografin och den fonetiska transkriptionen av orden i talmodellen, där transkriptionsinformationen inkluderar lexikaliskt abstraherad accentinformation av typ betonade stavelser, och information som avser placeringen av sekundär 506 003 20 25 30 35 sne nos 6 accent. Accentinformationen kan, till exempel, avse tonal ordaccent I och accent II.The speech-to-speech conversion system may include means for obtaining information about sentence accents from said prosody information. In which case the speech recognition means includes checking means for lexically checking the words in the speech model and for syntactically checking the phrases in the speech model, where the words and phrases that are not linguistically possible are excluded from the speech model. The checking means is, with this arrangement, adapted to check the orthography and phonetic transcription of the words in the speech model, where the transcription information includes lexically abstracted accent information of the type stressed syllables, and information relating to the placement of secondary 506 003 20 25 30 35 sne nos 6 accent. The accent information may, for example, relate to tonal word accent I and accent II.

Satsaccentinformationen och/eller satsbetoningen kan med fördel användas vid tolkningen av innehållet i det igenkända inmatade talet.The sentence accent information and/or sentence stress can be used to advantage when interpreting the content of the recognized input speech.

Tal-till-tal-omvandlingssystemet kan inkludera dialog- hjälpmedel för att hantera en dialog med databasen, där nämnda dialog initeras med tolkningshjälpmedlet. I ett föredraget arrangemang resulterar dialogen med databasen i applicering av talinformationsdata pà text-till-data-omvandlingshjälpmedlet.The speech-to-speech conversion system may include dialogue means for managing a dialogue with the database, said dialogue being initiated by the interpretation means. In a preferred arrangement, the dialogue with the database results in the application of speech information data to the text-to-data conversion means.

Uppfinningen tillhandahåller även, i ett röstsvarskommu- en metod för att tillhandahålla ett talat där nämnda svar har en nikationssystem, svar pá ett inmatat tal i systemet, dialekt som matchar motsvarande för talinmatningen, och nämnda metod inkluderar stegen att känna igen och tolka talet som matas in, och att utnyttja tolkningen för att erhàlla talinformationsdata frän en databas för att användas vid formuleringen av nämnda talade svar, kännetecknad av att nämnda metod dessutom inkluderar stegen att extrahera prosodi- erhàlla dialektinfor- och omvandla tal- information fràn det inmatade talet, mation från nämnda prosodi-information, informationsdatan som erhålles frán nämnda databas till nämnda talade svar med användning av nämnda dialektinformation.The invention also provides, in a voice response communication system, a method for providing a spoken response to an input speech in the system, wherein said response has a dialect that matches the corresponding dialect of the speech input, and said method includes the steps of recognizing and interpreting the input speech, and utilizing the interpretation to obtain speech information data from a database for use in formulating said spoken response, characterized in that said method further includes the steps of extracting prosody information from the input speech, obtaining dialect information, and converting the information data obtained from said database into said spoken response using said dialect information.

Igenkänningen och tolkningen av det inmatade talet inkluderar stegen att identifiera ett antal fonem fran ett segment av det inmatade talet, och att tolka fonemen som möjliga ord, eller ordkombinationer, för att upprätta en modell av talet, där talmodellen har ord- och satsaccenter enligt ett standardiserat mönster för spraket för det inmatade talet.The recognition and interpretation of the input speech includes the steps of identifying a number of phonemes from a segment of the input speech, and interpreting the phonemes as possible words, or word combinations, to establish a model of the speech, where the speech model has word and sentence accents according to a standardized pattern for the language of the input speech.

I en föredragen metod är prosodi-informationen som extraherats frán det inmatade talet grundtonskurvan för det inmatade talet. I detta fall inkluderar metoden enligt den 10 IS 25 30 35 506 003- föreliggande uppfinningen stegen att bestämma intonations- mönstret hos grundtonen för det inmatade talet och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; bestämma intonationsmönstret hos grundtonen för talmodellen och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret för talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimum- värdena i grundtonskurvan hos det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtons- kurvan för talmodellen, där den identifierade tidsdifferensen indikerar dialektkarakteristiken hos det inmatade talet.In a preferred method, the prosody information extracted from the input speech is the pitch curve of the input speech. In this case, the method according to the present invention includes the steps of determining the intonation pattern of the pitch of the input speech and thereby the maximum and minimum values of the pitch curve and their respective positions; determining the intonation pattern of the pitch of the speech model and thereby the maximum and minimum values of the pitch curve and their respective positions; comparing the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the pitch curve of the incoming speech relative to the maximum and minimum values of the pitch curve of the speech model, where the identified time difference indicates the dialect characteristic of the input speech.

Tidsdifferensen kan bestämmas i förhållande till en referenspunkt i intonationsmönstret, till exempel den punkt vid vilken en konsonant/vokal-gräns inträffar.The time difference can be determined relative to a reference point in the intonation pattern, for example the point at which a consonant/vowel boundary occurs.

Metoden, enligt den föreliggande uppfinningen, kan inkludera steget att erhålla information om satsaccenter från nämnda prosodi-information. Enligt denna metod kontrolleras orden i talmodellen lexikaliskt och fraserna i talmodellen kontrolleras syntaktiskt, där de ord och fraser som ej är lingvistiskt möjliga utesluts från talmodellen. Likaså, enligt denna metod, kan ortografin och den fonetiska transkriptionen av orden i talmodellen kontrolleras, där transkriptions- informationen exkluderar lexikaliskt abstraherad accentinformation av typ betonade stavelser, och information avseende placeringen av sekundär accent. Accentinformationen kan avse tonal ordaccent I och accent II.The method according to the present invention may include the step of obtaining information about sentence accents from said prosody information. According to this method, the words in the speech model are checked lexically and the phrases in the speech model are checked syntactically, where the words and phrases that are not linguistically possible are excluded from the speech model. Likewise, according to this method, the orthography and the phonetic transcription of the words in the speech model may be checked, where the transcription information excludes lexically abstracted accent information such as stressed syllables, and information regarding the location of secondary accent. The accent information may relate to tonal word accent I and accent II.

Enligt metoden för den föreliggande uppfinningen kan satsaccentinformation och/eller satsbetoning användas vid tolkningen av innehållet i det tal som matas in för igenkänning.According to the method of the present invention, sentence accent information and/or sentence stress can be used in interpreting the content of the speech input for recognition.

Metoden enligt den föreliggande uppfinningen kan inkludera steget att initiera en dialog med databasen för att erhålla talinformationsdata för att formulera nämnda talade 20 25 30 35 506 ÛÜÉS 8 svar, där nämnda dialog initieras följande tolkningen av det inmatade talet. Dialogen med databasen kan resultera i applicering av talinformationsdata på text-till-tal- omvandlingshjälpmedlet.The method of the present invention may include the step of initiating a dialogue with the database to obtain speech information data for formulating said spoken 20 25 30 35 506 ÛÜÉS 8 response, said dialogue being initiated following the interpretation of the input speech. The dialogue with the database may result in the application of the speech information data to the text-to-speech conversion tool.

Uppfinningen tillhandahåller vidare ett röstsvars- kommunikationssystem som inkluderar ett tal-til1-tal- omvandlingssystem enligt de föregående avsnitten, eller använder en metod enligt de föregående avsnitten för att tillhandahålla ett talat svar på en talinmatning i systemet.The invention further provides a voice response communication system that includes a speech-to-speech conversion system according to the preceding sections, or uses a method according to the preceding sections to provide a spoken response to a speech input into the system.

I allt väsentligt är de karakteristiska dragen hos tal- till-tal-omvandlingssystemet och metoden enligt den föreliggande uppfinningen följande: - prosodi-information extraheras från tal, applicerat på ingången till systemet och hanteras av metoden; - prosodi-informationen är i form av grundtonskurvan för det inmatade talet; - grundtonskurvan används för att erhålla dialekt-, satsaccent- och satsbetoningsinformation för det inmatade talet; - satsaccenten och betoningsinformationen används vid tolkningen av de inmatade talen, och resultatet av tolkningen används för att erhållatalinformations- data från en databas som används vid formuleringen av röstsvar till de inmatade talen; - dialektinformationen används för att garantera att röstsvaren till de inmatade talen får en dialekt som matchar den hos respektive talinmatningar.In essence, the characteristic features of the speech-to-speech conversion system and method according to the present invention are as follows: - prosody information is extracted from speech, applied to the input to the system and handled by the method; - the prosody information is in the form of the pitch curve of the input speech; - the pitch curve is used to obtain dialect, sentence accent and sentence stress information for the input speech; - the sentence accent and stress information is used in the interpretation of the input speech, and the result of the interpretation is used to obtain speech information data from a database used in the formulation of voice responses to the input speech; - the dialect information is used to ensure that the voice responses to the input speech have a dialect that matches that of the respective speech inputs.

Föregående och andra särdrag enligt den föreliggande uppfinningen kommer att förstås bättre av följande beskrivning under hänvisning till den enda figuren i de bifogade bilderna 10 20 25 30 35 506 003 9 som illustrerar, i form av ett blockschema, ett tal-till-tal- omvandlingssystem enligt den föreliggande uppfinningen.The foregoing and other features of the present invention will be better understood from the following description with reference to the sole figure of the accompanying drawings which illustrates, in block diagram form, a speech-to-speech conversion system according to the present invention.

Det framgår av den enda figuren i de bifogade bilderna att ett tal-till-tal-omvandlingssystem enligt den föreliggande uppfinningen inkluderar, vid ingången 1 därav, en taligenkän- ningsutrustning 2, och en extraktionsenhet 3 för att extrahera prosodi-information från tal som appliceras på systemingången 1, dvs grundtonskurvan hos det tal som matas in. Sålunda kommer tal som appliceras på ingång 1 att samtidigt appliceras på enheterna 2 och 3.It is apparent from the single figure in the accompanying drawings that a speech-to-speech conversion system according to the present invention includes, at the input 1 thereof, a speech recognition device 2, and an extraction unit 3 for extracting prosody information from speech applied to the system input 1, i.e. the fundamental pitch curve of the speech being input. Thus, speech applied to input 1 will be simultaneously applied to units 2 and 3.

Utgången på taligenkänningsenheten 2 och en utgång på extraktionsenheten 3 är anslutna till separata ingångar på en tolkningsenhet 4, vars utgång är ansluten till en databas- hanteringsenhet 5. Den databashanterande enheten 5, som är .anpassad för tvåvägskommunikation med en databas 6, är ansluten vid utgången därav till ingången på en text-till~ta1- omvandlare 7. Dialogen mellan databasen 6 och databashanterar- enheten 5 kan effektueras med något känt databaskommunika- tionsspråk, till exempel SQL (Structured Query Language).The output of the speech recognition unit 2 and an output of the extraction unit 3 are connected to separate inputs of an interpretation unit 4, the output of which is connected to a database management unit 5. The database management unit 5, which is adapted for two-way communication with a database 6, is connected at its output to the input of a text-to-speech converter 7. The dialogue between the database 6 and the database management unit 5 can be effected with any known database communication language, for example SQL (Structured Query Language).

Utgången på text-till-talomvandlaren 7 tillhandahåller en utgång med syntetiskt tal till tal-till-tal- omvandlingssystemet.The output of the text-to-speech converter 7 provides a synthetic speech output to the speech-to-speech conversion system.

Som visas i den enda figuren av ritningar, är ytterligare en utgång på extraktionsenheten 3 ansluten till ingången på en prosodianalysenhet 8 som är anpassad för dubbelriktad kommunikation med text-till-tal-omvandlaren 7. Prosodianalys- enheten 8 är anpassad, som en del av text-till-talomvandlings- processen hos omvandlare 7, tionen, dvs grundtonskurvan för det syntetiserade talet och att analysera prosodi-informa- göra erforderliga korrigeringar i intonationsmönstret hos det syntetiserade talet enligt den dialektinformation som extraheras från det inmatade talet. Sålunda kommer dialekten på utgången för det syntetiserade talet i tal-till-tal- omvandlingssystemet att matcha motsvarande för det inmatade talet. 20 25 30 35 50.6 003 10 Det framgår därför av det föregående att den föreliggande uppfinningen är anpassad att tillhandahålla ett talat svar till en talinmatning till tal-till-tal-omvandlingssystemet som och att denna omvandlingsprocess inkluderar stegen att känna igen och har en dialekt som matchar den hos det inmatade talet, tolka det inmatade talet, utnyttjande av tolkningen för att erhålla talinformationsdata från en databas för att användas vid formuleringen av det talade svaret, extraktion av prosodi- erhållande av dialekt- och omvandling av information från det inmatade talet, information från prosodi-informationen, talinformationsdatan som erhålles från nämnda databas till det talade svaret med hjälp av dialektinformationen. Det sätt på vilket detta kan effektueras skisseras i följande avsnitt.As shown in the only figure of drawings, a further output of the extraction unit 3 is connected to the input of a prosody analysis unit 8 which is adapted for bidirectional communication with the text-to-speech converter 7. The prosody analysis unit 8 is adapted, as part of the text-to-speech conversion process of the converter 7, to analyze the prosody information, i.e. the fundamental tone curve of the synthesized speech and to make necessary corrections in the intonation pattern of the synthesized speech according to the dialect information extracted from the input speech. Thus, the dialect at the output of the synthesized speech in the speech-to-speech conversion system will match the corresponding one for the input speech. 20 25 30 35 50.6 003 10 It is therefore apparent from the foregoing that the present invention is adapted to provide a spoken response to a speech input to the speech-to-speech conversion system which and that this conversion process includes the steps of recognizing and having a dialect matching that of the input speech, interpreting the input speech, utilizing the interpretation to obtain speech information data from a database for use in formulating the spoken response, extracting prosody-obtaining dialect-and converting information from the input speech, information from the prosody information, the speech information data obtained from said database into the spoken response using the dialect information. The manner in which this may be effected is outlined in the following section.

I praktiken appliceras de tal som matas in i tal-till- tal-omvandlingssystemet, och som kan finnas i många utföranden, till exempel begäran om information inom speciella ämnesområden, såsom bank eller teletjänster, eller allmänna förfrågningar beträffande sådana tjänster, på ingång 1 och därigenom på ingångarna till enhet 2 och 3.In practice, the numbers fed into the speech-to-speech conversion system, which can come in many forms, such as requests for information in specific subject areas, such as banking or telecommunications services, or general inquiries regarding such services, are applied to input 1 and thereby to the inputs of units 2 and 3.

Taligenkänningsenheten 2 och tolkningsenheten 4 är anpassade att arbeta på ett sätt som är väl känt för experter inom området, för att känna igen och tolka talinmatningarna till systemet. Taligenkänningsenheten 2 kan, till exempel, arbeta genom att använda en "Hidden Markov"-modell, eller en motsvarande talmodell. I grund och botten är funktionen hos enheterna 2 och 4 att omvandla talinmatningarna till systemet till en form som utgör en trogen återgivning av innehållet i talinmatningarna och som är lämplig att applicera på ingången till databashanterarenheten 5. Med andra ord måste innehållet i textinformationsdatan vid utgången på tolkningsenheten 4 vara en exakt representation av talinmatningen och kunna användas av databashanterarenheten 5 att accessa och extrahera talinformationsdata från databasen 6 för användning vid formuleringen av ett syntetiskt talat svar till det inmatade talet. I praktiken utförs denna process i huvudsak genom identifiering av ett antal fonem från ett segment av det 20 25 30 35 506 005 11 inmatade talet som kombineras till allofonsträngar, där fonemen tolkas som möjliga ord, eller ordkombinationer, att etablera en modell av talet. Den etablerade talmodellen kommer att ha ord och satsaccenter enligt ett standardiserat mönster för språket hos det inmatade talet. för Informationen beträffande de igenkända orden och ordkombinationerna som genereras av taligenkänningsenheten 2 kan i praktiken kontrolleras både lexikalískt (med användning av ett lexikon, med ortografi och transkription) och syntaktiskt. Ändamålet med denna kontroll år att identifiera och exkludera varje ord som inte existerar i det aktuella språket, och/eller varje fras vars syntax inte överensstämmer med det aktuella språkets.The speech recognition unit 2 and the interpretation unit 4 are adapted to operate in a manner well known to those skilled in the art, to recognize and interpret speech inputs to the system. The speech recognition unit 2 may, for example, operate by using a "Hidden Markov" model, or a corresponding speech model. Basically, the function of the units 2 and 4 is to transform the speech inputs to the system into a form which is a faithful representation of the content of the speech inputs and which is suitable for application to the input of the database management unit 5. In other words, the content of the text information data at the output of the interpretation unit 4 must be an accurate representation of the speech input and be usable by the database management unit 5 to access and extract speech information data from the database 6 for use in formulating a synthetic spoken response to the input speech. In practice, this process is essentially carried out by identifying a number of phonemes from a segment of the input speech which are combined into allophone strings, where the phonemes are interpreted as possible words, or word combinations, to establish a model of the speech. The established speech model will have words and sentence accents according to a standardized pattern for the language of the input speech. The information regarding the recognized words and word combinations generated by the speech recognition unit 2 can in practice be checked both lexically (using a dictionary, with orthography and transcription) and syntactically. The purpose of this check is to identify and exclude any word that does not exist in the current language, and/or any phrase whose syntax does not correspond to that of the current language.

Sålunda garanterar taligenkänningsenheten 2 enligt den föreliggande uppfinningen att endast de ord, och ord- kombinationer, som befinnes vara acceptabla både lexikaliskt och syntaktiskt, används för att skapa en modell av det inmatade talet. I praktiken är intonationsmönstret hos talmodellen ett standardiserat intonationsmönster för det aktuella språket. etablerats genom inlärning, eller rätt och slätt kunskap, med användning av ett antal dialekter på det aktuella språket. eller ett intonationsmönster som har Prosodi-informationen, dvs grundtonskurvan, som extraheras från det inmatade talet med extraktionsenheten 3, kan användas för att erhålla dialekt-, satsbetoningsinformation för att användas av tal-till-tal- omvandlingssystemet och metoden för den aktuella uppfinningen.Thus, the speech recognition unit 2 according to the present invention ensures that only those words, and word combinations, which are found to be acceptable both lexically and syntactically, are used to create a model of the input speech. In practice, the intonation pattern of the speech model is a standardized intonation pattern for the current language. established by learning, or simply knowledge, using a number of dialects of the current language. or an intonation pattern having the Prosody information, i.e. the fundamental tone curve, which is extracted from the input speech by the extraction unit 3, can be used to obtain dialect, sentence stress information for use by the speech-to-speech conversion system and method of the present invention.

Speciellt kan díalektínformationen användas av tal-ti1l-tal- omvandlingssystemet och metoden för att matcha dialekten hos det utmatade talet med det hos det inmatade, och satsaccent och betoningsinformation kan användas vid igenkänningen och satsaccent- och tolkningen av det inmatade talet.In particular, the dialect information can be used by the speech-to-speech conversion system and method to match the dialect of the output speech with that of the input, and sentence accent and stress information can be used in the recognition and sentence accent and interpretation of the input speech.

Enligt den föreliggande uppfinningen inkluderar medlet för att erhålla dialektinformation från prosodi-informationen: H) 20 25 30 35 506 C33 12 - första analyshjälpmedel för att bestämma intona- tionsmönstret hos grundtonen i det inmatade talet och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; - andra analyshjälpmedel för att bestämma intona- tionsmönstret hos grundtonskurvan i talmodellen och därigenom maximum- och minimumvärdena hos grundtons- kurvan och deras respektive positioner; - jämförelsehjälpmedel för att jämföra intonations- mönstret hos det inmatade talet med intonations- mönstret hos talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimumvärdena i grundtonskurvan för det inkommande talet i förhållande till maximum- och minimumvärdena i grundtonskurvan för talmodellen, där den identifi- erade differensen indikerar dialektkarakteristiken hos det inmatade talet. kan bestämmas i I det Tidsdifferensen, som hänvisas till ovan, relation till en referenspunkt i intonationsmönstret. svenska språket kan skillnaden, i termer av intonations- mönster, beskrivas genom olika punkter i tiden för ord och satsaccenter, dvs tidsskillnaden kan bestämmas i relation till en referenspunkt i intonationsmönstret, till exempel den punkt vid vilken en konsonant/vokal-gräns inträffar.According to the present invention, the means for obtaining dialect information from the prosody information includes: H) 20 25 30 35 506 C33 12 - first analysis means for determining the intonation pattern of the fundamental tone in the input speech and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; - second analysis means for determining the intonation pattern of the fundamental tone curve in the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; - comparison means for comparing the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve of the incoming speech relative to the maximum and minimum values of the fundamental tone curve of the speech model, where the identified difference indicates the dialect characteristic of the input speech. can be determined in relation to a reference point in the intonation pattern. In the Swedish language, the difference, in terms of intonation patterns, can be described by different points in time for word and sentence accents, i.e. the time difference can be determined in relation to a reference point in the intonation pattern, for example the point at which a consonant/vowel boundary occurs.

Sålunda är, i ett föredraget arrangemang för den föreliggande uppfinningen, den referens mot vilken tidsdifferensen mätes, den punkt'vid vilken konsonant/vokal- gränsen, dvs K/V-gränsen, går.Thus, in a preferred arrangement for the present invention, the reference against which the time difference is measured is the point at which the consonant/vowel boundary, i.e. the K/V boundary, passes.

Den identifierade tidsdifferensen som, vilket konstaterats ovan, indikerar dialekten i det inmatade talet, dvs det talade språket, omvandlaren 7 för att göra det möjligt för intonations- och därigenom dialekten hos det utmatade talet i applicaras på text-till-tal- mönstret, 15 20 25 30 35 506 oo: 13 systemet, att korrigas sa att det motsvarar intonations- mönstret hos de motsvarande orden och/eller fraserna i det inmatade talet. Sålunda möjliggör denna korrigeringsprocess att dialektinformationen i det inmatade talet kan inkorporeras i det utmatade talet.The identified time difference which, as stated above, indicates the dialect of the input speech, i.e. the spoken language, the converter 7 to enable the intonation and thereby the dialect of the output speech in the text-to-speech pattern, 15 20 25 30 35 506 oo: 13 system, to be corrected so that it corresponds to the intonation pattern of the corresponding words and/or phrases in the input speech. Thus, this correction process enables the dialect information in the input speech to be incorporated into the output speech.

Som nämnts ovan är grundtonskurvan för talmodellen baserad pà information resulterande fràn de lexikaliska (ortogtrafi och transkription) och syntaktiska kontrollerna.As mentioned above, the fundamental tone curve for the speech model is based on information resulting from the lexical (orthography and transcription) and syntactic checks.

Dessutom inkluderar transkriptionsinformationen lexikalt abstraherad accentinformation av typ betonade stavelser, dvs tonala ordaccenter I och II, och information med avseende pà placeringen av sekundär accent, dvs information som ges i t ex ordböcker. Denna information kan användas för att justera igenkänningsmönstret i taligenkänningsmodellen, till exempel "Hidden Markov"-modellen, för att ta hänsyn till transkrip- .tionsinformationen. En mer exakt modell av det inmatade talet erhàlles därför under tolkningsprocessen. Ännu en konsekvens av denna talmodellkorrigerande process är att, med tiden, talmodellen kommer att få ett intonationsmönster som har etablerats genom en inlärningsprocess.In addition, the transcription information includes lexically abstracted accent information of the type of stressed syllables, i.e. tonal word accents I and II, and information regarding the placement of secondary accent, i.e. information given in e.g. dictionaries. This information can be used to adjust the recognition pattern in the speech recognition model, for example the "Hidden Markov" model, to take the transcription information into account. A more accurate model of the input speech is therefore obtained during the interpretation process. Another consequence of this speech model correction process is that, over time, the speech model will acquire an intonation pattern that has been established through a learning process.

Likaså, med systemet och metoden enligt den föreliggande uppfinningen, jämförs talmodellen med en talad inmatnings- sekvens, och varje avvikelse dem emellan kan bestämmas och användas till att fà talmodellen i överensstämmelse med den inmatade talsekvensen och/eller för att bestämma betoningar i den inmatade talsekvensen.Likewise, with the system and method of the present invention, the speech model is compared to a spoken input sequence, and any deviation between them can be determined and used to bring the speech model into agreement with the input speech sequence and/or to determine stresses in the input speech sequence.

Identifieringen av betoningarna i en talad sekvens gör det möjligt att bestämma den exakta betydelsen av den talade sekvensen pá ett otvetydigt sätt. Speciellt kan relativa satsbetoningar bestämmas genom att klassificera förhållandet mellan variationer och deklination hos grundtonskurvan, varigenom betonade sektioner, eller individuella ord kan 15 20 25 30 35 506 003 14 bestämmas. Dessutom kan tonhöjden hos talet bestämmas ur deklinationen för grundtonskurvan.The identification of the stresses in a spoken sequence makes it possible to determine the exact meaning of the spoken sequence in an unambiguous manner. In particular, relative sentence stresses can be determined by classifying the relationship between variations and declination of the fundamental tone curve, whereby stressed sections, or individual words, can be determined. In addition, the pitch of the speech can be determined from the declination of the fundamental tone curve.

Sålunda; för att ta hänsyn till satsbetoningar i igen- kännandet och tolkningen av de inmatade talen i tal-til1-tal- omvandlarsystemet hos den föreliggande uppfinningen, är extraktionsenheten 3, i förening med tolkningsenheten 4 anpassad att bestämma: - ett första förhållande mellan variationen och deklinationen hos grundtonskurvan för det inmatade talet; - ett andra förhållande mellan variationen och deklinationen hos grundtonskurvan för talmodellen; och - vid en jämförelse mellan första och andra förhållan- _ dena används varje identifierad skillnad för att bestämma placeringen av satsaccenter.Thus; in order to take into account sentence accents in the recognition and interpretation of the input numbers in the speech-to-speech converter system of the present invention, the extraction unit 3, in conjunction with the interpretation unit 4, is adapted to determine: - a first relationship between the variation and the declination of the fundamental tone curve of the input number; - a second relationship between the variation and the declination of the fundamental tone curve of the number model; and - in a comparison between the first and second relationships, each identified difference is used to determine the location of sentence accents.

Dessutom gör klassificeringen av förhållandet mellan variationen och deklinationen hos grundtonskurvan det möjligt att identifiera/bestämma relativa satsbetoningar, och betonade sektioner, eller ord.Additionally, the classification of the relationship between the variation and declination of the fundamental tone curve makes it possible to identify/determine relative sentence stresses, and stressed sections, or words.

Likaså kan förhållandet mellan variationen och deklina- tionen hos grundtonskurvan utnyttjas för att bestäma dyna- miken hos grundtonskurvan.Likewise, the relationship between the variation and the declination of the fundamental curve can be used to determine the dynamics of the fundamental curve.

Den information som erhålles avseende grundtonskurvan beträffande dialekt, tolkningen av tal med tolkningsenheten 4, dvs informationen kan användas på det sätt som skisserats ovan, för att erhålla en bättre förståelse av innehållet i det tal som matas in, och satsaccent och betoning kan användas för få intonationsmönstret i talmodellen i överensstämmelse med det inmatade talets. 10 20 30 15 " 506 oosi* Eftersom den korrigerade talmodellen uppvisar språkkarakteristika (inklusive dialektinformation, satsaccent och betoning) hos det inmatade talet, kan det användas för att ge en ökad förståelse av det inmatade talet och användas effektivt av databashanterarenheten 5 för att erhålla den erforderliga talinformationsdatan från databasen 6 för att formulera ett svar på en röstinmatning i tal~till-tal- omvandlarsystemet.The information obtained regarding the fundamental tone curve regarding dialect, the interpretation of speech by the interpretation unit 4, i.e. the information can be used in the manner outlined above, to obtain a better understanding of the content of the speech being input, and sentence accent and stress can be used to bring the intonation pattern of the speech model into line with that of the input speech. 10 20 30 15 " 506 oosi* Since the corrected speech model exhibits language characteristics (including dialect information, sentence accent and stress) of the input speech, it can be used to provide an increased understanding of the input speech and can be effectively used by the database management unit 5 to obtain the required speech information data from the database 6 to formulate a response to a voice input in the speech-to-speech converter system.

Förmågan att smidigt tolka olika dialekter i ett språk med använding av information från grundtonskurvan är av viss betydelse, eftersom sådana tolkningar kan utföras utan att behöva lära upp taligenkänningssystemet. Resultatet av detta är att storleken, för ett taligen- känningssystem, utfört i enlighet med den föreliggande uppfinningen kan bli mycket mindre än vad som skulle vara och därmed kostnaden, .möjligt med kända system. Dessa har därför klara fördelar jämfört med kända taligenkänningssystem.The ability to smoothly interpret different dialects of a language using information from the fundamental tone curve is of some importance, since such interpretations can be performed without having to train the speech recognition system. The result of this is that the size, of a speech recognition system, implemented in accordance with the present invention can be much smaller than would be possible with known systems, and thus the cost. These therefore have clear advantages over known speech recognition systems.

Likaså förmågan att detektera tal, oberoende av dialektvariationer, enligt systemet och metoden hos den föreliggande uppfinningen, gör det möjligt att använda tal i många olika röstsvarsapplikationer.Likewise, the ability to detect speech, independent of dialect variations, according to the system and method of the present invention, makes it possible to use speech in many different voice response applications.

Systemet är därför anpassat att känna igen och noggrant tolka inehållet i de inmatade talen och att skräddarsy dialekten hos röstsvaret att matcha dialekten hos röstinmat- ningen. Denna process ger ett användarvänligt system eftersom språket i människa/maskin-dialogen är i enlighet med dialekten hos den aktuelle användaren.The system is therefore adapted to recognize and accurately interpret the content of the input speech and to tailor the dialect of the voice response to match the dialect of the voice input. This process provides a user-friendly system since the language of the human/machine dialogue is in accordance with the dialect of the current user.

Den föreliggande uppfinningen är ej begränsad till de utförandeformer som skisserats ovan, utan kan modifieras inom ramen för de bifogade patentkraven och uppfinningskonceptet.The present invention is not limited to the embodiments outlined above, but can be modified within the scope of the appended claims and the inventive concept.

Claims (25)

10 15 20 25 30 35 40 5Û6_ 00310 15 20 25 30 35 40 5Û6_ 003 1. Tal-till-tal-omvandlingssystem som, vid utmatning från detsamma, tillhandahåller talade svar pá talinmatningar till systemet, och som omfattar taligenkänningshjälpmedel för det tal som matas in; tolkningshjälpmedel för att tolka innehållet i det igenkända inmatade talet; och en databas som innehåller talinformationsdata för användning vid formu- leringen av nämnda talade svar, där utmatningen från nämnda tolkningshjälpmedel används för att accessa nämnda databas och erhålla talinformationsdata därifrån, kännetecknat av att systemet dessutom inkluderar extraktionshjälpmedel för att extrahera prosodi-information från det tal som matas in; hjälpmedel för att erhålla dialektinformation från nämnda prosodi-information; och text-till-tal-omvandlingshjälpmedfl1 för att omvandla talinformationsdatan som erhålles från nämnda databas till ett talat svar som använder nämnda dia- lektinformation, där dialekten hos det talade svaret matchas mot det hos det inmatade talet, samt att hjälpmedlet föx att erhålla dialektinformation från nämnda prosodi-information inkluderar första analyseringshjälpmedel för att bestämma intonationsmönstret för grundtonen hos det inmatade talet och därigenom maximi- och minimivärdena hos grundtonskurvan och deras respektive positioner; andra analyseringshjälpme- del för att bestämma intonationsmönstret för grundtonskurvan för talmodellen och därigenom maximi- och minimivärdena för grundtonskurvan och deras respektive positioner; jämförelse- hjälpmedel för att jämföra intonationsmönstret hos det tal som matas in, med intonationsmönstret hos talmodellen, för att identifiera en tidsdifferens mellan förekomsten av maxi- mi- och minimivärdena hos grundtonskurvan för det inkommande talet i förhållande till maximi- och minimivärdena hos grundtonskurvan för talmodellen, där den identifierade tids- differensen indikerar dialektkarakteristiken hos det inmata- de talet.A speech-to-speech conversion system which, when output from the same, provides spoken responses to speech inputs to the system, and which comprises speech recognition aids for the speech being input; interpretation aids for interpreting the contents of the recognized input speech; and a database containing speech information data for use in formulating said spoken answer, the output of said interpreting means being used to access said database and obtaining speech information data therefrom, characterized in that the system further includes extraction means for extracting prosody information from the speech matas in; aids for obtaining dialect information from said prosody information; and text-to-speech conversion aid fl1 for converting the speech information data obtained from said database into a spoken answer using said dialect information, where the dialect of the spoken answer is matched with that of the input speech, and that the aid is obtained to obtain dialect information from said prosody information includes first analysis aids for determining the intonation pattern of the fundamental tone of the input speech and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; other analysis tools for determining the intonation pattern of the fundamental tone curve of the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; comparison tool for comparing the intonation pattern of the input number with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve of the incoming speech in relation to the maximum and minimum values of the fundamental tone curve of the speech model , where the identified time difference indicates the dialect characteristic of the input speech. 2. Tal-till-tal-omvandlingssystem enligt patentkrav 1, kånnetecknat av att taligenkänningshjälpmedlet är anpassat att identifiera ett antal fonem från ett segment av det tal 10 15 20 25 30 35 40 506 003 Pr som matas in och inkluderar tolkningshjälpmedel för att tol- ka fonemen som möjliga ord, eller ordkombinationer, för att upprätta en modell av talet, där talmodellen har ord och satsaccenter enligt ett standardiserat mönster för språket hos det tal som matas in.The speech-to-speech conversion system of claim 1, characterized in that the speech recognition aid is adapted to identify a number of phonemes from a segment of the speech input and includes interpretation aids for interpreting ka phonemes as possible words, or word combinations, to establish a model of the speech, where the speech model has words and sentence accents according to a standardized pattern for the language of the speech entered. 3. Tal~till-tal-omvandlingssystem enligt patentkrav 2, kännotocknat av att prosodi-informationen som extraheras från det tal som matas in är grundtonskurvan för det tal som matas in.The speech-to-speech conversion system according to claim 2, characterized in that the prosody information extracted from the speech input is the fundamental tone curve of the input speech. 4. Ta1-till-tal-omvandlingssystem enligt patentkrav 3, kånnotocknat av att tidsdifferensen bestämmes i förhållande till en referenspunkt i intonationsmönstret.The Ta1-to-speech conversion system according to claim 3, characterized in that the time difference is determined in relation to a reference point in the intonation pattern. 5. Tal-till-tal-omvandlingssystem enligt patentkrav 4, kännotocknat av att den referenspunkt i intonationsmönstret Vmot vilket tidsdifferensen mätes är den punkt vid vilken en konsonant/vokal-gräns inträffar.Speech-to-speech conversion system according to claim 4, characterized in that the reference point in the intonation pattern V against which the time difference is measured is the point at which a consonant / vowel boundary occurs. 6. Tal-till-tal-omvandlingssystem enligt nagot av de föregående patentkraven, kännotocknat av att systemet dess- utom inkluderar hjälpmedel för att erhälla information om satsaccenter fran nämnda prosodi-information.A speech-to-speech conversion system according to any one of the preceding claims, characterized in that the system further includes means for obtaining batch accent information from said prosody information. 7. Tal-till-tal-omvandlingssystem enligt patentkrav 6, kännotocknat av att taligenkänningshjälpmedlet inkluderar kontrollhjälpmedel för att lexikaliskt kontrollera orden i talmodellen och för syntaktisk kontroll av fraserna i talmo- dellen, där orden och fraserna som inte är lingvistiskt möj- liga exkluderas fràn talmodellen, av att kontrollhjälpmedlet är anpassat att kontrollera ortografin och den fonetiska transkriptionen hos orden i talmodellen, av att transkrip- tionsinformationen inkluderar lexikalt abstraherad accentin- formation av typ betonade stavelser, och information avseen- de placeringen av sekundär accent.Speech-to-speech conversion system according to claim 6, characterized in that the speech recognition aid includes control aids for lexically checking the words in the speech model and for syntactic control of the phrases in the speech model, where the words and phrases that are not linguistically possible are excluded from the speech model, in that the control aid is adapted to control the orthography and phonetic transcription of the words in the speech model, in that the transcription information includes lexically abstract accent information of the type stressed syllables, and information regarding the placement of the secondary accent. 8. Tal-till-tal-omvandlingssystem enligt patentkrav 7, künnntocknat av att accentinformationen avser tonal ordac- cent I och accent II. 10 15 20 25 30 35 40 _506 003 V3A speech-to-speech conversion system according to claim 7, characterized in that the accent information relates to tonal word accent I and accent II. 10 15 20 25 30 35 40 _506 003 V3 9. Tal-till-tal-omvandlingssystem enligt något av pa- tentkraven 6-8, kännetecknat av att nämnda satsaccentinfor- mation används vid tolkningen av innehållet i det igenkända inmatade talet.Speech-to-speech conversion system according to any one of claims 6-8, characterized in that said batch accent information is used in the interpretation of the content of the recognized input speech. 10. Tal-till-tal-omvandlingssystem enligt något av fö- regående patentkrav, kännetecknat av att satsbetoningar be- stämmes och används vid tolkningen av innehållet i det igen- kända inmatade talet.-Speech-to-speech conversion system according to any one of the preceding claims, characterized in that batch stresses are determined and used in the interpretation of the content of the recognized entered speech. 11. Tal-till-tal-omvandlingssystem enligt något av fö- regående patentkrav, kännetecknat av att systemet dessutom inkluderar dialoghanteringshjälpmedel för att hantera en di- alog med databasen, där nämnda dialog initieras av tolk- ningshjälpmedlet.Speech-to-speech conversion system according to any one of the preceding claims, characterized in that the system further includes dialogue management tools for managing a dialogue with the database, wherein said dialogue is initiated by the interpretation tool. 12. Tal-till-tal-omvandlingssystem enligt patentkrav ll, kännetecknat av att dialogen med databasen resulterar i appliceringen av talinformationsdata på text-till-tal- omvandlingshjälpmedlet.Speech-to-speech conversion system according to claim 11, characterized in that the dialogue with the database results in the application of speech information data to the text-to-speech conversion aid. 13. Tal-till-tal-omvandlingssystem enligt något av pa- tentkraven 10 eller ll, kännetecknat av att dialogen med da- tabasen effektueras med användning av SQL.Speech-to-speech conversion system according to any one of claims 10 or 11, characterized in that the dialogue with the database is effected using SQL. 14. Röstsvarskommunikationssystem inkluderande ett tal- till-tal-omvandlingssystem som, vid utmatning från detsamma, tillhandahåller talade svar på talinmatningar till systemet, och som omfattar taligenkänningshjälpmedel för det tal som matas in; tolkningshjälpmedel för att tolka innehållet i det igenkända inmatade talet; och en databas som innehåller ta- linformationsdata för användning vid formuleringen av nämnda talade svar, där utmatningen från nämnda tolkningshjålpmedel används för att accessa nämnda databas och erhålla talinfor- mationsdata därifrån, kännetecknat av att systemet dessutom inkluderar extraktionshjälpmedel för att extrahera prosodi- information från det tal som matas in; hjälpmedel för att erhålla dialektinformation från nämnda prosodi-information; och text-till-tal-omvandlingshjälpmedel för att omvandla ta- 10 15 20 25 30 35 40 506 003 V? linformationsdatan som erhålles från nämnda databas till ett talat svar som använder nämnda dialektinformation, där dia- lekten hos det talade svaret matchas mot det hos det inmata- de talet, samt att hjälpmedlet för att erhålla dialektinfor- mation från nämnda prosodi-information inkluderar första analyseringshjälpmedel för att bestämma intonationsmönstret för grundtonen hos det inmatade talet och därigenom maximi- och minimivärdena hos grundtonskurvan och deras respektive positioner; andra analyseringshjälpmedel för att bestämma intonationsmönstret för grundtonskurvan för talmodellen och därigenom maximi- och minimivärdena för grundtonskurvan och deras respektive positioner; jämförelsehjälpmedel för att jämföra intonationsmönstret hos det tal som matas in, med intonationsmönstret hos talmodellen, för att identifiera en tidsdifferens mellan förekomsten av maximi- och minimivärde- na hos grundtonskurvan för det inkommande talet i förhållan- , de till maximi- och minimivärdena hos grundtonskurvan för talmodellen, där den identifierade tidsdifferensen indikerar dialektkarakteristiken hos det inmatade talet.Voice response communication system including a speech-to-speech conversion system which, upon output therefrom, provides spoken responses to speech inputs to the system, and which comprises speech recognition aids for the speech being input; interpretation aids for interpreting the contents of the recognized input speech; and a database containing speech information data for use in formulating said spoken answer, wherein the output of said interpretation aid is used to access said database and obtain speech information therefrom, characterized in that the system further includes extraction means for extracting prosody information from it. speech input; aids for obtaining dialect information from said prosody information; and text-to-speech conversion aids for converting data 10 15 20 25 30 35 40 506 003 V? the linformation data obtained from said database to a spoken answer using said dialect information, where the dialect of the spoken answer is matched to that of the entered speech, and that the aid for obtaining dialect information from said prosody information includes first analysis aids to determine the intonation pattern of the fundamental tone of the input number and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; other analysis tools for determining the intonation pattern of the fundamental tone curve of the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; comparison aids for comparing the intonation pattern of the input number with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve for the incoming number in relation to the maximum and minimum values of the fundamental tone curve for the speech model, where the identified time difference indicates the dialect characteristic of the entered speech. 15. Metod, för att tillhandahålla ett talat svar på en talinmatning till syste- i ett röstsvarskommunikationssystem, met, nämnda svar har en dialekt som matchar den hos det in- matade talet, där nämnda metod inkluderar stegen att känna igen och tolka det inmatade talet, och utnyttja tolkningen till att erhålla talinformationsdata från en databas för att användas vid formuleringen av nämnda talade svar, känneteck- nad av att nämnda metod dessutom inkluderar stegen att ex- trahera prosodi-information från det inmatade talet, erhålla dialektinformation från nämnda prosodi-information, och om- vandla talinformationsdatan som erhålles från nämnda databas till nämnda talade svar med användning av nämnda dialektin- formation, och vidare innefattar stegen att bestämma intona- tionsmönstret hos grundtonen för det inmatade talet och där- igenom maximi- och minimivärdena hos grundtonskurvan och de- ras respektive lägen; bestämma intonationsmönstret hos grundtonskurvan för en talmodell och därigenom maximi- och minimivärdena hos grundtonskurvan och deras respektive posi- tioner; jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret hos talmodellen för att identifiera 10 15 20 25 30 35 40 506 003 - lo en tidsdifferens mellan förekomsten av maximi- och minimi-_ värdena hos grundtonskurvan för det inkommande talet i för- hàllande till maximi- och minimivärdena för grundtonskurvan för talmodellen, där den identifierade tidsdifferensen indi- kerar dialektkarakteristiken för det inmatade talet.A method, for providing a spoken answer to a speech input to a system in a voice response communication system, said answer having a dialect matching that of the input speech, said method including the steps of recognizing and interpreting the input speech. , and use the interpretation to obtain speech information data from a database for use in the formulation of said spoken answer, characterized in that said method further includes the steps of extracting prosody information from the entered speech, obtaining dialect information from said prosody information , and converting the speech information data obtained from said database to said spoken answer using said dialect information, and further comprising the steps of determining the intonation pattern of the fundamental tone of the entered speech and thereby the maximum and minimum values of the fundamental tone curve and the race and respective positions; determining the intonation pattern of the fundamental tone curve for a speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; compare the intonation pattern of the input number with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve of the incoming number in relation to the maximum and minimum numbers. the minimum values for the fundamental tone curve for the speech model, where the identified time difference indicates the dialect characteristic of the entered speech. 16. Metod enligt patentkrav 15, kännetecknad av att igenkänningen och tolkningen av det inmatade talet inklude- rar stegen att identifiera ett antal fonem från ett segment el- för att etablera en modell av talet, av det inmatade talet och tolka fonemen som möjliga ord, ler ordkombinationer, där talmodellen har ord och satsaccenter enligt ett standar- diserat mönster för språket för det inmatade talet.Method according to claim 15, characterized in that the recognition and interpretation of the entered number includes the steps of identifying a number of phonemes from a segment el- to establish a model of the number, of the entered number and interpreting the phonemes as possible words, word combinations, where the speech model has words and sentence accents according to a standardized pattern for the language of the entered speech. 17. Metod enligt patentkrav 16, kännetecknad av att den prosodi-information som extraheras från det inmatade talet är grundtonskurvan i det tal som matas in.Method according to claim 16, characterized in that the prosody information extracted from the entered speech is the fundamental curve of the speech entered. 18. Metod enligt patentkrav 17, kännetecknad av att tidsdifferensen bestämmes i förhållande till en referen- spunkt i intonationsmönstret.Method according to claim 17, characterized in that the time difference is determined in relation to a reference point in the intonation pattern. 19. Metod enligt patentkrav 18, kännetecknad av att den referenspunkt i intonationsmönstret mot vilken tidsdifferen- sen mäts, är den punkt vid vilken en konsonant/vokalgräns inträffar.Method according to Claim 18, characterized in that the reference point in the intonation pattern against which the time difference is measured is the point at which a consonant / vowel boundary occurs. 20. Metod enligt något av patentkraven 15-19, känne- tecknad av steget att erhålla information om satsaccenter från nämnda prosodi-information.Method according to any one of claims 15-19, characterized by the step of obtaining batch accent information from said prosody information. 21. Metod enligt patentkrav 20, kännetecknad av att or- den i talmodellen kontrolleras lexikaliskt, av att fraserna i talmodellen kontrolleras syntaktiskt, av att orden och fraserna som ej är lingvistiskt möjliga exkluderas från tal- modellen, av att ortografin och den fonetiska transkriptio- nen av orden i talmodellen kontrolleras, och av att transkriptionsinformationen inkluderar lexikaliskt abstrahe- rad accentinformation av typ betonade stavelser, och infor- mation avseende placeringen av sekundär accent. 10 15 i. i 505 003*Method according to claim 20, characterized in that the words in the speech model are checked lexically, in that the phrases in the speech model are checked syntactically, in that the words and phrases that are not linguistically possible are excluded from the speech model, in that the orthography and phonetic transcription the words in the speech model are checked, and that the transcription information includes lexically abstracted accent information of the accented syllable type, and information regarding the placement of the secondary accent. 10 15 i. I 505 003 * 22. Metod enligt patentkrav 21, kännetecknad av att ac- centinformationen avser tonal ordaccent I och accent II.Method according to claim 21, characterized in that the accent information relates to tonal word accent I and accent II. 23. Metod enligt något av patentkraven 20-22, känne- tecknad av steget att använda nämnda satsaccentinformation vid tolkningen av det inmatade talet.Method according to any one of claims 20-22, characterized by the step of using said batch accent information in the interpretation of the entered number. 24. Metod enligt något av patentkraven 15-23, känne- tecknad av steget att initiera en dialog med databasen för att erhålla talinformationsdata för att formulera nämnda ta- lade svar, där nämnda dialog initieras och följer tolkningen av det inmatade talet.A method according to any one of claims 15-23, characterized by the step of initiating a dialogue with the database to obtain speech information data to formulate said spoken answer, wherein said dialogue is initiated and follows the interpretation of the entered speech. 25. Metod enligt patentkrav 24, kännetecknad av att di- alogen med databasen resulterar i applicering av talinforma- V tionsdata på text-till-tal-omvandlingshjålpmedlet.Method according to claim 24, characterized in that the dialogue with the database results in the application of speech information data to the text-to-speech conversion aid.
SE9601811A 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information SE506003C2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information
DK97919840T DK0919052T3 (en) 1996-05-13 1997-04-08 A speech-to-speech conversion method and system
EP97919840A EP0919052B1 (en) 1996-05-13 1997-04-08 A method and a system for speech-to-speech conversion
PCT/SE1997/000583 WO1997043756A1 (en) 1996-05-13 1997-04-08 A method and a system for speech-to-speech conversion
DE69723449T DE69723449T2 (en) 1996-05-13 1997-04-08 METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION
NO19985179A NO318557B1 (en) 1996-05-13 1998-11-06 Speech-to-speech conversion method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information

Publications (3)

Publication Number Publication Date
SE9601811D0 SE9601811D0 (en) 1996-05-13
SE9601811L SE9601811L (en) 1997-11-03
SE506003C2 true SE506003C2 (en) 1997-11-03

Family

ID=20402543

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information

Country Status (6)

Country Link
EP (1) EP0919052B1 (en)
DE (1) DE69723449T2 (en)
DK (1) DK0919052T3 (en)
NO (1) NO318557B1 (en)
SE (1) SE506003C2 (en)
WO (1) WO1997043756A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159702C (en) * 2001-04-11 2004-07-28 国际商业机器公司 Speech-to-speech translation system and method with emotion
US7181397B2 (en) * 2005-04-29 2007-02-20 Motorola, Inc. Speech dialog method and system
DE102007011039B4 (en) * 2007-03-07 2019-08-29 Man Truck & Bus Ag Hands-free device in a motor vehicle
US8150020B1 (en) 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
US8024179B2 (en) * 2007-10-30 2011-09-20 At&T Intellectual Property Ii, L.P. System and method for improving interaction with a user through a dynamically alterable spoken dialog system
JP5282469B2 (en) * 2008-07-25 2013-09-04 ヤマハ株式会社 Voice processing apparatus and program
EP3389043A4 (en) 2015-12-07 2019-05-15 Yamaha Corporation Speech interacting device and speech interacting method
CN113470670B (en) * 2021-06-30 2024-06-07 广州资云科技有限公司 Method and system for rapidly switching electric tone basic tone

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH0772840B2 (en) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 Speech model configuration method, speech recognition method, speech recognition device, and speech model training method
SE9301596L (en) * 1993-05-10 1994-05-24 Televerket Device for increasing speech comprehension when translating speech from a first language to a second language
SE504177C2 (en) * 1994-06-29 1996-12-02 Telia Ab Method and apparatus for adapting a speech recognition equipment for dialectal variations in a language

Also Published As

Publication number Publication date
DE69723449T2 (en) 2004-04-22
NO985179D0 (en) 1998-11-06
SE9601811L (en) 1997-11-03
EP0919052A1 (en) 1999-06-02
DK0919052T3 (en) 2003-11-03
SE9601811D0 (en) 1996-05-13
DE69723449D1 (en) 2003-08-14
NO985179L (en) 1998-11-11
WO1997043756A1 (en) 1997-11-20
EP0919052B1 (en) 2003-07-09
NO318557B1 (en) 2005-04-11

Similar Documents

Publication Publication Date Title
EP0683483B1 (en) A method and arrangement for speech to text conversion
US7158934B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US5806033A (en) Syllable duration and pitch variation to determine accents and stresses for speech recognition
US5694520A (en) Method and device for speech recognition
US11817079B1 (en) GAN-based speech synthesis model and training method
JP2955297B2 (en) Speech recognition system
Kayte et al. Di-phone-based concatenative speech synthesis systems for marathi language
SE506003C2 (en) Speech-to-speech conversion method and system with extraction of prosody information
SE519273C2 (en) Improvements to, or with respect to, speech-to-speech conversion
Chou et al. Automatic segmental and prosodic labeling of Mandarin speech database.
JPH0261700A (en) voice recognition device
Wester et al. Speaker adaptation and the evaluation of speaker similarity in the EMIME speech-to-speech translation project
Kruse et al. Alinha-pb: A phonetic aligner for brazilian portuguese
JP3378547B2 (en) Voice recognition method and apparatus
JPS6229796B2 (en)
EP3051437A1 (en) Method for query processing for search in multilingual audio-archive and device for search of that processed query
Al-Daradkah et al. Automatic grapheme-to-phoneme conversion of Arabic text
Rajeswari et al. Hybrid DNN-HMM Based Approach for Telugu Language Speech Recognition
JPS6180298A (en) voice recognition device
JP2005534968A (en) Deciding to read kanji
Potisuk et al. Using stress to disambiguate spoken Thai sentences containing syntactic ambiguity
JPS61121167A (en) Audio word processor using divided utterance
Rajeswari et al. Developing Intonation Pattern for Tamil Text To Speech Synthesis System