SE506003C2 - Speech-to-speech conversion method and system with extraction of prosody information - Google Patents

Speech-to-speech conversion method and system with extraction of prosody information

Info

Publication number
SE506003C2
SE506003C2 SE9601811A SE9601811A SE506003C2 SE 506003 C2 SE506003 C2 SE 506003C2 SE 9601811 A SE9601811 A SE 9601811A SE 9601811 A SE9601811 A SE 9601811A SE 506003 C2 SE506003 C2 SE 506003C2
Authority
SE
Sweden
Prior art keywords
speech
information
entered
input
dialect
Prior art date
Application number
SE9601811A
Other languages
Swedish (sv)
Other versions
SE9601811L (en
SE9601811D0 (en
Inventor
Bertil Lyberg
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9601811A priority Critical patent/SE506003C2/en
Publication of SE9601811D0 publication Critical patent/SE9601811D0/en
Priority to DE69723449T priority patent/DE69723449T2/en
Priority to EP97919840A priority patent/EP0919052B1/en
Priority to DK97919840T priority patent/DK0919052T3/en
Priority to PCT/SE1997/000583 priority patent/WO1997043756A1/en
Publication of SE9601811L publication Critical patent/SE9601811L/en
Publication of SE506003C2 publication Critical patent/SE506003C2/en
Priority to NO19985179A priority patent/NO318557B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

The invention provides a speech-to-speech conversion system and method wherein prosody information is extracted from speech, applied to the input of the system, or handled by the method; the prosody information is in the form of the fundamental tone curve of the input speech; the fundamental tone curve is used to obtain dialectal and sentence accent information for the input speech; the sentence accent information is used in the interpretation of the speech inputs, the result of the interpretation being used to obtain speech information data form a database which is used in the formulation of voice responses to the speech inputs; and the dialectal information is used to ensure that the voice responses to the speech inputs have a dialect to match that of respective speech inputs.

Description

20 25 30 35 506 003 och/eller system som producerar tal i olika sammanhang. Med kända talsvararrangemang är det reproducerade talet svårt att förstå och tolka. Det finns därför ett behov av ett tal-till- tal-omvandlingssystem i vilket de artificiella talutmatning- arna är naturliga, har den korrekta betoningen och är lätta att förstå. 20 25 30 35 506 003 and / or systems that produce speech in different contexts. With known voice response arrangements, the reproduced speech is difficult to understand and interpret. There is therefore a need for a speech-to-speech speech conversion system in which the artificial speech output are natural, have the correct emphasis and are light to understand.

I språk som har väl utvecklad satsbetoning och/eller tonhöjd i individuella ord är identifieringen av den naturliga betydelsen av orden/satserna mycket svår. Det faktum att betoningar kan placeras fel ökar risken för feltolkning, eller att betydelsen helt går förlorad för den lyssnande parten.In languages that have well-developed sentence emphasis and / or pitch in individual words is the identification of the natural the meaning of the words / sentences is very difficult. The fact that Emphasis can be placed incorrectly increasing the risk of misinterpretation, or that the meaning is completely lost for the listening party.

Olika typer av taligenkänningssystem är kända. Det är 1 sådana system vanligt att taligenkänningsutrustningen lärs at: känna igen tal från ett stort antal personer. Talinlärningon följer också en speciell dialekt eller dialekter. Den information som samlas genom denna process används sedan av systemet för att tolka inkommande tal. Sålunda kan sådana system normalt inte känna igen dialektvariationer i tal som ligger utanför den speciella dialekt eller de dialekter for vilket systemet är upplärt.Different types of speech recognition systems are known. It's 1 such systems commonly that the speech recognition equipment is taught at: recognize speech from a large number of people. Speech learning also follows a particular dialect or dialects. The information collected through this process is then used by the system for interpreting incoming speech. Thus, such can systems do not normally recognize dialect variations in speech such as lies outside the particular dialect or dialects for which system is trained.

I språk med tonande ordaccenter och tonande språk utgör intonationsmönstret i språket en mycket viktig del i förståelsen av språket, men kända system tar ingen hänsyn till dessa talkarakteristika. Som en följd av detta kan igen- kännandet av ord och fraser, med kända taligenkänningssystem. ge upphov till feltolkningar. De kända taligenkänningssystemen som är anpassade att ta hänsyn till dialekter i tal är specifikt skräddarsydda för eh'speciell dialekt och är därför inte anpassade att känna igen olika dialekter i ett språk.In languages with toned word accents and toned languages constitute the intonation pattern in the language a very important part of understanding of the language, but known systems do not take into account these speech characteristics. As a result, the recognition of words and phrases, with known speech recognition systems. give rise to misinterpretations. The known speech recognition systems which are adapted to take into account dialects of speech are specifically tailored for eh'special dialect and is therefore not adapted to recognize different dialects in a language.

I framtiden kommer taligenkänningsutrustningar i allt större utsträckning att användas i många olika applikationer där det finns behov av att kunna känna igen olika dialekter i i det och som en konsekvens ett språk. Dialektvariationerna i ett språk har, förgångna, varit svåra att fastställa, 20 30 506 003 3 av detta har man erfarit svårigheter med att få en korrekt förståelse av artificiellt producerat tal..Dessutom kan de kända taligenkänningsutrustningarna i allmänhet inte användas för olika språk.In the future, speech recognition equipment will come in everything to a greater extent to be used in many different applications where there is a need to be able to recognize different dialects in in it and as a consequence a language. The dialect variations in a language have, past, have been difficult to determine, 20 30 506 003 3 from this one has experienced difficulties in getting a correct one understanding of artificially produced speech..In addition, they can known speech recognition equipment is generally not used for different languages.

Sålunda; medan kända taligenkänningssystem är anpassade att känna igen, genom inlärning, en speciell dialekt i ett språk, är det inte möjligt för sådana system att känna igen olika dialekter i det språket, eller dialekter i olika språk, vid användning av samma taligenkänningsutrustning, utan ytterligare inlärning.Thus; while known speech recognition systems are customized to recognize, through learning, a particular dialect in one language, it is not possible for such systems to be recognized different dialects in that language, or dialects in different languages, when using the same speech recognition equipment, without further learning.

Den artificiella tolkningen av tal har, därför, varit svår eller omöjlig att utföra med kända taligenkänningsutrust- ningar, beroende på oförmågan hos sådana system att känna igen dialektvariationer.The artificial interpretation of speech has, therefore, been difficult or impossible to perform with known speech recognition equipment due to the inability of such systems to recognize dialect variations.

Bortsett från de tekniska problemen med att korrekt tolka tal, är det nödvändigt i röstsvars-/styrsystem för de muntliga instruktionerna, eller kommandona, att blir korrekt tolkade, annars kommer det inte att vara möjligt att tillhandahålla korrekta svar, eller effektuera rätt styrning av olika typer till exempel i ett av utrustningar, och/eller tjänster, telekommunikationsnät.Apart from the technical problems of correct interpretation speech, it is necessary in the voice response / control system for the oral the instructions, or commands, to be interpreted correctly, otherwise it will not be possible to provide correct answers, or effect the correct control of different types for example in one of equipment, and / or services, telecommunications networks.

För att klara av dessa svårigheter är det nödvändigt för ett röstsvarskomunikationssystem att kunna tolka den mottagna talinformationen, oberoende av dialekt, och att matcha dialekten hos det utgående talet mot dialekten hos respektive ingående tal. Likaså för att på ett otvetydigt sätt kunna bestäma betydelsen hos enstaka ord eller fraser i en talad sekvens är det nödvändigt för de tal-till-tal-omvandlare som används i ett röstsvarskommunikationssystem att kunna bestämma, och ta hänsyn till, betoningar i den talade sekvensen.To cope with these difficulties, it is necessary to a voicemail communication system to be able to interpret the received speech information, regardless of dialect, and to match the dialect of the outgoing speech versus the dialect of the respective input numbers. Also to be able to in an unambiguous way Determine the meaning of single words or phrases in a spoken word sequence, it is necessary for the speech-to-speech converters that used in a voicemail communication system to be able to determine, and take into account, emphases in the spoken the sequence.

Det är ett mål med den föreliggande uppfinningen att tillhandahålla ett system för tal-till-tal-omvandling som kan 20 25 30 5 4 50_6 003 matcha dialekten hos det utmatade talet mot dem för respektive talinmatningar.It is an object of the present invention that provide a speech-to-speech conversion system that can 20 25 30 5 4 50_6 003 match the dialect of the output speech against those for each voice input.

Ett annat mål med den föreliggande uppfinningen är att tillhandahålla ett system för tal-till-tal-omvandling som är anpassat att känna igen och tolka tal som matas in, speciellt dialekten, satsbetoningen och betoningen i talade satsar, med användning av grundtonskurvan i de talade sekvenserna.Another object of the present invention is that provide a speech-to-speech conversion system that is adapted to recognize and interpret input numbers, especially the dialect, the sentence emphasis and the emphasis in spoken bets, using the fundamental curve in the spoken the sequences.

Ytterligare ett mål med den föreliggande uppfinningen är att tillhandahålla röstsvarkommunikationssystem som inkluderar ett tal-till-tal-omvandlingssystem som kan matcha dialekterna hos de utmatade talen med de hos respektive inmatade tal.Another object of the present invention is to provide voicemail communication systems that include a speech-to-speech conversion system that can match the dialects with the output numbers with those with the respective input numbers.

Uppfinningen tillhandahåller ett tal-till-tal- omvandlingssystem som vid utmatning ger talade svar på inmatade tal till systemet, inkluderande taligenkännings- hjälpmedel för det inmatade talet; tolkning av innehållet i det igenkända inmatade talet; databas som innehåller talinformationsdata som används vid formuleringen av nämnda talade svar, där utgången på nämnda tolkningshjälpmedel används för att accessa nämnda databas och tolkningshjälpmedel för och en erhålla talinformationsdata därifrån, kännetecknat av att systemet dessutom inkluderar extraktionshjälpmedel för att extrahera prosodi-information från det inmatade talet; hjälpmedel för att erhålla dialektinformation från nämnda prosodi-information; och text-till-tal-omvandlingshjälpmedel för att omvandla den talinformationsdata som erhålles från nämnda databas till ett talat svar med användning av nämnda dialektinformation, där dialektinformationen matchas mot motsvarande hos det inmatade talet.The invention provides a speech-to-speech conversion systems that, when output, provide spoken answers to input numbers to the system, including speech recognition aids for the entered speech; interpretation of the content of the recognized input speech; database containing voice information data used for the wording of said spoken answer, where the output of said interpretation aids are used to access said database and interpretive aids for and one obtain speech information data therefrom, characterized in that the system also includes extraction aids to extracting prosody information from the entered speech; aids for obtaining dialect information from the said prosody information; and text-to-speech conversion tools to convert the speech information data obtained from said database to a spoken answer using said dialect information, where the dialect information is matched against corresponding to the entered number.

Taligenkänningshjälpmedlet kan anpassas att identifiera ett antal fonem från ett segment av det inmatade talet och för att att tolka fonemen som möjliga ord, eller ordkombinationer, upprätta en modell av talet där talmodellen har ord- och 20 25 30 35 satsaccenter enligt ett standardiserat mönster för spràket för det tal som matas in.The speech recognition tool can be adapted to identify a number of phonemes from a segment of the entered number and for to to interpret phonemes as possible words, or word combinations, establish a model of the speech where the speech model has word and 20 25 30 35 sentence accents according to a standardized pattern for the language of the number entered.

Prosodi-informationen som extraheras fràn det inmatade talet är företrädesvis grundtonskurvan för det inmatade talet.The prosody information extracted from the input the number is preferably the root curve of the entered number.

I detta fall inkluderar hjälpmedlet för att erhålla dialekt- -information frän nämnda prosodi-information ett första analyseringshjälpmedel för att bestämma intonationsmönstret hos grundtonen i det inmatade talet, och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; ett andra analyseringshjälpmedel för att bestämma intonationsmönstret hos grundtonskurvan i talmodellen och därigenom maximum- och mínimumvärdena hos grundtonskurvan och deras respektive positioner; jämförelsehjälpmedel för att jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret hos talmodellen för att identifiera en ,tidsdifferens mellan förekomsten av maximum- och minimum- värdena i grundtonskurvan i det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtonskurvan i talmodellen, där den identifierade tidsskillnaden indikerar dialektkarakteristik hos det inmatade talet. Tidsdifferensen kan bestämmas i förhållande till en referenspunkt i intona- tionsmönstret, till exempel den punkt där en gräns mellan konsonant och vokal uppträder.In this case, the aid for obtaining the dialect information from said prosody information a first analysis tools to determine the intonation pattern of the root of the entered number, and thus the maximum and the minimum values of the fundamental curve and their respective positions; a second analysis tool to determine the intonation pattern of the fundamental tone curve in the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; comparison aids to compare the intonation pattern of the entered speech with the intonation pattern of the speech model to identify one , time difference between the occurrence of maximum and minimum the values in the fundamental curve of the incoming number in relation to the maximum and minimum values of the fundamental curve in the speech model, where the identified time difference indicates dialect characteristics of the entered speech. The time difference can be determined in relation to a reference point in the intonation pattern, such as the point where a boundary between consonant and vowel appear.

Tal-till-tal-omvandlingssystemet kan inkludera hjälpmedel för att erhålla information om satsaccenter frän nämnda prosodi-information. I vilket fall taligenkänningshjälpmedlet inkluderar kontrollhjälpmedel för att lexikaliskt kontrollera orden i talmodellen och för att syntaktiskt kontrollera fraserna i talmodellen, där de ord och fraser som inte är lingvistiskt möjliga utesluts från talmodellen. Kontroll- hjälpmedlet är, med detta arrangemang, anpassat att kon- trollera ortografin och den fonetiska transkriptionen av orden i talmodellen, där transkriptionsinformationen inkluderar lexikaliskt abstraherad accentinformation av typ betonade stavelser, och information som avser placeringen av sekundär 506 003 20 25 30 35 sne nos 6 accent. Accentinformationen kan, till exempel, avse tonal ordaccent I och accent II.The speech-to-speech conversion system may include assistive devices to obtain information on sentence accents from the said prosody information. In which case the speech recognition aid includes control aids for lexical checking the words in the speech model and to syntactically check the phrases in the speech model, where the words and phrases are not linguistically possible are excluded from the speech model. Control- the aid is, with this arrangement, adapted to conjure up the orthography and the phonetic transcription of the words in the speech model, where the transcription information includes lexically abstract accent information of the accented type syllables, and information regarding the placement of secondary 506 003 20 25 30 35 sne nos 6 accent. The accent information can, for example, refer to tonal word accent I and accent II.

Satsaccentinformationen och/eller satsbetoningen kan med fördel användas vid tolkningen av innehållet i det igenkända inmatade talet.The sentence accent information and / or the sentence emphasis can be included advantage can be used in the interpretation of the content of the recognized entered the speech.

Tal-till-tal-omvandlingssystemet kan inkludera dialog- hjälpmedel för att hantera en dialog med databasen, där nämnda dialog initeras med tolkningshjälpmedlet. I ett föredraget arrangemang resulterar dialogen med databasen i applicering av talinformationsdata pà text-till-data-omvandlingshjälpmedlet.The voice-to-speech conversion system may include tools for managing a dialogue with the database, where mentioned dialogue is initiated with the interpretation tool. In a lecture arrangement, the dialogue with the database results in the application of voice information data on the text-to-data conversion tool.

Uppfinningen tillhandahåller även, i ett röstsvarskommu- en metod för att tillhandahålla ett talat där nämnda svar har en nikationssystem, svar pá ett inmatat tal i systemet, dialekt som matchar motsvarande för talinmatningen, och nämnda metod inkluderar stegen att känna igen och tolka talet som matas in, och att utnyttja tolkningen för att erhàlla talinformationsdata frän en databas för att användas vid formuleringen av nämnda talade svar, kännetecknad av att nämnda metod dessutom inkluderar stegen att extrahera prosodi- erhàlla dialektinfor- och omvandla tal- information fràn det inmatade talet, mation från nämnda prosodi-information, informationsdatan som erhålles frán nämnda databas till nämnda talade svar med användning av nämnda dialektinformation.The invention also provides, in a voice response communication a method of providing a spoken word where said answer has one communication system, answer to a number entered in the system, dialect that matches the equivalent of the speech input, and said method includes the steps of recognizing and interpreting the speech as entered, and to use the interpretation to obtain voice information data from a database for use in the wording of said spoken answer, characterized in that said method further includes the steps of extracting prosodic obtain dialect information and convert speech information from the entered number, information from said prosody information, the information data obtained from said database to said spoken answers using said dialect information.

Igenkänningen och tolkningen av det inmatade talet inkluderar stegen att identifiera ett antal fonem fran ett segment av det inmatade talet, och att tolka fonemen som möjliga ord, eller ordkombinationer, för att upprätta en modell av talet, där talmodellen har ord- och satsaccenter enligt ett standardiserat mönster för spraket för det inmatade talet.The recognition and interpretation of the entered speech includes the steps of identifying a number of phonemes from one segment of the entered speech, and to interpret the phoneme as possible words, or word combinations, to establish one model of speech, where the speech model has word and sentence accents according to a standardized pattern of the language of the input the number.

I en föredragen metod är prosodi-informationen som extraherats frán det inmatade talet grundtonskurvan för det inmatade talet. I detta fall inkluderar metoden enligt den 10 IS 25 30 35 506 003- föreliggande uppfinningen stegen att bestämma intonations- mönstret hos grundtonen för det inmatade talet och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; bestämma intonationsmönstret hos grundtonen för talmodellen och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret för talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimum- värdena i grundtonskurvan hos det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtons- kurvan för talmodellen, där den identifierade tidsdifferensen indikerar dialektkarakteristiken hos det inmatade talet.In a preferred method, the prosody information is as extracted from the input number the fundamental tone curve for it entered the speech. In this case, the method according to it includes 10 IS 25 30 35 506 003- the present invention the steps of determining the intonation the pattern of the fundamental tone of the entered speech and thereby the maximum and minimum values of the fundamental curve and theirs respective positions; determine the intonation pattern of the fundamental tone of the speech model and thereby the maximum and the minimum values of the fundamental curve and their respective positions; compare the intonation pattern of the entered speech with the intonation pattern of the speech model to identify one time difference between the occurrence of maximum and minimum the values in the fundamental curve of the incoming number in in relation to the maximum and minimum values of basic tones the curve for the speech model, where the identified time difference indicates the dialect characteristic of the entered speech.

Tidsdifferensen kan bestämmas i förhållande till en referenspunkt i intonationsmönstret, till exempel den punkt vid vilken en konsonant/vokal-gräns inträffar.The time difference can be determined in relation to one reference point in the intonation pattern, for example the point at which a consonant / vowel boundary occurs.

Metoden, enligt den föreliggande uppfinningen, kan inkludera steget att erhålla information om satsaccenter från nämnda prosodi-information. Enligt denna metod kontrolleras orden i talmodellen lexikaliskt och fraserna i talmodellen kontrolleras syntaktiskt, där de ord och fraser som ej är lingvistiskt möjliga utesluts från talmodellen. Likaså, enligt denna metod, kan ortografin och den fonetiska transkriptionen av orden i talmodellen kontrolleras, där transkriptions- informationen exkluderar lexikaliskt abstraherad accentinformation av typ betonade stavelser, och information avseende placeringen av sekundär accent. Accentinformationen kan avse tonal ordaccent I och accent II.The method, according to the present invention, can include the step of obtaining information about batch accents from said prosody information. According to this method is checked the words in the speech model lexically and the phrases in the speech model controlled syntactically, where the words and phrases that are not linguistically possible are excluded from the speech model. Likewise, according to this method, the orthography and the phonetic transcription can of the words in the speech model is checked, where the transcription the information excludes lexically abstracted accent information of the type stressed syllables, and information regarding the placement of secondary accent. The accent information may refer to tonal word accent I and accent II.

Enligt metoden för den föreliggande uppfinningen kan satsaccentinformation och/eller satsbetoning användas vid tolkningen av innehållet i det tal som matas in för igenkänning.According to the method of the present invention, sentence accent information and / or sentence emphasis is used in the interpretation of the content of the speech entered for recognition.

Metoden enligt den föreliggande uppfinningen kan inkludera steget att initiera en dialog med databasen för att erhålla talinformationsdata för att formulera nämnda talade 20 25 30 35 506 ÛÜÉS 8 svar, där nämnda dialog initieras följande tolkningen av det inmatade talet. Dialogen med databasen kan resultera i applicering av talinformationsdata på text-till-tal- omvandlingshjälpmedlet.The method of the present invention can include the step of initiating a dialog with the database to obtain speech information data to formulate said spoken 20 25 30 35 506 ÛÜÉS 8 answer, where said dialogue is initiated following its interpretation entered the speech. The dialogue with the database can result in application of voice information data to text-to-speech the conversion aid.

Uppfinningen tillhandahåller vidare ett röstsvars- kommunikationssystem som inkluderar ett tal-til1-tal- omvandlingssystem enligt de föregående avsnitten, eller använder en metod enligt de föregående avsnitten för att tillhandahålla ett talat svar på en talinmatning i systemet.The invention further provides a voicemail communication systems that include a speech-to-speech conversion systems according to the preceding sections, or uses a method according to the previous sections to provide a spoken response to a voice entry in the system.

I allt väsentligt är de karakteristiska dragen hos tal- till-tal-omvandlingssystemet och metoden enligt den föreliggande uppfinningen följande: - prosodi-information extraheras från tal, applicerat på ingången till systemet och hanteras av metoden; - prosodi-informationen är i form av grundtonskurvan för det inmatade talet; - grundtonskurvan används för att erhålla dialekt-, satsaccent- och satsbetoningsinformation för det inmatade talet; - satsaccenten och betoningsinformationen används vid tolkningen av de inmatade talen, och resultatet av tolkningen används för att erhållatalinformations- data från en databas som används vid formuleringen av röstsvar till de inmatade talen; - dialektinformationen används för att garantera att röstsvaren till de inmatade talen får en dialekt som matchar den hos respektive talinmatningar.In essence, the characteristics of speech the speech-conversion system and the method according to it the present invention the following: - prosody information is extracted from speech, applied at the entrance to the system and handled by the method; - the prosody information is in the form of the fundamental curve for the entered number; - the fundamental tone curve is used to obtain dialect, sentence accent and sentence emphasis information for it entered speech; the sentence accent and emphasis information is used for the interpretation of the entered numbers, and the result of interpretation is used to obtain the number information data from a database used in the formulation of voice response to the input numbers; - the dialect information is used to guarantee that the voice responses to the entered speeches get a dialect which matches it with the respective voice inputs.

Föregående och andra särdrag enligt den föreliggande uppfinningen kommer att förstås bättre av följande beskrivning under hänvisning till den enda figuren i de bifogade bilderna 10 20 25 30 35 506 003 9 som illustrerar, i form av ett blockschema, ett tal-till-tal- omvandlingssystem enligt den föreliggande uppfinningen.Previous and other features of the present invention the invention will be better understood from the following description with reference to the single figure in the attached pictures 10 20 25 30 35 506 003 9 illustrating, in the form of a block diagram, a speech-to-speech conversion systems according to the present invention.

Det framgår av den enda figuren i de bifogade bilderna att ett tal-till-tal-omvandlingssystem enligt den föreliggande uppfinningen inkluderar, vid ingången 1 därav, en taligenkän- ningsutrustning 2, och en extraktionsenhet 3 för att extrahera prosodi-information från tal som appliceras på systemingången 1, dvs grundtonskurvan hos det tal som matas in. Sålunda kommer tal som appliceras på ingång 1 att samtidigt appliceras på enheterna 2 och 3.It can be seen from the only figure in the attached pictures that a speech-to-speech conversion system according to the present the invention includes, at the input 1 thereof, a speech recognition extraction equipment 2, and an extraction unit 3 for extracting prosody information from speech applied to the system input 1, ie the fundamental tone curve of the number entered. Thus numbers applied to input 1 will be applied simultaneously on units 2 and 3.

Utgången på taligenkänningsenheten 2 och en utgång på extraktionsenheten 3 är anslutna till separata ingångar på en tolkningsenhet 4, vars utgång är ansluten till en databas- hanteringsenhet 5. Den databashanterande enheten 5, som är .anpassad för tvåvägskommunikation med en databas 6, är ansluten vid utgången därav till ingången på en text-till~ta1- omvandlare 7. Dialogen mellan databasen 6 och databashanterar- enheten 5 kan effektueras med något känt databaskommunika- tionsspråk, till exempel SQL (Structured Query Language).The output of the speech recognition unit 2 and an output of the extraction unit 3 are connected to separate inputs on one Interpretation Unit 4, the output of which is connected to a database management unit 5. The database management unit 5, which is .adapted for two-way communication with a database 6, is connected at the output thereof to the input of a text-to ~ ta1- converter 7. The dialogue between the database 6 and the database manager the unit 5 can be effected with any known database communication languages, such as SQL (Structured Query Language).

Utgången på text-till-talomvandlaren 7 tillhandahåller en utgång med syntetiskt tal till tal-till-tal- omvandlingssystemet.The output of the text-to-speech converter 7 provides one synthetic-to-speech-to-speech output the conversion system.

Som visas i den enda figuren av ritningar, är ytterligare en utgång på extraktionsenheten 3 ansluten till ingången på en prosodianalysenhet 8 som är anpassad för dubbelriktad kommunikation med text-till-tal-omvandlaren 7. Prosodianalys- enheten 8 är anpassad, som en del av text-till-talomvandlings- processen hos omvandlare 7, tionen, dvs grundtonskurvan för det syntetiserade talet och att analysera prosodi-informa- göra erforderliga korrigeringar i intonationsmönstret hos det syntetiserade talet enligt den dialektinformation som extraheras från det inmatade talet. Sålunda kommer dialekten på utgången för det syntetiserade talet i tal-till-tal- omvandlingssystemet att matcha motsvarande för det inmatade talet. 20 25 30 35 50.6 003 10 Det framgår därför av det föregående att den föreliggande uppfinningen är anpassad att tillhandahålla ett talat svar till en talinmatning till tal-till-tal-omvandlingssystemet som och att denna omvandlingsprocess inkluderar stegen att känna igen och har en dialekt som matchar den hos det inmatade talet, tolka det inmatade talet, utnyttjande av tolkningen för att erhålla talinformationsdata från en databas för att användas vid formuleringen av det talade svaret, extraktion av prosodi- erhållande av dialekt- och omvandling av information från det inmatade talet, information från prosodi-informationen, talinformationsdatan som erhålles från nämnda databas till det talade svaret med hjälp av dialektinformationen. Det sätt på vilket detta kan effektueras skisseras i följande avsnitt.As shown in the single figure of drawings, is further an output of the extraction unit 3 connected to the input of a prosody analysis unit 8 which is adapted for bidirectional communication with the text-to-speech converter 7. Prosody analysis the unit 8 is adapted, as part of the text-to-speech conversion the process of converter 7, tion, ie the fundamental curve of the synthesized number and to analyze prosody information make necessary corrections in the intonation pattern of it synthesized the speech according to the dialect information that extracted from the entered number. Thus comes the dialect on the output of the synthesized speech in speech-to-speech the conversion system to match the equivalent of the input the number. 20 25 30 35 50.6 003 10 It is therefore clear from the foregoing that the present the invention is adapted to provide a spoken answer to a speech input to the speech-to-speech conversion system that and to this conversion process includes the steps to recognize and has a dialect that matches that of the entered speech, interpret the entered speech, using the interpretation to obtain voice information data from a database for use in the formulation of the spoken answer, extraction of prosodic obtaining dialect and conversion of information from the entered number, information from the prosody information, the speech information data obtained from said database to it spoke the answer using the dialect information. That way which this can be effected is outlined in the following sections.

I praktiken appliceras de tal som matas in i tal-till- tal-omvandlingssystemet, och som kan finnas i många utföranden, till exempel begäran om information inom speciella ämnesområden, såsom bank eller teletjänster, eller allmänna förfrågningar beträffande sådana tjänster, på ingång 1 och därigenom på ingångarna till enhet 2 och 3.In practice, the numbers entered into speech-to-speech are applied. speech-conversion system, and which can be found in many designs, such as requests for information within special subject areas, such as banking or telecommunications services, or general inquiries concerning such services, on input 1 and thereby at the inputs of units 2 and 3.

Taligenkänningsenheten 2 och tolkningsenheten 4 är anpassade att arbeta på ett sätt som är väl känt för experter inom området, för att känna igen och tolka talinmatningarna till systemet. Taligenkänningsenheten 2 kan, till exempel, arbeta genom att använda en “Hidden Markov“-modell, eller en motsvarande talmodell. I grund och botten är funktionen hos enheterna 2 och 4 att omvandla talinmatningarna till systemet till en form som utgör en trogen återgivning av innehållet i talinmatningarna och som är lämplig att applicera på ingången till databashanterarenheten 5. Med andra ord måste innehållet i textinformationsdatan vid utgången på tolkningsenheten 4 vara en exakt representation av talinmatningen och kunna användas av databashanterarenheten 5 att accessa och extrahera talinformationsdata från databasen 6 för användning vid formuleringen av ett syntetiskt talat svar till det inmatade talet. I praktiken utförs denna process i huvudsak genom identifiering av ett antal fonem från ett segment av det 20 25 30 35 506 005 11 inmatade talet som kombineras till allofonsträngar, där fonemen tolkas som möjliga ord, eller ordkombinationer, att etablera en modell av talet. Den etablerade talmodellen kommer att ha ord och satsaccenter enligt ett standardiserat mönster för språket hos det inmatade talet. för Informationen beträffande de igenkända orden och ordkombinationerna som genereras av taligenkänningsenheten 2 kan i praktiken kontrolleras både lexikalískt (med användning av ett lexikon, med ortografi och transkription) och syntaktiskt. Ändamålet med denna kontroll år att identifiera och exkludera varje ord som inte existerar i det aktuella språket, och/eller varje fras vars syntax inte överensstämmer med det aktuella språkets.The speech recognition unit 2 and the interpretation unit 4 are adapted to work in a way that is well known to experts within the area, to recognize and interpret the speech entries to the system. The speech recognition unit 2 can, for example, work using a "Hidden Markov" model, or a corresponding speech model. Basically, the function of units 2 and 4 to convert the voice inputs to the system to a form which constitutes a faithful representation of the contents of speech inputs and which is suitable to apply to the input to the database manager unit 5. In other words, the content must in the text information data at the output of the interpreter 4 be an exact representation of the speech input and be able to used by the database manager unit 5 to access and extract voice information data from the database 6 for use in the formulation of a synthetically spoken response to the input the number. In practice, this process is mainly carried out through identifying a number of phonemes from a segment of it 20 25 30 35 506 005 11 entered the number combined into allophone strings, there phonemes are interpreted as possible words, or word combinations, to establish a model of speech. The established number model will have words and sentence accents according to a standardized pattern for the language of the entered speech. for The information regarding the recognized words and the word combinations generated by the speech recognition unit 2 can in practice be checked both lexically (with use of a dictionary, with orthography and transcription) and syntactically. The purpose of this control is to identify and exclude any word that does not exist in the current case the language, and / or any phrase whose syntax does not match with the language of the current language.

Sålunda garanterar taligenkänningsenheten 2 enligt den föreliggande uppfinningen att endast de ord, och ord- kombinationer, som befinnes vara acceptabla både lexikaliskt och syntaktiskt, används för att skapa en modell av det inmatade talet. I praktiken är intonationsmönstret hos talmodellen ett standardiserat intonationsmönster för det aktuella språket. etablerats genom inlärning, eller rätt och slätt kunskap, med användning av ett antal dialekter på det aktuella språket. eller ett intonationsmönster som har Prosodi-informationen, dvs grundtonskurvan, som extraheras från det inmatade talet med extraktionsenheten 3, kan användas för att erhålla dialekt-, satsbetoningsinformation för att användas av tal-till-tal- omvandlingssystemet och metoden för den aktuella uppfinningen.Thus, the speech recognition unit 2 guarantees according to it the present invention that only those words, and combinations that are found to be acceptable both lexically and syntactically, is used to create a model of it entered the speech. In practice, the intonation pattern is at the speech model a standardized intonation pattern for it current language. established through learning, or simply knowledge, with use of a number of dialects in the current language. or an intonation pattern that has The prosody information, ie the fundamental tone curve, which extracted from the entered number with the extraction unit 3, can be used to obtain dialect, sentence emphasis information for use by voice-to-speech the conversion system and method of the present invention.

Speciellt kan díalektínformationen användas av tal-ti1l-tal- omvandlingssystemet och metoden för att matcha dialekten hos det utmatade talet med det hos det inmatade, och satsaccent och betoningsinformation kan användas vid igenkänningen och satsaccent- och tolkningen av det inmatade talet.In particular, the dialectin information can be used by speech-to-speech the conversion system and the method of matching the dialect of the output number with that of the input, and batch accent and emphasis information can be used in the recognition and rate accent and the interpretation of the entered speech.

Enligt den föreliggande uppfinningen inkluderar medlet för att erhålla dialektinformation från prosodi-informationen: H) 20 25 30 35 506 C33 12 - första analyshjälpmedel för att bestämma intona- tionsmönstret hos grundtonen i det inmatade talet och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; - andra analyshjälpmedel för att bestämma intona- tionsmönstret hos grundtonskurvan i talmodellen och därigenom maximum- och minimumvärdena hos grundtons- kurvan och deras respektive positioner; - jämförelsehjälpmedel för att jämföra intonations- mönstret hos det inmatade talet med intonations- mönstret hos talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimumvärdena i grundtonskurvan för det inkommande talet i förhållande till maximum- och minimumvärdena i grundtonskurvan för talmodellen, där den identifi- erade differensen indikerar dialektkarakteristiken hos det inmatade talet. kan bestämmas i I det Tidsdifferensen, som hänvisas till ovan, relation till en referenspunkt i intonationsmönstret. svenska språket kan skillnaden, i termer av intonations- mönster, beskrivas genom olika punkter i tiden för ord och satsaccenter, dvs tidsskillnaden kan bestämmas i relation till en referenspunkt i intonationsmönstret, till exempel den punkt vid vilken en konsonant/vokal-gräns inträffar.According to the present invention, the agent includes to obtain dialect information from the prosody information: HRS) 20 25 30 35 506 C33 12 - first analytical tools to determine the intonation the pattern of the fundamental tone of the entered number and thereby the maximum and minimum values of the fundamental curve and their respective positions; - other analytical aids to determine the intonation the pattern of the fundamental tone curve in the speech model and thereby the maximum and minimum values of the fundamental the curve and their respective positions; - comparison aids to compare intonation the pattern of the entered speech with intonation the pattern of the speech model to identify one time difference between the occurrence of maximum and the minimum values in the fundamental curve of the incoming number in relation to the maximum and minimum values in the fundamental curve of the speech model, where the the difference indicates the dialect characteristic at the entered number. can be determined in In it The time difference, referred to above, relation to a reference point in the intonation pattern. Swedish language, the difference, in terms of intonation patterns, are described by different points in time of words and batch accents, ie the time difference can be determined in relation to a reference point in the intonation pattern, such as that point at which a consonant / vowel boundary occurs.

Sålunda är, i ett föredraget arrangemang för den föreliggande uppfinningen, den referens mot vilken tidsdifferensen mätes, den punkt'vid vilken konsonant/vokal- gränsen, dvs K/V-gränsen, går.Thus, in a preferred arrangement for it the present invention, the reference to which the time difference is measured, the point at which the consonant / vowel the limit, ie the K / V limit, goes.

Den identifierade tidsdifferensen som, vilket konstaterats ovan, indikerar dialekten i det inmatade talet, dvs det talade språket, omvandlaren 7 för att göra det möjligt för intonations- och därigenom dialekten hos det utmatade talet i applicaras på text-till-tal- mönstret, 15 20 25 30 35 506 oo: 13 systemet, att korrigas sa att det motsvarar intonations- mönstret hos de motsvarande orden och/eller fraserna i det inmatade talet. Sålunda möjliggör denna korrigeringsprocess att dialektinformationen i det inmatade talet kan inkorporeras i det utmatade talet.The identified time difference as, which noted above, the dialect indicates in the entered speech, ie the spoken language, the converter 7 to enable the intonation and thereby the dialect of the output speech in applied to text-to-speech the pattern, 15 20 25 30 35 506 oo: 13 system, to be corrected so that it corresponds to the intonation the pattern of the corresponding words and / or phrases in it entered the speech. Thus enabling this correction process that the dialect information in the entered speech can be incorporated in the output speech.

Som nämnts ovan är grundtonskurvan för talmodellen baserad pà information resulterande fràn de lexikaliska (ortogtrafi och transkription) och syntaktiska kontrollerna.As mentioned above, the fundamental curve is for the speech model based on information resulting from the lexical (orthotraphy and transcription) and syntactic controls.

Dessutom inkluderar transkriptionsinformationen lexikalt abstraherad accentinformation av typ betonade stavelser, dvs tonala ordaccenter I och II, och information med avseende pà placeringen av sekundär accent, dvs information som ges i t ex ordböcker. Denna information kan användas för att justera igenkänningsmönstret i taligenkänningsmodellen, till exempel “Hidden Markov“-modellen, för att ta hänsyn till transkrip- .tionsinformationen. En mer exakt modell av det inmatade talet erhàlles därför under tolkningsprocessen. Ännu en konsekvens av denna talmodellkorrigerande process är att, med tiden, talmodellen kommer att få ett intonationsmönster som har etablerats genom en inlärningsprocess.In addition, the transcription information includes lexically abstract accent information of type stressed syllables, ie tonal word accents I and II, and information relating to the location of the secondary accent, ie information given in e.g. dictionaries. This information can be used to adjust the recognition pattern in the speech recognition model, for example The "Hidden Markov" model, to take into account the transcript .tionsinformation. A more accurate model of the entered number is therefore obtained during the interpretation process. Another consequence of this speech model correction process is that, over time, the speech model will get one intonation patterns established by a learning process.

Likaså, med systemet och metoden enligt den föreliggande uppfinningen, jämförs talmodellen med en talad inmatnings- sekvens, och varje avvikelse dem emellan kan bestämmas och användas till att fà talmodellen i överensstämmelse med den inmatade talsekvensen och/eller för att bestämma betoningar i den inmatade talsekvensen.Likewise, with the system and method of the present invention, the speech model is compared with a spoken input sequence, and any deviation between them can be determined and be used to make the speech model consistent with it entered the speech sequence and / or to determine stresses in the entered speech sequence.

Identifieringen av betoningarna i en talad sekvens gör det möjligt att bestämma den exakta betydelsen av den talade sekvensen pá ett otvetydigt sätt. Speciellt kan relativa satsbetoningar bestämmas genom att klassificera förhållandet mellan variationer och deklination hos grundtonskurvan, varigenom betonade sektioner, eller individuella ord kan 15 20 25 30 35 506 003 14 bestämmas. Dessutom kan tonhöjden hos talet bestämmas ur deklinationen för grundtonskurvan.The identification of the accents in a spoken sequence does it is possible to determine the exact meaning of the spoken word the sequence in an unambiguous way. Especially can relative rate emphases are determined by classifying the ratio between variations and declination of the fundamental tone curve, whereby stressed sections, or individual words can 15 20 25 30 35 506 003 14 determined. In addition, the pitch of the speech can be determined from the declination of the fundamental tone curve.

Sålunda; för att ta hänsyn till satsbetoningar i igen- kännandet och tolkningen av de inmatade talen i tal-til1-tal- omvandlarsystemet hos den föreliggande uppfinningen, är extraktionsenheten 3, i förening med tolkningsenheten 4 anpassad att bestämma: - ett första förhållande mellan variationen och deklinationen hos grundtonskurvan för det inmatade talet; - ett andra förhållande mellan variationen och deklinationen hos grundtonskurvan för talmodellen; och - vid en jämförelse mellan första och andra förhållan- _ dena används varje identifierad skillnad för att bestämma placeringen av satsaccenter.Thus; to take into account sentence emphases in the recognition and interpretation of the entered numbers in speech-to-speech numbers the transducer system of the present invention, is the extraction unit 3, in conjunction with the interpretation unit 4 adapted to determine: an initial relationship between the variation and the declination of the fundamental curve of the input the number; a second relationship between the variation and the declination of the fundamental curve of the speech model; and - in a comparison between the first and second conditions _ each identified difference is used to determine the placement of sentence accents.

Dessutom gör klassificeringen av förhållandet mellan variationen och deklinationen hos grundtonskurvan det möjligt att identifiera/bestämma relativa satsbetoningar, och betonade sektioner, eller ord.In addition, the classification of the relationship between the variation and declination of the fundamental curve possible to identify / determine relative sentence stresses, and stressed sections, or words.

Likaså kan förhållandet mellan variationen och deklina- tionen hos grundtonskurvan utnyttjas för att bestäma dyna- miken hos grundtonskurvan.Similarly, the relationship between variation and declination the fundamental tone curve is used to determine the dynamics miken at the fundamental tone curve.

Den information som erhålles avseende grundtonskurvan beträffande dialekt, tolkningen av tal med tolkningsenheten 4, dvs informationen kan användas på det sätt som skisserats ovan, för att erhålla en bättre förståelse av innehållet i det tal som matas in, och satsaccent och betoning kan användas för få intonationsmönstret i talmodellen i överensstämmelse med det inmatade talets. 10 20 30 15 " 506 oosi* Eftersom den korrigerade talmodellen uppvisar språkkarakteristika (inklusive dialektinformation, satsaccent och betoning) hos det inmatade talet, kan det användas för att ge en ökad förståelse av det inmatade talet och användas effektivt av databashanterarenheten 5 för att erhålla den erforderliga talinformationsdatan från databasen 6 för att formulera ett svar på en röstinmatning i tal~till-tal- omvandlarsystemet.The information obtained regarding the fundamental curve regarding dialect, the interpretation of speech with the interpretation unit 4, ie the information can be used in the manner outlined above, to obtain a better understanding of the content of the speech entered, and sentence accent and emphasis can be used for get the intonation pattern in the speech model in accordance with the entered number. 10 20 30 15 "506 oosi * Because the corrected speech model exhibits language characteristics (including dialect information, sentence accent and emphasis) of the entered number, it can be used to provide an increased understanding of the entered speech and be used efficiently by the database manager unit 5 to obtain it required the voice information data from the database 6 to formulate an answer to a voice input in speech-to-speech the converter system.

Förmågan att smidigt tolka olika dialekter i ett språk med använding av information från grundtonskurvan är av viss betydelse, eftersom sådana tolkningar kan utföras utan att behöva lära upp taligenkänningssystemet. Resultatet av detta är att storleken, för ett taligen- känningssystem, utfört i enlighet med den föreliggande uppfinningen kan bli mycket mindre än vad som skulle vara och därmed kostnaden, .möjligt med kända system. Dessa har därför klara fördelar jämfört med kända taligenkänningssystem.The ability to smoothly interpret different dialects in a language using information from the fundamental curve is of certain meaning, since such interpretations can be made without need to train the speech recognition system. The result of this is that the size, for a speech recognition system, performed in accordance with the present the invention may be much smaller than it would be and thus the cost, .possible with known systems. These therefore have clear advantages compared to known speech recognition systems.

Likaså förmågan att detektera tal, oberoende av dialektvariationer, enligt systemet och metoden hos den föreliggande uppfinningen, gör det möjligt att använda tal i många olika röstsvarsapplikationer.Likewise the ability to detect speech, regardless of dialect variations, according to the system and method of it the present invention, makes it possible to use numbers in many different voicemail applications.

Systemet är därför anpassat att känna igen och noggrant tolka inehållet i de inmatade talen och att skräddarsy dialekten hos röstsvaret att matcha dialekten hos röstinmat- ningen. Denna process ger ett användarvänligt system eftersom språket i människa/maskin-dialogen är i enlighet med dialekten hos den aktuelle användaren.The system is therefore adapted to recognize and accurately interpret the content of the entered numbers and to customize the dialect of the voicemail to match the dialect of the voicemail ningen. This process provides a user-friendly system because the language in the human / machine dialogue is in accordance with the dialect at the current user.

Den föreliggande uppfinningen är ej begränsad till de utförandeformer som skisserats ovan, utan kan modifieras inom ramen för de bifogade patentkraven och uppfinningskonceptet.The present invention is not limited to those embodiments outlined above, but can be modified within within the scope of the appended claims and the concept of invention.

Claims (25)

10 15 20 25 30 35 40 5Û6_ 00310 15 20 25 30 35 40 5Û6_ 003 1. Tal-till-tal-omvandlingssystem som, vid utmatning från detsamma, tillhandahåller talade svar pá talinmatningar till systemet, och som omfattar taligenkänningshjälpmedel för det tal som matas in; tolkningshjälpmedel för att tolka innehållet i det igenkända inmatade talet; och en databas som innehåller talinformationsdata för användning vid formu- leringen av nämnda talade svar, där utmatningen från nämnda tolkningshjälpmedel används för att accessa nämnda databas och erhålla talinformationsdata därifrån, kännetecknat av att systemet dessutom inkluderar extraktionshjälpmedel för att extrahera prosodi-information från det tal som matas in; hjälpmedel för att erhålla dialektinformation från nämnda prosodi-information; och text-till-tal-omvandlingshjälpmedfl1 för att omvandla talinformationsdatan som erhålles från nämnda databas till ett talat svar som använder nämnda dia- lektinformation, där dialekten hos det talade svaret matchas mot det hos det inmatade talet, samt att hjälpmedlet föx att erhålla dialektinformation från nämnda prosodi-information inkluderar första analyseringshjälpmedel för att bestämma intonationsmönstret för grundtonen hos det inmatade talet och därigenom maximi- och minimivärdena hos grundtonskurvan och deras respektive positioner; andra analyseringshjälpme- del för att bestämma intonationsmönstret för grundtonskurvan för talmodellen och därigenom maximi- och minimivärdena för grundtonskurvan och deras respektive positioner; jämförelse- hjälpmedel för att jämföra intonationsmönstret hos det tal som matas in, med intonationsmönstret hos talmodellen, för att identifiera en tidsdifferens mellan förekomsten av maxi- mi- och minimivärdena hos grundtonskurvan för det inkommande talet i förhållande till maximi- och minimivärdena hos grundtonskurvan för talmodellen, där den identifierade tids- differensen indikerar dialektkarakteristiken hos det inmata- de talet.A speech-to-speech conversion system which, when output from the same, provides spoken responses to speech inputs to the system, and which comprises speech recognition aids for the speech being input; interpretation aids for interpreting the contents of the recognized input speech; and a database containing speech information data for use in formulating said spoken answer, the output of said interpreting means being used to access said database and obtaining speech information data therefrom, characterized in that the system further includes extraction means for extracting prosody information from the speech matas in; aids for obtaining dialect information from said prosody information; and text-to-speech conversion aid fl1 for converting the speech information data obtained from said database into a spoken answer using said dialect information, where the dialect of the spoken answer is matched with that of the input speech, and that the aid is obtained to obtain dialect information from said prosody information includes first analysis aids for determining the intonation pattern of the fundamental tone of the input speech and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; other analysis tools for determining the intonation pattern of the fundamental tone curve of the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; comparison tool for comparing the intonation pattern of the input number with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve of the incoming speech in relation to the maximum and minimum values of the fundamental tone curve of the speech model , where the identified time difference indicates the dialect characteristic of the input speech. 2. Tal-till-tal-omvandlingssystem enligt patentkrav 1, kånnetecknat av att taligenkänningshjälpmedlet är anpassat att identifiera ett antal fonem från ett segment av det tal 10 15 20 25 30 35 40 506 003 Pr som matas in och inkluderar tolkningshjälpmedel för att tol- ka fonemen som möjliga ord, eller ordkombinationer, för att upprätta en modell av talet, där talmodellen har ord och satsaccenter enligt ett standardiserat mönster för språket hos det tal som matas in.The speech-to-speech conversion system of claim 1, characterized in that the speech recognition aid is adapted to identify a number of phonemes from a segment of the speech input and includes interpretation aids for interpreting ka phonemes as possible words, or word combinations, to establish a model of the speech, where the speech model has words and sentence accents according to a standardized pattern for the language of the speech entered. 3. Tal~till-tal-omvandlingssystem enligt patentkrav 2, kännotocknat av att prosodi-informationen som extraheras från det tal som matas in är grundtonskurvan för det tal som matas in.The speech-to-speech conversion system according to claim 2, characterized in that the prosody information extracted from the speech input is the fundamental tone curve of the input speech. 4. Ta1-till-tal-omvandlingssystem enligt patentkrav 3, kånnotocknat av att tidsdifferensen bestämmes i förhållande till en referenspunkt i intonationsmönstret.The Ta1-to-speech conversion system according to claim 3, characterized in that the time difference is determined in relation to a reference point in the intonation pattern. 5. Tal-till-tal-omvandlingssystem enligt patentkrav 4, kännotocknat av att den referenspunkt i intonationsmönstret Vmot vilket tidsdifferensen mätes är den punkt vid vilken en konsonant/vokal-gräns inträffar.Speech-to-speech conversion system according to claim 4, characterized in that the reference point in the intonation pattern V against which the time difference is measured is the point at which a consonant / vowel boundary occurs. 6. Tal-till-tal-omvandlingssystem enligt nagot av de föregående patentkraven, kännotocknat av att systemet dess- utom inkluderar hjälpmedel för att erhälla information om satsaccenter fran nämnda prosodi-information.A speech-to-speech conversion system according to any one of the preceding claims, characterized in that the system further includes means for obtaining batch accent information from said prosody information. 7. Tal-till-tal-omvandlingssystem enligt patentkrav 6, kännotocknat av att taligenkänningshjälpmedlet inkluderar kontrollhjälpmedel för att lexikaliskt kontrollera orden i talmodellen och för syntaktisk kontroll av fraserna i talmo- dellen, där orden och fraserna som inte är lingvistiskt möj- liga exkluderas fràn talmodellen, av att kontrollhjälpmedlet är anpassat att kontrollera ortografin och den fonetiska transkriptionen hos orden i talmodellen, av att transkrip- tionsinformationen inkluderar lexikalt abstraherad accentin- formation av typ betonade stavelser, och information avseen- de placeringen av sekundär accent.Speech-to-speech conversion system according to claim 6, characterized in that the speech recognition aid includes control aids for lexically checking the words in the speech model and for syntactic control of the phrases in the speech model, where the words and phrases that are not linguistically possible are excluded from the speech model, in that the control aid is adapted to control the orthography and phonetic transcription of the words in the speech model, in that the transcription information includes lexically abstract accent information of the type stressed syllables, and information regarding the placement of the secondary accent. 8. Tal-till-tal-omvandlingssystem enligt patentkrav 7, künnntocknat av att accentinformationen avser tonal ordac- cent I och accent II. 10 15 20 25 30 35 40 _506 003 V3A speech-to-speech conversion system according to claim 7, characterized in that the accent information relates to tonal word accent I and accent II. 10 15 20 25 30 35 40 _506 003 V3 9. Tal-till-tal-omvandlingssystem enligt något av pa- tentkraven 6-8, kännetecknat av att nämnda satsaccentinfor- mation används vid tolkningen av innehållet i det igenkända inmatade talet.Speech-to-speech conversion system according to any one of claims 6-8, characterized in that said batch accent information is used in the interpretation of the content of the recognized input speech. 10. Tal-till-tal-omvandlingssystem enligt något av fö- regående patentkrav, kännetecknat av att satsbetoningar be- stämmes och används vid tolkningen av innehållet i det igen- kända inmatade talet.-Speech-to-speech conversion system according to any one of the preceding claims, characterized in that batch stresses are determined and used in the interpretation of the content of the recognized entered speech. 11. Tal-till-tal-omvandlingssystem enligt något av fö- regående patentkrav, kännetecknat av att systemet dessutom inkluderar dialoghanteringshjälpmedel för att hantera en di- alog med databasen, där nämnda dialog initieras av tolk- ningshjälpmedlet.Speech-to-speech conversion system according to any one of the preceding claims, characterized in that the system further includes dialogue management tools for managing a dialogue with the database, wherein said dialogue is initiated by the interpretation tool. 12. Tal-till-tal-omvandlingssystem enligt patentkrav ll, kännetecknat av att dialogen med databasen resulterar i appliceringen av talinformationsdata på text-till-tal- omvandlingshjälpmedlet.Speech-to-speech conversion system according to claim 11, characterized in that the dialogue with the database results in the application of speech information data to the text-to-speech conversion aid. 13. Tal-till-tal-omvandlingssystem enligt något av pa- tentkraven 10 eller ll, kännetecknat av att dialogen med da- tabasen effektueras med användning av SQL.Speech-to-speech conversion system according to any one of claims 10 or 11, characterized in that the dialogue with the database is effected using SQL. 14. Röstsvarskommunikationssystem inkluderande ett tal- till-tal-omvandlingssystem som, vid utmatning från detsamma, tillhandahåller talade svar på talinmatningar till systemet, och som omfattar taligenkänningshjälpmedel för det tal som matas in; tolkningshjälpmedel för att tolka innehållet i det igenkända inmatade talet; och en databas som innehåller ta- linformationsdata för användning vid formuleringen av nämnda talade svar, där utmatningen från nämnda tolkningshjålpmedel används för att accessa nämnda databas och erhålla talinfor- mationsdata därifrån, kännetecknat av att systemet dessutom inkluderar extraktionshjälpmedel för att extrahera prosodi- information från det tal som matas in; hjälpmedel för att erhålla dialektinformation från nämnda prosodi-information; och text-till-tal-omvandlingshjälpmedel för att omvandla ta- 10 15 20 25 30 35 40 506 003 V? linformationsdatan som erhålles från nämnda databas till ett talat svar som använder nämnda dialektinformation, där dia- lekten hos det talade svaret matchas mot det hos det inmata- de talet, samt att hjälpmedlet för att erhålla dialektinfor- mation från nämnda prosodi-information inkluderar första analyseringshjälpmedel för att bestämma intonationsmönstret för grundtonen hos det inmatade talet och därigenom maximi- och minimivärdena hos grundtonskurvan och deras respektive positioner; andra analyseringshjälpmedel för att bestämma intonationsmönstret för grundtonskurvan för talmodellen och därigenom maximi- och minimivärdena för grundtonskurvan och deras respektive positioner; jämförelsehjälpmedel för att jämföra intonationsmönstret hos det tal som matas in, med intonationsmönstret hos talmodellen, för att identifiera en tidsdifferens mellan förekomsten av maximi- och minimivärde- na hos grundtonskurvan för det inkommande talet i förhållan- , de till maximi- och minimivärdena hos grundtonskurvan för talmodellen, där den identifierade tidsdifferensen indikerar dialektkarakteristiken hos det inmatade talet.Voice response communication system including a speech-to-speech conversion system which, upon output therefrom, provides spoken responses to speech inputs to the system, and which comprises speech recognition aids for the speech being input; interpretation aids for interpreting the contents of the recognized input speech; and a database containing speech information data for use in formulating said spoken answer, wherein the output of said interpretation aid is used to access said database and obtain speech information therefrom, characterized in that the system further includes extraction means for extracting prosody information from it. speech input; aids for obtaining dialect information from said prosody information; and text-to-speech conversion aids for converting data 10 15 20 25 30 35 40 506 003 V? the linformation data obtained from said database to a spoken answer using said dialect information, where the dialect of the spoken answer is matched to that of the entered speech, and that the aid for obtaining dialect information from said prosody information includes first analysis aids to determine the intonation pattern of the fundamental tone of the input number and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; other analysis tools for determining the intonation pattern of the fundamental tone curve of the speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; comparison aids for comparing the intonation pattern of the input number with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve for the incoming number in relation to the maximum and minimum values of the fundamental tone curve for the speech model, where the identified time difference indicates the dialect characteristic of the entered speech. 15. Metod, för att tillhandahålla ett talat svar på en talinmatning till syste- i ett röstsvarskommunikationssystem, met, nämnda svar har en dialekt som matchar den hos det in- matade talet, där nämnda metod inkluderar stegen att känna igen och tolka det inmatade talet, och utnyttja tolkningen till att erhålla talinformationsdata från en databas för att användas vid formuleringen av nämnda talade svar, känneteck- nad av att nämnda metod dessutom inkluderar stegen att ex- trahera prosodi-information från det inmatade talet, erhålla dialektinformation från nämnda prosodi-information, och om- vandla talinformationsdatan som erhålles från nämnda databas till nämnda talade svar med användning av nämnda dialektin- formation, och vidare innefattar stegen att bestämma intona- tionsmönstret hos grundtonen för det inmatade talet och där- igenom maximi- och minimivärdena hos grundtonskurvan och de- ras respektive lägen; bestämma intonationsmönstret hos grundtonskurvan för en talmodell och därigenom maximi- och minimivärdena hos grundtonskurvan och deras respektive posi- tioner; jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret hos talmodellen för att identifiera 10 15 20 25 30 35 40 506 003 - lo en tidsdifferens mellan förekomsten av maximi- och minimi-_ värdena hos grundtonskurvan för det inkommande talet i för- hàllande till maximi- och minimivärdena för grundtonskurvan för talmodellen, där den identifierade tidsdifferensen indi- kerar dialektkarakteristiken för det inmatade talet.A method, for providing a spoken answer to a speech input to a system in a voice response communication system, said answer having a dialect matching that of the input speech, said method including the steps of recognizing and interpreting the input speech. , and use the interpretation to obtain speech information data from a database for use in the formulation of said spoken answer, characterized in that said method further includes the steps of extracting prosody information from the entered speech, obtaining dialect information from said prosody information , and converting the speech information data obtained from said database to said spoken answer using said dialect information, and further comprising the steps of determining the intonation pattern of the fundamental tone of the entered speech and thereby the maximum and minimum values of the fundamental tone curve and the race and respective positions; determining the intonation pattern of the fundamental tone curve for a speech model and thereby the maximum and minimum values of the fundamental tone curve and their respective positions; compare the intonation pattern of the input number with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the fundamental tone curve of the incoming number in relation to the maximum and minimum numbers. the minimum values for the fundamental tone curve for the speech model, where the identified time difference indicates the dialect characteristic of the entered speech. 16. Metod enligt patentkrav 15, kännetecknad av att igenkänningen och tolkningen av det inmatade talet inklude- rar stegen att identifiera ett antal fonem från ett segment el- för att etablera en modell av talet, av det inmatade talet och tolka fonemen som möjliga ord, ler ordkombinationer, där talmodellen har ord och satsaccenter enligt ett standar- diserat mönster för språket för det inmatade talet.Method according to claim 15, characterized in that the recognition and interpretation of the entered number includes the steps of identifying a number of phonemes from a segment el- to establish a model of the number, of the entered number and interpreting the phonemes as possible words, word combinations, where the speech model has words and sentence accents according to a standardized pattern for the language of the entered speech. 17. Metod enligt patentkrav 16, kännetecknad av att den prosodi-information som extraheras från det inmatade talet är grundtonskurvan i det tal som matas in.Method according to claim 16, characterized in that the prosody information extracted from the entered speech is the fundamental curve of the speech entered. 18. Metod enligt patentkrav 17, kännetecknad av att tidsdifferensen bestämmes i förhållande till en referen- spunkt i intonationsmönstret.Method according to claim 17, characterized in that the time difference is determined in relation to a reference point in the intonation pattern. 19. Metod enligt patentkrav 18, kännetecknad av att den referenspunkt i intonationsmönstret mot vilken tidsdifferen- sen mäts, är den punkt vid vilken en konsonant/vokalgräns inträffar.Method according to Claim 18, characterized in that the reference point in the intonation pattern against which the time difference is measured is the point at which a consonant / vowel boundary occurs. 20. Metod enligt något av patentkraven 15-19, känne- tecknad av steget att erhålla information om satsaccenter från nämnda prosodi-information.Method according to any one of claims 15-19, characterized by the step of obtaining batch accent information from said prosody information. 21. Metod enligt patentkrav 20, kännetecknad av att or- den i talmodellen kontrolleras lexikaliskt, av att fraserna i talmodellen kontrolleras syntaktiskt, av att orden och fraserna som ej är lingvistiskt möjliga exkluderas från tal- modellen, av att ortografin och den fonetiska transkriptio- nen av orden i talmodellen kontrolleras, och av att transkriptionsinformationen inkluderar lexikaliskt abstrahe- rad accentinformation av typ betonade stavelser, och infor- mation avseende placeringen av sekundär accent. 10 15 i. i 505 003*Method according to claim 20, characterized in that the words in the speech model are checked lexically, in that the phrases in the speech model are checked syntactically, in that the words and phrases that are not linguistically possible are excluded from the speech model, in that the orthography and phonetic transcription the words in the speech model are checked, and that the transcription information includes lexically abstracted accent information of the accented syllable type, and information regarding the placement of the secondary accent. 10 15 i. I 505 003 * 22. Metod enligt patentkrav 21, kännetecknad av att ac- centinformationen avser tonal ordaccent I och accent II.Method according to claim 21, characterized in that the accent information relates to tonal word accent I and accent II. 23. Metod enligt något av patentkraven 20-22, känne- tecknad av steget att använda nämnda satsaccentinformation vid tolkningen av det inmatade talet.Method according to any one of claims 20-22, characterized by the step of using said batch accent information in the interpretation of the entered number. 24. Metod enligt något av patentkraven 15-23, känne- tecknad av steget att initiera en dialog med databasen för att erhålla talinformationsdata för att formulera nämnda ta- lade svar, där nämnda dialog initieras och följer tolkningen av det inmatade talet.A method according to any one of claims 15-23, characterized by the step of initiating a dialogue with the database to obtain speech information data to formulate said spoken answer, wherein said dialogue is initiated and follows the interpretation of the entered speech. 25. Metod enligt patentkrav 24, kännetecknad av att di- alogen med databasen resulterar i applicering av talinforma- V tionsdata på text-till-tal-omvandlingshjålpmedlet.Method according to claim 24, characterized in that the dialogue with the database results in the application of speech information data to the text-to-speech conversion aid.
SE9601811A 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information SE506003C2 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information
DE69723449T DE69723449T2 (en) 1996-05-13 1997-04-08 METHOD AND SYSTEM FOR LANGUAGE-TO-LANGUAGE IMPLEMENTATION
EP97919840A EP0919052B1 (en) 1996-05-13 1997-04-08 A method and a system for speech-to-speech conversion
DK97919840T DK0919052T3 (en) 1996-05-13 1997-04-08 A speech-to-speech conversion method and system
PCT/SE1997/000583 WO1997043756A1 (en) 1996-05-13 1997-04-08 A method and a system for speech-to-speech conversion
NO19985179A NO318557B1 (en) 1996-05-13 1998-11-06 Speech-to-speech conversion method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information

Publications (3)

Publication Number Publication Date
SE9601811D0 SE9601811D0 (en) 1996-05-13
SE9601811L SE9601811L (en) 1997-11-03
SE506003C2 true SE506003C2 (en) 1997-11-03

Family

ID=20402543

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information

Country Status (6)

Country Link
EP (1) EP0919052B1 (en)
DE (1) DE69723449T2 (en)
DK (1) DK0919052T3 (en)
NO (1) NO318557B1 (en)
SE (1) SE506003C2 (en)
WO (1) WO1997043756A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159702C (en) * 2001-04-11 2004-07-28 国际商业机器公司 Feeling speech sound and speech sound translation system and method
US7181397B2 (en) 2005-04-29 2007-02-20 Motorola, Inc. Speech dialog method and system
DE102007011039B4 (en) * 2007-03-07 2019-08-29 Man Truck & Bus Ag Hands-free device in a motor vehicle
US8150020B1 (en) 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
US8024179B2 (en) * 2007-10-30 2011-09-20 At&T Intellectual Property Ii, L.P. System and method for improving interaction with a user through a dynamically alterable spoken dialog system
JP5282469B2 (en) * 2008-07-25 2013-09-04 ヤマハ株式会社 Voice processing apparatus and program
EP3389043A4 (en) * 2015-12-07 2019-05-15 Yamaha Corporation Speech interacting device and speech interacting method
CN113470670A (en) * 2021-06-30 2021-10-01 广州资云科技有限公司 Method and system for quickly switching tone of electric tone

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH0772840B2 (en) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 Speech model configuration method, speech recognition method, speech recognition device, and speech model training method
SE9301596L (en) * 1993-05-10 1994-05-24 Televerket Device for increasing speech comprehension when translating speech from a first language to a second language
SE504177C2 (en) * 1994-06-29 1996-12-02 Telia Ab Method and apparatus for adapting a speech recognition equipment for dialectal variations in a language

Also Published As

Publication number Publication date
WO1997043756A1 (en) 1997-11-20
DE69723449T2 (en) 2004-04-22
SE9601811L (en) 1997-11-03
DE69723449D1 (en) 2003-08-14
EP0919052B1 (en) 2003-07-09
EP0919052A1 (en) 1999-06-02
DK0919052T3 (en) 2003-11-03
NO985179L (en) 1998-11-11
NO985179D0 (en) 1998-11-06
SE9601811D0 (en) 1996-05-13
NO318557B1 (en) 2005-04-11

Similar Documents

Publication Publication Date Title
EP0683483B1 (en) A method and arrangement for speech to text conversion
US5806033A (en) Syllable duration and pitch variation to determine accents and stresses for speech recognition
US6233553B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US5694520A (en) Method and device for speech recognition
Kayte et al. Di-phone-Based Concatenative Speech Synthesis Systems for Marathi Language
JP2955297B2 (en) Speech recognition system
JPH07181997A (en) Method and apparatus for automatic extraction of prosodic information
SE506003C2 (en) Speech-to-speech conversion method and system with extraction of prosody information
SE519273C2 (en) Improvements to, or with respect to, speech-to-speech conversion
Chou et al. Automatic segmental and prosodic labeling of Mandarin speech database.
Kruse et al. Alinha-pb: A phonetic aligner for brazilian portuguese
Wester et al. Speaker adaptation and the evaluation of speaker similarity in the EMIME speech-to-speech translation project
JP3378547B2 (en) Voice recognition method and apparatus
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
JPS6229796B2 (en)
JPH09146576A (en) Synthesizer for meter based on artificial neuronetwork of text to voice
Walia et al. Research Issues in ASR: A leading edge to Punjabi Language
Martin et al. Cross Lingual Modelling Experiments for Indonesian
Aubert Supervised Segmentation with Application to Speech Recognition
JP2021005024A (en) Voice quality conversion method and voice quality converter
JPS6180298A (en) Voice recognition equipment
Mercier et al. Speaker-dependent continuous speech recognition with KEAL.
JPS61121167A (en) Audio word processor using divided utterance
JPH0760317B2 (en) Voice information input device