SE519273C2 - Förbättringar av , eller med avseende på, tal-till-tal- omvandling - Google Patents

Förbättringar av , eller med avseende på, tal-till-tal- omvandling

Info

Publication number
SE519273C2
SE519273C2 SE9601812A SE9601812A SE519273C2 SE 519273 C2 SE519273 C2 SE 519273C2 SE 9601812 A SE9601812 A SE 9601812A SE 9601812 A SE9601812 A SE 9601812A SE 519273 C2 SE519273 C2 SE 519273C2
Authority
SE
Sweden
Prior art keywords
speech
language
information
aids
input
Prior art date
Application number
SE9601812A
Other languages
English (en)
Other versions
SE9601812D0 (sv
SE9601812L (sv
Inventor
Bertil Lyberg
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9601812A priority Critical patent/SE519273C2/sv
Publication of SE9601812D0 publication Critical patent/SE9601812D0/sv
Priority to PCT/SE1997/000584 priority patent/WO1997043707A1/en
Priority to EP97919841A priority patent/EP0976026A1/en
Publication of SE9601812L publication Critical patent/SE9601812L/sv
Priority to NO19985178A priority patent/NO318112B1/no
Publication of SE519273C2 publication Critical patent/SE519273C2/sv

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Description

25 30 35 ks19 273 fä" 2 placerad. Dessutom bestämmer betoningen av meningar, eller delar därav, sektioner som skall understrykas i spráket och som kan vara av betydelse när det gäller att avgöra den exakta betydelsen av det talade spráket.
Behovet för artificiellt producerat tal att vara sä naturligt som möjligt och ha korrekt accentuering är av speciell vikt i röstsvarskommunikationsutrustningar och/eller -system som producerar tal i olika sammanhang. Med kända röstsvarsarrangemang är det reproducerade talet ibland svart att förstá och att tolka. till-tal-omvandlingssystem i vilket det artificiella utgående Det finns därför behov av ett tal- talet är naturligt, har den korrekta accentueringen, och är lätt att första.
Hos sprák som har väl utvecklad satsaccentbetoning och/eller tonhöjd pä enstaka ord, är identifieringen av den naturliga betydelsen av ord/meningar mycket svär. Det faktum att betoningar kan placeras fel ökar risken för feltolkning, eller att meningen gàr helt förlorad för den lyssnande parten.
Sálunda; skulle det behövas att ett tal-till-tal-omvandlingssystem har förmäga att för att klara av dessa svårigheter, tolka den mottagna talinformationen, oberoende av spràk och/eller dialekt, dialekten i utmatade tal med motsvarande hos respektive och att kunna matcha spräket och/eller inmatade tal. Likasà för att kunna bestämma betydelsen av enstaka ord, eller fraser, pà ett otvetydigt sätt i en talad sekvens, skulle det vara nödvändigt för tal-till-tal- omvandlingssystemen att kunna bestämma, och ta hänsyn till, satsaccent och satsbetoning i den talade sekvensen.
Ett mal med den föreliggande uppfinningen är att tillhandahålla ett system och en metod för tal-till-tal- tolka och behandla talinmatningar pä àtminstone tvà naturliga spràk och tillhandahålla talutmatningar, som de för respektive inmatningar. omvandling som är anpassat att känna igen, dvs talade svar, pä samma sprák 20 25 30 35 0000 519 273 -* :IQ O' 3 Ett annat mål med den föreliggande uppfinningen är att tillhandahålla ett system och en metod för tal-till-tal- tolka och behandla talinmatningar på åtminstone två naturliga språk och omvandling som är anpassat att känna igen, tillhandahålla talutmatningar, dvs talade svar, på samma språk och med samma dialekt som de för respektive inmatningar, där matchningen av dialekterna utförs med användning av prosodi- information och, mera exakt, grundtonskurvan hos de inmatade talen.
Ytterligare ett mål med den föreliggande uppfinningen är att tillhandahålla ett röstsvarskommunikationssystem, omfattande ett tal-til1-tal-omvandlingssystem som arbeter enligt en tal-till-tal-omvandlingsmetod.
Uppfinningen tillhandahåller, i ett röstsvarskommunika- tionssystem, en metod för att tillhandahålla ett talat svar till ett inmatat tal, där nämnda metod inkluderar stegen att känna igen och tolka det inmatade talet, och utnyttja tolkningen till att erhålla talinformationsdata från en databas för användning vid formuleringen av det talade svaret, kännetecknat av att databasen innehåller talinformationsdata för åtminstone två naturliga spåk, av att nämnda metod är anpassad att kännna igen och tolka talinmatningar på nämnda åtminstone två språk och tillhandahålla talade svar till talinmatningar på nämnda språk, och av att nämnda metod inkluderar de ytterligare stegen att utvärdera en igenkänd talinmatning för att bestämma språket hos inmatningen, effektuera en dialog med databasen för att erhålla talinformationsdata för formuleringen av ett talat svar på det inmatade talets språk, och omvandla talinformationsdatan som erhålles från databasen till nämnda talade svar.
I en föredragen metod kan separata databaser användas för vart och ett av nämnda åtminstone två språk, och dialog kan effektueras med endast den av nämnda databaser som innehåller talinformationsdata på det inmatade talets språk. Emellertid, 10 20 25 30 35 519 273 4 i händelse av att átminstone en del av den erforderliga talinformationsdatan för ett talat svar finns lagrat i en annan av nämnda databaser, kan metoden inkludera de ytterligare stegen att effektuera en dialog med nämnda andra databas för att erhàlla den erforderliga talinformationsdatan, översätta informationsdatan till spràket hos nämnda en av databaserna, och omvandla den kombinerade talinformationsdatan till ett talat svar pà det inmatade talets spràk.
Taligenkänningen och tolkningen av en talinmatning kan effektueras pà átminstone tvà naturliga spràk. I detta fall utvärderas igenkända delar, eller sekvenser, av det inmatade talet, som är resultatat av taligenkänningen eller tolkningen av de åtminstone tvà naturliga spràken, för att bestämma spràket hos talinmatningen. Utfallet av denna utvärderings- process kan användas för att bestämma den databas med vilken nämnda dialog utföres för att erhálla talinformationsdatan för ett talat svar till det inmatade talet.
Dialogen med en databas, och/eller mellan databaser, kan effektueras med användning av ett databaskommunikationsspràk som t ex SQL (Structured Query Language).
I en föredragen metod, enligt den förliggande uppfinningen, inkluderar taligenkänningen och tolkningen stegen att extrahera prosodi-information, dvs grundtonskurvan, fràn en talinmatning, och erhálla dialektinformation fràn nämnda prosodi-information, där nämnda dialektinformation används vid omvandlingen av nämnda talinformationsdata som erhàlles fràn nämnda databas, till ett talsvar, där talsvaren är pá sammma spràk och dialekt som det inmatade talet. Dennna föredragna metod inkluderar de ytterligare stegen att bestämma intonationsmönstret hos grundtonen och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; att bestämma intonationsmönstret för grundtonskurvan hos en talmodell och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; att jämföra intonationsmönstret hos det inmatade ø««../' 20 25 30 35 519 273» I" lira X 5 talet med intonationsmönstret hos talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimumvärdena hos grundtonskurvan för det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtonskurvan för talmodellen, där den identifierade tidsdifferensen indikerar dialektkarakteristiken hos det inmatade talet. Tidsdifferensen kan bestämmas i relation till en referenspunkt i intonationsmönstret, till exempel den punkt vid vilken en konsonant/vokal-gräns inträffar.
Metoden enligt den föreliggande uppfinningen kan inkludera steget att erhålla information om satsaccenter från nämnda prosodi-information.
Orden i talmodellen kan kontrolleras lexikalt, och fraserna i talmodellen kan kontrolleras syntaktiskt. De ord och fraser som ej är lingvistiskt möjliga utesluts från talmodellen. Dessutom kan ortografin och den fonetiska transkriptionen hos orden i talmodellen kontrolleras, där transkriptionsinformationen inkluderar lexikaliskt abstraherad accentinformation av typ betonade stavelser, och information avseende placeringen av sekundär accent. Accentinformationen kan avse tonal ordaccent I och accent II.
Dessutom kan metoden enligt den föreliggande uppfinningen använda satsaccentinformation vid tolkningen av det inmatade talet.
Uppfinningen tillhandahåller också ett tal-till-tal- omvandlingssystem som, vid utmatning därav, ger talade svar på inmatade tal på åtminstone två naturliga språk, inkluderande taligenkänningshjäpmedel för talinmatningar, tolkningshjälp- medel för tolkning av innehållet i de igenkända inmatade talen, och en databas som innehåller talinformationsdata för användning vid formuleringen av nämnda talsvar, kännetecknat av att talinformationsdatan som finns lagrad i databasen är på nämnda åtminstone två naturliga språk, av att taligenkännings- och tolkningshjälpmedlen är anpassade att känna igen och tolka 20 25 30 35 i 519 273 6 talinmatningar på nämnda åtminstone två naturliga språk, och av att systemet ytterligare inkluderar utvärderingshjälpmedel för utvärdering av de igenkända talinmatningarna och bestämmer spràket hos inmatningarna; dialoghanteringshjälpmedel för effektuering av en dialog med databasen för att erhålla nämnda talinformationsdata på det inmatade talets språk, och hjälpmedel för tal-till-tal-omvandling för att omvandla talinformationsdatan som erhålles från databasen, till ett talat svar.
Tal-till-tal-omvandlingssystemet, enligt den föreliggande uppfinningen, som är anpassat att ta emot talinmatningar på två eller flera naturliga språk och till att tillhandahålla, vid utmatningen därav, talade svar på respektive talinmatnings språk, inkluderar företrädesvis, för vart och ett av de naturliga språken, taligenkänningshjälpmedel, där inmatningarna på varje taligenkänningshjälpmedel är anslutna till en gemensam ingång till systemet; talutvärderingshjälp- medel för att bestämma, beroende på utmatningen på vart och ett av taligen-känningshjälpmedlen, språket för en talinmatning; en databas som innehåller talinformationsdata för användning i formuleringen av talade svar på databasens språk; dialoghanteringshjälpmedel för anslutning till ett respektive taligenkänningshjälpmedel, beroende på språket för det inmatade talet, där nämnda hanteringshjälpmedel är anpassat att tolka innehållet i det igenkända talet och, med utgångspunkt fràn tolkningen, accessa och erhålla talinformationsdata från åtminstone respektive en av databaserna; och text-till-tal-omvandlingshjälpmedel för att omvandla talinformationsdatan som erhålles med nämnda hanteringshjälpmedel till talade svar till respektive talinmatningar.
Tal-till-tal-omvandlingssystemet kan inkludera separata databaser för vart och ett av de nämnda åtminstone två språken, och separata dialoghanteringshjälpmedel för var och en av databaserna, där varje dialoghanteringshjälpmedel är anpassat att effektuera en dialog med åtminstone respektive en 10 20 25 30 35 519 273 7 av databaserna. Likaså kan varje dialoghanteringshjälpmedel anpassas att effektuera en dialog med var och en av databaserna. I detta fall inkluderar systemet översättningshjälpmedel för att översätta den utmatade talinformationsdatan från respektive databas till de övriga databasernas språk.
I händelse av att åtminstone en del av den erforderliga talinformationsdatan för ett talat svar finns lagrad i en databas på ett annat språk än vad som erfordras för det talade svaret, kan talinformationsdatan erhållas från nämnda databas och översättas av nämnda översättningshjälpmedel till det erforderliga språket för det talade svaret. Den översatta talinformationen används sedan antingen ensam eller i kombi- nation med annan talinformation, av dialoghanteringshjälp- medlet för att tillhandahålla en utmatning för applicering på text-till-tal-omvandlingshjälpmedlet.
Tal-till-tal-omvandlingssystemet är företrädesvis anpassat till att ta emot talinmatningar på två språk, i vilket fall systemet inkluderar, för vart och ett av de två språken, en databas, dialoghanteringshjälpmedel och översättningshjälpmedel, av att vart och ett av dialoghan- teringshjälpmedlen är anpassat att kommunicera med var och en av databaserna, där datautmatningen från var och en av databaserna ansluts direkt till ett av dialoghanterings- hjälpmedlen och det andra av hanteringshjälpmedlen via ett översättningshjälpmedel.
Tal-till-tal-omvandlingssystemet inkluderar företrädesvis taligenkännings- och översättningshjälpmedel för vart och ett av de nämnda åtminstone två naturliga språken, där inmat- ningarna till taligenkännings- och tolkningshjälpmedlen ansluts till en gemensam ingång. De igenkända delarna, eller sekvenserna, av talinmatningen resulterande från nämnda taligenkänning och tolkning av nämnda åtminstone två naturliga språk, utvärderas av utvärderingshjälpmedlet för att bestämma språket för talinmatningen. Utvärderingshjälpmedlet kan š 519 273 8 användas i ett föredraget system för att välja den databas frán vilken nämnda talinformationsdata kommer att erhällas av nämnda dialoghanteringshjälpmedel för formuleringen av det talade svaret till det inmatade talet.
Taligenkännings- och tolkningshjälpmedlen kan inkludera extraktionshjälpmedel för att extrahera prosodi-information fràn talinmatningen, och hjälpmedel för att erhàlla dialektinformation frán nämnda prosodi-information, där nämnda dialektinformation används av nämnda text-till-tal- omvandlingshjälpmedel vid omvandlingen av nämnda talinformationsdata till det talade svaret, där dialekten hos det talade svaret matchas mot det hos den talade inmatningen.
Prosodi-informationsutdraget fràn det inmatade talet är grundtonskurvan för det inmatade talet.
Hjälpmedlet för att erhàlla dialektinformation fràn nämnda prosodi-information kan inkludera första analyshjälpmedel för att bestämma intonationsmönstret för grundtonen hos det inmatade talet, och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; andra analyshjälpmedel för att bestämma intonationsmönstret hos grundtonskurvan för talmodellen och därigneom maximum- och minimumvärdena för grundtonskurvan och deras respektive positioner; jämförelsehjälpmedel för att jämföra intonationsmönstret hos det inmatade talet med intonationsmönstet för talmodellan för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimumvärdena hos grundtonskurvan för det inmatade talet i förhållande till maximum- och minimumvärdena för grundtonskurvan för talmodellen, där den identifierade tidsdifferensen indikerar den dialektala karakteristiken hos det inmatade talet. Tidsdifferensen kan bestämmas i relation till en referenspunkt i intonations-mönstret, dvs den punkt vid vilken en konsonant/vokal-gräns inträffar.
I0 20 25 30 35 519 273 9 Tal-till-tal-omvandlingssystemet kan också inkludera hjälpmedel för att erhålla information om satsaccent fràn nämnda prosodi-information.
Taligenkänningshjälpmedlet kan inkludera kontrollhjälp- medel för att lexikalt kontrollera orden i talmodellen och för syntaktisk kontroll av fraserna i talmodellen, där orden och fraserna som ej är lingvistiskt möjliga utesluts från talmodellen. Kontrollhjälpmedlet kan anpassas att kontrollera ortografin och den fonetiska transkriptionen hos orden i talmodellen, i vilket fall transkriptionsinformationen inkluderar lexikalt abstraherad accentinformtion av typ betonade stavelser, och information avseende placeringen av sekundär acccent. Accentinformationen kan avse tonal ordaccent I och acccent II.
Satsaccentinformationen kan användas vid tolkningen av innehållet av det igenkända inmatade talet.
Satsbetoningarna kan bestämmas och användas vid tolkningen av innehållet av det igenkända inmatade talet.
Uppfinningen tillhandahåller ytterligare ett röstsvars- kommunikationssystem som inkluderar ett tal-till-tal- omvandlingssystem som skissats i föregående avsnitt, eller utnyttjar en metod som skissats i föregående avsnitt för att tillhandahålla ett talat svar till en talinmatning i systemet.
De föregående och övriga särdragen hos den föreliggande uppfinningen kommer att förstås bättre av följande beskrivning, med referens till den enda figuren i de medföljande bilderna, vilken illustrerar, i form av ett blockdiagram, ett tal-till-tal-omvandlingssystem enligt den aktuella uppfinningen.
Tal-till-tal-omvandlingssystemet enligt den föreliggande uppfinningen är anpassat att tillhandahålla, vid utmatningen därav, talade svar till talinmatningar på åtminstone två 0v-««« 519 273 10 naturliga spràk. Sprákkarakteristiken hos de talade svaren, till exempel dialekt, satsaccent och satsbetoning, matchas genom den föreliggande uppfinningen mot motsvarande hos det inmatade talet för att tillhandahålla naturliga utgående tal som lätt kan förstás, ha korrekt accentuering och ge upphov till ett användarvänligt system. Det kommer att framgà av följande beskrivning att matchningen av spràkkarakteristiken uppnàs genom att extrahera prosodi-information fràn det inmatade talet, dvs grundtonskurvan hos det inmatade talet, och använda prosodi-informationen för att bestämma dialekt-, satsaccent- och satsbetoningsinformation för användning vid formuleringen av de talade svaren.
Tal-till-tal-omvandlingssystemet kan därför användas i mànga applikationer, till exempel i röstsvarskommunikations- system för att effektuera en dialog mellan en användare av systemet och en databas som utgör del av systemets taligen- känningsenhet och som inneháller talinformationsdata för formuleringen av talade svar till talade fragor/förfrågningar fràn användare av systemet. Sádana röstsvarskommunikations- system kan användas inom telekommunikation, eller bankväsende, eller säkerhetssystem etc för att tillhandahålla ett lätt förståeligt, användarvänligt system.
Tal-til1-tal-omvandlingssystemet, illusterad i den enda figuren av bifogade bilder, är anpassat att tillhandahålla, vid utmatningen därav, talade svar till talinmatningar pá tvà naturliga spràk, dvs spràk A och B, som kan vara vilka naturliga spräk som helst, t ex svenska och engelska.
Förklaringar till Fig.l: =' Taligenkänning, Sprák A.
= Taligenkänning, Spràk B.
Spràk A, Lexikon + Syntax.
= Spràk B, Lexikon + Syntax.
= Text-till-tal, Spràk A.
= Text-till-tal, Sprak B.
'TJEUÜOWW u 20 25 30 35 519 273 ll G = Utvärdering Språk A eller Språk B.
H = Dialoghantering + Databasaccess, Språk A.
I = Databas, Språk A.
J = Dialoghantering + Databasaccess, Språk B.
K = Databas, Språk B.
L = Övers. Språk M = Språk B N = Övers. Språk O = Språk B P = SQL Q = Språk A R = Språk B Som visas i den medföljande figuren inkluderar systemet igenkännings- och tolkningsenheter för respektive språken A och B. Ingångarna på enheterna 1 och 2 är anslutna till en gemensam ingång till systemet. Taligenkännings- och tolkningsenheterna 1 och 2 används för att känna igen och tolka innehållet i talinmatningen på ett sätt som skisseras Senare .
En utgång på var och en av enheterna 1 och 2 ansluts till separata ingångar hos en utvärderingsenhet 3 som är anpasssad att utvärdera de igenkända talinmatningarna och bestämma språket hos inmatningarna, dvs språk A, eller språk B.
Systemet för den föreliggande uppfinningen inkluderar också två omkopplingsenheter 4 och 5, vilkas respektive ingångar är anslutna till en utgång på taligenkännings- och tolkningsenheterna l och 2. Funktionen hos omkopplingsen- heterna 4 och 5 styrs, på ett sätt som skisseras senare, av utvärderingsenheten 3, dvs styringångarna till respektive enhet 4 och 5 är anslutna till separata utgångar pá utvärderingsenheten 3.
Utgångarna på omkopplingsenheterna 4 och 5 är var för sig anslutna till en ingång på dialoghanterarenheterna 6 och 7.
Det kommer att framgå senare i beskrivningen att dialog- I' I D u 20 25 30 35 519 2:73» 12 hanterarenheterna 6 och 7 används för att effektuera en dialog med databasenheterna 8 och 9 för att erhàlla talinformations- data pá det inmatade talets sprák, för användning vid formuleringen av de talade svaren.
En lexikon- och syntaxenhet 10 för spràket A är ansluten till en annan utgång pà taligenkännings- och tolkningsenheten 1, till dialoghanterarenheten 6 och till en ingång pà en text- till-tal-omvandlarenhet 12.
En lexikon- och syntaxenhet ll för språket B är ansluten till en annan utgång pá taligenkännings- och tolkningsenheten 2, till dialoghanterarenheten 7 och till en ingáng pà en text- till-tal-omvandlarenhet 13.
Text-till-tal-omvandlarenheterna 12 och 13 är också var för sig anslutna, vid en annan ingáng därav, till en utgáng pà dialoghanterarenheterna 6 och 7.
Utgàngarna pá text-till-tal-omvandlingsenheterna 12 och 13 är anslutna till en gemensam talutgàng för systemet.
Som visas i den medföljande figuren finns det en tvávägs- kommunikation mellan dialoghanteringsenheten 6 och databasenhet 8, och mellan dialoghanterarenheten 7 och databasenhet 9. Dessa kommunikationsvägar används för att effektuera, pá ett sätt som skisseras senare, en dialog mellan respektive hanterar- och databasenheten för att erhàlla talinformationsdata för att användas vid formuleringen av de talade svaren. Tvàvägskommunikationsvägarna är förenade med varandra för att möjliggöra att en dialog kan utföras mellan hanterarenhet 6 och databasenhet 9 och/eller mellan hanterarenhet 7 och databasenhet 8. I praktiken effektueras dialogen med en databasenhet, och /eller mellan databas- enheter, med användning av ett databaskommunikationssprák, som t ex SQL (Structured Query Language). 15 20 25 30 35 519 zïz, 13 En översättningsenhet 14 tillhandahållas för översättning av språk A till språk B och vice versa. Det framgår av den bilagda figuren att en sektion l4a av översättningsenheten 14 har en ingång för språk B som är ansluten till en utgång på databasenheten 9, och en utgång för språk A som är ansluten till en ingång på dialoghanterarenhet 6. En annan sektion 14b på översättningsenheten 14 har en ingång för språk A som är ansluten till en utgång på databasenhet 8, och en utgång för språk B som är ansluten till en ingång på dialoghanterarenhet 7.
Det sätt på vilket tal-till-tal-omvandlingssystemet är anpassat att ta emot talinmatningar på naturliga språk A och B, och tillhandahålla, vid utmatningen därav, talade svar på språket för respektive talinmatning, skisseras i följande avsnittt.
En talinmatning till tal-till-tal-omvandlingssystemet som kan vara antingen på språk A eller språk B, igenkännes och tolkas av var och en av taligenkännings- och tolkningsen- heterna l och 2, i associering med respektive lexikon- och syntaxenheterna 10 och ll, dvs med användande av statistik- baserad taligenkännings- och språkmodelleringsteknik, och garanterande att de igenkända orden och/eller ordkombina- tionerna som används för att forma en modell av det inmatade talet är acceptabelt både lexikaliskt och syntaktiskt. Ändamålet med lexikon/syntax-kontrollen är att identifiera och exkludera varje ord från talmodellen som inte existerar i det aktuella språket, och/eller varje fras vars syntax inte överensstämmer med det aktuella språket.
De respektive språkmodeller som skapas av enheterna 1 och 10, och enheterna 2 och ll, utvärderingsenheten 3 som bestämmer vilket av språken A och B appliceras, och utvärderas av som är mest sannolikt för det inmatade talet. Denna utvär- dering effektueras på basis av sannolikhet, dvs sannolikheten att talinmatningen är på det ena eller det andra av språken A och B, skillnaderna mellan språkmodellerna, och huruvida 20 25 30 35 i 519 275 14 sprákmodelleringen för det ena eller andra av spràken har slutförts framgàngsrikt. Ju större skillnaden mellan sprákkarakteristika för sprák A och B är, desto lättare kommer uppgiften att bli för utvärderingsenheten 3.
Beroende pà utfallet av utvärderingen med enhet 3, dvs det valda spràket för det inmatade talet, kommer en av omkastarenheterna 4 och 5 att aktiveras för att ansluta taligenkännings- och tolkningsenheten för det valda spráket till motsvarande dialoghanterarenhet.
Om det antas, ur beskrivningssynpunkt, att spràk A har valts som det mest sannolika språket för det inmatade talet, sa kommer omkastarenhet 4 att aktiveras och utgången pà taligenkännings- och tolkningsenheten l kommer att anslutas till en ingàng pà dialoghanterarenheten 6. Sálunda kommer omkopplarenheten 5 att förbli i oaktiverat tillstànd, och ingen anslutning kommer därför att göras mellan dialoghan- terarenheten 9 och taligenkännings- och tolkningsenheten 2.
I nästa skede av tal-till-tal-omvandlingsprocessen gar hanterarenheten 6 in i en lingvistisk dialog med databas- enheten 8, baserad pà det inmatade talets talmodell, för att erhàlla talinformationsdata för formuleringen av ett talat svar till talinmatningen. Talinformationsdatan, som väljes som ett resultat av denna dialog, överförs via hanterarenheten 6 till en ingàng pà text-till-tal-omvandlingsenheten 5 för formuleringen av ett talat svar. Det kommer att framgà av senare beskrivning att spràkkarakteristiken hos det talade svaret matchas, sa làngt detta är möjligt, med sprákkarak- teristiken hos det inmatade talet.
För den händelse att àtminstone en del av den erforderliga talinformationsdatan för ett talat svar inte finns lagrad i databasenhet 6, men kan finnas lagrad i databasenhet 9, gàr dialoghanterarenheten 6 in i en dialog med databasenheten 9 för att erhálla den erforderliga talinforma- tionsdatan. Om den erforderliga talinformationsdatan finns U 20 Ü 30 ß 519 273 15 lagrad i databasenhet 9, accessas den och överförs till dialoghanterarenheten 6 via sektion l4a av översättnings- enheten 14, dvs översätts från språk B till A. Den översatta talinformationsdatan används sedan antingen ensam, eller i kombination med talinformationsdata erhållen från databas- dvs omvandlad av enheten 8, för att formulera ett talat svar, text-till-tal-omvandlingsenheten 12 till det talade svaret.
Det är uppenbart att om språk B, hellre än språk A, väljs av utvärderingsenheten 3 som det inmatade talets språk, då 9 och 13 att användas, på samma sätt som 8 och 12, av det talade svaret. Varje information som kan erfordras från kommer enheterna 7, skisserats ovan för enheterna 6, för formuleringen databasenheten 8 kommer att accessas av och överföras till dialoghanterarenheten 7, och översättning av den överförda informationsdatan effektueras av sektion 14b i översättningsenheten 14.
Igenkänningen och tolkningen av tal kan ge upphov till tekniska problem och om dessa problem inte övervinnes kommer svårigheter att erfaras med att erhålla en korrekt och meningsfull tolkning av de inmatade talen. Speciellt om igenkänningen och tolkningen av de inmatade talen är felaktig så kommer det att bli extremt svårt för utvärderingsenheten 3 att bestämma språket för de inmatade talen, och det kommer därför inte att bli möjligt att tillhandahålla korrekta svar till talinmatningarna.
Sålunda klaras dessa problem av, i enlighet med den före- liggande uppfinningen, genom att extrahera prosodi-information från talinmatningarna och använda denna information för att dialekt-, och satsbetoningsinformation för användning i bestämma, på ett sätt som skisseras senare, satsaccent-, igenkännings- och tolkningsprocessen och i formuleringen av de talade svaren.
Extraktionen av prosodi-informationen, dvs grundtons- kurvan, från det inmatade talet effektueras genom prosodi- 15 20 25 30 35 519 273 16 extraktionshjälpmedel (ej visade) som utgör del av tal- igenkännings- och tolkningsenheterna l och 2. Dessa enheter inkluderar också hjälpmedel (ej visade) för att erhålla dialektinformation frán prosodi-informationen.
Sálunda är, med den föreliggande uppfinningen, taligen- kännings- och tolkningsenheterna l och 2 anpassade att arbeta pà ett sätt väl känt av personer med expertkunskaper inom omradet, för att känna igen och tolka talinmatningar i systemet. Taligenkännings- och tolkningsenheterna 1 och 2 kan, till exempel, arbeta genom användning av en “Hidden Markov“- modell, funktionen hos enheterna l och 2 att omvandla inmatade tal eller en motsvarande modell. I grund och botten är till systemet till en form som är en trogen representation av innehållet i de inmatade talen, och som är lämplig för utvärdering med utvärderingsenheten 3 och att användas av dialoghanterarenheterna 6 och 7. Med andra ord mäste innehállet i textinformationsdatan, vid utgången av var och en av taligenkännings- och tolkningsenheterna 1 och 2, vara: - en exakt representation av det inmatade talet; och - användbar för databashanterarenheterna 6 och 7 att respektive accessa och extrahera talinforma- för att an- talat tionsdata fràn databasenheterna 8 och 9, vändas vid formuleringen av ett syntetiskt, svar, dvs genom respektive en av text-till-tal- omvandlarenheterna 12 och 13.
I praktiken effektueras igenkännings- och tolkningsspro- cessen i grund och botten genom identifiering av ett antal fonem fràn ett segment av det inmatade talet som kombineras till allofonsträngar, där fonemen tolkas som möjliga ord, eller ordkombinationer, för att upprätta en modell av talet.
Den upprättade talmodellen kommer att ha ord och satsaccenter enligt ett standardiserat mönster för språket hos det inmatade talet. 20 25 30 35 519 275 Fš-w 17 Informationen beträffande de igenkända orden och ordkombinationerna som genereras av taligenkännings- och tolkningsenheterna 1 och 2, kontrolleras, pà ett sätt som skisserats ovan, báde lexikaliskt och syntaktiskt. I praktiken effektueras detta med användning av ett lexikon med ortografi och transkription.
Sàlunda, enligt den föreliggande uppfinningen, garanterar taligenkännings- och tolkningsenheterna 1 och 2 att endast de ord och ordkombinationer som befinnes vara acceptabla bade lexikaliskt och syntaktiskt, används för att skapa en modell av det inmatade talet. I praktiken är intonationsmönstret hos talmodellen ett standardiserat intonationsmönster för det aktuella spràket, genom inlärning, eller rätt och slätt kunskaper, med hjälp av eller ett intonationsmönster som etablerats ett antal dialekter av det aktuella språket.
Som nämnts ovan kan prosodi-informationen, dvs extraherad frán det inmatade talet genom användas för att erhàlla dialekt-, grundtonskurvan, extraktionsenheten 3, satsaccent- och satsbetoningsinformation för att användas av tal-till-tal-omvandlingssystemet och metoden i föreliggande uppfinning. Speciellt kan dialektinformationen användas av tal-till-tal-omvandlingssystemet och metoden för att matcha dialekten hos det utmatade talet, med det hos det inmatade talet och satsaccent och betoningsinformationen kan användas vid igenkänningen och tolkningen av det inmatade talet.
Enligt den föreliggande uppfinningen inkluderar hjälpmedlen för att erhàlla dialektinformation frán prosodi- informationen: - ett första analyshjälpmedel för att bestämma intonationsmönstret för grundtonen hos det in- matade talet och därigenom maximum- och minimumvärdena för grundtonskurvan och deras respektive lägen; 10 20 25 30 35 -519 273 ?z É 18 - ett andra analyshjälpmedel för att bestämma intona- tionsmönstret hos grundtonskurvan hos talmodellen och därigenom maximum- och minimumvärdena för grundtonskurvan och deras respektive lägen; och - ett jämförelsehjälpmedel för att jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret hos talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimumvärdena hos grundtonskurvan för det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtonskurvan för tal- modellen, där den identifierade tidsdifferensen indikerar dialektkaraktorístiken hos det inmatade talet.
Tidsdifferensen som hänvisas till ovan kan bestämmas i förhållande till en referenspunkt i intonationsmönstret.
För svenska språket kan skillnaden, i termer av intona- tionsmönster, mellan olika dialekter beskrivas genom olika punkter i tiden för ord och satsaccent, dvs tidsdifferensen kan bestämmas i förhållande till en punkt i intonations- mönstret, till exempel den punkt vid vilken en konsonant/ vokal-gräns inträffar.
Sålunda; föreliggande uppfinningen är den referens mot vilken i ett föredraget arrangemang för den tidsdifferensen mätes, den punkt vid vilken konsonant/vokal- gränsen, dvs K/V-gränsen inträffar.
Den identifierade tidsdifferensen som, vilket nämnts ovan, indikerar dialekten hos det inmatade talet, dvs det talade språket, appliceras på text-till-tal-omvandlarenheten 12 och 13 för att göra det möjligt för intonationsmönstret, och därigenom dialekten, hos det utmatade talet i systemet att korrigeras så att det motsvarar intonationsmönstret hos de motsvarande orden och/eller fraserna i det tal som matas in. 15 20 25 30 35 519 273 19 Sàlunda gör denna korrigeringsprocess det möjligt för dialektinformationen hos det tal som matas in att inkorporeras i det tal som matas ut.
Som ovan nämnts baseras grundtonskurvan hos talmodellen pà information resulterande fran de lexikaliska (ortografi och transkription) och syntaktiska kontrollerna. Dessutom inkluderar transkriptionsinformationen lexikalt abstraherad accentinformation av typ betonade stavelser, dvs tonala ordaccenter I och II, och information avseende placeringen av sekundära accenter, dvs information som ges i t ex ordböcker.
Denna information kan användas för att justera igenkänningsmönstret hos taligenkänningsmodellen, till exempel “Hidden Markov“-modellen, för att ta hänsyn till transkriptionsinformationen_ En mer exakt modell av det inmatade talet erhálles därför under tolkningsprocessen.
En ytterligare konsekvens av denna talmodellkorrigerings- process är att, med tiden, talmodellen kommer att fä ett intonationsmönster som har etablerats genom en inlärnings- process.
Likasà, med systemet och metoden för den föreliggande uppfinningen, jämförs talmodellen med en talad inmatnings- sekvens, och varje differens dem emellan kan bestämmas och användas för att fá talmodellen i överensstämmelse med den talade sekvensen och/eller för att bestämma betoningarna i den talade sekvensen.
Dessutom gör identifieringen av betoningarna i en talad sekvens det möjligt att bestämma den exakta betydelsen hos den talade sekvensen pà ett otvetydigt sätt. Speciellt kan relativa satsbetoningar bestämmas genom att klassificera förhållandet mellan variationer och deklination hos grundtonskurvan, varigenom betonade sektioner, eller individulella ord, kan bestämmas. Dessutom kan tonhöjden pà talet bestämmas ur deklinationen för grundtonskurvan, 20 25 30 35 519 273» 20 Sålunda, igenkänningen och tolkningen av de inmatade talen till tal- för att ta hänsyn till satsbetoningar vid till-tal-omvandlingssystemet hos den föreliggande uppfinningen är prosodi- extraktionshjälpmedlen och den tillhörande taligenkännings- och tolkningsenheten, för vart och ett av språken A och B, anpassade att bestämma: - ett första förhållande mellan variationen och deklinationen hos grundtonskurvan för det tal som matas in; - ett andra förhållande mellan variationen och deklinationen hos grundtonskurvan för tal- modellen; och - en jämförelse mellan de första och andra förhåll- andena, där varje identifierad differens används för att bestämma satsaccentplaceringar.
Vidare gör klassificering av förhållandet mellan variationen och deklinationen hos grundtonskurvan det möjligt att identifiera/bestämma relativa satsbetoningar, och betonade sektioner, eller ord. Även förhållandet mellan variationen och deklinationen hos grundtonskurvan kan utnyttjas till att bestämma dynamiken hos grundtonskurvan.
Informationen som erhålles med avseende på grundtonskurvan beträffande dialekt, satsaccent och betoning kan användas för tolkningen av det inmatade talet av enheterna 1 och 2, dvs informationen kan användas, på sätt som skisserats ovan, för att erhålla en bättre förståelse av innnehållet i det inmatade talet och få intonationsmönstret hos talmodellen i överensstämmelse med det inmatade talet.
Eftersom den korrigerade talmodellen uppvisar de språk- karakteristika (inkluderande dialektinformation, satsaccent 20 25 30 519 273 21 och betoning) hos det tal som matas in, kan det användas till att ge en ökad förståelse av det tal som matas in och öka sannolikheten för att utvärderingsenheten 3 skall välja det rätta språket för de tal som matas in. Den korrigerade talmodellen kan också användas av databashanterarenheterna 6 och 7 för att erhålla den erforderliga talinformationsdatan från databasenheterna 8 och 9 för formuleringen av ett svar på en röstinmatning i tal-till-tal-omvandlingssystemet.
Förmågan att smidigt tolka olika dialekter i ett språk genom att använda information från grundtonskurvan är av viss betydelse, eftersom sådana tolkningar kan effektueras utan att man behöver lära upp taligenkänningssystemet. Resultatet av detta är att storleken, och därigenom kostnaden, för ett taligenkänningssystem utfört enligt den föreliggande uppfinningen kan bli mycket mindre än som skulle varit möjligt med kända system. Dessa har därför klara fördelar jämfört med kända taligenkänningssystem.
Systemet är därför anpassat att känna igen och exakt tolka innehållet i det tal som matas in på två, eller flera, naturliga språk och att matcha språkkarakteristika, t ex dialekt hos röstsvaren med de hos röstinmatningarna. Denna process tillhandahåller ett användarvänligt system eftersom språket i människa/maskin-dialogen är i överensstämmelse med dialekten hos den aktuella användaren.
Den föreliggande uppfinningen är ej begränsad till de utförandeformer som skissats ovan, men kan modifieras inom omfånget för de bifogade patentkraven och uppfinningskonceptet. 0001cc

Claims (38)

10 15 20 25 30 35 40 i519 273 PATENTKRAV
1. En metod, i ett röstsvarskommunikationssystem, för att tillhandahålla ett talat svar på ett inmatat tal, där nämnda metod inkluderar stegen att känna igen och tolka det inmatade talet, och att utnyttja tolkningen för att erhålla talinformationsdata från en databas för att användas vid formuleringen av det talade svaret, kännetecknat av att databasen innehåller talinformationsdata på åtminstone två naturliga språk, och av att nämnda metod är anpassad att känna igen och tolka inmatade tal på nämnda åtminstone två språk med användning av statistikbaserad taligenkännings- och språkmodelleringsteknik för att bilda en lexikaliskt och syntaktiskt acceptabel talmodell för ifrågavarande språk och att tillhandahålla talade svar på talinmatningar på nämnda språk, och av att nämnda metod inkluderar de ytterligare stegen att utvärdera en igenkänd talinmatning för att be- stämma språket hos inmatningen genom att jämföra talmodeller för ifrågavarande språk och välja språket vars talmodell är mest framgångsrik, effektuera en dialog med databasen för att erhålla talinformationsdata för formuleringen av ett talat svar på det inmatade talets språk, och att omvandla talinformationsdatan, som erhålles från databasen, till nämnda talade svar.
2. En metod enligt patentkrav 1, kânnetecknad av att separata databaser används för var och en av nämnda åtmin- stone två språk.
3. En metod enligt patentkrav 2, kännetecknad av att nämnda dialog effektueras med endast den av nämnda databaser som innehåller talinformationsdata på det inmatade talets språk.
4. En metod enligt patentkrav 2, kännetecknad av att nämnda dialog effektueras med den av nämnda databaser som innehåller talinformation på det inmatade talets språk, och av att, i händelse av att åtminstone en del av den erforder- liga talinformationsdatan för ett talat svar finns lagrat i en annan av nämnda databaser, nämnda metod inkluderar de ytterligare stegen att effektuera en dialog med den nämnda andra av databaserna för att erhålla den erforderliga tal- informationsdatan, att översätta informationsdatan till språket för den nämnda ena av databaserna, att kombinera coin- 10 15 20 25 30 35 40 519 2731 2 talinformationsdatan från databaserna, och att omvandla den kombinerade talinformationsdatan till ett talat svar på det inmatade talets språk.
5. En metod enligt något av föregående patentkrav, kännetecknad av att utfallet av utvärderingsprocessen används för att bestämma den databas med vilken nämnda talinformationsdatan för ett talet. dialog föres för att erhålla talat svar till det inmatade
6. En metod enligt något av de föregående patentkraven, kännetecknad av att dialogen med en databas, och/eller effektueras med användning av ett data- SQL mellan databaser, baskommunikationsspråk, som t.ex. (Structured Query Language).
7. En metod enligt något av de föregående patentkraven, kännetecknad av att nämnda taligenkänning och tolkning in- kluderar stegen att extrahera prosodi-information från en talinmatning, och att erhålla dialektinformation från nämnda prosodi-information, där nämnda dialektinformation används i omvandlingen av nämnda talinformationsdata som erhålles från nämnda databas, till ett talat svar, där de talade svaren är på samma språk och dialekt som det inmatade talet.
8. En metod enligt patentkrav 7, kånnetecknad av att den prosodi-information som extraheras från talinmatningen är grundtonskurvan för det inmatade talet.
9. En metod enligt patentkrav 8, kännetecknad av stegen att bestämma intonationsmönstret hos grundtonskurvan för det inmatade talet, och därigenom maximum- och minimumvärdena för grundtonskurvan och deras respektive positioner; att be- stämma intonationsmönstret hos grundtonskurvan för en tal- modell, och därigenom maximum- och minimumvärdena hos grund- tonskurvan och deras respektive positioner; att jämföra intonationsmönstret hos det inmatade talet med intonations- mönstret hos talmodellen för att identifiera en tidsdiffe- rens mellan förekomsten av maximum- och minimumvärdena hos grundtonskurvan för det inkommande talet i förhållande till maximum- och minimumvärdena hos grundtonskurvan för tal- modellen, där den identifierade tidsdifferensen indikerar dialektkarakteristika hos det inmatade talet.
10. En metod enligt patentkrav 9, kännetecknad av att tidsdifferensen bestäms i förhållande till en referenspunkt unde.- 10 15 20 25 30 35 40 = 519 273 ~....«ø i intonationsmönstret.
11. En metod enligt patentkrav 10, kännetecknad av att den referenspunkt i intonationsmönstret, mot vilken tids- differensen mäts, år den punkt vid vilken en konso- nant/vokalgräns inträffar.
12. En metod enligt något av patentkraven 7-11, känne- tecknad av att steget att erhålla information om sats- accenter från nämnda prosodi-information.
13. En metod enligt patentkrav 12, kännetecknad av att orden i talmodellen kontrolleras lexikaliskt, av att fraserna i talmodellen kontrolleras syntaktiskt, av att orden och fraserna som ej är lingvistiskt möjliga exkluderas från talmodellen, av att ortografin och den fonetiska tran- skriptionen av orden i talmodellen kontrolleras, och av att transkriptionsinformationen inkluderar lexikalt abstraherad accentinformation, av typ betonade stavelser, och informa- tion avseende placeringen av sekundära accenter.
14. En metod enligt patentkrav 13, kännetecknad av att accentinformationen avser tonal ordaccent I och accent II.
15. En metod enligt något av patentkraven 12-14, kännetecknad av steget att använda nämnda satsaccentinfor- mation vid tolkningen av det inmatade talet.
16. Ett röstsvarskommunikationssystem som utnyttjar en metod enligt något av de föregående patentkraven för att tillhandahålla ett talat svar på en talinmatning i systemet.
17. Ett tal-till-tal-omvandlingssystem för att till- handahålla, matningar på åtminstone två naturliga språk, inkluderande vid utmatningen därav, talade svar på talin- taligenkänningshjälpmedel för de inmatade talen; tolk- ningshjälpmedel för att tolka innehållet i de igenkända inmatade talen, och en databas som innehåller talinforma- tionsdata för att användas vid formuleringen av nämnda talade svar, kânnetecknat av att talinformationsdatan som är lagrad i databasen är på de nämnda åtminstone två naturliga språken, av att taligenkännings- och tolkningshjälpmedlen är anpassade att känna igen och tolka talinmatningar på nämnda åtminstone två naturliga språk med användning av statistik- baserad taligenkännings- och språkmodelleringsteknik för att bilda en lexikaliskt och syntaktiskt acceptabel talmodell för ifrågavarande språk, och av att systemet ytterligare in- 10 15 20 25 30 35 40 519 273 can-ua 4 kluderar utvärderingshjälpmedel för att utvärdera de igen- kända talinmatningarna och bestämma språket hos inmat- ningarna genom att jämföra talmodeller för ifrågavarande språk och välja språket vars talmodell är mest framgångsrik, dialoghanteringshjälpmedel för att effektuera en dialog med databasen för att erhålla nämnda talinformationsdata på det inmatade talets språk, och text-till-tal-omvandlingshjälp- medel för att omvandla talinformationsdatan, som erhålles fràn databasen, till ett talat svar.
18. Ett tal-till-tal-omvandlingssystem enligt patent- krav 17, kännetecknat av att systemet är anpassat att ta emot talinmatningar på två, eller flera, naturliga språk och att tillhandahålla, respektive talinmatnings språk, och av att systemet inklude- vid utmatningen därav, talade svar på rar, för vart och ett av de naturliga språken, taligenkän- ningshjälpmedel, där ingàngarna hos vart och ett av tal- igenkänningshjälpmedlen är anslutna till en gemensam ingång för systemet; talutvärderingshjälpmedel för att bestämma, beroende på utmatningen från vart och ett av taligen- känningshjälpmedlen, språket hos en talinmatning; en databas som innehåller talinformationsdata att användas vid formule- ringen av talade svar på databasens språk; dialoghanterings- hjälpmedel för anslutning till ett respektive taligenkän- ningshjälpmedel, beroende på språket för det inmatade talet, där nämnda hanteringshjälpmedel är anpassat att tolka inne- hållet i det igenkända talet och, på basis av tolkningen, accessa och erhålla talinformationsdata från åtminstone respektive en av databaserna; och text-till-tal-omvandlar- hjälpmedel för att omvandla talinformationsdata som erhålles med nämnda hanteringshjälpmedel till talade svar till re- spektive talinmatningar.
19. Ett tal-till-tal-omvandlingssystem enligt patent- krav 17, kännetecknat av att systemet inkluderar separata databaser för vart och ett av nämnda åtminstone två språk.
20. Ett tal-till-tal-omvandlingssystem enligt patent- krav 19, kännetecknat av att systemet inkluderar separata dialoghanteringshjälpmedel för var och en av databaserna, där varje dialoghanteringshjälpmedel anpassas att effektuera en dialog med åtminstone respektive en av databaserna.
21. Ett tal-till-tal-omvandlingssystem enligt patent- Iøfløhi 10 15 20 25 30 35 40 -519 273 5 krav 20, kännetecknat av att varje dialoghanteringshjälp- medel är anpassat att effektuera en dialog med var och en av databaserna.
22. Ett tal-till-tal-omvandlingssystem enligt patent- krav 21, kännetecknat av att systemet inkluderar översätt- ningshjälpmedel för översättning av den utgående talinfor- mationsdatan från var och en av databaserna till språket eller språken hos de andra databaserna.
23. Ett tal-till-tal-omvandlingssystem enligt patent- krav 22, en del av den erforderliga talinformationsdatan för ett kännetecknat av att, i händelse av att åtminstone talat svar finns lagrat i en databas på ett annat språk än vad som krävs för det talade svaret, nämnda information erhålles från nämnda databas och översättes av nämnda över- sättningshjälpmedel till det erforderliga språket för det talade svaret, och av att den översatta talinformationen används antingen ensam, eller i kombination med annan talinformation av dialoghanterarhjälpmedlet för att till- handahålla en utmatning för applicering på text-till-tal- omvandlarhjälpmedlet.
24. Ett tal-till-tal-omvandlingssysten enligt patent- krav 23, emot talinmatningar på två språk, av att systemet inklu- kännetecknat av att systemet är anpassat att ta derar, för vart och ett av de två språken, en databas, dia- loghanteringshjälpmedel och översättningshjälpmedel, av att vart och ett av dialoghanteringshjälpmedlen är anpassat att kommunicera med var och en av databaserna, och av att data- utgångarna från var och en av databaserna är anslutna direkt till ett av dialoghanteringshjälpmedlen och till det andra av hanteringshjälpmedlen via ett översättningshjälpmedel.
25. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 17-24, kännetecknat av att systemet inkluderar taligenkännings- och tolkningshjälpmedel för vart och ett av de nämnda åtminstone två naturliga språken, där ingångarna till taligenkännings- och tolkningshjälpmedlen är anslutna till en gemensam systemingång.
26. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 17-25, kännetecknat av att utmatningen från utvärderingshjälpmedlet används för att välja den databas från vilken nämnda talinformationsdata kommer att erhållas 10 15 20 25 30 35 40 519 273< 6 av nämnda dialoghanteringshjälpmedel för formuleringen av det talade svaret till talinmatningen.
27. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 17-26, kännetecknat av att dialogen med en databas, och/eller mellan databaser, effektueras med använd- ning av ett databaskommunikationsspràk, som t.ex. SQL (Structured Query Language).
28. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 17-27, kännetecknat av att nämnda taligen- kännings- och tolkningshjälpmedel inkluderar extraktions- hjälpmedel för extraktion av prosodi-information från det inmatade talet, och hjälpmedel för att erhålla dialektin- formation från nämnda prosodi-information, där nämnda dia- lektinformation används av nämnda text-till-tal-omvandlings- hjälpmedel vid omvandlingen av nämnda talinformationsdata till det talade svaret, där dialekten hos det talade svaret matchas mot det hos det inmatade talet.
29. Ett tal-till-tal-omvandlingssystem enligt patent- krav 28, kännetecknat av att prosodi-informationsutdraget från det inmatade talet är grundtonskurvan hos det inmatade talet.
30. Ett tal-till-tal-omvandlingssystem enligt patent- krav 29, kännetecknat av att hjälpmedlet för att erhålla dialektinformation från nämnda prosodi-information inklu- derar första analyshjälpmedel för att bestämma intonations- mönstret hos grundtonen i det inmatade talet, och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; andra analyshjälpmedel för att be- stämma intonationsmönstret hos grundtonskurvan för tal- modellen och därigenom maximum- och minimumvärdena hos grundtonskurvan och deras respektive positioner; jämförelse- hjälpmedel för att jämföra intonationsmönstret hos det inmatade talet med intonationsmönstret hos talmodellen för att identifiera en tidsdifferens mellan förekomsten av maximum- och minimumvärdena hos grundtonskurvan hos det inkommande talet i förhållande till maximum- och minimum- värdena hos grundtonskurvan i talmodellen, där den iden- tifierade tidsdifferensen indikerar dialektkarakteristika hos det inmatade talet.
31. Ett tal-till-tal-omvandlingssystem enligt patent- OOIIOI 0000:! 10 15 20 25 30 35 519 273 7 krav 30, kännetecknat av att tidsdifferensen bestämmes i förhållande till en referenspunkt i intonationsmönstret.
32. Ett tal-till-tal-omvandlingssystem enligt patent- krav 31, kännetecknat av att referenspunkten i intona- tionsmönstret, mot vilken tidsdifferensen mätes, är den punkt vid vilken en konsonant/vokal-gräns inträffar.
33. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 28-32, kännetecknat av att systemet dessutom inkluderar hjälpmedel för att erhålla information om sats- accenter från nämnda prosodi-information.
34. Ett tal-till-tal-omvandlingssystem enligt patent- krav 33, kännetecknat av att taligenkänningshjälpmedlet inkluderar kontrollhjälpmedel för att lexikaliskt kon- trollera orden i talmodellen och för att syntaktiskt kon- trollera fraserna i talmodellen, där de ord och fraser som ej är lingvistiskt möjliga exkluderas från talmodellen, av att kontrollhjâlpmedlet är anpassat att kontrollera orto- grafin och den fonetiska transkriptionen av orden i tal- modellen, av att transkriptionsinformationen inkluderar lexikaliskt abstraherad accentinformation, av typ betonade stavelser, och information avseende placeringen av sekundär accent.
35. Ett tal-till-tal-omvandlingssystem enligt patent- krav 34, ordaccent I och accent II. kännetecknat av att accentinformationen avser tonal
36. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 33-35, kännetecknat av att nämnda satsaccentin- formation används vid tolkningen av innehållet i det igen- kända inmatade talet.
37. Ett tal-till-tal-omvandlingssystem enligt något av patentkraven 28-36, kännetecknat av att satsbetoningar be- stämmes och används vid tolkningen av innehållet i det igen- kända inmatade talet.
38. Ett röstsvarskommunikationssystem inkluderande ett tal-till-tal-omvandlingssystem enligt något av patentkraven 17-37.
SE9601812A 1996-05-13 1996-05-13 Förbättringar av , eller med avseende på, tal-till-tal- omvandling SE519273C2 (sv)

Priority Applications (4)

Application Number Priority Date Filing Date Title
SE9601812A SE519273C2 (sv) 1996-05-13 1996-05-13 Förbättringar av , eller med avseende på, tal-till-tal- omvandling
PCT/SE1997/000584 WO1997043707A1 (en) 1996-05-13 1997-04-08 Improvements in, or relating to, speech-to-speech conversion
EP97919841A EP0976026A1 (en) 1996-05-13 1997-04-08 Improvements in, or relating to, speech-to-speech conversion
NO19985178A NO318112B1 (no) 1996-05-13 1998-11-06 System og fremgangsmate for tale-til-taleomforming

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9601812A SE519273C2 (sv) 1996-05-13 1996-05-13 Förbättringar av , eller med avseende på, tal-till-tal- omvandling

Publications (3)

Publication Number Publication Date
SE9601812D0 SE9601812D0 (sv) 1996-05-13
SE9601812L SE9601812L (sv) 1997-11-14
SE519273C2 true SE519273C2 (sv) 2003-02-11

Family

ID=20402544

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9601812A SE519273C2 (sv) 1996-05-13 1996-05-13 Förbättringar av , eller med avseende på, tal-till-tal- omvandling

Country Status (4)

Country Link
EP (1) EP0976026A1 (sv)
NO (1) NO318112B1 (sv)
SE (1) SE519273C2 (sv)
WO (1) WO1997043707A1 (sv)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2284304A1 (en) * 1998-12-22 2000-06-22 Nortel Networks Corporation Communication systems and methods employing automatic language indentification
US7590538B2 (en) 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
GB2366940B (en) 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
DE10063148A1 (de) 2000-12-18 2002-06-20 Deutsche Telekom Ag Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen
GB0111012D0 (en) 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
DE3732849A1 (de) * 1987-09-29 1989-04-20 Siemens Ag System-architektur fuer ein akustisches mensch/maschine-dialogsystem
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
SE9301596L (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk

Also Published As

Publication number Publication date
SE9601812D0 (sv) 1996-05-13
NO318112B1 (no) 2005-01-31
WO1997043707A1 (en) 1997-11-20
NO985178L (no) 1998-11-11
SE9601812L (sv) 1997-11-14
EP0976026A1 (en) 2000-02-02
NO985178D0 (no) 1998-11-06

Similar Documents

Publication Publication Date Title
EP0683483B1 (en) A method and arrangement for speech to text conversion
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US5806033A (en) Syllable duration and pitch variation to determine accents and stresses for speech recognition
KR101056080B1 (ko) 음운 기반의 음성 인식 시스템 및 방법
US6233553B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
US7158934B2 (en) Speech recognition with feedback from natural language processing for adaptation of acoustic model
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US5694520A (en) Method and device for speech recognition
Kayte et al. Di-phone-based concatenative speech synthesis systems for marathi language
JPH07181997A (ja) 韻律学的情報を自動的に抽出する方法および装置
SE519273C2 (sv) Förbättringar av , eller med avseende på, tal-till-tal- omvandling
US11817079B1 (en) GAN-based speech synthesis model and training method
EP0919052B1 (en) A method and a system for speech-to-speech conversion
Kruse et al. Alinha-pb: A phonetic aligner for brazilian portuguese
JPS6229796B2 (sv)
KR102405547B1 (ko) 딥러닝 기반의 발음 평가 시스템
KR100404852B1 (ko) 언어모델적응기능을가진음성인식장치및그제어방법
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001188556A (ja) 音声認識方法及び装置
EP3051437A1 (en) Method for query processing for search in multilingual audio-archive and device for search of that processed query
Przybysz et al. The generation of letter-to-sound rules for grapheme-to-phoneme conversion
Gros et al. Acquisition of an extensive rule set for Slovene grapheme-to-allophone transcription
JP2005534968A (ja) 漢字語の読みの決定
JPS6240575A (ja) 音声タイプライタ
JPH08123472A (ja) 音声認識装置及び該装置の構文制御グラフの生成方法