SE513456C2

SE513456C2 - Metod och anordning vid tal- till textomvandling

Info

Publication number: SE513456C2
Application number: SE9401613A
Authority: SE
Inventors: Bertil Lyberg
Original assignee: Telia Ab
Priority date: 1994-05-10
Filing date: 1994-05-10
Publication date: 2000-09-18
Also published as: DE69519328D1; EP0683483A2; JPH0850498A; EP0683483A3; SE9401613D0; ES2153021T3; US5752227A; DE69519328T2; SE9401613L; EP0683483B1

Description

2 513 456 toninformation. Dokumentet beskriver att en serie enkelstavelser igenkänns genom separat igenkänning av stavelser och mandarin- toner och sammanföring av igenkända delar för igenkänning av enkelstavelsen under utnyttjande av Hidden Markov-metoden. Den igenkända enkelstavelsen används av en Markov Chinese Language- modell i en lingvistisk dekodersektion för bestämning av mot- svarande kinesiskt tecken. En tonhöjdsfrekvensdetektor utnyttjas.

Tonhöjdsfrekvensdetektorn detekterar karaktäristiska beträffande tonhöjdsfrekvensen hos den okända talsignalen och sänder den till en för tonigenkänningen ingående persondator, i vilken Markov-modell- sannolikheterna hos de fem olika tonerna kalkyleras. Dokumentet beskriver således hur talsignalerna principiellt jämförs med i ett bibliotek och sannolikheten för olika betoningar i enkelstavelserna kalkyleras. Modellens värde i språk med flerstaviga ord synes vara begränsad. Vidare måste ett stort bibliotek över olika ord och be- toningar upprättas och genomgås vid varje analys. Dokumentet synes således ha ett begränsat användningsområde i ett mer generellt perspektiv. I patent US 4489 433 beskrivs talinformationsöverföring med hjälp av telexutrustning. Efter överföring kan taldata omvandlas till ett läsbart teckenmeddelande. Tekniken enligt skriften är främst avsedd att tillämpas på japanska språket. Accenttypen hos japanska ord är en tonhöjdsaccent och kan identifieras i beroende av positionen hos den tidpunkt mellan stavelserna vid vilken tonhöjdsfrekvensen ändras abrupt till en låg frekvens. Ordaccentkoden indikerar en plötslig förändring av tonhöjds- och grundtonsfrekvensen, vanligen orsakad av accenten hos en särskild stavelse i ett ord. Patentet utgår ifrån att ett antal lagrade mallar för olika ordaccenter utnyttjas. I ett generellt perspektiv är det emellertid inte möjligt att generera grundtons- konturen från lagrade mallar eftersom ordaccenternas realisering för- ändras på grund av kontext i satsen. I figur 7 utnyttjas en komparator som anpassar pulserna T0-T3 och T1-T2 så att Fujisakis modell anpassas till en inkommande signal. Pulsstorlekar och placeringar im- plicerar sedan vissa accenter. Modellen är tagen från professor Öhman i Uppsala och baserad på föreställningen att pulserna motsvarar EMG- aktivitet i vissa larynxmuskler. 3 513 456 REDoGöRELsE FÖR UPPFINNINGBN TEKNISKT PROBLEM Vid taligenkänning är det önskvärt att finna metoder som enkelt och snabbt kan igenkänna en talad sekvens korrekt. En svårighet som härvid förekommer är att igenkänna ord som är likalydande och att särskilja dessa. Ytterligare ett problem som förekommer är att särskilja satsbetoningen. Meningar som är uppbyggda med samma ord men som har olika satsbetoningar kan erhålla olika betydelser i olika språk.

Ytterligare önskemål är att metoden skall kunna utnyttjas av god- tyckliga talare utan att vara tränade för talaren ifråga.

I patentskrift US 5 220 639 anges att systemet skall vara tränat på den användare som talar in meddelanden till systemet. Varje användare som skall utnyttja systemet måste således träna upp systemet med sin röst. Vidare anger uppfinningen att den endast är tränad mot en viss dialekt i kinesiskan. I den mån uppfinningen skulle utnyttjas för andra språk måste modellen göras om för varje språk.

Behov föreligger således att finna metoder som är generellt använd- bara i olika språk. Dessa egenheter i olika språk har inte beaktats i patentskriften US 5 220 639. I patentskrift US 4 489 433 beskrivs talinfor- mationsöverföring med hjälp av telexutrustning. I detta fall är man inriktad på taligenkänning mot det japanska språket. I detta fall söker man den tidpunkt där tonhöjdsfrekvensen ändras till en låg frekvens mellan stavelser. Man tar i detta fall inte hänsyn till att grundtons- kurvan inte är kontinuerlig. Vid tonlösa ljud exempelvis "s", "p" etc existerar ingen tonkurva. Efter vissa tonlösa klusiler är grundtons- kurvan starkt perturberad varför en direkt extraktion av information- en från grundtonskurvairiigøg-enom matchning med referensmönster inte fungerar i det allmänna fallet.

Ordaccenternas realisering är vidare i hög grad beroende av kontexten i satsen. I det generella fallet är det mycket svårt att realisera generella 4 513 45ö metoder som är användbara i lösningar av den typ som ovan relaterats.

Föreliggande uppfinning avser att lösa ovan beskrivna problem.

LÖSNINGEN Föreliggande uppfinning avser en metod vid tal-till-textomvandling.

Ur talet igenkänns ett antal ljud som uttolkas till möjliga ord och fraser. Orden och fraserna bildar en modell av talet. Talets grundton och dess extremvärden, max- och minvärden, och deras positioner fastställs. Intonationsmönstret i talet och modellen jämförs varvid ord och fraser i modellen vars intonationsmönster bäst överensstämmer med talets intonationsmönster skrivs ut.

I en utveckling av uppfinningen sammanställs de igenkända ljuden i talet och sammanställs i möjliga textsträngar. Olika ljud och/eller ljudkombinationstolkningar samt outtalade delar i orden intolkas i modellen.

I ytterligare en utveckling av uppfinningen kontrolleras orden i modellen lexikalt och fraserna kontrolleras syntaktiskt. Ord och fraser som ej är språkligt möjliga utesluts ur modellen.

I ytterligare en utveckling av uppfinningen särskiljs betydelsen hos likalydande ord med olika accentueringar. Vidare uttolkas betydelsen hos fraser vars betydelse ändras i beroende av satsaccentueringen.

Uppfinningen avser vidare en anordning innefattande ett första organ som ur ett tal igenkänner ett antal språkljud. Det första organet ut- tolkar språkljuden och fastställer en modell av talet. Ett andra organ extraherar talets grundton samt förekommande extremvärden, max- och minvärden, samt extremvärdenas positioner. Modellens intona- tionsmönster jämförs med talets intonationsmönster i det andra rql 5 515 456 organet. Det andra organet utväljer en tolkning som motsvarar talets intonationsmönster, vilken tolkning utskrivs av andra organet.

Första organet innefattar vidare ett ordtolkningsorgan. Ordtolknings- organet uttolkar ur språkljuden alternativa språkljud och/ eller språk- ljud som ej uttolkats. Ordtolkningsorganet skapar ett antal möjliga tolkningar i modellen. De av ordtolkrtingsorganet framtagna tolkning- arna kontrolleras av första organet mot ett lexikon. Vid denna kontroll utesluts ord som inte finns i det aktuella språket. Vidare kontrolleras fraser som bildas syntaktiskt. Fraser som inte har någon mening i det aktuella språket utesluts. Det andra organet uttolkar vidare betydelsen i de ord och fraser som är betoníngsberoende.

FÖRDELAR Föreliggande uppfinning har fördelen att kunna urskilja olika ords betydelse i beroende av betoningen. Vidare särskiljer uppfinningen sentensers betydelse i beroende av satsaccentbetoningar. Utnyttjandet av grundtonsinformationen iflenlighet med uppfinningen har tidigare inte påvisats. Med utnyttjande av grundtonsinformationen är det vidare möjligt att utesluta ord och fraser som dels inte förekommer i det aktuella språket dels inte överensstämmer med de betoningar som förekommer i det aktuella talet. Detta ger unika möjligheter att identifiera talet på ett riktigt sätt. Genom att identifiera olika språkljud identifieras möjliga ord och frasbildningar. Denna information ut- nyttjas för att lexikalt och syntaktiskt finna ord och fraser som är möjliga i talet. Uppfinningerrmedger vidare att normalt tal kan mottas och inte som i tex patent US 5 220 639 att enkelstavelser skall intalas.

Uppfinningen utgår vidare från att språkljud är intränade i systemet på ett antal olika personer. Systemet är därefter kapabelt att igenkänna ifrågavarande språkljud från olika talare.

I kända system se t ex US 5 220 639, är ett antal ord inprogrammerade i systemet. Systemet är vidjarejjintränat på ett antal talare som förutsätts 6 513 456 föra in informationen i systemet. I föreliggande uppfinning är det möjligt för en godtycklig talare att införa information utan att systemet är intränat pâ personen i fråga. Systemet kan vidare inprogrammeras för alla kända språkljud som finns i olika språk. Språkljud som inte förekommer i ett specifikt språk är uteslutningsbart. Detta medger att uppfinningen är ﬂexibel i sitt utnyttjande.

I befintliga system som tex US5220 639 inprogrammeras ett antal statistiska modeller som jämförs mot talet. Den modell som bäst överensstämmer med talet väljs i dessa system. System av detta slag tar emellertid inte hänsyn till ord eller satsaccenter. Felaktiga betydelser i ord och fraser kan härvid uppstå. Föreliggande uppfinning tar emeller- tid hänsyn till såväl ord som satsaccenter och identifierar den rätta betydelsen.

I skriften US 4 489 433 beskrivs hur tonhöjdsaccenten utnyttjas för sär- skiljande av olika ord i det japanska språket. I det japanska språket förekommer abrupta ändringar av tonhöjdsaccenten vilket uppfin- ningen utnyttjar sig av. I andra språk där tonhöjdsaccenten inte ändras abrupt kan uppfinningen inte utnyttjas. Föreliggande uppfinning igen- känner emellertid inte enbart abrupta ändringar i tonhöjdsaccenten utan identifierar även ord och satsaccenter som är betydligt mer svåridentifierade.

Föreliggande uppfinning identifierar olika ord och fraser i beroende av betoningslägena. Behov föreligger således inte att lagra ett antal ord och fraser vilka är identiska men som har olika betoningar. Möjlig- heten att identifiera ordens och frasernas egentliga betydelse ökar väsentligt med föreliggande uppfinning. Vidare medger uppfinningen att en betydligt förkortad tid erfordras för identifieringen. Den ökade möjligheten att identifiera talet på ett riktigt sätt minskar även risken för felaktiga tolkningar, som kan leda till katastrofala konsekvenser, undviks. 7 515 456 FIGURBESKRIVNING Figur 1 visar en detaljerad blockbeskrivning av uppfinningen. -r --_~.«, sea.- Figur 2 visar en generell blockbeskrivning av uppfinningen.

FÖREDRAGEN UTFÖRING SFORM I det följande beskrivs uppfinningsidén med hänvisning till figurerna och beteckningarna däri.

Föreliggande uppfinning avser en metod och anordning vid tal-till- textomvandling. Ur ett givet tal identifieras en sekvens av språkljud.

De olika språkljuden identifieras och sammanställs till ord och meningar. Orden kontrolleras lexikalt varvid ord som ej firms i språk- et utesluts. Meningar kontrolleras syntaktiskt varvid ordkombination- er som ej förekommer i språket utesluts. En modell av talet erhålles på detta sätt. Modellens och språkets intonationsmönster jämförs och ord och sentenser vars intonàtitansrrönster ej överensstämmer utesluts ur modellen. Ord och sentenser, som väl överensstämmer med talets innebörd, är på detta sätt identifierbara och utskrivbara.

I figur 2 visas hur ett tal mottas av ett första organ, A, vilket igenkän- ner ett antal språkljud. Organetuttolkar språkljuden och framställer en modell av talet. I ett andraorgan, B, extraheras talets grundton samt förekommande extremväriden _i grundtonen. Extremvärdenas, dvs max- och minvärdenas, positioner fastställs. Det erhållna resultatet jämförs med extremvärdenai. modellen. Ord och meningar i modellen som inte överensstämmer med talets intonationsmönster utesluts härefter ur modellen. VidafrfeÉšfeår en ordtolkning i det första organet, A. Ordtolkningsorganet utfölkar alternativa språkljud och/ eller språk- ljud som ej uttalats. Ordtolkningsorganet skapar härur ett antal möj- liga tolkningar i modellen. Ordtolkningsorganet kontrollerar vidare de erhållna orden mot ettslexikon- varvid ord som ej förekommer i det 8 513 456 aktuella språket utesluts. Vidare kontrollerar organet de erhållna fraserna syntaktiskt och utesluter sentenser som strider mot språkets regler. Slutligen uttolkas betydelsen av de ord och fraser som är be- toningsberoende i det andra organet. Det andra organet, B, producerar härefter en text som väl överensstämmer med det inmatade talet.

I figur 1 inmatas ett givet tal parallellt till enheterna 1 och 5. I 1 bryts talet ned i ett antal igenkända språkljud. Igenkänningen sker med i och för sig kända metoder. Exempelvis utnyttjas Hidden Markov modell eller motsvarande. En sträng av språkljud som härvid identifierats till olika bokstäver eller bokstavskombinationer överförs härefter till 2. I 2 sker en tolkning av de olika ljudkombinationerna till ord. De härvid erhållna orden överförs till 3 där en lexikal kontroll sker av de föreslagna orden. Ord som härvid inte förekommer i språket utesluts.

En ordmodell erhålles på detta sätt. Ordmodellen överförs härefter till 1 och 9. Där i 1 en kontroll sker av ordet/ orden i fråga överensstämmer med det inmatade talets ljud. I 9 erhålles en intonationsbeskrivning i grundtonens max- och minvärden.

I 5 exu-aheras talets grundton. Den extraherade grundtonen analyseras i 6 där grundtonens max- och minvärden fastställs. Max- och minvär- denas positioner i talet fastställs vidare. Max- och minvärdena ger en beskrivning av intonationen i orden respektive fraserna. Den erhållna beskrivningen överförs till en komparator, 7, där en jämförelse i intonationsmönstret på ordnivå mellan talets och de föreslagna ordens intonationsmönster sker. Ord i modellen vars intonationsmönster inte överensstämmer med talets utesluts härvid. Uteslutningarna meddelas till 2 som därefter fortsätter arbetet med återstående ord och sammanställer dessa till fraser.

I 3 erhålles härvid frasmodeller. Frasmodellerna överförs till 4 där en syntaxanalys genomförs. Fraser vars syntax inte överensstämmer med språket utesluts i denna syntaxkontroll. Information om uteslutningar återförs till 3, som återför nya förslag till syntaxanalysen för vidare behandling. Fraser som i och för sig är möjliga i språket överförs till 9 9 513 456 där intonationsbeskrivning i grundtonskurvans max- och minvärden.

Informationen överförs till 9' och därifrån till en komparator, 8. I komparatorn jämförs satsaccentbetoningarna med de betoningar som detekterats i talets grundtonskurva. I modellen föreslagna fraser som inte överensstämmer med talets grundtonsinformation utesluts.

Informationen överförs ttfråxnïß till 10. I 10, en selektor, jämförs textsträngar från ordtolkninsorganet, 2, och från syntaxanalysen, 4. Ur detta material framställs taunntolkning som överensstämmer med det inmatade talet. Den modell som sålunda bäst överensstämmer med talet kommer härefter att utskrivas i form av en text från selektorn, 10.

Uppfinningen är inte begränsad till den i ovan visade utföringsformen utan kan underkastas modifikationer inom ramen för efterföljande patentkrav och uppfinningstanke.

Claims

10 515 456 PATENTKRAV

1. Metod vid tal-till-textomvandling, k ä n n e t e c k n a d därav, att ur talet igenkänns ett antal ljud, som uttolkas till möjliga ord och fraser, att en modell av talet bildas, att talets grundton extraheras, att grundtonens respektive modellens extremvärden, max- och minvärden, och deras positioner fastställs, och att talets och modellens intonationsmönster jämförs på ord- respektive frasnivå varvid de ord och fraser i modellen vars intonationsmönster bäst överensstämmer med talets intonationsrnönster skrivs ut.

2. Metod enligt patentkrav 1, k ä n n e t e c k n a d därav, att de ur talet igenkända ljuden sammanställs i möjliga textsträngar där olika ljud och/ eller ljudkombinationstolkningar i orden intolkas i modellen.

3. Metod enligt patentkrav 1 eller 2, k ä n n e t e c l< n a d därav, att orden i modellen kontrolleras lexikalt, att fraserna kontrolleras syntaktiskt, att ord och fraser som ej är språkligt möjliga utesluts ur modellen.

4. Metod enligt något av föregående patentkrav, k ä n n e te c k n a d därav, att betydelsen hos likalydande ord med olika accentuering är urskiljbar, och att fraser vars betydelse ändras i beroende av satsaccentueringen är urskiljbara, varvid accentueringen definieras av extremvärderna, och en korrekt tolkning av orden respektive fraserna erhålles.

5. Anordning för genomförande av den i patentkrav 1 angivna metoden, k ä n n e t e c k n a d därav att ett första organ ur ett tal igenkänner ett antal språkljud, att första organet uttolkar språkljuden, och fastställer en modell av talet, att ett andra organ extraherar talets grundton samt förekommande extremvärden, max- och minvärden, samt extremvärdenas positioner, att det andra organet jämför modellens och talets intonationsmönster på ord- respektive frasnivå, och att andra organet utväljer en tolkning som motsvarar w talets intonationsmönster, vilken tolkning utskrivs av det andra organet. 3.- Ä1__1 i 513 456

6. Anordning enligt patentkrav 5, k ä n n e t e c k n a d därav att första organet innefattar ett ordtolkningsorgan, som ur språkljuden uttolkar alternativa språkljud och/ eller språkljud, och att ordtolkningsorganet skapar ett antal möjliga tolkningar i modellen.

7. Anordning enligt patentkrav 5 eller 6, k ä n n e t e c k n a d därav att första organet kontrollerar de i ordtolkningsorganet framtagna tolkningarna i modellen mot ett lexikon varvid första organet utesluter ord som ej finns i ett givet språk, samt att fraser som orden bildar kontrolleras av första organet som utesluter fraser vars syntax strider mot språkets regler.

8. Anordning enligt patentkrav 5 t o m 7, k ä n n e te c k n a d därav att andra organet uttolkar betydelsen i de ord och fraser som är betoningsberoende.