SE469576B

SE469576B - Foerfarande och anordning foer talsyntes

Info

Publication number: SE469576B
Application number: SE9200817A
Authority: SE
Inventors: J Kaja
Original assignee: Televerket
Priority date: 1992-03-17
Filing date: 1992-03-17
Publication date: 1993-07-26
Also published as: SE9200817D0; DE69318209D1; DE69318209T2; GB2265287A; GB2265287B; GB9302460D0; EP0561752A1; SE9200817L; EP0561752B1; US5659664A; JPH0641557A

Description

.DA Cß vü 10 15 20 25 30 35 40 576 behövs en stor regelmassa för att hantera de många kombina- 2 tionsmöjligheterna för fonemen. Metoden blir sváröverskàdlig.

En annan känd syntesmetod är difonsyntes. Här produceras talet genom sammanlânkning av inspelade vågformssegment från inspelat tal. Genom signalbehandling åstadkommes önskad grundtonkurva och duration. En underliggande förutsättning är att det finns ett område som är spektralt stationärt i varje difon och att det råder spektral likhet där; i annat fall får man en spektral diskontinuitet där, vilket är ett problem.

Det är också svårt att ändra vâgformerna efter registrering och segmentering. Det är också ett problem att applicera regler eftersom vågformssegmenten är fixa.

SAMMANFATTNING AV UPPFINNINGEN Formantsyntes har inga problem med spektrala diskonti- nuiteter. Difonsyntes behöver inga regler för att hantera koartikulationsproblemet_ Enligt uppfinningen används en difonsyntesmetod, dvs lagrade styrparametrar som har extrahe- rats genom att med hjälp av syntes kopiera naturligt tal, för att generera tal med formantsyntes. En interpolationsmekanism hanterar koartikulation automatiskt. Vill man ändå applicera regler kan detta också göras.

Enligt uppfinningen tillhandahálles således ett förfa- rande för talsyntes, innefattande att parametrar för styrning av syntesen bestäms vid punkter, vilka styrparametrar lagras i en matris eller en sekvenslista för varje polyfon. Respek- tive parameters uppförande i tiden definieras kring varje fonemgräns och polyfoner skarvas genom att bilda ett viktat medelvärde av de två kurvor som definieras av deras tvâ till- hörande matriser/sekvenslistor.

Uppfinningen avser också en anordning för utövande av förfarandet.

Ytterligare utföringsformer av uppfinningen är mera detaljerat angivna i åtföljande patentkrav.

KORTFATTAD BESKRIVNING AV RITNINGARNA Uppfinningen kommer att beskrivas i detalj nedan med hänvisning till bifogade figur som är ett diagram över skarv- ning av tvà difoner i enlighet med föreliggande uppfinning. 10 15 20 25 30 35 40 469 576 3 DETALJERAD BESKRIVNING AV UPPFINNINGENS FÖREDRAGNA UTFöRINGsFoRn/JER Det mänskliga, naturliga talet kan uppdelas i fonem. Ett fonem är den minsta betydelseskiljande beståndsdelen i språ- ket. Ett fonem kan i och för sig realiseras med olika ljud, allofoner. Vid talsyntes måste man bestämma vilken allofon man skall använda för ett visst fonem men föreliggande upp- finning berör inte detta. Det finns en koppling mellan de olika delarna i talorganet, t.ex. mellan tungan och struphu- vudet och artikulatorerna, tunga, käke etc kan ej momentant flyttas från en punkt till en annan. Det finns därför en stark koartikulation eller samartikulation mellan fonemen; fonemen påverkar alltså varandra. För att erhålla ett natur- troget tal ur en syntesapparat måste den alltså på något sätt hantera koartikulationen.

Uppfinningen möjliggör också polyfonsyntes, alltså sam- manlänkning av flera fonem, t.ex. trifonsyntes och kvadrofon- syntes. Detta är lämpligt att använda vid vissa vokalljud som inte har några stationära delar lämpliga för skarvning. Även vissa konsonantkombinationer är besvärliga. I mänskligt naturligt tal finns alltid rörelse någonstans och nästa ljud anticiperas. T.ex. i orden "sprut" och "sprit" formas tal- organet efter vokalen redan innan szet uttalas. Genom att lagra in trifonen som punkter utmed en kurva kan trifonen sammanlänkas med efterföljande fonem.

Talets vågform kan liknas vid svaret från en resonans- kammare, talröret, på en serie pulser, kvasiperiodiska stäm- bandspulser under tonande ljud eller ljud alstrade vid en förträngning under tonlösa ljud. Under talprediktionen utgör talröret ett akustiskt filter, varvid resonans uppstår i de olika kaviteter som därvid formas. Resonanserna kallas för formanter och de uppträder i spektret som energimaxima vid resonansfrekvenserna. Vid kontinuerligt tal varierar formant- frekvenserna med tiden allt eftersom resonanskaviteterna ändrar läge. Formanterna är således viktiga för att beskriva ljudet och kan användas för styrning av talsyntes.

Ett talat yttrande registreras med någon lämplig inspel- ningsanordning och lagras på ett medium som lämpar sig för databehandling. Yttrandet analyseras och lämpliga styrpara- metrar lagras enligt någon av följande metoder.

J» Ch uâ 10 15 20 25 30 35 40 576 4 Lagring av styrparametrar: 1) En matris bildas där varje radvektor motsvarar en parameter och elementen i denna motsvarar samplade parametervärden. (Typisk samplingsfrekvens är 200 Hz.) Denna metod lämpar sig för difonsyntes. 2) En sekvens av matematiska funktioner, start/slutvärde + funktion, bildas för varje parameter. Denna metod lämpar sig för polyfonsyntes och gör det möjligt att använda regler av traditionellt slag om så önskas.

Ett sätt att få fram lagrade styrparametrar som ger god synteskvalitet är att göra kopieringssyntes av ett naturligt yttrande. Härvid används numeriska metoder i ett iterativt förfarande som successivt gör att det syntetiska yttrandet mer och mer liknar det naturliga. När tillräckligt god likhet har uppnåtts, kan styrparametrarna som motsvarar den önskade difonen/polyfonen extraheras ur det syntetiska yttrandet.

Enligt uppfinningen hanteras koartikulationen genom att kombinera formantsyntes med difonsyntes. Således lagras en uppsättning difoner utgående från formantsyntes. För varje parameter definierar man en kurva enligt metod 1 eller 2 som beskriver parameterns uppträdande i tiden kring fonemgränsen.

Två difoner skarvas ihop genom att ett viktat medelvärde bil- das mellan det andra fonemet i den första difonen och det första fonemet i den andra difonen.

I figuren visas sammanlänkningsmekanismen enligt före- liggande uppfinning i detalj. Kurvorna illustrerar en parame- ter, t.ex. andra formanten för de båda difonerna. Den första difonen kan t.ex. vara ljudet "ba" och den andra ljudet "ad", vilket sammanlänkat blir "bad". Kurvorna går asymptotiskt mot konstanta värden till vänster och höger.

I mittfonemet verkar en interpoleringsmekanism. De två difonkurvorna viktas med var sin viktfunktion, vilka visas nederst i figuren. Viktfunktionerna är företrädesvis cosinus- funktioner, för att få en jämn övergång, men detta är inte kritiskt utan även linjära funktioner kan användas.

Vissa områden interpoleras inte eftersom vissa språk- ljud, såsom stoppkonsonanter, innebär att man bygger upp ett tryck i munhålan som sedan släpps, t.ex. "pa". Förloppet från när man släpper trycket till dess stämbandspulserna kommer igång är rent mekaniskt och påverkas inte nämnvärt av fone- » u 10 15 20 25 30 35 40 469 576 5 mens övriga längd i yttrandet. Om durationen av stoppkonso- nanten skall förlängas är det den tysta fasen som blir längre. Interpoleringsmekanismen skall därför undvika att förlänga vissa bitar. Kring.segmentgränserna finns det därför inlagt att vissa bitar har fast längd, dvs. viktfunktionen börjar först en bit efter segmentgränsen och slutar en bit före segmentgränsen.

Det är den syntaktiska analysen som bestämmer hur ett yttrande skall syntesatiseras. Bland annat bestäms grundtons- kurvan och duration för segmenten vilket ger olika betoning m.m. Betoning àstadkommes t.ex. genom att sträcka ut segmen- tet plus en sväng pà grundtonskurvan medan amplituden har mindre betydelse.

Enligt uppfinningen kan segmenten ha olika duration, dvs. tidslängd. Segmentgränserna är bestämda av övergången från ett fonem till nästa medan den syntaktiska analysen be- stämmer hur långt ett fonem skall vara. Varje fonem har ett skönsvärde. Enligt uppfinningen kan man tänja på kurvorna eller funktionerna för att anpassa tvà durationer mot varan- dra. Detta sker genom kvantisering till ms-intervall och manipulering av kurvornaﬁ Detta underlättas också av att kurvorna är asymptotiska i oändligheten.

Förfarandet enligt uppfinningen tillhandahåller styr- parametrar som direkt kan användas i en konventionell talsyn- tesmaskin. Uppfinningen avser även en sådan maskin. Genom att kombinera formantsyntes med difonsyntes enligt föreliggande uppfinning erhåller man således ett mera naturtroget tal eftersom formantsyntesen ger mjuka kurvor som skarvas utan några diskontinuiteter. Uppfinningen är endast begränsad av nedanstående patentkrav.

Claims

.lir- GN 10 15 20 25 30 35 40 UI -a PATENTKRAV

l. Förfarande för talsyntes, innefattande att parametrar för styrning av syntesen bestäms i punkter, att en matris eller en sekvenslista av styrparametrar bildas för respektive polyfon som utgöres av åtminstone två fonem, kännetecknat av att respektive parameters uppförande i tiden definieras kring varje fonemgräns och att polyfoner skarvas genom att bilda ett viktat medelvärde av de kurvor som definieras av deras tillhörande matriser/ sekvenslistor.
2. tionen av fonem ingående i respektive polyfon anpassas till Förfarande enligt krav 1, kännetecknat av att dura- intilliggande polyfon genom att kvantisera durationen till ett parametersamplingsintervall.
3. Förfarande enligt krav 1 eller 2, kännetecknat av det viktade medelvärdet bildas genom multiplikation med en viktfunktion, företrädesvis en cosinusfunktion.
4 Förfarande enligt något av föregående krav, känne- tecknat av att styrparametrarna bildas med hjälp av ett numeriskt analysförfarande baserat på efterliknande av natur- ligt tal.
5. Förfarande enligt något av föregående krav, känne- tecknat av att polyfonerna är difoner.
6. Anordning för att bilda syntetiska ljudkombinationer inom utvalda tidsintervall, där ett eller flera ljudeffektue- rande organ åstadkommer ljudalstringar av nämnda ljudkombina- tioner, kânnetecknat därav, att ett eller flera styrorgan är anordnade att förorsaka påverkan av nämnda ljudeffektue- rande organ för bildande av ljudkombinationer inom tidsinter- vallen, och att påverkningarna förorsakar en sådan övergång inom respektive berörda tidsintervall, i vilket två difoner kan uppträda, mellan en första representation av en ljud- karakteristik för ett i en första difon ingående andra fonem och en andra representation av en ljudkarakteristik för ett i en andra difon ingående första fonem, där den första repre- sentationen väsentligen steglöst, företrädesvis kontinuer- ligt, övergår i den andra representationen.
7. Anordning enligt krav 6, kännetecknat därav att respektive styrorgan är anordnat att hämta och lagra parame- tersampel för ljudkarakteristiken från ett berört fonem till- hörande en berörd difon.