NO974701L

NO974701L - Syntese av tale-bölgeformer

Info

Publication number: NO974701L
Application number: NO974701A
Authority: NO
Inventors: Andrew Lowry
Original assignee: British Telecomm
Priority date: 1995-04-12
Filing date: 1997-10-10
Publication date: 1997-10-10
Also published as: NO974701D0; CA2189666C; CN1181149A; EP0820626A1; US6067519A; AU707489B2; DE69615832T2; CN1145926C; WO1996032711A1; NZ304418A; EP0820626B1; DE69615832D1; AU5159696A; CA2189666A1; MX9707759A; JP4112613B2; HK1008599A1; JPH11503535A

Description

Foreliggende oppfinnelse angår talesyntese, og angår spesielt talesyntese hvor lagrede segmenter av digitaliserte bølgeformer gjenfinnes og kombineres.

Et eksempel på en talesyntetisator hvor lagrede segmenter av digitaliserte bølgeformer gjenfinnes og kombineres, er beskrevet i en publikasjon av Tomohisa Hirokawa et al, med tittel «High Quality Speech Synthesis System Based on Wa-veform Concatenation of Phoneme Segment» i IEICE Transactions on Funda-mentals of Electronics, Communications and Computer Sciences 76a (1993) november, nr. 11, Tokyo, Japan.

Ifølge foreliggende oppfinnelse er det tilveiebrakt en fremgangsmåte for talesyntese som omfatter de følgende trinn: gjenfinning av en første sekvens av digitale sampler som tilsvarer en første, ønsket tale-bølgeform og første tonehøyde-data som definerer eksitasjons-øyebliklcfor bølgeformen;

gjenfinning av en andre sekvens av digitale sampler som tilsvarer en andre, ønsket tale-bølgeform og andre tonehøyde-data som definerer eksitasjons-øyeblikk for den andre bølgeformen;

dannelse av et overlappings-område ved å syntetisere fra minst en sekvens en forlengelses-sekvens, hvor forlengelses-sekvensen tonehøye-justeres for å være synkron med eksitasjons-øyeblikkene i den respektive andre sekvensen; og

dannelse for overlappingsområdet av vektlagte summer av sampler av den/de originale sekvensen(e) og sampler av forlengelses-sekvensen(e).

I et annet aspekt av oppfinnelsen er det tilveiebrakt et apparat for talesyntese, omfattende: en anordning for lagring av sekvenser av digitale sampler som tilsvarer deler av talebølgeform- og tonehøyde-data som definerer eksitasjonsøyeblikk for disse bølgeformene;

en styrbar styringsanordning for gjenfinning fra lageranordningen 1 sekvenser av digitale sampler som tilsvarer ønskede deler av talebølgeform- og de tilsvarende tonehøyde-data som definerer eksitasjonsøyeblikk for bølgefor-men; og

en anordning for sammenføying av de gjenfundne sekvensene, hvilken sammenføyningsanordning er innrettet for under drift (a) å syntetisere fra minst

den første i et par gjenfundne sekvenser, en forlengelsessekvens for å forlenge denne sekvensen inn i et overlappingsområde med parets andre sekvens, hvilken forlengelsessekvens tonehøyde-justeres for å være synkron med eksitasjonsøye-blikkene i den andre sekvensen, og for (b) å danne for overlappingsområdet en vektlagt sum av sampler av den/de opprinnelige sekvensen(e) og sampler av forlengelses-sekvensen(e).

Andre aspekter av oppfinnelsen er definert i underkravene.

Noen utførelsesformer av oppfinnelsen skal nå beskrives i eksempels form, og med henvisning til de vedføyde tegningene, hvor

Fig. 1 er et blokkdiagram over en form av en tale-syntetisator i samsvar med oppfinnelsen; Fig. 2 er et flytdiagram som illustrerer driften av sammenføyningsenheten 5 i apparatet i fig. 1; og Fig. 3-9 er bølgeform-diagrammer som illustrerer driften av sammenføy-ningsenheten 5.

I tale-syntetisatoren i fig. 1 inneholder et lager 1 talebølgeform-seksjoner generert fra en digitalisert tale-avsnitt, opprinnelig tatt opp fra en talende person som leser et avsnitt (på kanskje 200 setninger) valgt for å inneholde alle mulige (eller i det minste et bredt utvalg av) forskjellige lyder. Således omfatter hver oppføring i bølgeform-lageret digitale sampler av en del av tale som tilsvarer ett eller flere fonemer, med markerings-informasjon som indikerer grensene mellom fonemene. Sammen med hver seksjon er det lagret data som definerer «tone-høyde-merker» («pitchmarks») som indikerer punkter med stemmebånds-lukning (glottal closure) i signalet, generert på vanlig måte under det opprinnelige opp-taket.

Et inngangssignal som representerer tale som skal syntetiseres, i form av en fonetisk representasjon, leveres til en inngang 2. Dette inngangssignalet kan om ønskelig genereres fra et tekst-inngangssignal ved hjelp av konvensjonelle midler (ikke vist). Dette inngangssignalet behandles på kjent måte ved hjelp av en velgerenhet 3 som bestemmer, for hver enhet i inngangssignalet, de adresser i lageret 1 for en lagret bølgeform-seksjon som tilsvarer lyden som representeres av enheten. Enheten kan, som nevnt ovenfor, være et fonem, et difonem (diphone), et trifonem (triphone) eller en annen under-enhet av et ord, og generelt kan lengden av en enhet variere i samsvar med tilgjengeligheten av en tilsvarende bølgeform-seksjon i bølgeformlageret. Der det er mulig, foretrekkes det å velge en enhet som overlapper en forangående enhet med et fonem. Teknikker for å oppnå dette, er beskrevet i vår internasjonale patentsøknad nr. PCT/GB9401688 og US-patentsøknad nr. 166988 inngitt 16. desember 1993.

Så snart enhetene er avlest, utsettes hver av dem individuelt for en amplitude-normaliseringsprosess i en amplitude-justeringsenhet 4 hvis funksjon er beskrevet i vår europeiske patentsøknad nr. 95301478.4.

Enhetene skal så føyes sammen, i 5. Et flytdiagram for denne anordnin-gens funksjon fremgår i fig. 2. I denne beskrivelsen omtales en enhet og den enhet som følger etter den, som henholdsvis venstre enhet og høyre enhet. Der hvor enhetene overlapper - dvs. når den venstre enhetens siste fonem og den høyre enhetens første fonem skal representere samme lyd og bare danner et eneste fonem i det endelige utgangssignalet - er det nødvendig å forkaste den overflø-dige informasjonen, før en «sammensmeltings»-type skjøt lages; ellers er det passende med en «tilstøtnings»-type sammenføyning.

I trinn 10 i fig. 2 mottas enhetene, og trunkering er, eller er ikke, nødvendig, i samsvar med typen sammensmelting (trinn 11). I trinn 12 trunkeres de samsvarende tonehøyde-gruppene (pitch arrays); i gruppen som tilsvarer venstre enhet, kuttes gruppen etter det første tonehøyde-merke til høyre for midten av det siste fonemet, slik at alle tonehøyde-merker etter midtpunktet, bortsett fra ett, slettes, mens i gruppen for høyre enhet, kuttes gruppen før det siste tonehøyde-merket til venstre for midten av det første fonemet, slik at alle tonehøyde-merker før midtpunktet, bortsett fra ett, blir slettet. Dette illustreres i fig. 2.

Før det gåes videre, må fonemene på hver side av skjøten klassifiseres som stemt eller ustemt, på grunnlag av nærvær og posisjon av tonehøyde-merkene i hvert fonem. Bemerk at dette finner sted (i trinn 13) etter «tonehøyde-kutt»-trinnet («pitch cutting»), slik at avgjørelsen om stemthet reflekterer hvert fonems status etter den eventuelle fjerning av noen tonehøyde-merker. Et fonem klassifiseres som stemt, dersom: 1. den tilsvarende del av tonehøyde-gruppen inneholder to eller flere tonehøyde-merker; og 2. tidsforskjellen mellom de to tonehøyde-merkene nærmest skjøten, er

mindre enn en terskelverdi; og

3a. tidsforskjellen mellom tonehøyde-merket nærmest skjøten og midten av fonemet, for en skjøt av sammensmeltingstype, er mindre enn en terskelverdi;

3b tidsforskjellen mellom tonehøyde-merket nærmest skjøten og enden av venstre enhet (eller begynnelsen av høyre enhet), for en skjøt av tilstøt-nings-type, er mindre enn en terskelverdi.

Ellers klassifiseres fonemet som ustemt.

Reglene 3a og 3b er utformet for å forebygge for stort tap av tale-sampler i neste trinn.

I tilfellet med en skjøt av sammensmeltingstype (trinn 14), forkastes tale-sampler-(trinn 15) fra stemte fonemer på følgende måte: Venstre enhet, siste fonem - forkast alle sampler som følger etter siste tonehøyde-merke;

Høyre enhet, første fonem - forkast alle sampler før første tonehøyde-merke; og fra ustemte fonemer ved å forkaste alle sampler på høyre eller venstre side av fonemets midtpunkt (henholdsvis for venstre og høyre enhet).

I tilfellet med en skjøt av tilstøtnings-type (trinn 16, 15), fjernes ingen sampler fra de ustemte fonemene, mens de stemte fonemene vanligvis behandles på samme måte som i tilfellet med sammensmelting, selv om færre sampler vil gå tapt, ettersom ingen tonehøyde-merker vil ha blitt slettet. I det tilfelle at dette vil bevirke tap av et overdrevent antall sampler (f.eks. mer enn 20 ms), fjernes ingen sampler, og fonemet markeres for behandling som ustemt i videre prosessering.

Fjerningen av sampler fra stemte fonemer illustreres i fig. 3. Posisjonene for tonehøyde-merker representeres av piler. Bemerk at bølgeformene som vises, bare er for illustrasjon, og ikke er typiske for reelle tale-bølgeformer.

Prosedyren som skal benyttes for å sammenføye to fonemer, er en overlappings/summerings-prosess. Det benyttes imidlertid forskjellige prosedyrer i henhold til hvorvidt (trinn 17) begge fonemer er stemte (en stemt skjøt) eller hvorvidt ett fonem eller begge fonemer er ustemte (ustemt skjøt).

Den stemte skjøten (trinn 18) skal beskrives først. Dette medfører de føl-gende grunnleggende trinn: syntese av en forlengelse av fonemet ved å kopiere deler av dets eksisterende bølgeform, men med en tonehøyde-periode som tilsvarer det andre fonemet som det skal sammenføyes med. Dette skaper (eller, i tilfellet med en skjøt av sammensmeltingstype, gjenskaper) et overlappingsområde som har samsvarende tonehøyde-merker. Samplene utsettes så for en vektlagt addisjon (trinn 19) for å skape en glatt overgang over skjøten. Overlappingen kan skapes ved forlengelse av det venstre fonemet, eller av det høyre fonemet, men den foretrukne fremgangsmåten er å forlenge både venstre og høyre fonem, slik som beskrevet nedenfor. I nærmere detalj: 1. et segment av den eksisterende bølgeformen velges for syntesen, ved bruk av et Hanning-vindu. Vinduets lengde velges ved å se på de siste to tonehøyde-periodene i venstre enhet og de første to tonehøyde-periodene i høyre enhet for å finne den laveste av disse fire verdiene. Vinduets bredde - til bruk på begge sider av skjøten - settes å være det dobbelte av dette. 2. kilde-samplene for vindusperioden, sentrert på den venstre enhetens nest siste tonehøyde-merke eller den høyre enhetens andre tonehøy-de-merke, ekstraheres og multipliseres med Hanning-vindusfunksjonen, slik som illustrert i fig. 4. Forskjøvne versjoner, i posisjoner som er synkro-ne med det andre fonemets tonehøyde-merker, legges til for å frembringe den syntetiserte bølgeform-forlengelsen. Dette illustreres i fig. 5. Den siste tonehøyde-perioden i venstre enhet multipliseres med halvparten av vindusfunksjonen, og så overlappings-tilføyes de forskjøvne, vindusbehand-lede segmentene i posisjonen for det siste, opprinnelige tonehøyde-merket, og suksessive posisjoner for tonehøyde-merker for den høyre enheten. En lignende prosess finner sted for høyre enhet. 3. de resulterende, overlappende fonemene blir så sammensmeltet; hvert multipliseres med et halvt Hanning-vindu med lengde lik den totale lengde av de to syntetiserte seksjonene slik som vist i fig. 6, og de to legges sammen (med den venstre enhetens siste tonehøyde-merke innrettet med den høyre enhetens første tonehøyde-merke); den resulterende bøl-geformen bør da vise en glatt overgang fra det venstre fonemets bølgeform til det høyre fonemets bølgeform, slik som illustrert i fig. 7. 4. antallet tonehøyde-perioder med overlapping for syntese- og sam-mensmeltingsprosessen bestemmes på følgende måte. Overlappingen strekker seg inn i tiden for det andre fonemet inntil en av de følgende be-tingelser opptrer: (a) fonemets grense blir nådd; (b) tonehøyde-perioden overskrider et definert maksimum; (c) overlappingen når et definert maksimum (f.eks. 5) tonehøyde-perioder.

Men hvis betingelse (a) resulterer i at antallet tonehøyde-perioder faller under et definert minimum (f.eks. 3), kan betingelsen oppmykes for å tillate en ekstra tonehøyde-periode.

En ustemt skjøt utføres, i trinn 20, ganske enkelt ved å forskyve de to enhetene tidsmessig for å skape en overlapping, og ved å bruke en Hanning-vektlagt overlapping/addisjon, slik som vist i trinn 21 og i fig. 8. Varigheten av overlappingen som velges, er, dersom et av fonemene er stemt, varigheten for den stemte tonehøyde-perioden ved skjøten, eller hvis begge er ustemte, en fast verdi (typisk 5 ms). Overlappingen (for tilstøtning) bør imidlertid ikke overskride halvparten av lengden av det korteste av de to fonemene. Overlappingen bør ikke overskride halvparten av den gjenværende lengden hvis de er kuttet for sammensmelting. Tonehøyde-merker i overlappingsområdet forkastes. For en skjøt av tilstøtnings-type anses grensen mellom de to fonemene, med hensyn på senere behandling, å ligge ved midtpunktet for overlappingsområdet.

Denne forskyvnings-fremgangsmåten for å skape overlappingen forkorter selvfølgelig talens varighet. I tilfellet med en sammensmeltings-skjøt, kan dette unngås ved å «kutte» ikke i midtpunktet når sampler skal forkastes, men litt over til en side, slik at når fonemene får sine (opprinnelige) midtpunkter innrettet, resulterer det i en overlapping.

Den beskrevne fremgangsmåten frembringer gode resultater; men fasingen mellom tonehøyde-merkene og de lagrede tale-bølgeformene kan, avhengig av hvordan de førstnevnte ble generert, variere. Selv om tonehøyde-merker synkro-niseres i skjøten, garanterer således ikke dette en kontinuerlig bølgeform over skjøten. Det foretrekkes derfor at den høyre enhetens sampler forskyves (om nødvendig) i forhold til dens tonehøyde-merker i en grad som velges for å maksi- malisere krysskorrelasjonen mellom de to enhetene i overlappingsområdet. Dette kan utformes ved å beregne krysskorrelasjonen mellom de to bølgeformene i overlappingsområdet med forskjellige prøve-forskyvninger (f.eks. ± 3 ms i trinn på 125|is). Så snart dette er gjort, bør syntesen for den høyre enhetens forlengelse gjentas.

Etter skjøting kan det foretas en total tonehøyde-justering på vanlig måte, slik som vist ved 6 i fig. 1.

Sammenføyningsenheten 5 kan realiseres i praksis ved hjelp av en digital behandlingsenhet og et lager som inneholder en sekvens av programinstruksjoner for å implementere de ovenfor beskrevne trinn.

Claims

1. Fremgangsmåte for talesyntese, karakterisert ved de følgende trinn: gjenfinning av en første sekvens av digitale sampler som tilsvarer en første, ønsket tale-bølgeform og første tonehøyde-data som definerer eksitasjons-øyeblikk for bølgeformen; gjenfinning av en andre sekvens av digitale sampler som tilsvarer en andre, ønsket tale-bølgeform og andre tonehøyde-data som definerer eksitasjons-øyeblikk for den annen bølgeform; dannelse av et overlappingsområde ved å syntetisere fra minst en sekvens en forlengelsessekvens, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med eksitasjons-øyeblikkene for den respektive andre sekvensen; og dannelse, for overlappingsområdet, av veiede summer av sampler av den/de opprinnelige sekvensen(e) og sampler av forlengelsessekvensen(e).

2. Fremgangsmåte for talesyntese, karakterisert ved de følgende trinn: gjenfinning av en første sekvens av digitale sampler som tilsvarer en første, ønsket tale-bølgeform og første tonehøyde-data som definerer eksitasjonsøye-blikk for bølgeformen; gjenfinning av en andre sekvens av digitale sampler som tilsvarer en andre, ønsket tale-bølgeform og andre tonehøyde-data som definerer eksitasjonsøye-blikk for den annen bølgeform; syntetisering, fra den første sekvensen, av en forlengelsessekvens ved slutten av den første sekvensen, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med eksitasjonsøyeblikkene for den annen sekvens; syntetisering, fra den annen sekvens, av en forlengelsessekvens ved begynnelsen av den annen sekvens, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med den første sekvensens eksitasjonsøyeblikk; hvorved den første og den annen forlengelsessekvens definerer et overlappingsområde; og dannelse, for overlappingsområdet, av veiede summer av sampler av den første sekvensen og sampler av den annen forlengelsessekvens, og veiede summer av sampler av den annen sekvens og sampler av den første forlengelsessekvens.

3. Fremgangsmåte ifølge krav 2, karakterisert ved at den første sekvens har en del ved slutten av denne som tilsvarer en bestemt lyd, og den annen sekvens har en del ved begynnelsen av denne som tilsvarer den samme lyd, og ved at før syntesen fjernes sampler fra enden av den nevnte del av den første bølgeform og fra begynnelsen av den nevnte del av den annen bølgeform.

4. Fremgangsmåte ifølge krav 1, 2 eller 3, karakterisert ved at hvert syntese-trinn omfatter ekstrahering fra den relevante sekvens av en undersekvens av sampler, multiplisering av underse-kvensen med en vindusfunksjon og gjentatt addering av undersekvensene med forskyvninger som tilsvarer eksitasjonsøyeblikkene for den andre av den første og den annen sekvens.

5. Fremgangsmåte ifølge krav 4, karakterisert ved at vindusfunksjonen er sentrert på det nest siste ek-sitasjonsøyeblikk for den første sekvens og på det andre eksitasjonsøyeblikk for den annen sekvens, og har en bredde som er lik det dobbelte av den minste blant utvalgte tonehøyde-perioder i den første og den annen sekvens, hvor en tone-høyde-periode defineres som intervallet mellom eksitasjonsøyeblikk.

6. Fremgangsmåte ifølge et av de foregående krav, karakterisert ved at før de veiede summer dannes, sammenlignes, over overlappingsområdet, den første sekvens og dens forlengelse, med den annen sekvens og dens forlengelse for å utlede en forskyvningsverdi som maksima-liserer korrelasjon mellom disse, og at de andre tonehøyde-data justeres med den bestemte grad av forskyvning og syntesen for den annen forlengelsessekvens gjentas.

7. Apparat for talesyntese, karakterisert ved at det omfatter: en anordning (1) for å lagre sekvenser av digitale sampler som tilsvarer deler av talebølgeform- og tonehøyde-data som definere eksitasjonsøyeblikk for disse bølgeformer; en styringsanordning (2) som kan styres for å gjenfinne i lageranordningen (1) sekvenser av digitale sampler som tilsvarer ønskede deler av talebølgeform-og de tilsvarende tonehøyde-data som definerer eksitasjonsøyeblikk for bølge-formen; og en anordning (5) for sammenføyning av de gjenfundne sekvenser, hvilken sammenføyningsanordning er innrettet for under drift (a) å syntetisere fra minst den første i et par av gjenfundne sekvenser, en forlengelsessekvens som forlen-ger denne sekvensen inn i et overlappingsområde med den andre sekvensen i paret, hvor forlengelsessekvensen tonehøyde-justeres for å være synkron med eksitasjonsøyeblikkene for denne andre sekvensen, og (b) å danne, for overlappingsområdet, en veiet sum av sampler for den/de opprinnelige sekvensen(e) og sampler for forlengelsessekvensen(e).