NO317600B1

NO317600B1 - Taleomvandling for a gi bedret forstaelighet og basert pa deteksjon av taleintervaller

Info

Publication number: NO317600B1
Application number: NO19986172A
Authority: NO
Inventors: Tohru Takagi; Nobumasa Seiyama; Atsushi Imai
Original assignee: Japan Broadcasting Corp
Priority date: 1997-04-30
Filing date: 1998-12-29
Publication date: 2004-11-22
Also published as: WO1998049673A1; CA2258908A1; EP0944036A4; EP0944036A1; CN1225737A; US6236970B1; US6374213B2; CN1117343C; NO986172L; EP1944753A3; KR100302370B1; CA2258908C; CN1198263C; EP1517299A2; CN1441403A; NO986172D0; EP1517299A3; EP1944753A2; US20010010037A1; KR20000022351A

Description

Oppfinnelsen gjelder taleomvandling for å endre talehastighet, nemlig en fremgangsmåte og et apparat for slik taleomvandling, i den hensikt å gi bedret forståelighet, og basert på reduksjon av talehastigheten, men uten at den totale taletid forlenges. Oppfinnelsen kan anvendes i forskjellige video- og audioapparater, i medisinsk utrustning, i fjernsynsapparater, radiomottakere, båndspillere, videospillere, spillere for optiske plater, høreapparater etc.

Oppfinnelsen gjelder også en registreringsmåte for taleintervaller og et apparat for å anvende denne måte, for å kunne skille mellom forskjellige intervaller i løpet av en taleperiode, nemlig mellom rene taleintervaller og pauseintervaller. Hensikten med dette er å kunne skille ut relevante perioder fra støy eller bakgrunnslyder i et kringkastingsprogram, fra en båndinnspilling eller fra den daglige liv, for å kunne endre tonehøyden av den talte lyd eller stemmen, idet talens innhold blir gjenkjent på blant annet mekanisk måte, talen kodes for overføring til en innspilling eller lignende.

Oppfinnelsen gjelder således en taleomvandlingsmetode og en fremgangsmåte for denne, for omvandling av talehastighet i sanntid ved å behandle de talesignaler som fremkommer fra menneskelig tale, i en rekke prosesser og uten at viktig informasjon tapes. Dette kan skje ved at man hele tiden overvåker en viss (data) lengde i den innkommende tale, en tilsvarende (data) lengde på en utgang etter en beregning i samsvar med en omvandlingsfunksjon som sammenholdes med en gitt skaleringsfaktor, og en (data) lengde av den tale som kommer ut etter taleomvandlingen fra en særlig behandlingsenhet og når denne tale foregår med lavere talehastighet.

I taleomvandlingen og taleomvandleren ifølge oppfinnelsen kan f.eks. et pauseintervall som har lengre varighet enn en gitt terskelverdi som er satt i henhold til en gitt forsinkelsesgrad (en omvandlingsfaktor) som er forventet ved talehastighetsomvandlingen, reduseres på hensiktsmessig måte samtidig med at man reduserer tidsforskjellen mellom en avbildning som en tekst er knyttet til, og den tilhørende tale, f.eks. ved fjernsynsfremføring, til et minimum. En tilsvarende maksimal taleekspansjon eller -forsinkelse kan legges inn innenfor et gitt tidsintervall, automatisk ved tilpasset endring av omvandlingsfaktoren i avhengighet av tidsforskjellen mellom en innkommende talesekvens og den tilsvarende omvandlede utgangssekvens, samtidig med at den totale taletid holdes meget nær den opprinnelige.

Videre beregnes ifølge oppfinnelsen effekten av de innkommende talesignaler ved et gitt tidsintervall, i et tidsintervall (en luke) med gitt varighet eller lengde, hvoretter man skiller mellom taleintervaller og pauseintervaller i hver tidsluke ved å bruke terskelverdien for effekten, idet denne endres i henhold til maksimalverdi og forskjeller mellom denne og en minimalverdi, samtidig med at disse verdier for signaleffekten holdes innenfor verdiene for den foregående tidsperiode eller -luke, slik at man sekvensielt endrer taleeffekten som følge av endringer i den innkommende tale så vel som i bakgrunnslyden. Som et resultat far man en kvalitetsforbedring av den behandlede tale, forbedringer i taleforståelsen, en økning av kode effektiviteten og en bedring i kvaliteten av den dekodede tale, ved å detektere taleintervallene nøyaktig i de tilfeller hvor talehastighet og tonehøyde endres. Mekanisk oppfattelse av taleinnholdet og koding av talen for å overføring eller innspilling/registrering og lignende kan derved bedre utføres med den omvandlede tale, sammen med passende støy eller bakgrunnslyder, for kringkastingsprogrammer, båndinnspilling eller for dagliglivet.

I tillegg kan taleprosesseringen utføres i sanntid, slik at beregningstiden og dermed kostnadene kan holdes nede, idet dette utføres bare ved å bruke effekten som en parameter idet denne kan utledes relativt enkelt.

Fra bakgrunnsteknikken skal nevnes at talehastighetsendring kan brukes i kringkasting i spesielle tilfeller hvor en forsinkelse i forhold til originaltalen er nødvendig, slik at ikke utsendelser, blant annet viktige nyheter, blir sendt ut "på direkten". Enkelte ganger kan det i imidlertid være uheldig med en forsinkelse, når viste bilder samtidig presenteres med talen, i kontrast med den virkning som forventes ved taleomvandlingen.

Som tilnærmelser for å oppnå omvandlingsvirkningen for endring av talehastighet (tilsynelatende langsom tale) uten forsinkelse i forhold til den opprinnelige tale har man utviklet en metode som reduserer taleforlengelsen, selv om talehastigheten reduseres bestemte steder, ved å øke talehastigheten andre steder, nemlig i perioder som starter i pustepauser og slutter når talen igjen begynner, i stedet for en jevn taleomvandling til lavere talehastighet. Derved reduseres pausene mellom taleperiodene. Denne teknikk er beskrevet i litteraturen (R. Ikezawa et al., "An Approach for Absorbing Extension i Time Caused in Speech Speed Conversion", Spring Conference, Japanese Acoustic Society, 2—6-2, pp. 331-332, 1992). En tilsvarende måte å oppnå dette i sanntid er beskrevet i (A. Imai et al., "Real Time Absorption Method for Extension in Time Caused in Speech Speed Conversion", in International Conference, IEICE, D-694, pp. 300,1995), etc.

Det første av disse litteratursteder angir en egnet funksjon som brukes manuelt og under den betingelse at alle taletyper er kjent. Det andre litteratursted angir en funksjon som fastlegger en faktor manuelt og deretter holder denne funksjon permanent.

I tillegg settes bare den konstante resttid manuelt for å redusere pauseintervallene. Hvis det integreres en "inkonsistens" vil den utvidede tale samles opp i et bufferlager og tas ut manuelt.

Den kjente teknikk innebærer altså et problem ved at taleomvandlerne ikke kan håndtere forskjellige talemåter (talehastighet, "timing" i talen etc.) i kringkastet tale, i avhengighet av hvem taleren er, og dessuten må gitte parametere settes manuelt. Problemene er at taleomvandleren får en rekke driftspunkter, settingen er i og for seg vanskelig, og det er vanskelig for den vanlige bruker å kunne betjene apparaturen (taleomvandleren).

I en slik kjent apparatur må dessuten taleintervallene og pauseintervallene skilles fra hverandre, og for dette foreligger flere systemer henholdsvis detektormekanismer.

En slik mekanisme bruker beregning av et støynivå og et talenivå ut fra effekten i et talesignal etc. Deretter settes et terskelnivå ut fra beregningsresultatene, og det innkommende talesignal sammenlignes med dette nivå. Et intervall i den innkommende tale fastlegges å være et taleintervall dersom signalnivået ligger høyere enn terskelverdien, mens et intervall uten tale (en talepause) blir når signalnivået ligger under samme terskel.

Forskjellige måter brukes for å bestemme terskelnivået i en slik mekanisme, her skal nevnes tre måter: Den første går ut på å tilføye en gitt konstant til et støynivå for den innkommende tale, slik at dette fastlegger terskelverdien. Den andre måte er en forbedret variant av den første og hvor terskelverdien settes relativt høyt når en forskjell i signalnivå som fremkommer ved å trekke støynivået fra en maksimalverdi for det innkommende talesignal er stor, mens terskelnivået settes til en relativt liten verdi når forskjellen er liten (se f.eks. patentskriftene JP (Sho) 58-130395 og JP (Sho) 61-272796 etc.) Den tredje måte innebærer et tillegg ved at man i tillegg til de to terskelbestemmelser overvåker inngangssignalet som representerer talen kontinuerlig, idet man regner at inngangssignalet tilsvarer støynivået når nivået holder seg konstant over en gitt tidsperiode, mens en terskelverdi brukes for taleintervallet som fastlegges når støynivået oppdateres sekvensielt (se Proceeding in International Conference, IEICE, D-695, pp 301,1995). Følgende-problemer kjennes likevel for disse måter å benytte taleomvandling på: Den første måte har fordelen av å være enkel og kan arbeide ganske godt når det gjennomsnittlige talenivå er moderat, men støy kan lett registreres feil, dvs. som tale når det midlere talenivå er for stort, og det er lett å miste deler av talen under registreringen når gjennomsnittsnivået er lavt.

Den andre måte unngår disse ulemper, men siden støy- og bakgrunnslyder som hører til inngangssignalet må holde seg relativt konstante vil dette være en begrensning ved at de enkelte variasjoner nok kan følges i talenivået, men dersom i tillegg støyen og bakgrunnslydene endres for mye vil dette forstyrre registreringen og intervalloppdelingen blir feil.

Siden imidlertid variasjonene i støynivå tas hensyn til ved bruk av den tredje måte, vil man ikke så lett få feilregistrering selv om støyen skulle endre seg.

Det er imidlertid ikke bare ren bakgrunnsstøy som må tas med i betraktningen, men også bakgrunnslyder så som musikk, imitasjonslyder og annet, f.eks. lyder som man normalt vil skal være med i et kringkastingsprogram etc. Det vanlige er at slike bakgrunnslyder endrer nivå mer eller mindre synkront med talen, og derved vil taleinngangssignalet sjelden holde seg relativt konstant over en gitt tidsperiode. I slike tilfeller vil det også være vanskelig å registrere taleintervallene presist i forhold til de øvrige intervaller i programmet, siden støynivået ikke kan settes korrekt som følge av variasjonene.

Det er på denne bakgrunn oppfinnelsen kommer inn, og det er et mål med den å tilveiebringe en talehastighetsomvandling og et tilhørende apparat som kan benevnes en taleomvandler, for adaptiv styring av omvandlingsfaktoren for talehastighetsend-ringen/intervallene hvor det ikke foregår noen tale, ut fra gitte betingelser og bare ved å innstille omvandlingsfaktoren som brukes som flertrinnshjelpemiddel en gang for alle av brukeren, og dessuten for å frembringe den forventede virkning for talehastighetsomvandlingen, stabilt innenfor tidsområdet som gjelder.

Dette oppnås med fremgangsmåten og apparatet slik de er definert med de i kravene anførte trekk.

Nå skal oppfinnelsens taleomvandling og taleomvandler nærmere beskrives, og det vises til tegningene, hvor figur 1 blokkskjematisk illustrerer en typisk taleomvandler ifølge en første utførelse, figur 2 viser en taleperiodedetektor i en første utførelse, figur 3 viser skjematisk hvordan denne detektor arbeider med et innkommende talesignal som består av taleperioder og mellomliggende pauser, figur 4 viser skjematisk en måte å frembringe kombinasjonsdata på, for å kople inn en og samme blokk som tilsvarer en tidsluke med eller uten tale, gjentatt og ved hjelp av en første ordningsgenerator vist i blokkskjemaet på figur 1, figur 5 viser hvordan en monitor/komparator for innkommende og utgående talesekvenser er utformet, inne i den andre ordningsgenerator som er vist på figur 1, og figur 6 viser et eksempel på en kombinasjon som følger en bestemt ordning og som utføres i den andre ordningsgenerator.

Figur 1 viser således et blokkskjema over en taleomvandler i en typisk utførelse av oppfinnelsen. Omvandleren omfatter en inngang 1, en A/D-omvandler 2, en analysator 3, en blokkseparator 4 for å dele opp den innkommende signalstrøm som inneholder tale og mellomrom, også kalt taleperioder og pauser, til enkelte sekvenser som representerer blokker, et blokklager 5 for å lagre slike blokker i digitalt format, en første ordningsgenerator 6, et ordningslager 7, en andre ordningsgenerator 8, en blokksamler 9, en D/A-omvandler for å gjøre om den digitaliserte tale til analog form, og en utgang 11. Når de talehastighetsomvandlede talesekvenser, omgjort til digital form (data) blir syntetisert i taleomvandleren ved å gjennomgå en analyse i analysatoren, idet de tilførte talesignaler på inngangen kan komme fra en taler, skjer analysen på basis av såkalte attributter som er særegne for den innkommende tale. En bestemt funksjon fra analysen benyttes i taleomvandleren for å unngå at informativ tale faller ut ved omvandlingen, og en endringer i en skaleringsfaktor utføres for å unngå forskjell mellom innholdet i den innkommende tale og den utgående og omvandlede tale, idet denne forskjell kan kalles uoverensstemmelse eller inkonsistens. Forskjellen unngås ved å sammenligne en bestemt innkommende sekvens (en datalengde) med en "måldatalengde" som tilsvarer en utgående talesekvens og som fremkommer ved å beregne ved multiplikasjon med en skaleringsfaktor, og en utgående "datalengde" for de aktuelle talesignaler som sendes ut fra omvandleren. Sammenligningen går altså ut på å sette opp kriterier for den tale som ønskes levert fra omvandleren, sammen-holdt med den tale som kommer inn og den som i virkeligheten blir levert. Sammenligningen baserer seg på overvåking av tidsforskjeller mellom intervaller i originaltalen som kommer inn til omvandleren og som til stadighet endrer seg, og den tale som går ut etter omvandlingen. Oppfinnelsens taleomvandler kan adaptivt eliminere tidsforskjellen mellom den opprinnelige tale og den utgående, nemlig den tidsforskjell som normalt vil fremkomme når man endrer talehastigheten, ved at man kan endre skaleringsfaktor for denne talehastighetsendring adaptivt, dvs. ved å øke faktoren midlertidig når tidsforskjellen er liten og redusere den midlertidig når tidsforskjellen er stor. Videre endres den resterende faktor for pausene adaptivt på basis av omvandlingsfaktoren for taletidsøkningen, hvilken tillatt tidsøkning man vil ha etc.

A/D-omvandleren 2 utfører omvandling fra analog til digital form for det innkommende talesignal til inngangen, idet talesignalet kommer fra en analog utgangsterminal som tilhører en videospiller, et audioapparat, en mikrofon, et fjernsynsapparat, en radiomottager eller lignende. Omvandlingen i omvandleren 2 skjer ved en gitt samplingstakt (f.eks. 32 kHz) og overfører den tilsvarende digitale talestrøm (taledata) til den etterfølgende analysator 3 og samtidig til den viste blokkseparator 4, i riktig mengde i forhold til tiden, idet et fifo-lager kan håndtere eventuelle overskytende taledata.

Analysatoren gjennomgår den innkommende digitale talestrøm og indikerer hvilke intervaller som tilsvarer talepauser og hvilke som tilsvarer aktiv tale, og fra analysatorens utgang føres separasjonsinformasjon til blokkseparatoren 4 som samler disse to kategorier tale i respektive blokker, basert på de intervaller som indikeres av analysatoren.

Den måte de enkelte taleintervaller registreres på og de kretser og enheter som brukes for dette skal nå gjennomgås.

I oppfinnelsens taleomvandling og dens taleomvandler, med hensyn til det faktum at nivåvariasjon i talen i inngangssignalet reflekteres i forhold til en maksimalverdi av effekten av inngangssignalet umiddelbart før og nivåvariasjonene i bakgrunnslyden reflekteres mot en minimalverdi av effekten umiddelbart før, dersom effekten av inngangssignalet brukes som en indeks, kan en terskelverdi fastlegges ved en slik prosess at en verdi som oppnås ved å trekke en gitt verdi fra maksimalverdien for effekten umiddelbart før settes som en grunnterskelverdi hvoretter korreksjon innføres for å øke denne verdi som en verdi som oppnås ved å trekke minimalverdien fra maksimalverdien for effekten av inngangssignalet umiddelbart før, blir øket (når et signal/støyforhold reduseres), når støy sjelden forekommer, for å fastlegge en terskelverdi for separasjon mellom taleperioder og pauser.

Deretter beregnes, ifølge taleintervallregistreringsmåten og taleomvandleren for å utføre denne, signaleffekten av de innkommende talesekvenser ved et gitt intervall som kan benevnes tidsluke og har en gitt lengde, så skilles mellom taleintervallenes taleperioder og mellomliggende pauser i hver tidsluke ved å bruke terskelverdien for effekten - som endres i henhold til maksimalverdien og forskjellen mellom maksimalverdien og minimalverdien, under sekvensiell respons overfor endringer i effekten av det innkommende talesignal og bakgrunnslyden, for å opprettholde maksimal-, og minimalverdien av effekten i det siste gitte tidsintervall.

Beskrivelsen viser til de utførelseseksempler som er satt opp i tegningene. Særlig viser figur 2 en taleperiodedetektor, og den omfatter en effektmåler 32 for å beregne signaleffekten av det digitaliserte inngangssignal ved et gitt tidsintervall og innenfor en tidsluke med gitt lengde, en første holdekrets 33 for maksimalverdier av effekten i den siste gitte tidsluke, en andre holdekrets 34 for minimalverdier for samme, en terskelkrets 35 for effektnivået, idet dette effektnivå endres både i samsvar med maksimalverdien og forskjellen mellom denne, slik den opprettholdes i den første holdekrets 33, og minimalverdien, slik denne opprettholdes i den andre holdekrets 34, og en diskriminator 36 for å skille mellom de intervaller eller tidsluker hvor tale pågår (taleperiodene) og hvor det ikke er noen tale (pausene), ved å sammenligne terskelverdien som er bestemt i terskelkretsen 35, med signaleffekten i den tidsluke som gjennomløpes i øyeblikket.

Taleperiodedetektoren 31 beregner signaleffekten i det gitte tidsintervall, nemlig i tidsluken som har en gitt varighet, og deretter separeres taleperiodene fra pausene ved å bruke terskelverdien for effekt, idet denne endres i henhold til maksimalverdien og forskjellen mellom denne og minimalverdien under sekvensiell respons til endringer i effekten i den innkommende tale (av talesignalet) og signalene som representerer bakgrunnslyden, for å opprettholde maksimal- og minimalverdien av effekten for den sist gjennomløpte tidsperiode (tidsluke).

Effektmåleren 32 beregner kvadratsummen eller den kvadratiske middelverdi av signalet i et tidsintervall med varighet 5 ms over en lukelengde på f.eks. 20 ms, og deretter settes tidslukeeffekten ved dette tidspunkt til verdien P, idet denne verdi angis logaritmisk, dvs. i desibel. Verdien P føres til den første holdekrets 33, den andre holdekrets 34 og diskriminatoren 36.

Den første holdekrets er innrettet for å holde verdien P innenfor den forrige gitte tidsperiode (dvs. 6 sekunder) og alltid overføre den holdte effektmaksimalverdi P„ for overføring til terskelkretsen 35. Denne øvre effektverdi oppdateres imidlertid når effektverdien P er større, og da overføres denne større verdi fra effektmåleren 32 for oppdatering til en ny maksimalverdi Pu.

Den andre holdekrets 34 for minimalverdier er analogt med den første krets innrettet for å holde en bestemt effektverdi fra den siste periode (i dette tilfelle 4 sekunder), men effektverdien er i dette tilfelle minimalverdien P[ som også videreføres til terskelkretsen 35. Når imidlertid den målte effekt P er mindre enn denne minimalverdi Pl oppdateres denne til den nye, lavere verdi fra effektmåleren.

Terskelkretsen 35 fastlegger en effektterskelverdi Pt ved å utføre de beregninger som er satt opp i ligningene nedenfor, f.eks. ved bruk av maksimalverdien Pu i den første holdekrets og minimalverdien Pi i den andre holdekrets 34, hvoretter terskelverdien Pt overføres til diskrirninatoren:

I dette tilfelle er det ønsket at en øvre grense for Pt settes til Pt = Pu - 13 for å hindre at taleomvandleren svikter når bakgrunnslyden nærmer seg talenivået. Konstanten 35 ovenfor tilsvarer en grunnterskelverdi når slik bakgrunnslyd (støy) sjelden vil forekomme.

Diskrirninatoren 36 sammenligner den aktuelle målte effekt P fra effektmåleren 32 hver tidsluke med terskelverdien Pt fra terskelkretsen 35 og fastlegger for hver tidsluke at denne hører til taleintervallet når P > P, tilfredsstilles og at luken videre hører til en pause når P Pt gjelder. Deretter føres et skillesignal som separerer taleperiodene fra pausene ut, basert på disse kriterier.

Følgelig og som vist på figur 3 og under forutsetning av at effektnivået for de innkommende talesignaler endres kan maksimal- og minimalverdien for effekten opprettholdes og relateres til effekten P fra effektmåleren 32, henholdsvis i den første og andre holdekrets 33, 34. Deretter fastlegges terskelverdien Pt ut fra disse holdte verdier, og ut fra den fastlagte terskelverdi bestemmes om tidslukene hører til en taleperiode eller en pause.

På denne måte og i denne utførelse beregnes effektnivået av de innkommende talesignaler ved en forhåndsbestemt tidsperiode, med sekvensiell respons overfor effektendringene både av talesignalet og signalet som tilsvarer bakgrunnslyden, slik at maksimal- og minimalverdien av effekten holdes som i den sist gjennomløpte periode. Taleperioder og pauser skilles fra hverandre ved å bruke terskelverdien for effekten, som nevnt ovenfor. På denne måte kan tale som kommer inn sammen med bakgrunnsstøy eller andre lyder i et kringkastingsprogram, fra en innspilling eller fra reportasjer i det fri skilles fra pauser, og dette gjøres presist fra tidsluke til tidsluke.

I denne utførelse og siden man estimerer et signalnivå for bakgrunnsstøyen ut fra minimalverdien for den momentane signaleffekt i den gjennomløpte tidsperiode kan taleperioder og pauser skilles fra hverandre selv om signalnivået for bakgrunnsstøyen vil variere hele tiden i et kringkastingsprogram etc., og samtidig med variasjonene innenfor taleperiodene.

Som et resultat av dette og i det tilfelle hvor:

(a) styrken av den stemme som taler og hastigheten av talen i det innkommende talesignal endres ved behandling av talen,

(b) innholdet i talen i det innkommende talesignal gjenkjennes mekanisk, og

(c) talen i inngangssignalet kodes for overføring til registrering etc., forbedring av kvaliteten av behandlet lyd, forbedring av talegjenkjenningstakten, økning av kodeeffektivi-teten og forbedring av kvaliteten i den dekodede tale, kan taleomvandlingen anses vellykket.

Siden bare signaleffekten, som kan utledes relativt enkelt, brukes som parameter kan beregningstiden kortes ned, og dessuten kan konfigurasjonen av hele taleomvandleren gjøres enklere og derved redusere kostnadene ytterligere. I tillegg kan taleprosessering utføres i sanntid.

Videre vil følgende signalbehandlingstrinn utføres i henhold til oppfinnelsens taleomvandling: Fastleggelsen av om talen er informativ tale med basis i vibrasjoner av en persons taleorganer eller om den overførte "tale" ikke stammer fra slike vibrasjoner, overføres til intervallet hvor effekten overstiger terskelverdien Pt, dvs. taleintervallet. Ikke bare størrelsen av effekten, men også nullgjennomgangsanalyse, autokorrelasjon etc. kan tillempes denne fastleggelse.

Når en blokk av det digitaliserte talesignal brukes for analyse av taledata registreres først periodisiteten ved å bruke autokorrelasjon og taleintervallet (lydintervaller med reell tale, lydintervaller uten menneskelig tale) og pauser mellom taleperioder, og deretter fastlegges blokklengdene ut fra denne periodisitet. Deretter registreres tonehøydeperioder, nemlig vibrasjonsperioder for de menneskelige stemmebånd, ut fra lydintervallet med tale, og til slutt deles intervallet opp slik at de enkelte tonehøydeperioder tilsvarer de respektive blokklengder. Ved dette tidspunkt og siden tonehøydeperiodene i intervallet blir fordelt over hele det store tidsområde 1,25 til 28 ms, og siden nøyaktige tonehøydeperioder kan registreres ved å utføre autokorrelasjon over forskjellige lukelengder oppnår man at tonehøydeperiodene kan brukes som blokklengde for det talte lydintervall for å hindre endringer i tone- eller talehøyden ved repetisjon i en blokkenhet. Som med talefrie lydintervaller og pauser uten tale registreres blokklengden ved å detektere periodisitet innenfor 5 ms.

Deretter deler blokkseparatoren 4 opp de innkommende taledata fra omvandleren 2 i samsvar med den blokklengde som er fastlagt av analysatoren 3 og viderefører disse taledata etter oppdelingen i blokkenheter og med fastlagt blokklengde til det etterfølgende blokklager 5. Blokkseparatoren 4 tilfører også begge ender av de innkommende taledata fra oppdelingsprosessen i blokkenheter, dvs. den gitte tidslukelengde (dvs. 2 ms) etter en startdel og en gitt lukelengde (dvs. 2 ms) før en sluttdel av en talesekvens på digital form, til den etterfølgende første ordningsgenerator 6.

Blokklageret 5 lagrer de innkommende taledata som er oppdelt i blokker, fra blokkseparatoren 4 og den tilhørende blokklengde midlertidig ved hjelp av en ringbufferkrets. Blokklageret 5 kan i tilfelle tilføre disse midlertidig lagrede taledata til en etterfølgende blokksamler 9 og overfører de blokklengder som er lagret midlertidig til den andre ordningsgenerator 8.

Den første ordningsgenerator 6 tilordner tidsluker til de innkommende taledata i endepartiet av den foregående blokk, startområdet av den aktuelle blokk og startområdet i den etterfølgende blokk, for hver aktuell blokk, slik det er vist på figur 4. Deretter utføres overlappende summering av endepartiet av den foregående blokk og endepartiet av den aktuelle blokk og overlappende summering av startdelen av den aktuelle blokk og startdelen av den etterfølgende blokk, for til sist å frembringe ordningsdata for hver blokk ved å kople dem sammen og overføre disse ordnings- eller koplingsdata til det etterfølgende ordningslager 7.

Ordningslageret 7 lagrer disse ordningsdata for de enkelte blokker fra ordningsgeneratoren 6, temporært ved hjelp av en ringbufferkrets og tilfører deretter de ordningsdata som er lagret temporært til blokksamleren 9 om nødvendig.

Generatoren 8 frembringer koplingsordenen for disse taledata i blokkenheter og ordningsdata for å oppnå den ønskede talehastighet som bestemmes av en lytter. I dette tilfelle kan lytteren sette en tidsøkningsfaktor for forskjellige attributter (talte lydintervaller, intervaller uten talt lyd og pauser uten tale) ved å bruke et digitalt volum som et grensesnitt. Denne verdi lagres i et leselager. Verdien kan også tilveiebringes ved å velge en fremgangsmåte (jevn økningsmodus) hvor verdien prosesseres som en fast økningsfaktor, eller en fremgangsmåte (tidsøkningsabsorbsjonsmodus) hvor en talehastighetsomvandlings-effekt kan oppnås innenfor et begrenset tidsområde ved å kontrollere/styre de enkelte taleattributter totalt og adaptivt under sikting mot en slik settfaktor og uten å integrere inkonsistensen over en gitt tidsperiode.

Som følge av den andre ordningsgenerator 8 kan tidsforskjellen mellom en frembrakt varighet for originaltalen og en brukt tid for den omvandlede tale alltid overvåkes ved å fange opp tidsforholdene som vedrører den innkommende tales datalengde og den tilsvarende datalengde for den utgående tale ved samme tidspunkt når talesyntese utføres i virkeligheten ved å bruke den økningsfaktor som er satt i lageret, idet taledatalengden som skal syntetiseres, slik at tidsforskjellen kan undertrykkes automatisk innenfor en konstant lengde ved å føre denne informasjon tilbake. Samtidig kan det kontrolleres om man har uoverensstemmelse eller inkonsistens i tid (dvs. forespørre slik at den utgående taledatalengde blir satt kortere enn den tilsvarende innkommende lengde) ved å bruke en skaleringsfaktor som endres til en vilkårlig verdi ved en vilkårlig "timing", og derfor kan utfall av viktig taleinformasjon ved syntesen hindres.

Nå skal prosessen i den andre ordningsgenerator 8 forklares i detalj. Når skaleringsfaktoren for talen settes av en vilkårlig funksjon beregnes taledatalengden (den innkommende tales datalengde) sekvensielt i en prosessenhet som spesifiseres av blokkseparatoren 4, basert på de respektive blokklengder som tilføres fra blokklageret 5, og deretter settes en lengde som utledes ved multiplikasjon av den innkommende datalengde med skaleringsfaktoren som på sin side fastlegges av lytteren, som en "måldatalengde", dvs. som en lengde som er ønsket. Blokksamleren 9 kopler de aktuelle taledata til sammenfall med denne måldatalengde og fører dessuten tilbake taledatalengden (lik utgangsdatalengden) som er en lengde av de utgående taledata som går ut i virkeligheten, sekvensielt til den andre ordningsgenerator 8.

Deretter og som vist på figur 5 sendes en mållengde som frembringes av en monitor/komparator 20 for inn/ut-datalengde og anordnet i den andre ordregenerator 8, til blokksamleren 9 som koplingsordensinformasjon. Monitor/komparatoren 20 for blokk- eller datalengde inn/ut omfatter en første overvåkingskrets 21, en beregningskrets 22 for måldatalengde for de utgående data som frembringes ved taleomvandlingen og som bygger på inngangsdatalengdene gitt av overvåkingskretsen 21 og verdien som settes av lytteren (eller fra en funksjonsmekanisme som er lagret og innebygget i taleomvandleren) for å ta et eksempel, og dessuten for automatisk korreksjon av denne måldatalengde; en første komparator 23 for sammenligning av måldatalengden fra beregningskretsen 22 med inngangsdatalengde fra den første overvåkingskrets 21, hvoretter måldatalengden settes til å sammenfalle med inngangsdatalengden dersom den er kortere enn denne, men videreføring av denne måldatalengde som den nå er dersom den er lengre enn inngangsdatalengden; en andre overvåkingskrets 24 for å motta ferdig ordnet informasjon som gjelder de utgangsdata som kommer fra blokksamleren 9 for å overvåke utgangsdatalengden; og en andre komparator 25 for å sammenligne utgangsdatalengden som kommer fra den andre overvåkingskrets 24 med den måldatalengde som fremkommer fra den første komparator 23 og deretter innstilling av måldatalengden for å sammenfalle med utgangsdatalengden dersom den er kortere enn denne, men videreføring av måldatalengden som den er dersom den er lengre enn denne. Som beskrevet senere leser monitoren/komparatoren 20 ut verdier som er lagt inn i lageret for hver taleattributt og ved et gitt tidsintervall, deretter beregnes måldatalengden for å oppnå tidsøkningsfaktorer for hver utlest attributt, så frembringes ordningsinformasjonen som tilføyes skaleringsinformasjon for talen, ved hvert øyeblikk og basert på måldatalengden og utgangsdatalengden som frembringes fra den andre overvåkingskrets 24, og til sist sammenkoples de aktuelle taledata og ordningsdata for hver blokk, slik det er vist på figur 6.

Først sammenlignes inngangs- og måldatalengden med hverandre, og deretter korrigeres den siste for å sammenfalle med den første dersom det er fastlagt at denne første lengde er større enn den siste, men endringer i måldatalengden vil stilles i bero hvis det er fastlagt at inngangsdatalengden er mindre enn den.

Deretter sammenlignes måldatalengden med den aktuelle utgangsdatalengde sekvensielt med hverandre, og måldatalengden korrigeres for å sammenfalle med utgangsdatalengden dersom det er fastlagt at denne er lengre enn måldatalengden, men endringer i måldatalengden holdes tilbake dersom det er fastlagt at utgangsdatalengden er mindre enn denne.

Sammenkoplings- eller ordningsinstruksjoner som indikerer tidsøkningsinforma-sjonen, ordningsinformasjonen etc. frembringes for å sørge for sammenfall mellom de enkelte måldatalengder som fremkommer ved sammenligningene, hvoretter instruksjonene overføres til blokksamleren 9.

De styre- og kontrollbetingelser som gjelder talehastighetsomvandlingsfaktoren som frembringes i den andre ordningsgenerator 8 skal nå beskrives. Hvis f.eks. hastighets-omvandling ønskes innenfor det begrensede tidsomfang som f.eks. kan tilsvare en tidsluke innenfor kringkastet informasjon overvåkes inngangs- og utgangsdatalengden sekvensielt for å måle tidsforskjeller mellom dem ved et tidsintervall som på forhånd er satt vilkårlig, og deretter kan en funksjon for å endre skaleringsfaktoren adaptivt settes slik at hastighetsomvandlingsfaktoren økes midlertidig dersom en forsinkelse er liten, men reduseres midlertidig hvis forsinkelsen er stor.

I denne utførelse kan man f.eks. anta at starttiden for en første talelyd som dukker opp en viss tid etter en talepause, nemlig mer enn 200 ms senere, settes til tidspunktet t = 0, og deretter kan en cosinusfunksjon som er gitt av ligning 3 nedenfor brukes som en egnet funksjon for å frembringe en faktor som samsvarer med starttidspunktet for talt lyd som kommer opp i tidsintervallet 0 t:

hvor t er gitt av ulikheten ovenfor, rs er en ekstern inngangsverdi som settes av lytteren (1,0 rs 1,6), og re er en verdi som settes som en startverdi (f.eks. lik 1,0).

Deretter beregnes tidsforskjellen mellom inngangs- og utgangsdatalengden ved et bestemt og konstant tidsintervall, f.eks. hvert sekund, og prosessen utføres slik at inngangs-eller startverdien re økes fra 1,0 i trinn på 0,05 og omvendt reduseres til omkring 0,95 i samsvar med tidsforskjellen ved dette tidspunkt. Dersom imidlertid det ikke har forekommet noen talepauser på mer enn 200 ms ved tidspunktet som overstiger tidsperioden T, legges en faktor på f.eks. 1,0 inn for det etterfølgende talefylte lydintervall. I dette tilfelle kan en ny faktor gis ved å bruke en variabel så som tonehøyde, signaleffekten etc. som indeks.

Videre kan en resterende takt for talepausene endres adaptivt med hensyn til talehasitghetsomvandlingsfaktoren, tidsøkningsstørrelsen etc., og dette kan settes vilkårlig som en funksjon. Deretter settes en kompresjonsgrense (en verdi som indikerer hvor lenge et siste intervall skal tas vare på uten reduksjon) for pauseintervallet, for å tilsvare den eksterne inngangsverdi rs. Denne grense kan uttrykkes ved funksjonen angitt ovenfor, men den kan også settes diskret, f.eks. slik det er satt opp nedenfor:

Ved rs = 1,0 kan grensen reduseres opp til 300 ms

Ved rs = 1,1 kan grensen reduseres opp til 250 ms

Ved rs = 1,2 kan grensen reduseres opp til 230 ms

Ved rs = 1,3 kan grensen reduseres opp til 200 ms

Ved rs = 1,4 kan grensen reduseres opp til 200 ms

Ved rs = 1,5 kan grensen reduseres opp til 150 ms

Ved rs = 1,6 kan grensen reduseres opp til 100 ms

I tillegg kan et reduksjonssystem for pauseintervallene implementeres ved å endre en datapeker til en vilkårlig adresse i ringbufferkretsen. I denne utførelse kan man hindre at informativ tale faller ut ved å endre pekeren til i stedet å peke på startdelen av den talte lyd umiddelbart etter den aktuelle talepause.

Videre leser blokksamleren 9 de aktuelle taledata fra blokklageret 5 i blokkenheter og i samsvar med den koplingsorden som er fastlagt av den andre ordregenerator 8. Deretter "strekkes" de aktuelle taledata ut i den angitte blokk, disse taledata og ordningsdata koples sammen under utlesing av de siste fra ordningslageret 7, og samordningsprosessen holdes tilbake for ikke å forårsake overløp og kapasitetssperring i fifo-lageret i D/A-omvandleren 10, hvoretter utgangstaledata frembringes for overføring til denne omvandler.

Omvandleren 10 gjør om de utgående talesignaler på digital form (taledata) ved en gitt samplingstakt, f.eks. 32 kHz) samtidig med at de taledata som tilføres fra blokksamleren 9 holdes tilbake ved buffervirkning i fifo-lageret, og deretter frembringes det analoge utgående talesignal på utgangen 11.

På denne måte og i denne utførelse, når de talehastighetsomvandlede digitale talesignaler syntetiseres ved å innordnes en analyseprosess, ut fra den tale en taler frembringer og basert på attributtene i talen, hvorved det brukes en ønsket funksjon i henhold til den analyserte informasjon, kan oppfinnelsens taleomvandler eliminere tap av informativ tale ved endringer i tidsøknings/skaleringsfaktorer siden disse prosesser kan utføres uten uoverensstemmelse eller inkonsistens under sammenligning av inn-gangsdatalengder, måledatalengder som er beregnet ved å multiplisere inngangsdatalengdene med en skaleringsfaktor, og den aktuelle utgående taledatalengde.

Som angitt tidligere kan faktorene endres adaptivt, og både omvandlingsfaktoren og talepausene kan kontrolleres/styres i henhold til gitte betingelser, bare ved at man setter omvandlingsfaktoren som et fiertrinnsmiddel som kan settes en gang for alle av brukeren. Følgelig får man den forventede virkning ved taleomvandlingen, og virkningen kan oppnås stabilt innenfor det tidsskjema som ønskes.

Som et resultat av dette vil den mest egnede talehastighetsomvandlingsvirkning for de forskjellige talere automatisk settes opp i et kringkastingsprogram hvor talerne skifter hyppig etc. I tillegg gjør oppfinnelsen det mulig for eldre personer og personer med handikap når det gjelder bilde- eller lydoppfatning, som kan ha vanskelig for å oppfatte rask tale, at også slike personer kan få utbytte av nyheter som må kunne formidles i sanntid eller tilnærmet sanntid, og oppfatte tale som hører sammen med bildepresentasjon, så som fra et fjernsynsapparat. Talen kan derved oppfattes mer stabilt og tilsynelatende noe langsommere, men uten at den totale taletid endres vesentlig, og dette er ifølge oppfinnelsen oppnådd med relativt enkle betjeningsmidler fra brukerens/lytterens side.

Når det gjelder den industrielle anvendelighet kan oppfinnelsens taleomvandling og taleomvandler med adaptiv styring av hastighetsendirngsfaktoren for henholdsvis taleperioder og pauser innstilles på enkel måte ved å sette omvandlingsfaktoren en gang for alle av brukeren, selv om denne setting blir et virkemiddel som gjelder flere trinn.

Man kan således ifølge oppfinnelsen skille ganske presist mellom taleperioder og mellomliggende pauser, og dette kan skje i reell tid (sanntid) slik at man sekvensvis kan endre de enkelte nivåer i talen henholdsvis bakgrunnslyden i talepauser. Utelukkende signaleffekten brukes som parameter for denne regulering.

Claims

1. Fremgangsmåte for taleomvandling ved registrering av taleperioder, karakterisert ved beregning av effekten av et innkommende talesignal i en tidsluke som ved et gitt tidsintervall har en bestemt lengde, ut fra en registrert maksimal- og minimalverdi for effekten i en tidsluke ved et foregående gitt tidsintervall, slik at en terskelverdi for endret effekt i forhold til maksimalverdien og forskjellen mellom denne og minimalverdien kan bestemmes og brukes til sammenligning med effekten av det innkommende talesignal i den aktuelle tidsluke for å fastlegge om denne tidsluke representerer et tale- eller et pauseintervall.

2. Fremgangsmåte ifølge krav 1, karakterisert ved at terskelverdien fastlegges å ligge nær maksimalverdien hvis forskjellen mellom denne og minimalverdien er mindre enn en gitt verdi, i motsetning til i det tilfelle hvor forskjellen mellom maksimal- og minimalverdien er større enn den gitte verdi.

3. Apparat for å detektere taleintervaller, karakterisert ved: en effektmåler (32) for å beregne effekten av et innkommende talesignal i en tidsluke som ved et gitt tidsintervall har en bestemt lengde, en første holdekrets (33) for å holde lagret en maksimalverdi for effekten i en tidsluke ved et foregående gitt tidsintervall, en andre holdekrets (34) for å holde lagret en minimalverdi for samme, en terskelkrets (35) for å bestemme en terskelverdi for endret effekt i forhold til maksimalverdien som ligger lagret i den første holdekrets (33) og forskjellen mellom maksimalverdien og minimalverdien, idet denne minimalverdi ligger lagret i den andre holdekrets (34), og en diskriminator (36) for å sammenligne verdien som bestemmes av terskelkretsen (35) med effekten av det innkommende talesignal i den aktuelle tidsluke, for å fastlegge om denne tidsluke representerer et tale- eller et pauseintervall.

4. Apparat ifølge krav 3, karakterisert ved at terskelkretsen (35) er innrettet for å fastlegge at terskelverdien ligger nær maksimalverdien hvis forskjellen mellom denne og minimalverdien er mindre enn en gitt verdi, i motsetning til i det tilfelle hvor forskjellen mellom maksimal- og minimalverdien er større enn den gitte verdi.