NO312428B1 - Fremgangsmåte og anordning for syntetisering av tale - Google Patents

Fremgangsmåte og anordning for syntetisering av tale Download PDF

Info

Publication number
NO312428B1
NO312428B1 NO19963935A NO963935A NO312428B1 NO 312428 B1 NO312428 B1 NO 312428B1 NO 19963935 A NO19963935 A NO 19963935A NO 963935 A NO963935 A NO 963935A NO 312428 B1 NO312428 B1 NO 312428B1
Authority
NO
Norway
Prior art keywords
frame
data
sound
pitch
speech
Prior art date
Application number
NO19963935A
Other languages
English (en)
Other versions
NO963935D0 (no
NO963935L (no
Inventor
Masayuki Nishiguchi
Jun Matsumoto
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of NO963935D0 publication Critical patent/NO963935D0/no
Publication of NO963935L publication Critical patent/NO963935L/no
Publication of NO312428B1 publication Critical patent/NO312428B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

Foreliggende oppfinnelse angår en fremgangsmåte og en anordning for syntetisering av tale ved bruk av en sinusoidal syntese, som for eksempel det såkalte MBE (multibånd eksiterende) kodesystem og harmonisk kodesystem. Nærmere bestemt vedrører oppfinnelsen en fremgangsmåte til utførelse av trinn med seksjonering av et inngangssignal avledet fra et talesignal ved en rammeenhet, utledning av en tonehøyde for hver seksjonert ramme, og syntetisering av en tale fra data som finnes å inneholde en stemt (voiced) lyd eller en ustemt (unvøieed) lyd, samt en anordning til syntetisering av tale, innrettet til å seksjonere et inngangssignal som er avledet fra et talesignal ved en rammeenhet, utlede en tonehøyde for hver ramme, og syntetisere en tale ut fra data som finnes å inneholde en stemt lyd eller en ustemt lyd.
Det er blitt foreslått flere typer av fremgangsmåter til koding der et signal blir komprimert ved bruk av en statistisk egenskap ved et audiosignal (inneholdende et talesignal og et akustisk signal) i et tidsområde og et frekvensområde for audiosignalet og karakteristikker ved høreoppfatning. Disse typer fremgangsmåter til koding kan grovt sett deles i en fremgangsmåte til koding i et tidsområde og en fremgangsmåte til koding for et frekvensområde, en fremgangsmåte til koding utført ved bruk av resultatet av analyse og syntese av et audiosignal og lignende.
Den høyeffektive fremgangsmåte til koding av et talesignal inneholder en MBE (multibånd eksiterende) fremgangsmåte, en SBE (enkeltbånd eksiterende) fremgangsmtåe, en harmonisk fremgangsmåte til koding, en SBC (delbånd koding) fremgangsmåte, en LPC (lineær forutsigende koding) fremgangsmåte, en DCT (diskret kosinus transform) fremgangsmåte, en MDCT (modifisert DCT) fremgangsmåte, en FFT (hurtig Fourier transform) fremgangsmåte og lignende.
Blant disse fremgangsmåter til koding av tale foretar fremgangsmåtene som benytter en sinusoidal syntese ved syntetisering av en tale, som for eksempel MBE fremgangsmåten til koding og fremgangsmåten til harmonisk koding, interpolasjonen om en amplitude og en fase basert på de data som er kodet av og sendt fra en koder, som for eksempel de harmoniske- og fasedata. Ifølge de interpolerte parametre utføres disse fremgangsmåter for å utlede en tidsbølgeform for en harmonisk hvis frekvens og amplitude forandrer seg med tid og ved oppsummering av det samme antall tidsbølgeformer som antallet harmoniske for syntetisering av bølgeformene.
Overføring av fasedata kan imidlertid ofte begrenses for å redusere bithastigheten ved overføring. I dette tilfellet kan fasedataene for syntetisering av sinusoidale bølgeformer være en verdi som forutsagt for å holde kontinuiteten ved rammegrensen. Denne forutsigelse utføres ved hver ramme. Særlig blir forutsigelsen kontinuerlig utført ved overgang fra en stemt ramme til en ustemt ramme og omvendt.
I den ustemte rammen foreligger det ingen tonehøyde. Dermed blir ikke data for
tonehøyde overført. Dette betyr at den faseverdi som kan forutsies avviker fra en som er korrekt når fasen blir forutsagt. Dette resulterer i at den faseverdi som kan forutsies gradvis avviker fra et nullfasetillegg eller et 7T./2 fasetillegg, der hvert av disse er forventet på forhånd. Denne avvikelse kan forringe den akustiske kvalitet på en syntetisert lyd.
Det er en hensikt med foreliggende oppfinnelse å komme frem til en fremgangsmåte og en anordning for syntetisering av tale der den uheldige virkning som skyldes den avvikende fase oppheves ved utførelse av en prosess til syntetisering av tale med virkningen av sinusoidal syntese.
I henhold til et trekk ved oppfinnelsen kjennetegnes fremgangsmåten ved følgende trinn: syntetisering av en stemt lyd med en grunnbølge for tonehøyde og dens harmoniske hvis rammen finnes å inneholde en stemt lyd; og
initialisering av fasene for grunnbølgen og dens harmoniske til en gitt verdi når rammen finnes å inneholde en ustemt lyd.
I henhold til et annet trekk ved foreliggende oppfinnelse innbefatter anordningen
innretninger for syntetisering av en stemt lyd med en grunnbølge og dens harmoniske av tonehøyde hvis rammen finnes å inneholde en stemt lyd; og
innretning for initialisering av fasen for grunnbølgen og dens harmoniske til en gitt verdi når rammen finnes å inneholde en ustemt lyd.
I tilfellet at to eller flere sammenhengende rammer finnes å ha ustemt lyd, er det fordelaktig å initialisere fasene for grunnbølgen og dens harmoniske på en gitt verdi. Videre behøver inngangssignalet ikke bare være et digitalt talesignal som er digitalt omformet fra et talesignal og et talesignal som fremkommer ved filtrering av talesignalet, men også en LPC rest som fremkommer ved utførelse av en lineær forutsigende kodeoperasjon på et talesignal.
For den ramme som finnes å være ustemt lyd blir, som nevnt ovenfor, fasene for grunnbølgen og dens harmoniske for sinusoidal syntese initialisert til en gitt verdi. Denne initialisering fører til at forringelsen av lyd som skyldes defasing av den ustemte rammen motvirkes.
For to eller flere sammenhengende ustemte rammer blir videre fasene for grunnbølgen og dens harmoniske initialisert til en gitt verdi. Dette kan motvirke feilaktig påvisning av en stemt ramme som en ustemt ramme på grunn av feilpåvisning av tonehøyden.
Ytterligere formål og fordeler ved foreliggende oppfinnelse vil fremgå av den følgende beskrivelse av foretrukne utførelsesformer av oppfinnelsen som vist på tegningene.
Fig. 1 er et funksjonsblokkskjema som viser anordningen av en analyserende side (kodesiden) for en analyse/synteseanordning til koding av et talesignal ifølge en utførelse av foreliggende oppfinnelse,
fig. 2 viser en vindusdannende prosess;
fig. 3 viser forholdet mellom den vindusdannende prosess og en vindusfunksjon;
fig. 4 viser data for tidsakse som skal bli ortogonalt transformert (FFT);
fig. 5 er en graf som viser spektrumdata på en frekvensakse, en spektrumomhylning og et energispektrum for et eksiteringssignal; og
fig. 6 er et funksjonsblokkdiagram som viser anordningen av en synteseside (dekodesiden) for en analyse/synteseanordning til koding av et talesignal ifølge en utførelse av foreliggende oppfinnelse.
Fremgangsmåten til syntetisering av tale ifølge foreliggende oppfinnelse kan være en
fremgangsmåte til sinusoidal syntesekoding som for eksempel en fremgangsmåte til MBE (multibånd eksiterende) koding, en STC (sinusoidal transformkode) fremgangsmåte eller en fremgangsmåte til harmonisk koding eller anvendelse av fremgangsmåten til sinusoidal syntesekoding på LPC (lineær forutsigende koding) rest, der hver ramme som tjente som en kodeenhet blir angitt som med stemt (V) eller ustemt (UV), og ved et tidspunkt for
veksling av den ustemte rammen til den stemte rammen, blir den sinusoidale syntesefase
initialisert på en gitt verdi som for eksempel null eller % I2. For MBE koding blir rammen delt opp i bånd der hvert av disse finnes som et stemt bånd eller et ustemt bånd. På et tidspunkt for veksling av rammen hvori alle bånd er funnet å være ustemt til rammen hvori minst et bånd finnes å være stemt, blir fasen for syntetisering av de sinusoidale bølgeformer initialisert til en gitt verdi.
Denne fremgangsmåte behøver bare konstant å initialisere fasen forden ustemte rammen uten å påvise veksling fra ustemt ramme til stemt ramme. Imidlertid kan feilpåvisning av tonehøyde føre til at den stemte rammen feilaktig finnes å være en ustemt ramme. Når dette tas i betraktning, er det fordelaktig å initialisere fasen når to sammenhengende rammer finnes å være ustemte eller når tre sammenhengende rammer eller et større på forhånd bestemt sammenhengende antall rammer enn tre finnes å være ustemt.
I et system for sending av andre data enn tonehøydedata i den ustemte rammen er den kontinuerlige faseforutsigelse vanskelig. Av den grunn er, i dette system, som nevnt ovenfor, initialiseringen av fasen i den ustemte rammen mer effektiv. Dette forhindrer at lydkvaliteten blir forringet ved defasing.
Senere vil beskrivelsen bli rettet mot et eksempel på talesyntese utført med virkningen av normal sinusoidal syntese før beskrivelse av den konkrete oppbygning av en fremgangsmåte til talesyntese ifølge foreliggende oppfinnelse.
Data som sendes fra kodeanordningen eller en koder til en dekodeanordning eller en dekoder for syntetisering av en tale inneholder minst en tonehøyde som representerer intervallet mellom den harmoniske og en amplitude som svarer til en spektralomhylning.
Som en fremgangsmåte til talekoding for syntetisering av en sinusoidal bølge på dekodesiden er det kjent en fremgangsmåte til MBE (multibånd eksiterings) koding og en fremgangsmåte til harmonisk koding. Her vil MBE kodefremgangsmåten bli kort beskrevet nedenfor.
Fremgangsmåten til MBE koding blir utført for å dele et talesignal i blokker ved hvert gitt antall utvalg (for eksempel 256 utvalg) med omforming av blokkene til spektrale data på en frekvensakse ved hjelp av en ortogonal transform, som for eksempel en FFT med utdrag av en tonehøyde for en tale i blokken, deling av spektraldataene på frekvensaksen i bånd med intervaller som er tilpasset denne tonehøyde og med bestemmelse om hvert avdelt bånd enten er stemt eller ustemt. Det resultat som fremkomme, tonehøydedataene og amplitudedataene for spekteret, blir alle kodet og blir så overført.
Syntese- og analysekodeanordningen for et talesignal som gjør bruk av fremgangsmåten for MBE koding (den såkalte vokoder) er beskrevet av D.W. Griffin og J.S. Lim, "Multibånd Excitation Vocoder", IEEE Trans. Acoustics, Speech, and Signal Processing, bind 36. nr. 8, s. 1223 til 1235, august 1988. Den vanlige PARCOR (partial auto.* korrelasjon) vokoder arbeider ved å veksle en stemt seksjon til en ustemt og omvendt ved hver blokk eller ramme ved modellering av en tale. På den annen side antas det at MBE vokoderen holder den stemte seksjonen og den ustemte seksjonen på et frekvens-akseområde for en gitt tid (innen en blokk eller en ramme) når talen modelleres.
Fig. 1 er et blokkskjema som viser anordningen av MBE vokoderen.
På fig. 1 blir et talesignal matet til et filter 12 som for eksempel et høypassfilter gjennom en inngangsklemme 11. Gjennom filteret 12 blir den forskjøvede likestrømkomponent og minst lavpasskomponenten (200 Hz eller lavere) for å begrense båndet (i området fra 200 til 3400 Hz for eksempel) fjernet fra talesignalet. Signalutmatningen fra filteret 12 blir sendt til en enhet 13 som trekker ut tonehøyde og en vindusdannende enhet 14.
Som et inngangssignal er det mulig å benytte LPC resten som fåes ved å utføre LPC prosessen på talesignalet. I denne prosess blir utmatningen fra filteret 12 reversert filtrert med en a parameter som er utledet ved hjelp av LPC analysen. Denne reversert filtrerte utmatning tilsvarer LPC resten. Deretter blir LPC resten sendt til enheten 13 for utledning av tonehøyde og til den vindusdannende enhet 14.
I enheten 13 for utledning av tonehøyde blir signaldataene delt opp i blokker der hver av disse omfatter et på forhånd bestemt antall utvalg N (N = 256 for eksempel) (eller signaldataene skjæres ut med et kvadratisk vindus). Deretter blir en tonehøyde trukket ut ved talesignalet i hver blokk. Som vist, for eksempel, på fig. 2A blir den utskårede blokk (256 utvalg) forflyttet på tidsaksen og ved intervaller der hvert av disse består av L utvalg (L = 160 for eksempel) mellom rammene. Den overlappende del mellom sammenstående blokker består av (N - L) utvalg (96 utvalg for eksempel). Videre arbeider den vindusdannende enhet 14 for å skape en på forhånd bestemt vindusfunksjon som for eksempel et vibrerende vindu i forhold til en blokk (N utvalg) og for sekvensielt å bevege den vindusdannende blokk på tidsaksen med intervaller der hvert av disse består av en ramme (L utvalg).
Denne vindusdannende prosess kan representeres av det følgende uttrykk: der k betegner et blokkantall og q betegner et tidsindeks (utvalgstall) med data. Dette uttrykk (1) viser at den vindusdannende funksjon w(kL - q) for den k-te> blokk blir utført på de q-te data x(q) i det opprinnelige inngangssignal for utledning av data xw (k, q). I enheten 13 til utledning av tonehøyde blir det kvadratiske vindu som vist på fig. 2A frembrakt av den følgende vindusdannende funksjon wr(r):
I prosessen i den vindusdannende enhet 14 kan den vindusdannende funksjon wh(r) for et vibrerende (humming) vindu som vist på fig. 2B representeres av det følgende uttrykk:
Når det gjelder bruken av den vindusdannende funksjon wr(r) eller wh(r), kan intervallet som ikke er null i den vindusdannende funksjon w(r) (W=(KL-g)) som angitt med uttrykket (1) være som følger:
Ved omforming av dette uttrykk kan det følgende uttrykk utledes:
For det kvadratiske vindu er den vindusdannende funksjon wr(kL - q) = 1 når kL - N < q < kL som vist på fig. 3.1 tillegg viser de foregående uttrykk (1) til (3) at vinduet som har en lengde på N (= 256) utvalg beveges fremover L (= 160) utvalg av L utvalg. Den utvalgssekvens som ikke er null ved hvert N punkt (0 < r < N) som er skåret ut av den vindusdannende funksjon som vist med uttrykket (2) eller (3) er representert som xwr(k, r), xwr (k, r).
I den vindusdannende enhet 14 blir som vist på fig. 4 nullene fra 1792 utvalg innsatt i utvalgssekvensen xwh(k, r) på 256 utvalg for en blokk som det vibrerende vindu blir anvendt på som vist i uttrykket (3). Den resulterende datasekvens på tidsaksen inneholder 2048 utvalg. Deretter vil en ortogonal omformingsenhet 15 tre i virksomhet for å foreta en ortogonal transform som for eksempel en FFT (hurtig Fourier transform) i forhold til denne datasekvens på«tidsaksen. En annen-fremgangsmåte kan benyttes for å utføre FFT på den opprinnelige utvalgssekvens på 256 utvalg uten at noen null innføres. Denne fremgangsmåte er effektiv når det gjelder å redusere prosessarbeidet.
Enheten 13 (enhet for påvisning av tonehøyde) til utledning av tonehøyden sørger for å utlede en tonehøyde på basis av utvalgssekvensen (N utvalg for en blokk) representert som xwr (k, r). Det er tidligere kjent en del fremgangsmåter til utledning av en tonehøyde der hver av disse gjør bruk av en periodisitet for en tidsbølgeform, en periodisk frekvensstruktur for spektrum eller en autokorrelasjon som eksempel. I denne utførelse gjør fremgangsmåten til utledning av tonehøyden bruk av en auto-korrelasjonsmetode med en senteravskåret bølgeform. Senteravskjæringsnivået i en blokk kan stilles som et avskjæringsnivå for en blokk. I virkeligheten blir avskjæringsnivået stilt med fremgangsmåten for deling av en blokk i delblokker, påvisning av et toppnivå for et signal i hver delblokk og gradvis eller kontinuerlig endring av avskjæringsnivået i en blokk hvis en forskjell mellom et toppnivå mellom sammenstående delblokker er stor. Tonehøydens periodisitet blir bestemt med topp-plasseringen av autokorrelasjonsdataene rundt den senteravskårede bølgeform. Mer konkret blir flere topper utledet fra autokorrelasjonsdataene (fremkommet med dataene N utvalg i en blokk)) rundt den aktuelle ramme. Når maksimumtoppen for disse topper er lik eller større enn en på forhånd bestemt terskelverdi, blir plasseringen av maksimumtoppen stilt som en tonehøydepeirodisitet. Med unntak av at en annen topp utledes i tonehøydeområdet og tilfredsstiller et på forhånd bestemt forhold til en tonehøyde som er utledet fra en annen ramme i stedet for den aktuelle ramme, for eksempel den foregående eller den påfølgende ramme som et eksempel i ± 20% området rundt tonehøyden for den foregående ramme. Basert på den utledede topp blir tonehøyden for den aktuelle ramme bestemt. I enheten 13 til utledning av tonehøyde blir tonehøyden forholdsvis grovt søkt ut i en lukket sløyfe. Disse utledede tonehøydedata blir sendt til en fin søkeenhet for tonehøyde der et fint søk for en tonehøyde utføres i en lukket sløyfe. I stedet for den senteravskårede bølgeform kan i tillegg de autokorrelerte data for en restbølgeform som er utledet ved at det foretas en LPC analyse om en inngangsbølgeform benyttes til utledning av en tonehøyde.
Den fine tonehøydesøkende enhet 16 mottar grove tonehøydedata med heltallsverdier som er avledet i enheten 13 til utledning av tonehøyden og dataene på frekvensaksen blir FFT transformert av den ortogonale transformenhet 15. (Denne hurtige Fourier transform (FFT) er et eksempel.) I den fine tonehøydesøkende enhet 16 vil noen deler av optimalt flytende fine data bli klargjort på plussiden og minussiden rundt verdien for grove tonehøydedata. Disse data er stilt opp i trinn på 0,2 til 0,5. De grove tonehøydedata blir drevet inn i de fine tonehøydedata. Denne fremgangsmåte til fint søk gjør bruk av den såkalte analyse ved syntesemetode, hvori tonehøyden blir valgt for å lokalisere det syntetiserte energispekteret ved det nærmeste punkt i et energispektrum for en opprinnelig lyd.
Beskrivelsen vil nå bli rettet mot det fine søk etter tonehøyden. I MBE vokoderen forutsettes det at en modell representerer de ortogonalt transformerte (hurtig Fourier transformerte, som eksempel) spektrale data S(j) på frekvensaksen slik:
der J svarer til ©s / 47r = fs / 2 og hvis utvalgsrfekvensen fs = os/2ti for eksempel er 8 kHz, svarer J til 4 kHz. Når spektrumdataene S(j) på frekvensaksen i uttrykket (4) har en bølgeform som angitt på fig. 5 A, betegner H(j) en spektralomhylning for de opprinnelige spektrumdata S(j) som vist på fig. 5B. E(j) angir et periodisk eksiteringssignal på det samme nivå som vist på fig. 5C, dvs. det såkalte eksiteringsspektrum. Dette betyr at FFT spekteret S(j) er modellert som et produkt av spektralomhylningen H(j) og energispekteret | E(j) | av eksiteringssignalet.
Ved å betrakte periodisiteten for bølgeformen på frekvensaksen, bestemt med tonehøyden, blir energispekteret |E(j)j for eksiteringssignalet dannet ved gjentatt anordning av den spektrumbølgeform som svarer til bølgeformen for et av båndene blant båndene på frekvensaksen. Denne bølgeform for et bånd fremkommer ved utførelse av FFT på den bølgeform som består av 256 utvalg fra den vibrerende vindusfunksjon tilføyet nullene for 1792 utvalg, dvs. med nullene fra 1792 utvalg innsatt, med andre ord blir bølgeformen ansett som et signal på tidsaksen med utelatelse av pulsbølgeformen for en gitt båndbredde på den resulterende frekvensakse ved tonehøydene.
For hvert av de delte bånd blir operasjonen utført for å utlede en representativ verdi på HØ, dvs. en viss type amplitude | Am | som gjør en feil ved hvert avdelt bånd minst mulig. Hvis det antas at de øvre og nedre grensepunkter for det m-te bånd, dvs. at båndene med den m-te harmoniske blir betegnet som am og bm, blir feilen em for det m-te bånd representert slik:
Amplituden på [ Am | som reduserer feilen em blir således representert slik:
Amplituden | Am | i uttrykket (6) reduserer feilen em.
Denne amplitude | Am | blir utledet for hvert bånd. Deretter blir feilen em for hvert bånd, slik den er definert i uttrykk (5) utledet med denne amplitude | Am |. Deretter blir operasjonen utført for å utlede en sum Zem av feilene em for alle båndene. Feilsummen Eem for alle bånd blir utledet rundt noen tonehøyder som er litt forskjellige fra hverandre. Deretter blir operasjonen utført for å utlede den tonehøyde som reduserer summen Sem for disse tonehøyder.
Mer bestemt blir, med den grove tonehøyde som er utledet i enheten 13 for utledning av tonehøyde som sentrum, noen øvre og nedre tonehøyder behandlet med intervaller på 0,25. For hver av tonehøydene som er litt forskjellige fra hverandre blir feilsummen Zem utledet. Hvis tonehøyden er fastlagt i dette tilfellet, blir båndbredden bestemt. I henhold til uttrykket (6) blir feilen em i uttrykket (5) utledet ved å benytte energispekteret | S(j) | og eksiteringssignalspekteret | E(j) | for dataene på frekvensaksen. Deretter blir feilsummen Zem for alle bånd bestemt ut fra feilene em. Denne feilsum Zem blir utledet for hver tonehøyde. Tonehøyden for den minimale feilsum blir fastlagt som den optimale tone-høyde. Som beskrevet ovenfor sørger enheten for det fine tonehøydesøk for å utlede den optimale fine tonehøyde med intervaller på for eksempel 0,25. Deretter blir amplituden | Am I for den optimale tonehøyde bestemt. Denne beregning av amplitudeverdien utføres i en amplitudevurderende enhet 18 V for en stemt lyd.
For å forenkle beskrivelsen er det i den foregående beskrivelse av det fine søk etter tonehøyde forutsatt at alle båndene er stemt. Som nevnt ovenfor benytter imidlertid MBE vokoderen en modell hvori det finnes et ustemt område på samme tid på frekvensaksen. For hvert bånd er det derfor nødvendig å bestemme om båndet enten er stemt eller ustemt.
Den optimale tonehøyde fra den fine søkeenhet for tonehøyde 16 og amplituden | Am fra den amplitudevurderende enhet (stemt) 18V sendes til en enhet 17 som bestemmer om lyden er stemt eller ustemt, der hvert bånd undersøkes om det er stemt eller er ustemt. Denne undersøkelse gjør bruk av NSR (støy/signalforhold). Dette betyr at NSR for m-te bånd eller NSRm er representert som:
Hvis NSRm er større enn en på forhånd bestemt terskelverdi Thj (for eksempel THj = 0,2), dvs. at en feil er større enn en gitt verdi, blir det bestemt at tilnærmelsen for | Am
I E(j) I ved båndet til | S(j) | ikke er riktig, eller med andre ord at eksiteringssignalet |E(j)| ikke er riktig som en basis. Dette bånd finnes da å være ustemt. I andre tilfeller blir det fastslått at tilnærmelsen er så godt som korrekt. Båndet finnes da å være stemt.
Hvis inngangstalesignalet har en utvalgsfrekvens på 8 kHz, er den samlede båndbredde 3,4 kHz (og i så tilfelle ligger det effektive bånd fra 200 til 3400 kHz). Tonehøyde-etterslep (dvs. det antall utvalg som tilsvarer en tonehøyde-periodisitet) fra en lys stemme hos kvinner til en dypere stemme hos menn ligger fra 20 til 147. Dermed varierer tonehøyderfekvensen fra 8000/147 = 54 Hz til 8000/20 = 400 Hz. Dette betyr at omtrent 8 til 63 tonehøydepulser (harmoniske) foreligger i den samlede båndbredde på 3,4 kHz. Siden antall bånd dividert med tonehøydens grunnfrekvens, dvs. at antallet av harmoniske varierer i området fra 8 til 63 i henhold til stemmenivået (tonehøydeverdi), vil antallet av stemt/ustemt flagg ved hvert bånd bli variabelt på tilsvarende måte.
I denne utførelse blir for hvert antall bånd dividert med hver faste frekvensbåndbredde, resultatene av bestemmelsen om stemt/ustemt samlet (eller degenerert). Mer bestemt utføres operasjonen med å dele en gitt båndbredde (for eksempel 0 til 4000 Hz) inneholdende et stemt bånd i Ng (for eksempel 12) bånd med diskriminering av en vektet gjennomsnittsverdi med en på forhånd bestemt terskelverdi Th2 (for eksempel TI12 = 0,2) for å bestemme om båndet er enten stemt eller ustemt.
I det følgende vil beskrivelsen være rettet mot en enhet 18U til vurdering av en ustemt lydamplitude. Denne vurderingsenhet 18U mottar dataene på frekvensaksen fra den ortogonale transformenhet 15, de fine tonehøydedata fra tonehøydesøkeenheten 16, amplitude | Am | dataene fra enhetenl8V for vurdering av stemt lydamplitude, og dataene om bestemmelsen av stemt/ustemt fra enheten 17 til bestemmelse av stemt/ustemt lyd. Enheten 18U (ustemt lyd) for vurdering av amplituden skal foreta omvurdering av amplituden slik at amplituden igjen blir avledet ved det bånd som finnes å være ustemt. Amplitude | Am | uv ved det ustemte båndet blir utledet fra:
Den amplitudevurderende enhet (ustemte lyd) 18U sørger for å sende dataene til en enhet 19 for omforming av datatall (en slags utvalgstaktsomforming). Denne datatallomformende enhet 19 har forskjellige deletall for bånd langs frekvensaksen ifølge tonehøyden. Siden antall datadeler, særlig datadelene i amplitudedataene er forskjellige, sørger omformingsenheten 19 til å holde antallet konstant. Dette betyr som nevnt ovenfor at hvis det effektive bånd går opp til 3400 kHz, blir det effektive bånd delt i 8 til 63 bånd alt etter tonehøyden. Verdien mMx+1 for amplituden | Am | (inneholdende amplituden | Am | uv i det ustemte båndet) vil dataene variabelt ligge fra 8 til 63. Omformingsenheten 19 for datatallet sørger for å omforme det variable antall mMx+1 av deler for amplitudedataene til et konstant antall M deler av data (for eksempel M = 44).
I denne utførelse blir operasjonen utført for å føye til skinndata til amplitudedataene for en blokk i det effektive bånd på frekvensaksen for interpolering av verdiene fra den siste datadel til den første datadel i blokken, øke antall deler med data til Np og utføre en båndbegrensende type av prosess for overutvalg Og-ganger om de forstørrede datadeler for å få Og-foldede antall deler av amplitudedata. For eksempel finnes det Os = 8. Det Os-foldede antall amplitudedatadeler, dvs. (mMX + 1) x Os amplitudedatadeler blir lineært interpolert for å forstørre antallet amplitudedatadeler Nj^- For eksempel er Nm = 2048. Ved uttynning av Nm datadeler blir dataene omformet til det konstante antall M datadeler. For eksempel kan M = 44.
Dataene fra enheten 19 til omforming av datatallet, dvs. det konstante tall M på amplitduedatadeler, sendes til en vektorkvantiserende enhet 20, der et gitt antall datadeler blir gruppert som en vektor. Den (hoveddelen av) kvantiserte utgang fra vektorkvantiseringsenheten 20, de fine tonehøydedata som er utledet med en P eller P/2 velgerenhet 26 fra den fine tonehøydesøkende enhet 16, og dataene om stemt/ustemt bestemmelsen fra enheten 17 til bestemmelse om lyd er stemt eller ikke, blir alle sendt til en kodeenhet 21 for koding av disse data.
Hver av disse data kan fåes ved behandling av N utvalg, for eksempel 256 utvalg av data i blokken. Blokken føres frem på tidsaksen og har en rammeenhet på L utvalg. Dermed fåes de data som skal overføres ved rammeenheten. Dette betyr at tonehøydedata, data om bestemmelse ustemt/stemt, og amplitudedata blir oppdatert ved rammeperiodisiteten. Data om stemt/ustemt bestemmelsen fra bestemmelsesenheten 17 for dette, reduseres eller degenereres til 12 bånd om nødvendig. I alle bånd finnes det et eller flere seksjoneringspunkter mellom det stemte området og det ustemte området. Hvis en konstant betingelse blir tilfredsstilt, vil data om stemt/ustemt bestemmelsen som representerer bestemmelsesdatamønsteret for stemt/ustemt der stemt lyd ligger på lavpassiden, bli forstørret mot høypassiden.
Deretter vil kodeenheten 21 sørge for å utføre en prosess med tilføyelse av en CRC og en taktkode, for eksempel for en 1/2 konvolvering. Dette betyr at de viktige deler av tonehøydedata, dataene om stemt/ustemt bestemmelsen, og de kvantiserte data blir CRC kodet og deretter konvolveringskodet. De kodede data fra kodeenheten 21 sendes til en rammeinnfellingsenhet 22 hvori data blir innfelt med de deler (mindre signifikante deler) av data fra vektorkvantiseringsenheten 20. Deretter blir de innfelte data tatt ut ved en utgangsklemme 23 og deretter overført til en syntetiseirngsside (dekodeside). I dette tilfellet omfatter overføringen sending/mottagning ved hjelp av et kommunikasjonsmedium og registrering/reproduksjon av data på eller fra et registreringsmedium.
Beskrivelsen vil nå bli rettet mot en skjematisk oppbygning av syntetiseirngssiden (dekodesiden) for syntetisering av et talesignal på grunnlag av de foregående data som blir overført fra kodesiden, med henvisning til fig. 6.
Hvis man på fig. 6 ignorerer en signaldegradering som oppstår under overføringen, dvs. signalforringelse som skyldes sending/mottagning eller registrering/reproduksjon, mottar en inngangsklemme 31 et datasignal som stort sett er det samme som det datasignatsoro < tas ut fra utgangsklemmen 23 på koderen som er vist på fig. 1. Dataene som mates til inngangsklemmen 31 blir sendt til en enhet 32 som opphever rammeinnfellingen. Enheten 32 som opphever rammeinnfellingen utfører opphevelsesprosessen som er det motsatte av innfellingsprosessen som vist på fig. 1. Den mer signifikante del av dataenes CRC- og innrullingskoding på hovedseksjon, dvs. kodesiden blir dekodet med en dekodeenhet 33 og deretter sendt til en enhet 34 for maskering av en dårlig ramme. Den gjenværende del, dvs. den mindre signifikante del blir sendt direkte til enheten 34 for maskering av en dårlig ramme. Dekodeenheten 33 utfører den såkalte betabi dekodeprosess eller en feilpåvisningsprosess med CRC koden. Maskeringsenheten 34 for dårlig ramme utleder parameteren for en ramme med mange feil ved hjelp av virkningen fra interpoleringen og tar separat tonehøydedata, stemte/ustemte data og de vektorkvantifiserte amplitudedata.
De vektorkvantiserte amplitudedata fra maskeringsenheten 34 for dårlig ramme blir sendt til en reversert vektorkvantiseringsenhet 35 hvori dataene blir reverst-kvantisert. Deretter blir dataene sendt til en reversert omformingsenhet 36 for datatall der dataene blir reversert omformet. Enheten 36 til reversert omforming av datatallet utfører den reverserte omformingsoperasjon som er det motsatte av operasjonen i enheten 19 for omforming av datatallet som vist på fig. 1. De reversert-omformede amplitudedata blir sendt til en enhet 37 for syntetisering av stemt lyd og til enheten 38 for syntetisering av ustemt lyd. Tonehøydedata fra maskeringsenheten 34 blir også sendt til enheten 37 for syntetisering av stemt lyd og enheten 38 for syntetisering av ustemt lyd. Dataene om bestemmelse av stemt/ustemt fra maskeringsenheten 34 blir også sendt til enheten 37 for syntetisering av stemt lyd og enheten 38 for syntetisering av ustemt lyd. Videre blir dataene for bestemmelsen om stemt/ustemt fra maskeringsenheten 34 også sendt til en krets 39 til påvisning av en stemt eller ustemt ramme.
Enheten 37 for syntetisering av stemt lyd vil syntetisere bølgeformen for den stemte lyden langs tidsaksen ved hjelp av for eksempel kosinusoidal syntese. I enheten 38 til syntetisering av ustemt lyd blir hvit støy filtrert gjennom et båndpassfilter for syntetisering av den ustemte bølgeformen på tidsaksen. Den syntetiserte bølgeform for stemt lyd og bølgeformen for den syntetiserte ustemte lyd blir lagt sammen og syntetisert i en summeringsenhet 31 og deretter ført ut ved en utgangsklemme 42.1 dette eksempel blir amplitudedata, tonehøydedata og data om bestemmelsen stemt/ustemt oppdatert ved hver enkelt ramme (= L utvalg, for eksempel 160 utvalg) i den foregående analyse. For å forbedre kontinuiteten mellom sammenstående rammer, dvs. glatte ut overgangen mellom rammene, blir hver verdi for amplitudedata og tonehøydedata stilt på hver sin dataverdi, for eksempel i sentrum av en ramme. Hver dataverdi mellom sentrum av den aktuelle ramme og sentrum i den neste ramme (med betydningen at en ramme blir ved syntetisering av bølgeformen, for eksempel fra sentrum av den analyserte ramme til sentrum av den neste analyserte ramme) utledet ved hjelp av interpoleringen. Dette betyr at i en ramme som gis ved syntetisering av bølgeformen blir hver dataverdi ved spisspunktet for utvalg og hver dataverdi ved endepunktet for utvalg (dvs. spissen av den neste syntetiserte ramme) gitt for utledning av hver dataverdi mellom disse utvalgspunkter ved hjelp av interpoleringen.
Ifølge dataene om bestemmelsen av stemt/ustemt får alle bånd anledning til å bli delt opp i det stemte og ustemte området ved et seksjoneirngspunkt. Deretter, ifølge denne oppdeling, kan data om stemt/ustemt bestemmelsen fremkomme for hvert bånd. Som nevnt ovenfor kan dette seksjoneirngspunkt bli justert slik atdet stemte båndet på lavpassiden blir forstørret mot høypassiden. Hvis analysesiden (kodesiden) allerede har redusert (regenerert) båndene til et konstant antall (for eksempel omtrent 12) med bånd, må dekodesiden gjenopprette denne reduksjon av bånd til det variable antall bånd som finnes ved den opprinnelige tonehøyde.
I det følgende vil beskrivelsen bli rettet mot en syntetiseirngsprosess som skal utføres i enheten 37 for syntetisering av stemt lyd.
Den stemte lyden Vm(n) i en syntetisert ramme (bestående av L utvalg, for eksempel 160 utvalg) på tidsaksen i det m-te bånd (båndet for den m-te harmoniske) som finnes å være stemt, kan representeres som følger:
der n angir en tidsindeks (utvalgstall) i den syntetiserte ramme. De stemte lydene for alle bånd som finnes å være stemt blir summert (ZVm(n)) for syntetisering av den endelige stemte lyd V(n).
Am(n) i uttrykket (9= angir en amplitude for den m-te harmoniske som er interpolert i området fra spissen til enden av den syntetiserte ramme. Den enkleste mulighet er lineært å interpolere verdien av den m-te harmoniske av de amplitudedata som er oppdatert ved en rammeenhet. Dette betyr at hvis det antas at amplitudeverdien for den m-te harmoniske ved spissen (n = 0) for den syntetiserte ramme er Aom og amplitudeverdien for den m-te harmoniske ved enden av den syntetiserte ramme (n = L: spissen på neste syntetiserteramme) er ALm, kan Am(n) beregnes med det følgende uttrykk:
Deretter kan fasen Gm(n) i uttrykket (9) utledes med det følgende uttrykk:
der OOm betegner en fase (den opprinnelige fasen for en ramme) for den m-te harmoniske ved spissen (n = 0) for den syntetiserte ramme, ©01 betegner en grunnleggende vinkelfrekvens ved spissen (n = 0) for den syntetiserte ramme og ©LI angir en grunnleggende vinkelfrekvens ved enden av den syntetiserte ramme (n = L: spissen på den neste syntetiserte ramme). A© i uttrykket (11) stilles på en minimal A© som gjør fasen fLm lik Bm(L) ved n = L.
I et hvilket som helst m-te bånd er starten på rammen n = 0 og ved enden av rammen er n = L. Fasen psi(L)m som er gitt når enden av rammen er n = L, blir beregnet slik:
der psi(0)m angir en fase som er gitt når starten på rammen er n = 0, ©0 angir en tonehøydefrekvens, ©L angir en tonehøydefrekvens som er gitt når enden av rammen er n = L, og mod27i (x) er en funksjon for tilbakeføring av en prinsippiell verdi for x i området fra - ti til +%. For eksempel når x = l,3n, er mod27c (x) = -0,77c gitt. Når x = 2,3 tc, er mod2TC (x) = 0,3tc gitt. Når x = -1,37c, er mod27i (x) = 0,7 gitt.
For å holde fasene sammenhengende kan verdien for fase psi(L)m ved enden av den aktuelle ramme benyttes som en verdi for fasen psi(0)m ved start av den neste ramme.
Når de stemte rammene fortsettes, blir utgangsfasen for hver ramme bestemt sekvensielt. Rammen hvori alle bånd er ustemte setter verdien for tonehøydefrekvens © ustabil slik at den foregående lov ikke gjelder for alle bånd. En viss grad av forutsigelse blir mulig ved bruk av en passende konstant for tonehøydefrekvensen o. Imidlertid blir den forutsagte fase gradvis skiftet ut med den opprinnelige fase.
Når alle bånd er ustemte i en ramme, blir en gitt utgangsverdi på 0 eller n/ 2 byttet ut i fasen psi(L)m når enden av rammen er n = L. Denne utbytting gjør det mulig å syntetisere sinusoidale bølgeformer eller kosinusoidale bølgeformer.
Basert på dataene om stemt/ustemt bestemmelsen sørger kretsen 39 til påvisning av ustemt ramme for å påvise om det finnes to eller flere sammenhengende rammer eller ikke hvori alle bånd er ustemte. Hvis det finnes to eller flere sammenhengende rammer, blir et faseinitialiserende styresignal sendt til en syntetiseirngskrets 37 for stemt lyd der fasen blir initialisert i den ustemte rammen. Faseinitialiseringen blir konstant utført ved intervallet for de sammenhengende ustemte rammer. Når den siste av de sammenhengende ustemte rammer blir forskjøvet til den stemte rammen, starter syntesen av den sinusoidale bølgeform på grunnlag av den initialiserte fase.
Dette gjør det mulig å motvirke forringelse av den akustiske kvalitet som ellers ville skyldes mellomrommet mellom de sammenhengende ustemte rammer. I systemet for sending av en annen type informasjon i stedet for tonehøydeinformasjon når det finnes sammenhengende ustemt ramme, blir den kontinuerlige faseforutsigelse vanskelig. Derfor, som nevnt ovenfor, er det ganske effektivt å initialisere fasen i den ustemte rammen.
Beskrivelsen vil nå bli rettet mot en prosess for syntetisering av en ustemt lyd, noe som foregår i enheten 38 for syntetisering av ustemt lyd.
En enhet 43 til frembringelse av hvit støy sender en hvit-støy signalbølgeform på tidsaksen til en vindusdannende enhet 44. Bølgeformen blir vindusbehandlet over en på forhånd bestemt lengde (for eksempel 256 utvalg). Vindusdannelsen utføres av en egnet vindusfunksjon (for eksempel vibrerende vindu). Den vindusbehandlende bølgeform sendes til en STFT behandlingsenhet 45 hvori en STFT (korttids Fourier transform) prosess blir utført for bølgeformen. De resulterende data bringes til å være et tidsaksialt energispektrum for den hvite støy. Energispekteret blir sendt fra STFT prosessenheten 45 til en båndamplitudebehandlende enhet 46.1 enheten 46 blir amplituden |Am| UV multiplisert med det ustemte båndet og amplitudene for de andre stemte bånd blir initialisert til null. Båndamplitudebehandlingsenheten 46 mottar amplitudedata og tonehøydedata og data om stemt/ustemt bestemmelsen.
Utmatningen fra båndamplitudebehandlingsenheten 46 blir sendt i ISTT behandlingsenheten 47.1 enheten 47 blir fasen omformet til signalet på tidsaksen ved hjelp av den reverserte STFT prosess. Den reverserte STFT prosess bruker den opprinnelige fase for den hvite støy. Utgangen fra ISTFT behandlingsenheten 47 blir sendt til en overlappende og summerende enhet 48 der overlappingen og tilføyelsen blir gjentatt ved en passende vektlegging for dataene på tidsaksen for gjenopprettelse av den opprinnelige kontinuerlige støybølgeform. Gjentagelsen av overlapping og tilføyelsen resulterer i syntetisering av den kontinuerlige bølgeform på tidsaksen. Utgangssignalet fra overlappings- og summeringsenheten 48 blir sendt til en summeringsenhet 41.
De stemte og ustemte signalene som er syntetisert og ført tilbake til tidsaksen i syntetiseringsenhetene 37 og 38, blir tilføyet med et egnet fast blandingsforhold i summeringsenheten 41. Det reproduserte talesignal tas ut ved en utgangsklemme 42.
Denne oppfinnelse er ikke begrenset til de foregående utførelser. For eksempel kan oppbygningen av talesyntetiseringssiden (kodesiden) som er vist på fig. 1 og oppbygningen av talesyntetiseringssiden (dekodesiden) som er vist på fig. 6, være blitt beskrevet ut fra maskinvare. I stedet kan disse utførelser virkeliggjøres med programvarer, og mer bestemt de såkalte digitale signalprosessorer. Samlingen (regenereringen) av båndene for hver harmoniske i et gitt antall bånd behøver ikke nødvendigvis utføres. Det kan gjøres om nødvendig. Det gitte antall bånd er ikke begrenset til tolv. Videre er delingen av alle bånd i det stemte lavpassområdet og det ustemte høypassområdet ved et gitt seksjoneirngspunkt ikke nødvendig å utføre. Videre er anvendelsen av foreliggende oppfinnelse ikke begrenset til multibånds eksiterende taleanalyse/syntesemetoder. I stedet kan foreliggende oppfinnelse lett anvendes på forskjellige typer taleanalyse/syntesemetoder som utføres ved hjelp av sinusoidal bølgeformsyntese. For eksempel er fremgangsmåten innrettet til å veksle alle bånd i hver ramme til å være stemt eller ustemt og til å innføre et annet kodesystem som for eksempel CELP (kodeeksitert lineær forutsigelse) kodesystem for rammen som finnes å være ustemt. Dessuten kan fremgangsmåten innrettes for å utøve forskjellige typer kodesystemer på LPC (lineær forutsigende koding) restsignalet. I tillegg, som en bruksmåte, kan foreliggende oppfinnelse anvendes på forskjellige måter ved for eksempel overføring, registrering og reproduksjon av et signal, tonehøydetransform, taletransform og undertrykkelse av støy.
Mange svært forskjellige utførelser av foreliggende oppfinnelse kan bygges opp uten at
dette avviker fra oppfinnelsens ånd og omfang. Det skal påpekes at foreliggende oppfinnelse ikke er begrenset til de spesielle utførelser som er beskrevet, men er nærmere angitt i kravene.

Claims (10)

1. Fremgangsmåte til utførelse av trinn med seksjonering av et inngangssignal avledet fra et talesignal ved en rammeenhet, utledning av en tonehøyde for hver seksjonert ramme, og syntetisering av en tale fra data som finnes å inneholde en stemt (voiced) lyd eller en ustemt (unvoiced) lyd, kara k t e, risert ved ved følgende trinn: syntetisering av en stemt lyd med en grunnbølge for tonehøyde og dens harmoniske hvis rammen finnes å inneholde en stemt lyd; og initialisering av fasene for grunnbølgen og dens harmoniske til en gitt verdi når rammen finnes å inneholde en ustemt lyd.
2. Fremgangsmåte til syntetisering av tale som angitt i krav 1, karakterisert ved at fasene for grunnbølgen og dens harmoniske blir initialisert ved tidspunktet for veksling av rammen som finnes å inneholde ustemt lyd til rammen som finnes å inneholde stemt lyd.
3. Fremgangsmåte til syntetisering av tale som angitt i krav 1, karakterisert ved at når det finnes to eller flere sammenhengende rammer som viser seg å inneholde ustemt lyd, blir fasene for grunnbølgen og dens harmoniske initialisert.
4. Fremgangsmåte til syntetisering avtale som angitt i krav 1, karakterisert ved at inngangssignalet er en lineær forutsigende koderest som fremkommer ved utførelse av en lineær forutsigende kodeoperasjon når det gjelder talesignalet.
5. Fremgangsmåte til syntetisering av tale som angitt i krav 1, karakterisert ved at fasene for grunnbølgen og dens harmoniske blir initialisert til null eller 7c/2.
6. Anordning til syntetisering av tale, innrettet til å seksjonere et inngangssignal som er avledet fra et talesignal ved en rammeenhet, utlede en tonehøyde for hver ramme, og syntetisere en tale ut fra data som finnes å inneholde en stemt lyd eller en ustemt lyd, karakterisert ved at den omfatter: innretninger for syntetisering av en stemt lyd med en grunnbølge og dens harmoniske av tonehøyde hvis rammen finnes å inneholde en stemt lyd; og innretning for initialisering av fasen for grunnbølgen og dens harmoniske til en gitt verdi når rammen finnes å inneholde en ustemt lyd.
7. Anordning til syntetisering av tale som angitt i krav 6, karakterisert ved at initialiseringsinnretningen initialiserer fasen for grunnbølgen og dens harmoniske på tidspunktet for veksling av den ramme som finnes å inneholde ustemt lyd til rammen som finnes å inneholde stemt lyd.
8. Anordning til syntetisering av tale som angitt i krav 6, karakterisert ved at der det finnes to eller flere sammenhengende rammer som finnes å inneholde ustemt lyd, blir fasene for grunnbølgen og dens harmoniske initialisert.
9. Anordning til syntetisering av tale som angitt i krav 6, karakterisert ved at initialiseringsinnretningen initialiserer fasene for grunnbølgen og dens harmoniske til null eller n/ 2.
10. Anordning til syntetisering av tale som angitt i krav 6, karakterisert ved at inngangssignalet er en lineær forutsigende koderest som fremkommer ved utførelse av en lineær forutsigende kodeoperasjon når det gjelder et talesignal.
NO19963935A 1995-09-28 1996-09-19 Fremgangsmåte og anordning for syntetisering av tale NO312428B1 (no)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25098395A JP3680374B2 (ja) 1995-09-28 1995-09-28 音声合成方法

Publications (3)

Publication Number Publication Date
NO963935D0 NO963935D0 (no) 1996-09-19
NO963935L NO963935L (no) 1997-04-01
NO312428B1 true NO312428B1 (no) 2002-05-06

Family

ID=17215938

Family Applications (1)

Application Number Title Priority Date Filing Date
NO19963935A NO312428B1 (no) 1995-09-28 1996-09-19 Fremgangsmåte og anordning for syntetisering av tale

Country Status (8)

Country Link
US (1) US6029134A (no)
EP (1) EP0766230B1 (no)
JP (1) JP3680374B2 (no)
KR (1) KR100406674B1 (no)
CN (1) CN1132146C (no)
BR (1) BR9603941A (no)
DE (1) DE69618408T2 (no)
NO (1) NO312428B1 (no)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3055608B2 (ja) * 1997-06-06 2000-06-26 日本電気株式会社 音声符号化方法および装置
US6449592B1 (en) 1999-02-26 2002-09-10 Qualcomm Incorporated Method and apparatus for tracking the phase of a quasi-periodic signal
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
KR100711047B1 (ko) * 2000-02-29 2007-04-24 퀄컴 인코포레이티드 폐루프 멀티모드 혼합영역 선형예측 (mdlp) 음성 코더
KR100711040B1 (ko) * 2000-02-29 2007-04-24 퀄컴 인코포레이티드 유사주기 신호의 위상을 추적하는 방법 및 장치
WO2004082288A1 (en) * 2003-03-11 2004-09-23 Nokia Corporation Switching between coding schemes
JP4992717B2 (ja) * 2005-09-06 2012-08-08 日本電気株式会社 音声合成装置及び方法とプログラム
JP2007114417A (ja) * 2005-10-19 2007-05-10 Fujitsu Ltd 音声データ処理方法及び装置
EP1918911A1 (en) * 2006-11-02 2008-05-07 RWTH Aachen University Time scale modification of an audio signal
US8121835B2 (en) * 2007-03-21 2012-02-21 Texas Instruments Incorporated Automatic level control of speech signals
WO2009004727A1 (ja) * 2007-07-04 2009-01-08 Fujitsu Limited 符号化装置、符号化方法および符号化プログラム
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
CN102103855B (zh) * 2009-12-16 2013-08-07 北京中星微电子有限公司 一种检测音频片段的方法及装置
WO2012006770A1 (en) * 2010-07-12 2012-01-19 Huawei Technologies Co., Ltd. Audio signal generator
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN111862931A (zh) * 2020-05-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音生成方法及装置
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1242279A (en) * 1984-07-10 1988-09-20 Tetsu Taguchi Speech signal processor
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5664051A (en) * 1990-09-24 1997-09-02 Digital Voice Systems, Inc. Method and apparatus for phase synthesis for speech processing
JP3218679B2 (ja) * 1992-04-15 2001-10-15 ソニー株式会社 高能率符号化方法
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5504834A (en) * 1993-05-28 1996-04-02 Motrola, Inc. Pitch epoch synchronous linear predictive coding vocoder and method
JP3338885B2 (ja) * 1994-04-15 2002-10-28 松下電器産業株式会社 音声符号化復号化装置

Also Published As

Publication number Publication date
EP0766230B1 (en) 2002-01-09
EP0766230A3 (en) 1998-06-03
KR970017173A (ko) 1997-04-30
BR9603941A (pt) 1998-06-09
EP0766230A2 (en) 1997-04-02
CN1157452A (zh) 1997-08-20
KR100406674B1 (ko) 2004-01-28
DE69618408T2 (de) 2002-08-29
CN1132146C (zh) 2003-12-24
DE69618408D1 (de) 2002-02-14
JP3680374B2 (ja) 2005-08-10
NO963935D0 (no) 1996-09-19
NO963935L (no) 1997-04-01
US6029134A (en) 2000-02-22
JPH0990968A (ja) 1997-04-04

Similar Documents

Publication Publication Date Title
NO312428B1 (no) Fremgangsmåte og anordning for syntetisering av tale
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
CN105122356B (zh) 信号解码期间帧丢失的改进型校正
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
CN102122511B (zh) 一种信号处理方法、处理装置以及语音解码器
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
EP0640952A2 (en) Voiced-unvoiced discrimination method
JP3191926B2 (ja) 音響波形のコード化方式
JPH05281996A (ja) ピッチ抽出装置
US6115685A (en) Phase detection apparatus and method, and audio coding apparatus and method
JP3218679B2 (ja) 高能率符号化方法
JP3362471B2 (ja) 音声信号の符号化方法及び復号化方法
JP2006510938A (ja) 音声符号化における正弦波の選択
JP3321933B2 (ja) ピッチ検出方法
JP3297750B2 (ja) 符号化方法
JP3223564B2 (ja) ピッチ抽出方法
JPH05281995A (ja) 音声符号化方法
JP3218680B2 (ja) 有声音合成方法
EP0987680A1 (en) Audio signal processing
JP2000132195A (ja) 信号符号化装置及び方法
JPH05297896A (ja) 背景雑音検出方法及び高能率符号化方法
JPH09171400A (ja) 音声信号帯域圧縮伝送方法及び音声信号再生方法並びに音声信号帯域圧縮伸長装置
EP1164577A2 (en) Method and apparatus for reproducing speech signals
JPH05265489A (ja) ピッチ抽出方法

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees