NO326880B1 - Fremgangsmate og anordning for taledata - Google Patents

Fremgangsmate og anordning for taledata Download PDF

Info

Publication number
NO326880B1
NO326880B1 NO20021631A NO20021631A NO326880B1 NO 326880 B1 NO326880 B1 NO 326880B1 NO 20021631 A NO20021631 A NO 20021631A NO 20021631 A NO20021631 A NO 20021631A NO 326880 B1 NO326880 B1 NO 326880B1
Authority
NO
Norway
Prior art keywords
prediction
speech
class
coefficients
code
Prior art date
Application number
NO20021631A
Other languages
English (en)
Other versions
NO20021631L (no
NO20021631D0 (no
Inventor
Tetsujiro Kondo
Tsutomu Watanabe
Hiroto Kimura
Masaaki Hattori
Yasuhiro Fujimori
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2000251969A external-priority patent/JP2002062899A/ja
Priority claimed from JP2000346675A external-priority patent/JP4517262B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Publication of NO20021631D0 publication Critical patent/NO20021631D0/no
Publication of NO20021631L publication Critical patent/NO20021631L/no
Publication of NO326880B1 publication Critical patent/NO326880B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Det er beskrevet en talebehandlingsanordning, der forutsigelsesutgang for å finne forutsigelsesverdier for talen som har høy lydkvalitet, blir trukket ut fra den syntetiserte lyd som er fremkommet ved å føre lineære forutsigelseskoeffisienter og restsignaler, frembragt fra en forhåndsstilt kode, til et talesyntesefilter der talen med høy lydkvalitet har høyere lydkvalitet enn den syntetiserte lyd, og der forutsigelsesuttakene blir benyttet sammen med forhåndsstilte uttakskoeffisienter for å utføre forhåndsstilte forutsigelsesberegninger for å finne forutsigelsesverdiene for talen som har høy lydkvalitet. Lyden som har høy lydkvalitet har høyere lydkvalitet enn den syntetiserte lyd. Anordningen omfatter en enhet (45) til uttrekning av forutsigelsesuttak fra den syntetiserte lyd, der forutsigelsesuttakene benyttes til forutsigelse av talen som har høy kvalitet, som måltale, for hvilken forutsigelsesverdi og en enhet (46) for uttrekning av klasseuttak, benyttet til klassifisering av måltalen i en av et flertall klasser fra den ovenstående kode. Anordningen omfatter også en klassifiseringsenhet (47) for å finne klassen for måltalen basert på klasseuttakene, uthentningsenhet og uthentning av uttakskoeffisienter som er knyttet til klassen for måltalen fra blant uttakskoefifsientene som er funnet ved opplæring fra klasse til klasse, og enforutsigelsesenhet (49) for å finne forutsigelsesverdiene for måltalen ved bruk av forutsigelsesuttak og uttakskoefifsientene som er knyttet til klassen for måltalen

Description

Teknisk felt.
Denne oppfinnelse angår en fremgangsmåte og anordning til behandling av data, en fremgangsmåte og en anordning for opplysning og et registreringsmedium. Mer bestemt angår den en fremgangsmåte og en anordning til behandling av data, en fremgangsmåte og en anordning for opplysning og et registreringsmedium ifølge hvilket taler som er kodet i henhold til CELP (kodeeksitert lineær forutsigelseskoding)systemet kan dekodes til tale med høy lydkvalitet.
Teknikkens bakgrunn.
Først skal et eksempel på et vanlig bærbart telefonsett forklares med henvisning til figurene 1 og 2.
Dette bærbare telefonsett er innrettet for overføringsbehandling med koding av talen til en på forhånd bestemt kode i henhold til CELP-systemet og til overføring av den resulterende kode samt til utførelse av mottagsbehandling ved mottagning av den kode som er sendt fra andre bærbare telefonsett og dekoding av den mottatte kode til tale. Figurene 1 og 2 viser en sender til utførelse av sendeprosessen og en mottager til utførelse av mottagsprosessen.
I senderen som er vist på figur 1 blir talen som kommer fra en bruker ført som inngang til en mikrofon 1 der talen blir omdannet til talesignaler i form av elektriske signaler som blir rutestyrt til en A/D (analog/digital) omformet 2. A/D-omformeren 2 utvalgsbehandler de analoge talesignaler fra mikrofonen 1 med for eksempel utvalgsrfekvensen på 8 kHz for A/D-omforming til digitale signaler, og kvantiserer videre de resulterende digitale signaler med et på forhånd bestemt antall biter for så å rutestyre de resulterende kvantiserte signaler til en operativenhet 3 og til en LPC (lineær forutsigelseskoding)enhet 4.
LPC-enheten 4 utfører LPC-analyse av talersignaler fra A/D-omformeren 2 i form av en ramme svarende til for eksempel 160 utvalg som en enhet for å finne p-dimensjonale lineære forutsigelseskoeffisienter ai, 012,..., ap. LPC-analyseenheten 4 sender en vektor som har disse P-dimensjonelle lineære forutsigelseskoeffisienter ap, der P = 1,2,..., P, som komponenter til en vektorkvantiserer 5 som en særpregvektor a for talen. Vektorkvantisereren S har en kodebok som knytter kodevektoren som har de lineære forutsigelseskoeffisienter som komponenter, til koden, og kvantiserer særpregvektoren a fra LPC-analyseenheten 4, basert på den kodebok for å sende den kode som er resultatet fra vektorkvantiseringen og som noen ganger i det følgende betegnes som A-kode (A_kode) til en kodebeslutningsenhet 15.
Vektorkvantisereren 5 sender de lineære forutsigelseskoeffisienter ai, a2,ap', som komponenter som danner den kodevektor a' som tilsvarer A-koden til et talesyntesefilter 6.
Talesyntesefilteret 6 er for eksempel et digitalt filter av HR (infinite impulse response = uendelig pulsreaksjon)type og utfører talesyntese med de lineære forutsigelseskoeffisienter ap' der P = 1,2 ..., P fra vektorkvantisereren 5 som uttagskoeffisienter fra IIR-filteret, og med restsignalene e fra en operativ enhet 14 som inngangssignal.
Dette betyr at i LPC-analysen som utføres av LPC-enheten 4 er det forutsatt at en endimensjonal lineær kombinasjon som er representert ved likning (1):
er gyldig, der s„ er (utvalgt verdi) for talesignalet på det aktuelle tidspunkt n og Sn-i, Sn-2, ..., Sn-p er tidligere P utvalgsverdi som støter inntil, og de lineære forutsigelseskoeffisienter Op som vil minimalisere kvadratfeilen mellom den virkelige utvalgsverdi s„ og en verdi for lineær forutsigelse s„' av denne eller den forutsagte verdi (lineære forutsigelsesverdi) Sn' for den utvalgte verdi av talesignalet Sn på det aktuelle tidspunkt er lineært-forutsagt fra de n tidligere utvalgsverdier s„-i, s„-2 ..., Sn-P i overensstemmelse med den følgende likning (2): '
funnet.
I den ovenstående likning (1), er {e„} (..., e„.i, e„, en+i,...) resiprokmessig ukorrelerte sannsynlighetsvariable med en gjennomsnittsverdi lik 0 og med en variabilitet svarende til en forhåndsbestemt verdi på 6<2>
Fra likning (1) kan utvalgsverdien Sn være representert med den følgende likning (3):
Denne kan bli Z-transformert for å gi den følgende likning (4):
der S og E angir Z-transformer av henholdsvis s„ og e„ i likning (3).
Fra likningene (1) og (2), kan e„ representeres med den følgende likning (5):
og blir betegnet som et restsignal mellom den reelle utvalgsverdi s„ og den lineære forutsagte verdi s„' av denne.
På denne måte kan talesignalet s„ finnes fra likning (4) ved bruk av de lineære forutsigelseskoeffisienter ap som uttakskoeffisienter for IIR-filtere, og også ved bruk av restsignalet e„ som et inngangssignal til HR-filteret.
Talesyntesefilteret 6 beregner likning (4) ved bruk av de lineære forutsigelseskoeffisienter a'p fra vektorkvantisereren 5 som uttakskoeffisienter, og også ved bruk av restsignalet e fra operativenheten 14 som et inngangssignal som beskrevet ovenfor for å finne talesignalene (syntetiserte talesignaler) ss.
I mellomtiden, siden talesyntesefilteret 6 ikke benytter de lineære forutsigelseskoeffisienter Op som fremkommer som resultatet fra LPC med LPC-enheten 4, men de lineære forutsigelseskoeffisienter Op' som kodevektor svarende til den kode som fremkommer ved dens vektorkvantisering. På denne måte er den syntetiserte talesignalutgang fra talesyntesefilteret ikke det samme som talesignalutgangen fra A/D-omformeren 2.
De syntetiserte lydsignaler ss som kommer som utgang fra talesyntesefilteret 6 blir sendt til operativenheten 3 som subtraherer talesignalet s fra A/D-omformeren 2 fra det syntetiserte talesignal ss fra talesyntesefilteret 6, for å sende den resulterende forskjellsverdi til en kvadratfeiloperativ enhet 7. Kvadratfeiloperativenheten 7 finner kvadratsurnmen for forskjells verdiene fra operativenheten 3 (kvadratsummen av utvalgsverdiene for den k'de ramme) for å sende den resulterende kvadratsum til en minimum kvadratsumbestemmende enhet 8.
Den minimum kvadratsumbestemmende 8 holder en L-kode (L kode) som en kode som representerer etterslepet, og en G-kode (G_kode) som en kode som representerer økningen og en I-kode (I_kode) som den kode som representerer kodeordet i tilknytning til kvadratfeilutgangen fra kvadratfeiloperativenheten 7, og gir som utganger I-kode, G-kode og L-kode svarende til kvadratfeilutgangen fra kvadratfeilutgangen fra operativenheten 7. L-koden, G-koden og I-koden blir sendt til en adaptiv kodeboklagerenhet 9, en forsterkningsdekoder 10 og en eksiteringskodeboklagerenhet 11. L-koden, G-koden og I-koden blir også sendt til en kodebestemmelsesenhet 15.
Den adaptive kodeboklagerenheten 9 har en adaptiv kodebok som knytter f.eks. en 7-bit L-kode til en på forhånd bestemt forsinkelsestid (etterslep), og forsinker restsignalet e som tilføres fra operativenheten 14 med en forsinkelsestid knyttet til den L-kode som tilføres fra minimum kvadratfeilbeslutningsenheten 8 for å gi som utgang det resulterende forsinkede signal til en operativ enhet 12.
Siden den adaptive kodeboklagerenheten 9 som utgang gir restsignalet e med en forsinkelse svarende til L-koden, kan utgangssignalet sies å være et signal som ligger nær opptil et periodisk signal som har forsinkelsestiden som en periode. Dette signal blir hovedsakelig et drivsignal til frembringelse av en syntetisert lyd av den uttalte lyd i talesyntesen som benytter lineære forutsigelseskoeffisienter.
Forsterkningsdekoderen 10 har en tabell som knytter G-koden til de forhåndsinnstilte forsterkninger p og y, og utgangsforsterkningsverdiene p og y som er knyttet til G-koden blir tilført fra minimum kvadratfeilbeslutningsenheten 8. Forsterknings verdiene p og y blir tilført operativenhetene 12 og 13.
En eksiteringskodeboklagerenhet 11 inneholder en eksiteringskodebok som knytter for eksempel en 9-bit I-kode med et forhåndsinnstilt eksiteringssignal, og gir som utgang det eksiteringssignal som er knyttet til I-kodeutgangen fra minimum kvadratfeilbeslutningsenheten 8 til operativenheten 13.
Eksiteringssignalet som er lagret i eksiteringskodeboken er et signal som er nær opptil for eksempel til den hvite støy, og blir et drivsignal hovedsakelig benyttet til frembringelse av den syntetiserte lyd av ikke-uttalt lyd i talesyntesen som benytter lineære forutsigelseskoeffisienter.
Den operative enhet 12 multipliserer en utgangssignal fra den adaptive kodeboklagerenheten 9 med forsterkningsverdien P som er utgang fra forsterkningsdekoderen 10, og rutestyrer en produktverdi n til operativenheten 14. Operativenheten 13 multipliserer utgangssignalet fra eksiteringskodeboklagerenheten 11 ved en forsterkningsverdi y som er utgang fra forsterkningsdekoderen 10 for å sende det resulterende produkt n til operativenheten 14. Operativenheten 14 summerer produktverdien 1 for operativenheten 12 ved produktverdien n fra operativenheten 13 for å sende den resulterende sum som restsignalet e til talesyntesefilteret 6.
I talesyntesefilteret 6 blir inngangssignalet som er restsignalet e tilført fra operativenheten 14, filtrert med HR-filteret, og for de lineære forutsigelseskoeffisienter Op' til ført fra vektorkvantisereren 5 som uttakskoeffisienter og det resulterende syntetiserte signal blir sendt til operativenheten 3.1 operativenheten 3, og i kvadratfeilopperativenheten 7, blir det utført operasjoner svarende til de som er beskrevet ovenfor, og de resulterende kvadratfeil blir sendt til minimum kvadratfeilbeslutningsenheten 8.
Minimum kvadratfeilbeslutningsenheten 8 bekrefter om kvadratfeilen fra kvadratfeiloperativenheten 7 er blitt minst mulig (lokalt minimum) eller ikke. Hvis det bekreftes at kvadratfeilen ikke er på lokalt minimum, vil minimum kvadratbeslutningsenheten 8 sende ut L-koden, G-koden og I-koden svarende til kvadratfeilen og deretter gjentar tilsvarende sekvens med operasjoner.
Hvis det viser seg at kvadratfeilen er blitt den minste, vil minimum kvadratbeslutningsenheten 8 gi som utgang et bestemt signal til kodebeslutningsenheten 15. Kodebeslutningsenheten 15 er innrettet for å låse A-koden som tilføres fra vektorkvantisereren 5 og for sekvensiell låsing av L-koden, G-koden og I-koden som sendes fra minimum kvadratfeilbeslutningen 8. Ved mottak av det bestemte signal fra minimum kvadratfeilbeslutningsenheten 8 sender kodebeslutningsenheten 15 A-koden, L-koden, G-koden og I-koden, deretter låst til en kanalkoder 16. Kanalkoderen 16 vil så multiplekse A-koden, L-koden, G-koden og I-koden som sendes fra kodebeslutningsenheten 15 for å gi som utgang de resulterende multipleksede data som kodedata, hvilke kodedata blir overført over en overføringskanal.
For å forenkle forklaringen antas det at A-koden, L-koden, G-koden og I-koden blir funnet fra ramme til ramme. Det er imidlertid mulig å dele opp for eksempel en ramme i fire delrammer og å finne L-koden, G-koden og I-koden på basis av delrammer.
Det skal påpekes at i 11 og 12 på figur 1 så vel som på figur 2 blir det som forklart senere dannet en tabellvariabel [k] ved å knytte [k] til hver variabel. I den foreliggende beskrivelse blir forklaring av denne k som representerer antall rammer noen ganger utelatt.
Kodedata som blir sendt fra en sender i et annet bærbart telefonsett blir mottatt av en kanal dekoder 21 i en mottaker som er vist på figur 2. Kanal dekoderen 21 dekoder L-koden, G-koden, I-koden og A-koden fra kodedataene for å sende de på denne måte adskilte respektive koder til en adaptiv kodeboklagerenhet 22, en forsterkningsdekoder 23, en eksiteringskodeboklagerenhet 24 og til en filterkoeffisientdekoder 25.
Den adaptive kodeboklagerenhet 22, forsterkningsdekoderen 23, eksiteringskodeboklagerenheten 24 og operativenhetene 26 til 28 er utformet svarende til den adaptive kodeboklagerenheten 9, forsterkningsdekoderen 10, eksiteringskodeboklagerenheten 11 og operativenhetene 12 til 14 og utfører prosesser svarende til det som er forklart med henvisning til figur 1 for å dekode L-koden, G-koden og I-koden til restsignalet e. Dette restsignalet e blir sendt som et inngangssignal til et talesyntesefilter 29.
En filterkoeffisientdekoder 25 har samme kodebok som den som er lagret i vektorkvantisereren 5 på figur 1 og dekoder A-koden til den lineære forutsigelseskoeffisient otp' som så rutestyres til talesyntesefilteret 29.
Talesyntesefilteret 29 er utformet svarende til talesyntesefilteret 6 på figur 1, og løser likning (4) med den lineære forutsigelseskoeffisient otp' fra filterkoeffisientdekoderen 25 som en uttakskoeffisient, og med restsignalet e fra operativenheten 28 som et inngangssignal for å frembringe et syntetisert talesignal når kvadratfeilen er blitt funnet å være minimum i minimumkvadratfeilbeslutningsenheten 8 på figur 1. Dette syntetiserte talesignal blir sendt til en D/A (digital/analog) omformet 30. D/A-omformeren 30 vil så D/A-omforme det syntetiserte talesignal fra talesyntesefilteret 29 for å så sende det resulterende analoge signal til en høyttaler 31 som utgang.
Senderen i det bærbare telefonsett sender en kodet versjon av restsignalet, og det lineære forutsigelseskoeffisienter som filterdata som tilføres til talesyntesefilteret 29 i mottagere som beskrevet ovenfor. På denne måte vil mottageren dekode kodene til restsignalet, og de lineære forutsigelseskoeffisienter. Restsignalet som er dekodet på denne måte, og de lineære forutsigelseskoeffisienter som er dekodet, er ødelagt med feil som for eksempel kvantiseringsfeil. Dermed blir restsignalene som er dekodet på denne måte, og de lineære forutsigelseskoeffisienter som er tilsvarende dekodet, noen ganger betegnet i det følgende som dekodede restsignaler og dekodede lineære forutsigelseskoeffisienter, og er ikke de samme som restsignalet og de lineære forutsigelseskoeffisienter som fremkom ved LPC-analysen av talen slik at de syntetiserte talesignaler som kommer som utgang fra mottakerens talesyntesefilter 29 blir forvrengt og derfor har en forringet lydkvalitet.
Publikasjon US 5.327.520 beskriver en fremgangsmåte for behandling av tale, hvor fremgangsmåten innbefatter å kode et talesignal for lagring og å overføre tale, og å dekode digitale signaler for å fremstille talesignaler.
Publikasjon US 5.233.660 beskriver fremgangsmåte og system som angår behandling av et talesignal, hvor signaler blir kodet for lagring og for overføring.
Beskrivelse av oppfinnelsen.
Foreliggende oppfinnelse tilveiebringer en databehandlingsanordning til utførelse av talebehandling der forutsigelsesdata for å finne forutsigelsesverdier for tale av høy lydkvalitet ekstraheres fra den syntetiserte lyd som er skaffet ved å levere lineære forutsigelseskoeffisienter og restsignaler til et talesyntesefilter, kjennetegnet ved de trekk som fremgår av det vedfølgende selvstendige patentkrav 1.
Ytterligere fordelaktige trekk ved foreliggende oppfinnelses databehandlingsanordning fremgår av de vedfølgende uselvstendige patentkravene 2 til og med 7.
Foreliggende oppfinnelse tilveiebringer en databehandlingsfremgangsmåte til utførelse av talebehandling for å ekstrahere forutsigelsesdata for å finne forutsigelsesverdier for tale av høy lydkvalitet fra syntetisert lyd som blir frembrakt ved å levere til et talesyntesefilter lineære forutsigelseskoeffisienter og restsignaler, kjennetegnet ved de trekk som fremgår av det vedfølgende selvstendige patentkrav 8.
Foreliggende oppfinnelse tilveiebringer i henhold til vedfølgende patentkrav 9 et registreirngsmedium hvorpå det er registrert et program som får en datamaskin til å utføre fremgangsmåten som er angitt i patentkrav 8.
Foreliggende oppfinnelse tilveiebringer en opplæringsanordning for opplæring av forhåndsstilte klasseuttak som er egnet til å finne, ved forhåndsstilte forutsigelsesberegninger, forutsigelsesverdiene for tale av høy lydkvalitet fra syntetisert lyd som blir frembrakt ved tilførsel til et talesyntesefilter av lineære forutsigelseskoeffisienter og restsignaler, kjennetegnet ved de trekk som fremgår av det vedfølgende selvstendige patentkrav 10.
Ytterligere fordelaktige trekk ved foreliggende oppfinnelses opplæringsanordning fremgår av de vedfølgende uselvstendige patentkravene 11 til og med 13.
Foreliggende oppfinnelse tilveiebringer en opplæringsrfemgangsmåte for opplæring av forhåndsstilte klasseuttak som er egnet til å finne, ved hjelp av forhåndsstilte forutsigelsesberegninger, forutsigelsesverdier for tale av høy lydkvalitet fra syntetisert lyd som fremkommer ved tilførsel til et syntesefilter av lineære forutsigelseskoeffisienter og restsignaler, kjennetegnet ved de trekk som fremgår av det vedfølgende selvstendige patentkrav 14.
Foreliggende oppfinnelse tilveiebringer i henhold til vedfølgende patentkrav 15 et registreringsmedium hvorpå det er registrert et program som får en datamaskin til å utføre opplæringsfremgangsmåten som er angitt i patentkrav 14.
I betraktning av den teknikkens stand som er beskrevet ovenfor er det et formål med foreliggende oppfinnelse å komme frem til en fremgangsmåte og en anordning for behandling av data, en fremgangsmåte og en anordning for informasjon og for et registreringsmedium der det kan oppnås syntetisert lyd med høy lydkvalitet.
For å oppfylle det ovennevnte formål går foreliggende oppfinnelse ut på en taleprosessanordning som innbefatter en ekstraheirngsenhet for klasseuttak til ekstrahering fra kodedata som benyttes til klassifisering av den tale det gjelder til en av et antall klasser, en klassifiseringsenhet som skal finne klassen for den tale det gjelder basert på de ekstraherte data, en uthentingsenhet som henter ut forhåndsstilte koeffisienter som er knyttet til klassen for den tale det gjelder blant de forhåndsstilte koeffisienter som blir funnet ved kunnskap om klasse til klasse, en forutsigelsesenhet som finner frem til forutsigelsesverdier for den tale det gjelder ved å anvende de forhåndsstilte koeffisientene som er knyttet til klassen for denne tale på forutsigelsesdata. Med talen av høy lydkvalitet, hvor dennes forutsigelsesverdier skal finnes som den tale det gjelder, blir de forutsigelsesdataene som benyttes til å forutsi den tale det gjelder ekstrahert fra den syntetiserte lyd. De data som benyttes til sortering av den tale det gjelder i en av et flertall klasser, blir ekstrahert fra koden, og de forhåndsstilte koeffisientene, som er knyttet til koden for den tale det gjelder, blir hentet fra klassebaserte koeffisienter som finnes ved opplæring. Forutsigelsesverdiene for den aktuelle tale finnes ved bruk av forutsigelsesdataene og de forhåndsstilte koeffisienter som er knyttet til klassen for den aktuelle tale.
Opplæringsanordningen ifølge foreliggende oppfinnelse omfatter en klasseuttaksenhet for ekstrahering av dataene fra koden, hvilke ekstraherte data blir benyttet for klassifisering av talen med høy lydkvalitet, en klassifiseringsenhet for å finne en klasse for talen basert på de ekstraherte data, og en opplæringsenhet for å utføre opplæring slik at forutsigelsesfeilene ved forutsigelsesverdiene for talen med høy lydkvalitet som er fremskaffet ved utførelse av forutsigende beregninger ved bruk av de forhåndsstilte koeffisientene og den syntetiserte lyd, vil være på et statistisk minimum for å finne de forhåndsstilte koeffisientene for forskjellige klasser. Med denne tale som er høy lydkvalitet, og hvis forutsigelsesverdier skal finnes som den tale det gjelder, blir de data som benyttes til sortering av den tale det gjelder i en av et flertall klasser ekstrahert fra koden og talens klasse blir funnet basert på de ekstraherte data. Opplæringen utføres så på en slik måte at forutsigelsesfeilene for forutsigelsesverdiene til talen med høy kvalitet, som fremskaffet ved utførelse av forutsigende beregninger ved bruk av de forhåndsstilte koeffisientene og den syntetiserte lyd, vil være de statistisk minste for å gi de klassebaserte forhåndsstilte koeffisienter.
Andre formål, trekk og fordeler ved foreliggende oppfinnelse vil fremgå av den følgende beskrivelse av utførelser av forliggende oppfinnelse som vist på tegningene.
Kort beskrivelse av tegningene.
Figur 1 er et blokkskjema som viser en typisk sender som en del av en vanlig bærbar telefonmottaker.
Figur 2 er et blokkskjema som viser en typisk mottager.
Figur 3 er et blokkskjema som viser en talesynteseanordning omfattende foreliggende oppfinnelse. Figur 4 er et blokkskjema som viser et talesyntesefilter som danner talesynteseanordninger. Figur 5 er et flytskjema som viser behandlingen i en talesynteseanordning som er vist på figur 3. Figur 6 er et blokkskjema som viser en opplæringsanordning som omfatter foreliggende oppfinnelse. Figur 7 er et blokkskjema som viser et forutsigelsesfilter som danner opplæringsanordningen ifølge foreliggende oppfinnelse. Figur 8 er et flytskjema som viser virkemåten for opplæringsanordningen på figur 6. Figur 9 er et blokkskjema som viser et overføringssystem som omfatter foreliggende oppfinnelse. Figur 10 er et blokkskjema som viser et bærbart telefonsett som omfatter foreliggende oppfinnelse. Figur 11 er et blokkskjema som viser en mottaker som danner det bærbare telefonsett. Figur 12 er et blokkskjema som viser en modifikasjon av opplæringsanordningen som omfatter foreliggende oppfinnelse. Figur 13 er et blokkskjema som viser en typisk oppbygning av en datamaskin som innbefatter foreliggende oppfinnelse. Figur 14 er et blokkskjema som viser en annen typisk oppbygning for en talesynteseanordning innbefattende foreliggende oppfinnelse. Figur 15 er et blokkskjema som viser et talesyntesefilter som danner talesynteseanordningen. Figur 16 er et flytskjema for å illustrere virkemåten for talesynteseanordningen som er vist på figur 14. N Figur 17 er et blokkskjema som viser en annen modifikasjon av opplæringsanordningen som omfatter foreliggende oppfinnelse. Figur 18 er et blokkskjema som viser et forutsigelsesfilter som danner opplæringsanordning i forhold til foreliggende oppfinnelse. Figur 19 er et flytskjema som viser virkemåten for den opplæringsanordning som er vist på figur 17. Figur 20 er et blokkskjema som viser et overføringssystem innbefattende foreliggende oppfinnelse. Figur 21 er et blokkskjema som viser det bærbare telefonsett som omfatter foreliggende oppfinnelse. Figur 22 er et blokkskjema som viser den mottaker som danner det bærbare telefonsett. Figur 23 er et blokkskjema som viser en annen modifikasjon av opplæringsanordningen innbefattende foreliggende oppfinnelse. Figur 24 er et blokkskjema som viser ennå en annen typisk oppbygning av en talesynteseanordning innbefattende foreliggende oppfinnelse. Figur 25 er et blokkskjema som viser et talesyntesefilter som danner talesynteseanordningen. Figur 26 er et flytskjema som viser virkemåten for talesynteseanordningen som er vist på figur 24. Figur 27 er et blokkskjema som viser en ytterligere modifikasjon av opplæringsanordningen innbefattende foreliggende oppfinnelse. Figur 28 er et blokkskjema som viser et forutsigelsesfilter som danner opplæringsanordningen i henhold til foreliggende oppfinnelse. Figur 29 er et flytskjema som viser virkemåten for opplæringsanordningen som er vist på figur 27. Figur 30 er et blokkskjema som viser et overføringssystem innbefattende foreliggende oppfinnelse. Figur 31 er et blokkskjema som viser et bærbart telefonsett innbefattende foreliggende oppfinnelse. Figur 32 er et blokkskjema som viser en mottager som danner det bærbare telefonsett. Figur 33 er et blokkskjema som viser en ytterligere modifikasjon av opplæringsanordningen innbefattende foreliggende oppfinnelse.
Figur 34 viser lærer- og elevdata.
Beste utførelsesmåte for oppfinnelsen.
Med henvisning til tegningene blir noen foretrukne utførelser av foreliggende oppfinnelse forklart i detalj.
Talesynteseanordningen som omfatter foreliggende oppfinnelse er utført som vist på figur 3, og blir matet med kodedata som fremkommer ved multipleksing av restkoden og A-koden, som frembringes etter tur henholdsvis ved koding av restsignal og lineære forutsigelseskoeffisienter som så skal tilføres et talesyntesefilter 44 ved vektorkvantisering. Fra restkoden og A-koden blir restsignalene og de lineære forutsigelseskoeffisienter dekodet henholdsvis, og matet til talesyntesefilteret 44 for å frembringe den syntetiserte lyd talesynteseanordningen utfører forutsigelsesberegninger ved bruk av den syntetiserte lyd som frembringes av syntesefilteret 44, og også ved bruk av uttakskoeffisienter som finnes ved opplæring for å komme frem til den høykvalitetsyntetiserte tale som er den syntetiserte tale med forbedret lydkvalitet.
Ved talesynteseanordningene ifølge oppfinnelsen, slik den er vist på figur 3, blir klassifiserende adaptiv behandling benyttet for å dekode den syntetiserte tale til høykvalitets sann tale med mer nøyaktig forutsagte verdier for denne.
Den klassifiserende adaptive behandling er dannet av klassifisering og adaptiv behandling. Ved klassifiseringen blir data klassifisert avhengig av sin egenskap og underkaster klassebasert adaptiv behandling. Den adaptive behandling benytter den følgende teknikk: Det vil si den adaptive behandling finner forutsagte verdier for den sanne tale med høy lydkvalitet ved for eksempel lineær kombinasjon av den syntetiserte tale og forhåndsinnstilte uttakskoeffisienter.
Mer bestemt blir det nå tatt sikte på å finne forutsagte verdier E[y] for høykvalitetstalen som lærerdata der det som lærerdata benyttes talen i den sanne tale med høy kvalitet, mer nøyaktig utvalgsverdier av denne og også benyttes som elevdata der den syntetsierte tale som fremkommer ved koding av den sanne tale med høy kvalitet i L-kode, G-kode, I-kode og A-kode i henhold til CELP-systemet, og påfølgende dekoding av disse koder i mottageren som er vist på figur 2 med en modell av endimensjonal lineær kombinasjon definert med et sett med syntetiske lyder og mer nøyaktig, utvalgsverdier fra denne. Det vil si xi,X2,..., og en lineær kombinasjon av forhåndsinnstille uttakskoeffisienter wi, w2 .... Det skal påpekes at forutsigelsesverdien E[y] kan representeres av den følgende likning.
Hvis, for generalisering av likning (6) dannes det en matrise W med et sett uttakskoeffisienter wj, en matrise X dannes med et sett elevdata Xy og en matrise Y' dannes av et sett forutsigelsesverdier E[yj] kan dette defineres slik:
Da er den følgende observasjonslikning gyldig:
Det skal påpekes at komponenten xy i matrisen X angir kolonnenummeret j for elevdata som er innsatt i nummer i-raden med elevdata (sett med elevdata som benyttes foran lærerdata yj etter nummer i-raden med lærerdata), og at komponenten Wj i matrisen W angir utgangskoefflsienten der et produkt av denne med kolonne j i elevdata i settet med elevdata skal finnes. Det skal også påpekes at yj angir nummer i på raden av lærerdata, og dermed angir E[ y(\ forutsigelsesverdien for rad nummer i med tekniske data. Det skal også påpekes at et suffiks i for komponenten yj i matrise Y er utelatt fra y på venstre side av likningen (6), og at et suffiks i på tilsvarende måte er utelatt fra komponenten Xjj i matrisen X.
Det tas nå sikte på å anvende den minste kvadratmetode på denne observasjonslikning for å finne en forutsagt verdi E[y] nær opptil den sanne lyd y med høy kvalitet. Hvis matrise Y er dannet av et sett med tale y av høy kvalitet som lærerdata og matrisen E er dannet av et sett restsignaler e ved forutsigelsesverdiene E[y] for tale Y med høy kvalitet er definert med: er den følgende restlikning
gyldig for likning (7).
I dette tilfellet kan uttakskoeffisientene Wj for å finne forutsigelsesverdien E[y] nær opptil den sanne tale med høy kvalitet y finnes ved å minimalisere kvadratfeilen
Uttakskoeffisientene når det gjelder den ovenstående kvadratfeil, differensiert med uttakskoeffisienten Wj er lik null, det vil si at uttakskoeffisienten Wj tilfredsstiller den følgende likning:
som representerer en optimal verdi for å finne den forutsagte verdi E[y] nær opptil den sanne tale y med høy lydkvalitet.
Først blir likning (8) differensiert med hensyn på uttakskoeffisienten wj for å gi den følgende likning:
Fra likningene (9) og (10) fremkommer den følgende likning (11):
Ved å ta i betraktning forholdet blant elevdata xy, uttakskoeffisienter wj9 lærerdata yj og feilene ej i restlikningen (8) fremkommer de følgende normale likninger:
Hvis matrisen (ko-varierende matrise) A og vektor v er definert med: og vektor W er definert som vist i likning 1 kan den normale likning som er vist som likning 12 uttrykkes: Et antall av de normale likninger som er lik antallet J av uttakskoeffisientene Wj som skal finnes, kan frembringes som de normale likninger av (12) ved å gi et bestemt antall sett med elevdata xjj og lærerdata yj. Som følge av dette kan de optimale uttakskoeffisienter, her de uttakskoeffisienter som minimaliserer kvadratfeilen, bli funnet ved å løse likning (13) med hensyn på vektoren W. Det skal imidlertid påpekes at for å løse likning 13 må matrisen A i likning (13) være regulær, og at for eksempel en sveipe-ut-metode (Gauss-Jordans slettemetode) kan benyttes under løsningsprosessen.
I den adaptive behandling som finner de optimale uttakskoeffisienter Wj og benytter de optimale uttakskoeffisienter Wj som finnes på denne måte til å komme frem til forutsigelsesverdien E[y] som ligger nær den sanne tale med den høye kvalitet y ved bruk av likning (6).
Hvis talesignalet som utvalgsbehandles med en høy utvalgsfrekvens, eller talesignaler som benytter et stort antall tildelte biter, anvendes som lærerdata, mens den syntetiserte lyd, fremkommet ved dekoding av en kodet versjon med CELP-systemet for talesignaler, og som er frembragt på sin side ved desimering eller re-kvantisering ved bruk av et mindre antall biter av talesignaler som lærerdataene, anvendes som elevdata benyttes slike uttakskoeffisienter som vil gi talen med høy lydkvalitet som statistisk minimaliserer forutsigelsesfeilen ved frembringelse av de talesignaler som blir utvalgsbehandlet ved en høy utvalgsfrekvens, eller talesignalet som benytter et stort antall tildelte biter. I dette tilfellet kan den syntetiserte tale med høy kvalitet frembringes.
I talesynteseanordningen som er vist på figur 3 kan kodedataene, bestående av A-kode og restkoden, dekodes til talen med høy lydkvalitet med den ovenfor beskrevne klassifiserende adaptive behandling.
Det vil si, en demultiplekser (DEMUKS) 41, som mates med kodedata skiller den ramme-baserte A-kode og restkoden fra de kodedata som tilføres. Demultiplekseren 41 rutestyrer A-koden til en filterkoeffisientdekoder 42, og til en uttaksgenerator 46 samtidig med tilførsel av restkoden til en restkode kodeboklagerenhet 43 og til en uttaksgenerator 46.
Det skal påpekes at A-koden og restkoden som finnes i kodedataene på figur 3, er de koder som fremkom ved vektorkvantisering med en på forhånd innstilt kodebok av de lineære forutsigelseskoeffisienter og de restsignaler som fremkommer ved LPC-taleanalyse.
Filterkoeffisientdekoderen 42 dekoder den rammebaserte A-kode som er tilført fra demultiplekseren 41 til lineære forutsigelseskoeffisienter basert på den samme kodebok som ble benyttet ved frembringelsen av A-koden for å tilføre de signaler som er dekodet på denne måte til et talesyntesefilter 44.
Restkodeboklagerenheten 43 dekoder en rammebasert restkode som er tilført fra demultiplekseren til restsignaler basert på den samme kodebok som ble benyttet ved frembringelsen av restkoden, for så å sende de signaler som er dekodet på denne måte til et talesyntesefilter 44.
Svarende til for eksempel dets talesyntesefilter 29 som er vist på figur 1 er talesyntesefilteret 44, et IIR-type digitalt filter, og foretar filtrering av restsignalene fra restkodeboklagerenheten 43 som inngangssignaler ved bruk av de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 42 som uttakskoeffisienter for HR-filteret for å frembringe den syntetiserte lyd som så blir rutestyrt til en uttaksgenerator 45.
Fra utvalgsbehandlede verdier for den syntetiserte tale, tilført fra talesyntesefilteret 44, trekker uttaksgeneratoren 45 ut det som skal bli forutsigelsesuttak til bruk ved forutsigelsesberegninger i en forutsigelsesenhet 49 som vil bli forklart i det følgende. Det betyr at uttaksgeneratoren 45 benytter, som forutsigelsesuttak, samlingen av utvalgsbehandlede verdier av den syntetiserte lyd som en interesseramme, dvs. den ramme for hvilken høykvalitetstalens forutsigelsesverdier skal finnes. Uttaksgeneratoren 45 rutestyrer forutsigelsesuttakene til en forutsigelsesenhet 49.
Uttaksgeneratoren 46 trekker ut det som skal bli klasseutgang fra ramme- eller delramme-basert A-kode og restkode slik det tilføres fra demultiplekseren 41. Det betyr at utgangsgeneratoren 46 gir samlingen av A-koden og restkoden for Masseuttakene, og rutestyrer klasseuttakene til en klassifiseringsenhet 47.
Mønsteret til frembringelse av forutsigelsesuttaket eller et klasseuttak er ikke begrenset til det tidligere nevnte mønster.
Imidlertid er uttaksgeneratoren 46 i stand til å trekke ut klasseuttak ikke bare fra A-kode og restkode, men også fra det lineære forutsigelseskoeffisienter som har utgang fra filterkoeffisientdekoderen 42, fra restsignaler som har utgang fra restkodeboklagerenheten 43 og fra den syntetiserte lydutgang fra talesyntesefilteret 44.
Basert på Masseuttakene fra uttaksgeneratoren 46 klassifiserer klassifiseringsenheten 47 talen mer nøyaktig med utvalgsbehandlede verdier for talen i den ramme som er av interesse, og gir som utgang den resulterende klassekode svarende til den klasse som fremkommer på denne måte til et koeffisientminne 48.
Det er mulig for klassifiseringsenheten 47 å gi som utgang en bitstreng som i seg selv danner A-koden og restkoden for den ramme som er av interesse som klasseuttak.
Koeffisientminnet 48 inneholder klassebaserte utgangskoefflsienter fremkommet ved utførelse av opplæringen i opplæringsanordningen på figur 6 som senere vil bli forklart. Koeffisientminnet 48 gir som utganger de uttakskoeffisienter som er lagret en adresse knyttet til klassekodeutgangen med klassifiseringsenheten 47 til forutsigelsesenheten 49. Hvis det blir funnet N-utvalg med høy lydkvalitet for hver ramme er N sett med antall koeffisienter nødvendig for å finne N-taleutvalgene for den ramme som er av interesse med de forutsigende beregninger i likning (6). I det foreliggende tilfelle blir således N sett med uttakskoeffisienter lagret i koeffisientminne 48 for den adresse som er knyttet til en klassekode.
Forutsigelsesenheten 49 henter forutsigelsesuttakene med uttaksgeneratoren 45, og uttakskoefflsientutgangen med koeffisientminne 48 og ved bruk av forutsigelsesuttakene og uttakskoeffisientene utføres de lineære forutsigende beregninger (sum av produktberegninger) som er vist i likning (6) for å finne de forutsagte verdier for talen med høy lydkvalitet for den ramme som er av interesse som skal gi de resulterende verdier til en D/A-omformer 50.
Koeffisientminnet 48 gir som utganger N sett med uttakskoeffisienter for å finne N-utvalg av talen i den ramme som er av interesse som beskrevet ovenfor. Ved bruk av forutsigelsesutgangene og de respektive utvalg, og settet med uttakskoeffisienter som svarer til de utvalgsbehandlede verdier utfører forutsigelsesenheten 49 sum-av-produktbehandling av likning 6. D/A-omformeren 50 vil D/A-omforme talen, og mer nøyaktig de forutsagte verdier for talen, fra forutsigelsesenheten 49 fra digitale signaler til tilsvarende analoge signaler for så å sende de resulterende resultater til høyttaleren 51 som utgang.
Figur 4 viser som illustrasjon oppbygningen av talesyntesefilteret 44 som er vist på figur 3.
På figur 4 benytter talesyntesefilteret 44 p-dimensjonale lineære forutsigelseskoeffisienter og er bygget opp av en enkel summeringsanordning 61, P forsinkelseskretser (D) 621 til 62p og P multiplikatorer 631 til 63p.
I multiplikatorene 63i til 63p blir innstilte P-dimensjonale lineære forutsigelseskoeffisienter ai, a2 ..., Op sendt fra filterkoeffisientdekoderen 42 hvorved talesyntesefilteret 44 utfører beregningene ifølge likning (4) for å frembringe den syntetiserte lyd.
Det vil si at restsignalene e som er utgang fra restkodeboklagerenheten 43 blir sendt via summeringsanordning 61 til forsinkelseskretsen 61p, hvilken forsinkelseskrets 62p forsinker inngangssignalet med et utvalg av restsignalene for å gi det forsinkede signal til en forsinkelseskrets 62p+i på nettstrømsiden og til multiplikatoren 63p. Denne multiplikator 63p multipliserer utgangen fra forsinkelseskretsen 62p med de lineære forutsigelseskoeffisienter Op som er lagret i denne for å gi som utgang det resulterende produkt til summeringsanordningen 61.
Summeringsanordningen 61 summerer alle utgangene fra multiplikatorene 631 til 63p og restsignalene e, og summerer resultatet av summeringen til forsinkelseskretsen 621 mens det som utgang gis som resultatet av talesyntesen (syntetisert lyd).
Med henvisning til flytskjema på figur 5 blir talesyntesen i talesynteseanordningen på figur 3 forklart.
Demultiplekseren 41 vil sekvensmessig skille den rammebaserte A-kode og restkoden for så å sende de adskilte koder ti filterkoeffisientdekoderen 42, og til restkodeboklagerenheten 43. Demultiplekseren 41 sender A-koden og restkoden til uttaksgeneratoren 46.
Filterkoeffisientdekoderen 42 vil sekvensmessig dekode den rammebaserte A-kode som blir tilført fra demultiplekseren 41 for så å sende de resulterende dekoderkoeffisienter til talesyntesefilteret 44. Restkodeboklagerenheten 43 vil i rekkefølge dekode de rammebaserte restkoder, og føre disse fra demultiplekseren 41 som restsignaler som så blir overført til talesyntesefilteret 44.
Ved bruk av restsignalet og de lineære forutsigelseskoeffisienter som tilføres utfører talesyntesefilteret 44 behandlingen ifølge likning (4) for å frembringe den syntetiserte tale for rammen som er av interesse. Denne syntetiserte tale blir sendt til uttaksgeneratoren 45.
Utaksgeneratoren 45 vil sekvensmessig danne rammen av den syntetiserte lyd som tilføres som en ramme av interesse, og ved trinn Sl frembringes forutsigelsesuttak fra utvalgsverdiene for den syntetiserte lyd som tilføres fra talesyntesefilteret 44, for som utgang å gi de på denne måte frembragte forutsigelsesuttak til forutsigelsesenheten 49. Ved trinn Sl frembringer uttaksgeneratoren 46 Masseuttakene fra A-koden og Masseuttakene fra A-koden og restkoden som er tilført fra demultiplekseren 41 for å gi de på denne måte frembragte klasseuttak til klassifiseirngsenheten 47.
Ved trinn S2 utfører klassifiseirngsenheten 47 klassifiseringen basert på Masseuttakene som er tilført fra uttaksgeneratoren 46 for så å sende de resulterende klassekoder til koeffisientminnet 48. Programmet går så til trinn S3.
Ved trinn S3 leser koeffisientminnet 48 ut uttakskoeffisientene som er tilført fra den adresse som svarer til klassekodene som er tilført fra klassifiseringsenheten 47, for så å sende de resulterende uttakskoeffisienter til forutsigelsesenheten 49.
Programmet går så til trinn S4 der forutsigelsesenheten 49 henter uttakskoeffisientene fra koeffisientminnet 48, og ved bruk av uttakskoeffisienten og forutsigelsesuttakene fra uttaksgeneratoren 45, utføres den sum-av-produktbehandling som er vist i likning (6) for å frembringe de forutsagte verdier for talen med høy lydkvalitet som er sendt til for å gå som utgang fra høyttaleren 51 via forutsigelsesenheten 49 og D/A-omformeren 50.
Hvis talen med høy lydkvalitet i den ramme som er av interesse er blitt hentet ved forutsigelsesenheten 49, går programmet til trinn S5 der det bekreftes om det finnes en annen ramme som skal behandles som rammen av interesse eller ikke. Hvis det bekreftes at det fremdeles er en ramme som skal behandles som rammen av interesse, går programmet tilbake til trinn 1 og gjentar en tilsvarende behandling, der rammen som skal bli den neste ramme som er av interesse, behandles som en ny ramme av interesse. Hvis det bekreftes ved tinn SS at det ikke finnes noen ytterligere ramme som skal behandles som rammen av interesse, blir syntesebehandlingen av talen avsluttet.
Ved henvisning til figur 6 blir nå et eksempel på en opplæringsanordning til opplæring av behandlingen av uttakskoeffisientene som skal lagres i koeffisientminnet 48 på figur 3 nå forklart.
Opplæringsanordningen som er vist på figur 6 blir matet med de digitale talesignaler for opplæring fra en forhåndsinnstilt ramme til en annen. Disse digitale talesignaler for opplæring blir sendt til en LPC-analyseenhet 71 og til et forutsigelsesfilter 74. De digitale talesignaler for opplæring blir også tilført som lærerdata til en normal likningsadderende krets 81.
LPC-analyseenheten 71 vil sekvensmessig danne rammen av talesignaler som er tilført til en ramme av interesse.og LPC analyserer talesignalene fra rammen av interesse for å finne p-dimensjonale lineære forutsigelseskoeffisienter som så blir sendt til forutsigelsesfilteret 74 og til en vektorkvantiserer 72.
Vektorkvantisereren 72 inneholder en kodebok som knytter sammen kodevektorene som har lineære forutsigelseskoeffisienter som komponenter med koder. Basert på kodeboken, vektorkvantisereren 72 som vektorkvantiserer detaljvektorene dannet av de lineære forutsigelseskoeffisienter for rammen av interesse fra LPC-analyseenheten 71 og sender A-koden som fremkommer som resultat fra vektorkvantiseringen til en filterkoeffisientdekoder 73 og til en uttaksgenerator 79.
Filterkoeffisientdekoderen 73 inneholder samme kodebok som finnes i vektorkvantisereren 72 og, basert på kodeboken, dekodes A-koden fra vektorkvantisereren 72 til lineære forutsigelseskoeffisienter som så rutestyres til et talesyntesefilter 77. Filterkoeffisientdekoderen 42 på figur 3 er bygget opp svarende til filterkoeffisientdekoderen 73 på figur 6.
Forutsigelsesfilteret 74 utfører behandlingen i henhold til den tidligere nevnte likning (1) ved bruk av talesignalene fra rammen av interesse som er tilført, og de lineære forutsigelseskoeffisienter fra LPC-analyseenheten 71 for å finne restsignalene i den ramme som er av interesse og som deretter blir sendt til vektorkvantisereren 75.
Hvis Z-transformerne av s„ og e„ i likning (1) blir uttrykt som S og E, kan likning (1) representeres med den følgende likning:
Forutsigelsesfilteret 74 for å finne restsignalet e fra likning (14) kan bygges opp som et digitalt filter av FIR (endelig pulsreaksjon) type.
Figur 7 viser som illustrasjon en oppbygning av forutsigelsesfilteret 74.
Forutsigelsesfilteret 74 blir matet med p-dimensjonale lineære forutsigelseskoeffisienter fra LPC-analyseenheten 71 slik at forutsigelsesfilteret 74 blir dannet av p-forsinkelseskretser D91i til 91p, p multiplikatorer 921 til 92p og en summeringsanordning 93.
I multiplikatorene 92i til 92p er det stilt p-dimensjonale lineære forutsigelseskoeffisienter ai, a2 Op som er tilført fra LPC analyseenheten 71.
På den annen side blir talesignalene s for rammen av interesse sendt til en forsinkelseskrets 911 og til en summerer 93. Forsinkelseskretsen 91p forsinker inngangssignalet til denne med et utvalg av restsignalene for å gi som utgang det forsinkede signal til forsinkelseskretsen 91p+i på nedstrømsiden og til den operative enhet 92 p. Multiplikatoren 92p multipliserer utgangen fra forsinkelseskretsen 91p med de lineære forutsigelseskoeffisienter som er lagret i denne for så å sende den resulterende produktverdi til summereren 93.
Addereren 93 summerer alle utbyttene av multiplikatorene 92i til 92p til talesignalene s for å sende de resulterende tillegg som restsignalene s.
Det vises igjen til figur 6 der vektorkvantisereren 75 har en kodebok som knytter utvalgsverdiene for restsignalene som komponenter til kodene. Basert på denne kodebok blir restvektorene som dannes av utvalgsverdien for restsignalene i rammen av interesse fra forutsigelsesfilteret 74 vektorkvantisert, og restkodene som fremkommer som et resultat av vektorkvantiseringen blir sendt til en restkodeboklagerenhet 76 og til uttaksgeneratoren 79.
Restkodeboklagerenheten 76 inneholder samme kodebok som finnes i vektorkvantisereren 75, og basert på kodeboken dekodes restkoden fra vektorkvantisereren 75 til restsignalet som blir rutestyrt til talesyntesefilteret 77. Restkodeboklagerenheten 43 på figur 3 er bygget opp på samme måte som restkodeboklagerenheten 76 på figur 6.
Et talesyntesefilter 77 er et IIR-filter bygget opp på samme måte som talesyntesefilteret 44 på figur 3, og filtrerer restsignalet fra restsignallagerenheten 75 som et inngangssignal med de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 73, som uttakskoeffisienter fra HR-filteret for å frembringe den syntetiserte lyd som så rutestyres til en uttaksgenerator 78.
På en måte som tilsvarerer uttaksgeneratoren 45 på figur 3 utformer uttaksgeneratoren 78 forutsigelsesuttak fra de lineære forutsigelseskoeffisienter som er tilført fra talesyntesefilteret 77, for å sende de forutsigelsesuttak som er dannet på denne måte til den normale likningssummerende krets 81.
Svarende til uttaksgeneratoren 46 på figur 3 former også uttaksgeneratoren 79 klasseuttak fra A-koden, og restkoden som er sendt fra vektorkvantisererene 72-75 for så å sende Masseuttakene til en klassifiseringsenhet 80.
På samme måte som klassifiseringsenheten 47 på figur 3, utfører klassifiseringsenheten 80 klassifisering basert på Masseuttakene som er tilført for så å sende de resulterende klassekoder til den normale likningssummerende krets 81.
Den normale likningssummerende krets 81 summerer talen for opplæring som er talen med høy lydkvalitet i rammen av interesse, som lærerdata til en utgang med den syntetiserte lyd fra talesyntesefilteret 77 som så danner forutsigelsesuttakene som elevdata fra uttaksgeneratoren 78.
Ved bruk av forutsigelsesuttakene (elevdataene) som tilføres fra klassifiseirngsenheten 80, vil den normale likningssummerende krets 81 utføre den resiproke multiplikasjon av elevdataene som komponenter i en matrise A for likning (13) (XinXjm), og operasjoner som er ekvivalent med summering (£).
Ved bruk av elevdataene som er utvalgsbehandlede verdier av den syntetiserte lydutgang fra talesyntesefilteret 77, og lærerdata som er utvalgsbehandlede verdier av talen med høy lydkvalitet i interesserammen, utfører den normale likningssummerende krets 81 den behandling som er ekvivalent med multiplikasjon (XjnyO og summering (£) av elevdataene og lærerdataene som komponenter i vektoren v i likning 13 for hver klasse svarende til den klassekode som er tilført fra klassifiseringsenheten 80.
Den normale likningssummerende krets 81 utfører den ovennevnte summering ved bruk av alle talerammer for opplæring som er tilført for å sette opp den normale likning som er vist på figur 13 for hver klasse.
En uttakskoeffisient besluttende krets 82 løser den normale likning som er frembragt i den normale likningssummerende krets 81 fra klasse til klasse for å finne uttakskoeffisienter for de respektive klasser. Uttakskoeffisientene som finnes på denne måte blir sendt til den adresse som er tilknyttet hver klasse i minnet 83.
Avhengig av talesignalene som frembringes som talesignalet for opplæring, oppstår det tilfeller der en klasse eller flere klasser at et antall av de normale likninger som er nødvendige for å finne uttakskoeffisientene ikke kan frembringes i den normale likningssummerende krets 81. For slik klasse (klasser) vil den
uttakskoeffisientbesluttende krets 82 som utgang gi standard utgangskoeffisienter.
Koeffisientminnet 83 memoriserer de klassebaserte uttakskoeffisienter som er tilført fra den uttakskoefflsientbesluttende krets 82 i en adresse som er knyttet til klassen.
Med henvisning til flytskjema på figur 8 vil opplæringsprosessen med opplæringsanordningen på figur 6 nå bli forklart.
Opplæringsanordningen mates med talesignaler for opplæring som er sendt til både LPC-analyseenheten 71 og til det forutsigende filter 74 mens de sendes som lærerdata den normale likningssummerende krets 81. Ved trinn Sil blir elevdata frembragt på grunnlag av talesignalene for opplæring.
Det betyr at LPC-analyseenheten 71 i rekkefølge skaper rammene for talesignaler for opplæring av rammene av interesse, og LPC analyserer talesignalene i rammene av interesse for å finne p-dimensjonale lineære forutsigelseskoeffisienter som blir sendt til vektorkvantisereren 72. Vektorkvantisereren 72 vektorkvantiserer detaljvektorene som er dannet med de lineære forutsigelseskoeffisienter fra rammen av interesse fra LPC-analyseenheten 71, og sender A-koden som er resultatet fra vektorkvantiseringen til filterkoeffisientdekoderen 73 og til uttaksgeneratoren 79. Filterkoeffisientdekoderen 73 dekoder A-koden fra vektorkvantisereren 72 til lineære forutsigelseskoeffisienter som blir sendt til talesyntesefilteret 77.
På den annen side vil forutsigelsesfilteret 74 som har mottatt de lineære forutsigelseskoeffisienter for den ramme som er av interesse fra LPC-analyseenheten 71, utføre behandlingen av likning (1) ved bruk av de lineære forutsigelseskoeffisienter og talesignalene for opplæring av rammen som er av interesse for å finne restsignalene for rammen av interesse for å sende de restsignaler som er funnet på denne måte til vektorkvantisereren 75. Vektorkvantisereren 75 vektorkvantiserer restvektoren som er dannet av utvalgsverdiene for restsignalene i rammen som er av interesse fra forutsigelsesfilteret 74, for å sende restkoden som fremkommer ved vektorkvantisering til restkodeboklagerenheten 76 og til uttaksgeneratoren 79. Restkodeboklagerenheten 76 dekoder A-koden fra vektorkvantisereren 75 til lineære forutsigelseskoeffisienter som så blir tilført talesyntesefilteret 77.
Ved mottak av de lineære forutsigelseskoeffisienter og restsignalene foretar talesyntesefilteret 77 talesyntese ved bruk av de lineære forutsigelseskoeffisienter og restsignalene for å gi som utgang de resulterende syntetiserte signaler som elevdata til uttaksgeneratoren 78.
Programmet går så til trinn S12 der uttaksgeneratoren 78 frembringer forutsigelsesuttak fra den syntetiserte lyd som tilføres fra talesyntesefilteret 77, mens uttaksgeneratoren 79 frembringer klasseuttak fra kode A fra vektorkvantisereren 72, og fra restkoden fra vektorkvantisereren 75. Forutsigelsesuttakene blir sendt til den normale likningssummeringskrets 81, mens Masseuttakene blir rutestyrt til klassifiseringsenheten 80.
Ved trinn S13 utfører klassifiseringsenheten 80 klassifisering basert på Masseuttakene fra uttaksgeneratoren 79 for å rutestyre den resulterende klassekode til den normale likningssummerende krets 81.
Programmet går så til trinn S14 der den normale likningssummerende krets 81 utfører den nevnte summering på matrisen A og vektor v i likning (13) or utvalgsverdiene av talen med høy lydkvalitet for rammen av interesse som lærerdata som blir tilført og forutsigelsesuttakene, kanskje mer nøyaktig de utvalgsbehandlede verdier av den syntetiserte lyd som utgjør forutsigelsesuttakene blir ført videre som elevdata fra uttaksgeneratoren 78 for den klasse som tilføres fra klassifiseringsenheten 80. Programmet går så til trinn SIS.
Ved trinn S15 blir det bekreftet om det finnes noen talesignaler for opplæring som skal behandles som rammen av interesse eller ikke. Hvis det blir bekreftet ved trinn SIS at det finnes talesignaler for opplæring som skal behandles som rammen av interesse går programmet tilbake til Sl 1 for å gjenta den tilsvarende behandling med de sekvensielt neste rammer som den nye ramme av interesse.
Hvis det ved trinn Sl5 blir funnet at det ikke finnes noe ytterligere signal for opplæring til rammen som skal behandles som rammen av interesse, dvs. hvis en normal likning er blitt frembragt for hver klasse i den normale likningssummerende krets 81, går programmet til trinn S16 der den uttakskoefflsientbesluttende krets 82 løser den normale likning som er frembragt fra klasse til klasse for å finne uttakskoeffisientene for hver klasse. De uttakskoeffisienter som finnes på denne måte blir sendt til den adresse som er knyttet til hver klasse i koeffisientminnet 83 for lagring i dette, slik at behandlingen kan avsluttes.
De klassebaserte uttakskoeffisienter som er lagret på denne måte i koeffisientminnet 83 blir lagret på denne måte også i koeffisientminne 48 på figur 3.
Siden uttakskoeffisientene som er lagret i koeffisientminnet 48 på figur 3 blir funnet på denne måte ved å utføre opplæringen på en slik måte at forutsigelsesfeilen ved forutsigelsesverdiene for talen med høy lydkvalitet, det vil si kvadratfeilen, vil således ligge på et statistisk minimum og taleutgangen med forutsigelsesenheten 49 på figur 3 er av høy lydkvalitet der forvrengningen av den syntetiserte lydutgang med talesyntesefilteret 44 er blitt redusert eller eliminert.
I mellomtiden, hvis i talesynteseanordningen på figur 3, Masseuttakene skal trekkes ut med for eksempel uttaksgeneratoren 46 fra de lineære forutsigelseskoeffisienter eller restsignalene, er det nødvendig å sørge for at uttaksgeneratoren 79 på figur 6 trekker ut de tilsvarende klasseuttak fra de lineære forutsigelseskoeffisienter som er utgang fra filterkoeffisientdekoderen 73 og fra restsignalene som er utgang fra restkodeboklagerenheten 76. Hvis imidlertid Masseuttakene blir trukket ut til og med fra for eksempel de lineære forutsigelseskoeffisienter blir antallet av uttak høyere. På denne måte blir klassifiseringen fortrinnsvis utført ved komprimering av Masseuttakene ved for eksempel vektorkvantisering. I mellomtiden, hvis klassifiseringen skal utføres bare med restkoden og A-koden kan den belastning som er nødvendig for klassifiseringsbehandlingen avlastes fordi satsen med bitstrenger av restkoden og A-koden kan benyttes direkte som klassekoden.
Et eksempel på overføringssystemet som innbefatter foreliggende oppfinnelse blir nå forklart med henvisning til figur 9. Systemet heri er et sett av logisk oppstilte anordninger mens det ikke spiller noen rolle om de respektive anordninger befinner seg i samme hus eller ikke.
I overføringssystemet som er vist på figur 9 sørger de bærbare telefonsett 1011, IOI2 for radiooverføring og mottak med basestasjoner 102], 1022 mens basestasjonene 102], 1022 utfører overføring og mottagning via en vekselstasjon 103 for å muliggjøre overføring av tale og mottak av tale mellom de bærbare telefonsett 1011,1012 ved hjelp av basestasjonene 102i, 1022 og vekselstasjonen 103. Basestasjonene 102i, 1022 kan være like eller forskjellige fra hverandre.
De bærbare telefonsett 101i, 1012 er i det følgende betegnet som bærbart telefonsett 101 hvis det ikke angis noe annet for å sjeldne mellom settene.
Figur 10 viser et eksempel på det bærbare telefonsett 101 som er vist på figur 9.
En antenne 111 mottar elektriske bølger fra basestasjonene 102i, 1022 for å sende de mottatte signaler til et modem 112 så vel som for å sende signalene fra modemet 112 til basestasjonene 102i, 1022 som elektriske bølger. Modemet 112 demodulerer signalene fra antennen 11 l,for så å sende de resulterende kodedata som forklart med henvisning til figur 1 til en mottager 114. Modemet 112 er også utformet for å modulere kodedata fra senderen 113 som vist på figur 1, og sender de resulterende modulerte signaler til antennen 111. Senderen 113 er utført på samme måte som senderen som er vist på figur 1, og koder brukerens taleinngang til kodedata som blir tilført modemet 112. Mottageren 114 mottar de kodede data fra modemet 112 for å dekode og gi som utgang talen med høy lydkvalitet svarende til det som ble oppnådd i talesynteseanordningen på figur 3.
Figur 11 viser et eksempel på oppbygningen av mottageren 114 på figur 10. På tegningen har deler eller komponenter som svarer til de som er vist på figur 2 de samme henvisningstall, og blir ikke forklart ytterligere.
En uttaksgenerator 121 blir matet med den syntetiserte lydutgang fra et talesyntesefilter 29. Fra den syntetiserte lyd trekker uttaksgeneratoren 121 ut det som skal bli forutsigelsesuttak (utvalgsbehandlede verdier) som så rutestyres til en forutsigelsesenhet 125.
En uttaksgenerator 122 blir matet med rammebaserte eller delrammebaserte L-,G -og A-koder som er utgang fra en kanaldekoder 21. Uttaksgeneratoren 122 blir også matet med restsignalene fra operativenheten 28 som også mates med lineære forutsigelseskoeffisienter fra en filterkoeffisientdekoder 25. Uttaksgeneratoren 122 genererer det som skal bli klasseuttak på grunnlag av L-, G-, I- og A-kodene, restsignalene og de lineære forutsigelseskoeffisienter som tilføres for så å rutestyre de uttrukne klasseuttak til en klassifiseringsenhet 123.
Klassifiseringsenheten 123 utfører klassifisering, basert på Masseuttakene som er tilført fra uttaksgeneratoren 122, for så å styre klassekodene som de kommende resultater fra klassifiseringen til et koeffisientminne 124.
Hvis Masseuttakene er dannet fra L-, G-, I- og A-koder, restsignalene og de lineære forutsigelseskoeffisienter og klassifiseringen blir utført basert på disse klasseuttak, vil antallet av klasser som fremkommer ved klassifiseringen ha tilbøyelighet til å være enormt. Derfor er det også mulig for klassifiseringsenheten 123 å gi som utgang de koder som fremkommer ved vektorkvantisering av vektoren som har L-, G-, I- og A-kodene, restsignalene og de lineære forutsigelseskoeffisienter som komponenter til resultatene av klassifiseringen.
Koeffisientminnet 124 lagrer de klassebaserte uttakskoeffisienter som fremkommer ved opplæring med opplæringsanordningen på figur 12 slik den senere forklares, og rutestyrer uttakskoeffisientene som er lagret i den adresse som er tilknyttet klassekodeutgangen med Massifiseirngsenheten 123 til forutsigelsesenheten 125.
Svarende til forutsigelsesenheten 49 på figur 3 henter forutsigelsesenheten 125 ut forutsigelsesuttakene, utgangen fra utgangsgeneratoren 121 og uttakskoeffisientene som er utgang fra koeffisientminnet 124 og foretar de lineære forutsigende beregninger av likning 6 på grunnlag av forutsigelsesuttakene og uttakskoeffisientene. Forutsigelsesenheten 125 kommer frem til talen med høy lydkvalitet for rammen av interesse, og mer nøyaktig, forutsigelsesverdiene for denne og foretar de lineære forutsigende beregninger som er vist ved likning (6). På denne måte kommer forutsigelsesenheten 125 frem til talen med høy lydkvalitet for den ramme som er av interesse, og mer nøyaktig, forutsigelsesverdiene for denne og sender de verdier som er funnet på denne måte som resultat av taledekodingen til en D/A-pmformer 30.
Mottageren 114 er utført som beskrevet ovenfor og foretar behandlingen hovedsakelig svarende til den behandling som følger flytskjema på figur 5 for å gi som utgang den syntetiserte lyd med høy lydkvalitet som da er resultatet av taledekodingen.
Det betyr at kanaldekodingen 21 skiller L-, G-, I- og A-kodene fra de kodedata som blir tilført for å sende de på denne måte adskilte koder til den adaptive kodeboklagerenhet 22, forsterkningsdekoder 23, eksiteringskodeboklagerenhet 24 og til filterkoeffisientdekoderen 25. L-, G-, I- og A-kodene blir også sendt til uttaksgeneratoren 122.
Den adaptive kodeboklagerenhet 22, forsterkningsdekoderen 23, den eksiteringskodeboklagerenhet 24 og de operative enheter 26 til 28 utfører den behandling som svarer til det som ble utført i den adaptive kodeboklagerenhet 9, forsterkningsdekoderen 10, eksiteringskodeboklagerenheten 11 å gi de operative enheter 12 til 14 på figur 1 for å dekode L-, G- og I-kodene til restsignaler e. Disse restsignaler blir rutestyrt til talesynteseenheten 29 og til uttaksgeneratoren 122.
Som forklart med henvisning til figur 1 dekoder filterkoeffisientdekoderen 25 de tilførte A-koder til lineære forutsigelseskoeffisienter som blir rutestyrt til talesynteseenheten 29 og til uttaksgeneratoren 122. Ved bruk av restsignalene fra operativenheten 28, og de lineære forutsigelseskoefifsientene som er tilført fra filterkoeffisientdekoderen 25, syntetiserer talesynteseenheten 29 talen og sender den resulterende syntetiserte lyd til uttaksgeneratoren 121.
Ved bruk av en ramme for den syntetiserte lyd som er utgangen fra talesynteseenheten 29 som den ramme som er av interesse, vil uttaksgeneratoren 121 ved trinn Sl frembringe forutsigelsesuttak fra den syntetiserte lyd i rammen av interesse, og sender forutsigelsesuttak som er frembragt på denne måte, til forutsigelsesenheten 125. Ved trinn Sl frembringer uttaksgeneratoren 122 klasseutdrag fra L-, G-, I- og A-kodene, restsignalene og de lineære forutsigelseskoeffisienter som er tilført, og sender disse til klassifikasjonsenheten 123.
Programmet går så til trinn S2 der klassifiseringsenheten 123 utfører klassifikasjonen basert på de klasseuttak som er sendt fra uttaksgeneratoren 122, og sender de resulterende klassekoder til klassifiseringsenheten 124. Programmet går så til trinn S3.
Ved S3 leser koeffisientminnet 124 uttakskoeffisientene svarende til klassekodene som er tilført fra klassifiseirngsenheten 123 for å sende uttakskoeffisientene, som er lest ut på denne måte, til forutsigelsesenheten 125.
Programmet går til trinn S4 der forutsigelsesenheten 125 henter ut uttakskoeffisienter for restsignalene som har utgang fra koeffisientminnet 124 og utfører sum-av-produktbehandling i henhold til likning 6 ved bruk av uttakskoeffisientene og forutsigelsesuttakene fra uttaksgeneratoren 121 for å hente ut forutsigelsesverdier for talen med høy lydkvalitet ved rammen som er av interesse.
Talen med høy lydkvalitet som er framkommet som beskrevet ovenfor, ble sendt fra forutsigelsesenheten 125 gjennom D/A-omformeren 30 til høyttaleren 31 som så gir som utgang tale med høy lydkvalitet. Etter behandlingen ved trinn S4 går programmet til S5 der det blir bekreftet om det finnes noen ytterligere ramme som skal behandles som ramme av interesse eller ikke. Hvis det viser seg at det finnes en slik ramme, går programmet tilbake til Sl der en tilsvarende behandling blir gjentatt med den ramme som skal være den neste ramme åv interesse, og som blir den nye interesseramme. Hvis det viser seg ved trinn S5 at det ikke finnes noen ytterligere ramme som skal behandles som om den er interesseramrnen blir behandlingen avsluttet.
Figur 12 viser et eksempel på en opplæringsanordning som er beregnet på å utføre behandling med opplæringen av uttakskoeffisienter som er lagret i koeffisientminnet 124 på figur 11.
I opplæringsanordningen på figur 12 er komponentene fra en mikrofon 201 til en kodebeslutningsenhet 215 utført svarende til mikrofonen 1 til kodebeslutningsenheten 15 på figur 1. Mikrofonen får tilført talesignaler for opplæring. På denne måte vil komponentene fra en mikrofon 201 til en kodebeslutningsenhet 215 utføre samme behandling av talesignalene for opplæring som på figur 1.
En uttaksgenerator 131 blir matet med den syntetiserte lydutgang fra et talesyntesefilter 206 der en minimum kvadratfeilbesluttende enhet 208 har bekreftet at kvadratfeilen er minst mulig. I mellomtiden blir en uttaksgenerator 132 matet med L-, G-, I- og A-kodeutgang når det bestemte signal er blitt mottatt av kodebeslutningsenheten 215 fra minimum kvadratfeilbeslutningsenheten 208. Uttaksgeneratoren 132 blir også matet med de lineære forutsigelseskoeffisienter som komponenter av kodevektorer (sentroidevektorer) som svarer til A-koden som resultatene av vektorkvantisering av de lineære forutsigelseskoeffisienter som er frembragt ved LPC-analyseenheten 204, og kommer som utgang ved vektorkvantisereren 205, og med restsignalutgang fra operativenheten 214 som finnes når kvadratfeil i den minimumkvadratfeilbesluttende enhet 208 har kommet til et minimum. En normal likningssummerende krets 134 blir matet med taleutgang med en A/D-omformer 204 som lærerdata.
Fra den syntetiserte lyd som er utgang fra talesyntesefilteret 206 frembringer uttaksgeneratorene 131 de samme forutsigelsesuttak som uttaksgeneratoren 121 på figur 1, og rutestyrer forutsigelsesuttakene som er frambragt på denne måte som elevdata til den normale likningssummerende krets 134.
Fra L-, G-, I- og A-kodene fra kodebeslutningsenheten 215 vil fra de lineære forutsigelseskoeffisienter som er frembragt av vektorkvantisereren 205, fra restsignalene og fra operativenheten 214, uttaksgeneratoren 132 utforme de samme klasseuttak som uttaksgeneratoren 122 på figur 11 for så å sende de formede klasseuttak til klassifiseringsenheten 133.
Basert på Masseuttakene fra utaksgeneratoren 132 utfører en klassifiseringsenhet 133
den samme klassifisering som ble utført av klassifiseringsenheten 123, og rutestyrer den resulterende klassekode til den normale likningssummerende krets 134.
Den normale likningssummerende krets 134 mottar talen fra A/D-omformeren 202 som lærerdata samtidig med mottagning av forutsigelsesuttakene fra uttaksgeneratoren 131
som elevdata. Den normale likningssummerende krets 134 utfører så den samme summering som den som ble utført av den normale likningssummerende krets 81 på
figur 6 for å skape den normale likning som er vist som likning 13 for hver klasse.
En uttakskoefflsientbesluttende krets 135 løser den normale likning som er frembragt i
den normale likningssummerende krets 134 fra klasse til klasse for å finne uttakskoeffisienter for de respektive klasser. Uttakskoeffisientene som finnes på denne måte blir sendt til den adresse som er knyttet til hver klasse i et koeffisientminne 136.
Avhengig av talesignalene som er frembragt som talesignaler for opplæring oppstår det tilfeller der det i en klasse, eller i flere klasser, der et antall av normale likninger som er nødvendig for å finne uttakskoeffisienter ikke kan frembringes i den normale likningssummerende krets 134. For en slik klasse (klasser) i den uttakskoeffisientbesluttende krets 135 standard uttakskoeffisienter.
Koeffisientminne 136 lagrer de klassebaserte lineære forutsigelseskoeffisienter og restsignaler som er tilført fra den uttakskoeffisientbestemmende krets 135.
Den ovenfor beskrevne opplæringsanordning utfører hovedsakelig en behandling som tilsvarer flytskjema som er vist på figur 8 for å finne uttakskoeffisienter til frembringelse av den syntetiserte lyd med høy lydkvalitet.
Opplæringsanordningen blir matet med talesignaler for opplæring. Ved trinn Sil blir lærerdata og elevdata frembragt på grunnlag av talesignalene for opplæring.
Dette betyr at talesignaler for opplæring blir matet til mikrofonen 201. Komponentene fra mikrofonen 201 til den kodebesluttende enhet 215 utfører behandling svarende til det som blir utført av komponentene fra mikrofonen 1 til kodebeslutningsenheten 15 på figur 1.
Resultatet er at talen med de digitale signaler som fremkommer ved A/D-omformeren 202 blir sendt som lærerdata til den normale likningssummerende krets 134. Hvis det blir bekreftet at kvadratfeilen er blitt minst i den minimum kvadratfeilbesluttende enhet, 208 blir den syntetiserte lyd som er utgang fra talesyntesefilteret 206 sendt som elevdata til utgangsgeneratoren 131.
Når de lineære forutsigelseskoeffisienter som er utgang fra vektorkvantisereren 205 er slik at kvadratfeilen som finnes av den minimum kvadratfeilbesluttende enhet 208 er på et minimum blir L-, G-, I- og A-kodene som er utgang fra den kodebesluttende enhet 215, og restsignalene som er utgang fra operativenheten 214 sendt til uttaksgeneratoren 132.
Programmet går så til trinn S12 der uttaksgeneratoren 131 frembringer forutsigelsesuttak fra den syntetiserte lyd, i rammen av interesse: med rammen av den syntetiserte lyd, tilført som elevdata fra talesyntesefilteret 206 for så å sende forutsigelsesuttakene som er frambragt på denne måte til den normale likningssurnmerende krets 134. Ved trinn S12 frembringer uttaksgeneratoren 132 klasseuttak fra L-, G-, I- og A-kodene lineære forutsigelseskoeffisienter og restsignalene som er tilført, for så å sende de frembragte klasseuttak til klassifiseirngsenheten 133.
Etter behandlingen ved trinn S12 går programmet til trinn S13, der klassifiseringsenheten 133 utfører klassifisering basert på Masseuttakene fra uttaksgeneratoren 132 for å sende de resulterende klassekoder til den normale likningssummerende krets 134.
Programmet går så til trinn S14 der den normale likningssummerende krets 134 utfører den tidligere nevnte summering av matrisen A og vektoren v for likningen (13) for talesignaler for opplæring, som talen med høy lydkvalitet og rammen av interesse fra A/D-omformeren 202 som lærerdata, og for forutsigelsesuttak fra uttaksgeneratoren 132 som elevdata fra en klassekode fra klassifiseirngsenheten 133 til en annen. Programmet går så til trinn S15.
Ved trinn S15 blir det bekreftet om det finnes noen ytterligere ramme som skal behandles som rammen av interesse eller ikke. Hvis det ved trinn S15 viser seg at det finnes én ramme som skal behandles som rammen av interesse, går programmet tilbake til trinn S11 der behandlingen svarende til det som er beskrevet ovenfor blir gjentatt i rekkefølge for den neste ramme som blir de nye rammer av interesse.
Hvis det ved trinn S15 viser seg at det ikke finnes noen ytterligere ramme som skal behandles som om den er rammen av interesse. Det vil si hvis den normale likning er fremkommet for hver klasse i den normale likningssummerende krets 134, går programmet til trinn S16 der deri uttakskoeffisientbesluttende krets 135 løser den normale likning som er frembragt for hver klasse for å finne uttakskoeffisientene fra klasse til klasse for så å sende uttakskoeffisientene som finnes på denne måte til den adresse som er knyttet til hver klasse for så å avslutte behandlingen. De klassebaserte uttakskoeffisienter som er lagret i koeffisientminnet 136 blir lagret i koeffisientminnet 124 på figur 11.
Som følge av dette er uttakskoeffisientene som er lagret i koeffisientminnet 124 på figur 11 blitt funnet ved utførelse av opplæringen, slik at forutsigelsesfeilene (kvadratfeil) i de forutsagte taleverdier med høy lydkvalitet som er fremkommet med lineære forutsigende beregninger, vil ligge på statistisk minimum slik at taleutgangen fra forutsigelsesenheten 125 på figur 11 får høy lydkvalitet.
Den ovenfor beskrevne rekkefølge av operasjoner kan utføres med maskinvare eller med programvare. Hvis rekkefølgen av operasjoner utføres med programvare installeres programmet med programvaren i for eksempel en vanlig datamaskin.
Figur 13 viser et eksempel på en utførelse av en datamaskin der det skal installeres et program som er egnet til å utføre den ovenfor beskrevne rekkefølge av operasjoner.
Det er mulig for programmet å være forhåndsregistrert på en hardplate 305 eller i et ROM 303 som et registreirngsmedium som er lagt inn i en datamaskin. Som alternativ kan programmet være løst eller fast lagret på et uttagbart registreirngsmedium 311 som for eksempel CD-ROM (Compact Dise Read Only memory), MO (magnetooptisk) plate, DVD (Digital Versatile Dise), magnetplate eller et halvlederminne. Slike uttagbare registreirngsmedier 311 kan leveres som et såkalt pakkeprogram.
Imidlertid behøver programmet ikke bare bli installert fra det ovenfor beskrevne uttagbare registreirngsmedium 311 på en datamaskin, men kan også overføres over radio til datamaskinen fra et nedlastingssted, over et nett, som for eksempel LAN (lokalt områdenett) eller internett. Programmer som overføres på denne måte på en kommunikasjonsenhet 308 kan mottas av kommunikasjonsenheten 308 for så å bli installert på en innbygget hardplate 305.
Datamaskinen inneholder en CPU (sentral behandlingsenhet) 302. Til denne CPU 302 er det koblet et inngang/utgangsgrensesnitt 310 over en buss 301. Når en kommando kommer som inngang til CPU 302 over inngang/utgangsgrensesnittet 304 fra en bruker som betjener en inngangsenhet 307 som for eksempel et tastatur, en mus eller en mikrofon blir programmet som er lastet på ROM utført. Som et alternativ laster CPU 302 et program, lagret på hardplaten 305, et program som er overført over satellitt eller et nett som er mottatt av en kommunikasjonsenhet 308, og installert på hardplaten 305 eller et program som leses fra det uttagbare registreirngsmedium 311 som er lastet på hardplaten 305 på et RAM (direktelager) 304 for utførelse. CPU 302 utfører nå behandlingen i overensstemmelse med det ovenfor beskrevne flytskjema, eller behandling som svarer til det ovenfor beskrevne blokkskjema. CPU 302 sørger for at behandlingsresultatene kommer som utgang over for eksempel inngang/utgangsgrensesnittet 310 fra en utgangsenhet 306, som er dannet av LCD (flytende krystallskjerm) eller på en høyttaler, sendt fra kommunikasjonsenheten 308 eller lagret på hardplaten 305.
Behandlingstrinnet for start av programmet til utførelse av de forskjellige behandlingsoperasjoner med en datamaskin behøver ikke utføres i den kronologiske rekkefølge som er angitt på flytskjemaet, men kan utføres i parallell eller satsmessig som for eksempel ved parallellbehandling eller objektmessig behandling.
Programmet kan behandles av en enkel datamaskin eller med flere datamaskiner på en fordelt måte. Videre kan programmet overføres til en utenforliggende datamaskin til utførelse.
Selv om det ikke er vist spesielt i foreliggende oppfinnelse til hvilke type talesignaler som skal benyttes for opplæring behøver talesignalene for opplæring ikke bare være tale som kommer fra en person eller et musikknummer (musikk). Med den ovenfor beskrevne opplæring vil slike uttakskoeffisienter forbedre lydkvaliteten for den tale som kommer fra en person når det benyttes en høyttaler, men hvis signalene for opplæring er musikknummeret vil disse uttakskoeffisienter forbedre lydkvaliteten på den lyd som utgjør musikknummeret.
I en utførelse som er vist på figur 11 er uttakskoeffisientene forhåndslagret i koeffisientminnet 124. Som alternativt kan uttakskoeffisientene som skal lagres i koeffisientminnet 124 også være nedlastet i det bærbare telefonsett 101 fra basestasjonen 102 eller i vekselstasjonen 103 på figur 9 eller fra en WWW (World Wide Web)server som ikke er vist. Det betyr at opptakskoefflsienter som er egnet for en type lydsignaler som for eksempel fra en persons tale eller fra musikk kan frembringes etter opplæring. Avhengig av lærer- eller elevdataene som benyttes til opplæring vil slike uttakskoeffisienter skape en forskjell i lydkvaliteten i den syntetiserte lyd. Således kan de forskjellige uttakskoeffisienter være lagret i for eksempel basestasjonen 102, slik at brukeren kan laste ned de uttakskoeffisienter han eller hun ønsker. Slik tjeneste med nedlastning av uttakskoeffisienter kan være en betalingstjeneste eller være gratis. Hvis tjenesten med nedlastning av uttakskoeffisientene skal betales, kan gebyret som er betaling for nedlasting av uttakskoeffisientene, belastes sammen med ringebeløpet for det bærbare telefonsett 101.
Koeffisientminnet 124 kan være dannet for eksempel med et minnekort som kan være montert på eller løsgjøres fra det bærbare telefonsett 101. Hvis i dette tilfellet de variable minnekort som leveres har lagret de ovenfor beskrevne forskjellige uttakskoeffisienter, inneholder minnekortene de ønskede uttakskoeffisienter som kan lastes på å benyttes på det bærbare telefonsett 101.
Foreliggende oppfinnelse kan hovedsakelig anvendes ved frembringelse av syntetisert lyd fra den kode som fremkommer ved koding med CELP-systemet som for eksempel VSELP (Vector Sum Excited linear Predibtion), PSI-CELP (Putch synchronous Innovation CELP), CS-ACELP (Conjugate Structure Algebraic CELP).
Foreliggende oppfinnelse er også i høy grad anvendbar ikke bare der den syntetiserte lyd frembringes på grunnlag av den kode som er fremkommet ved koding ved CLP-systemet, men også der restsignaler og lineære forutsigelseskoeffisienter er oppnådd fra en gitt kode for å generere den syntetiserte lyd.
I den ovenfor beskrevne utførelse er forutsigelsesverdiene for restsignalene og de lineære forutsigelseskoeffisienter funnet ved endimensjonale lineære forutsigende beregninger. Som alternativ kan disse forutsigelsesverdier finnes ved to-eller høyere dimensjonale forutsigende beregninger.
Også i mottakerenheten som er vist på figur 11, og i opplæringsanordningen som er vist på figur 12, er Masseuttakene frembragt basert ikke bare på L-, G-, I- og A-kodene, men også på lineære forutsigelseskoeffisienter som er avledet fra A-kodene og restsignalene som er avledet fra L-, G- og I-kodene. Klassekodene kan også frembringes fra bare en eller fra et flertall av L-, G-, I- og A-kodene som for eksempel bare fra A-koden. Hvis for eksempel klasseuttakene er dannet bare fra I-koden kan I-koden i seg selv bli benyttet som klassekoden. Siden VSELP-systemet tildeler 9 biter til I-koden blir antallet av klasser 512 (=2<9>) hvis I-koden blir direkte benyttet som klassekoden.
Dessuten har hver bit av 9-bit I-koden to typer fortegn, nemlig 1 og -1, og det er da tilstrekkelig om en bit som er -1 anses for å være 0 hvis denne I-kode blir benyttet som klassekoden.
I CELP-systemet kan programvareinterpoleringsbiter eller rammeenergien noen ganger være inkludert i kodedataene. I dette tilfellet kan klasseuttakene dannes ved bruk av programvareinterpoleringsbiter eller rammeenergien.
I den utlagte japanske publikasjon H-8-202399 er det beskrevet en fremgangsmåte til føring av den syntetiserte lyd gjennom et høyområde vektleggende filter for å forbedre lydkvaliteten. Den foreliggende oppfinnelse skiller seg fra den oppfinnelse som er beskrevet i den utlagte japanske patentpublikasjon H-8-202399 for eksempel ved at uttakskoeffisientene frembringes ved opplæring, og ved at uttakskoeffisientene som benyttes blir bestemt fra resultatene ved den kodebaserte klassifisering.
Med henvisning til tegningene blir en modifikasjon av foreliggende oppfinnelse forklart i detalj.
Figur 14 viser en oppbygning av en talesynteseanordning som innbefatter foreliggende oppfinnelse. Denne talesynteseanordning blir tilført kodedata som er multiplekse fra restkoden og A-koden som fremkommer ved henholdsvis koding av restsignalet og de lineære forutsigelseskoeffisienter A som er sendt til talesyntesefilteret 147. Restsignalene og de lineære forutsigelseskoeffisienter er funnet fra henholdsvis rester og A-koder, og blir rutestyr til talesyntesefilteret 147 for å frembringe den syntetiserte lyd.
Hvis restkoden blir dekodet til restsignalene basert på den kodebok som knytter restsignalene til restkoden, blir restsignalene som fremkommer ved dekoding påvirket av feil med det resultat at den syntetiserte lyd får en forringet lydkvalitet. På tilsvarende måte, hvis A-koden blir dekodet til lineære forutsigelseskoeffisienter basert på den kodebok som knytter de lineære forutsigelseskoeffisienter til A-koden blir også de dekodede lineære forutsigelseskoeffisienter utsatt for feil, slik at lydkvaliteten i den syntetiserte lyd blir forringet
Derfor er i talesynteseanordningen på figur 14 de forutsigende beregninger utført ved bruk av uttakskoeffisient som finnes ved opplæring for å komme frem til forutsigelsesverdier for sanne restsignaler og lineære forutsigelseskoeffisienter, og ved bruk av disse forutsigelsesverdier dannes det således syntetisert lyd med høy lydkvalitet.
Det vil si at i talesynteseanordningen på figur 14 blir de lineære forutsigelseskoeffisienter dekodet til forutsigelsesverdier på sanne lineære forutsigelseskoeffisienter ved bruk av for eksempel klassifiseringsadaptiv behandling.
Den klassifiseringsadaptive behandling er bygget opp med klassifiseringsbehandling og adaptiv behandling. Ved klassifiseringsbehandlingen blir dataene klassifisert avhengig av dataegenskaper og adaptiv behandling blir utført fra klasse til klasse, mens den adaptive behandling utføres med en teknikk som er den samme som beskrevet ovenfor. Det vises derfor til den foregående beskrivelse (og således en detaljert ny beskrivelse utelatt her for enkelthets skyld).
I talesynteseanordningen som er vist på figur 14 blir de dekodede lineære forutsigelseskoeffisienter dekodet til sanne lineære forutsigelseskoeffisienter, eller mer nøyaktig forutsigelsesverdier for disse, mens de dekodede restsignaler også dekodes til sanne restsignaler, eller mer nøyaktig forutsigelsesverdier for disse.
Der blir en demultiplekser (DEMUKS) 141 matet med kodedata og den deler de kodedata som tilføres i rammebasert A-kode og restkode som så rutestyres til en filterkoeffisientdekoder 142 A og en restkodeboklagerenhet 142E. Det skal påpekes at A-koden og restkoden som er inkludert i kodedataene på figur 14 er fremkommet ved vektorkvantisering av lineære forutsigelseskoeffisienter, og restsignaler som på sin side er dannet ved LPC-analyse av talen uttrykt med en forhåndssatt ramme som enhet ved bruk av en forhåndssatt kodebok.
Filterkoeffisientdekoderen 142A dekoder den rammebaserte A-kode, som tilføres fra demultiplekseren 141 til dekodede lineære forutsigelseskoeffisienter basert på samme kodebok som den som ble benyttet ved frembringelsen av A-koden, for så å rutestyre de resulterende dekodede lineære forutsigelseskoeffisienter til uttaksgeneratoren 143 A.
Restkodeboklagerenheten 142E memorerer den samme kodebok som ble benyttet ved frembringelsen av den rammebaserte restkode som er tilført fra demultiplekseren 141, og dekoder restkoden fra demultiplekseren til dekodede restsignaler basert på kodeboken for så å rutestyre de dekodede restsignaler som fremkommer på denne måte til uttaksgeneratoren 143E.
Fra de rammebaserte dekodede lineære forutsigelseskoeffisienter som er tilført fra filterkoeffisientdekoderen 142A, trekker uttaksgeneratoren 143 A ut det som skal bli klasseuttak som benyttes ved klassifisering i en klassifiseirngsenhet 144A, og som skal bli de forutsigelsesuttak som benyttes i forutsigende beregninger i en forutsigelsesenhet 146 som forklart senere. Dette betyr at uttaksgeneratoren 143 A danner samlingen av dekodede lineære forutsigelseskoeffisienter som forutsigelsesuttak og klasseuttak for de lineære forutsigelseskoeffisienter. Uttaksgeneratoren 143A sender de klasseuttak som gjelder de lineære forutsigelseskoeffisienter, og forutsigelsesuttakene til klassifiseirngsenheten 144A og til forutsigelsesenheten 146A.
Fra de rammebaserte dekodede restsignaler trekker uttaksgeneratoren 143E ut det som skal bli klasseuttak, og som skal bli forutsigelsesuttak fra de rammebaserte dekodede restsignaler som er tilført fra restkodeboklagerenheten 142E. Dette betyr at uttaksgeneratoren 143E frembringer alle utvalgsverdier for de dekodede restsignaler i en ramme som behandles til klasseuttak og forutsigelsesuttak for restsignalene. Uttaksgeneratoren 143E sender klasseuttak som gjelder restsignalene og forutsigelsesuttakene til henholdsvis klassifiseringsenheten 144E og til forutsigelsesenheten 146E.
Innholdsmønsteret for forutsigelsesuttakene og klasseuttakene er ikke begrenset til det ovennevnte mønsteret. Det skal påpekes at anordningen kan være konstruert for å ekstrahere klasseuttak og forutsigelsesuttak for de lineære forutsigelseskoeffisienter både fra de dekodede lineære forutsigelseskoeffisienter og de dekodede restsignaler. Klasseuttakene og forutsigelsesmønsterene som gjelder de lineære forutsigelseskoeffisienter kan også trekkes ut med uttaksgeneratoren 143 A fra A-koden og restkoden. Klasseuttakene og forutsigelsesmønsterene for de lineære forutsigelseskoeffisienter kan også trekkes ut fra signaler som allerede er kommet som utgang fra nedstrømssiden av forutsigelsesenhetene 146A eller 146E, eller fra de syntetiserte talesignaler som allerede er kommet som utgang fra talesyntesefilteret 147. Det er også mulig for uttaksgeneratoren 143E å trekke ut klasse og forutsigelsesuttak som gjelder restsignalene på tilsvarende måte.
Basert på de klasseuttak som gjelder de lineære forutsigelseskoeffisienter fra uttaksgeneratoren 143 A kan klassifiseringsenheten 144A klassifisere de lineære forutsigelseskoeffisienter for rammen, som er rammen av interesse, og forutsigelsesverdiene for sanne lineære forutsigelseskoeffisienter som skal finne å gi som utgang klassekoden svarende til den resulterende klasse til et koeffisientminne 145A.
Som en fremgangsmåte til klassifisering kan for eksempel ADRC (adaptiv dynamisk områdekoding) benyttes.
I en fremgangsmåte som benytter ADRC blir de dekodede lineære forutsigelseskoeffisienter som danner klasseuttakene ADRC behandlet, og basert på den resulterende ADRC-kode blir klassen for de lineære forutsigelseskoeffisienter i rammen som er av interesse bestemt.
I en K-bit ADRC blir maksimumverdien MAX og minimumverdien MIN for de dekodede lineære forutsigelseskoeffisienter som utgjør klasseuttakene påvist basert på et lokalt dynamisk område for innstilt DR = MAX - MIN og de dekodede lineære forutsigelseskoeffisienter som danner klasseuttakene blir rekvantisert til K-biter. Dette betyr at minimumverdien MIN blir subtrahert fra de dekodede lineære forutsigelseskoeffisienter som danner klasseuttakene, og den resulterende forskjells verdi bli delt med DR/2K. Det respektive dekodede lineære forutsigelseskoeffisienter som danner klasseuttakene, og som er fremkommet som beskrevet ovenfor, blir stilt opp i en på forhånd bestemt rekkefølge for å danne en bitstreng som er utgang i form av en ADRC-kode. Hvis således klasseuttakene blir behandlet for eksempel med en bit ADRC blir minimumverdien MIN subtrahert fra de respektive dekodede lineære forutsigelseskoeffisienter som danner klasseuttakene, og den resulterende forskjells verdi blir delt med gjennomsnittsverdien for maksimumverdien MAX og minimumverdien MIN hvorved de respektive dekodede lineære forutsigelseskoeffisienter får en-bit verdier ved binær koding. Bitstrengen som dannes ved oppstilling av de en-bit dekodede lineære forutsigelseskoeffisienter blir utgang som ADRC-kode.
Strengen med verdier av de dekodede lineære forutsigelseskoeffisienter som danner klasseuttakene, kan føres direkte som utgang som klassekode til klassifiseringsenheten 144A. Hvis klasseuttakene er dannet som p-dimensjonale lineære forutsigelseskoeffisienter og K-biter er tildelt de respektive dekodede lineære forutsigelseskoeffisienter, blir antallet av forskjellige klassekoder som er utgang fra klassifiseringsenheten 144A, (2<K>)<k> som er en ekstremt stor verdi eksponensielt proporsjonal med antallet av biter K for de dekodede forutsigelseskoeffisienter.
På denne måte blir klassifisering i klassifiseirngsenheten 144A fortrinnsvis utført etter komprimering av informasjonsvolumet av klasseuttakene med for eksempel ADRC-behandling eller vektorkvantisering. På samme måte som i klassifiseirngsenheten 144A utfører klassifiseirngsenheten 144E klassifisering av den ramme som er av interesse basert på de klasseuttak som er tilført fra uttaksgeneratoren 143E, for som utgang å gi de resulterende klassekoder til koeffisientminnet 145E.
Koeffisientminnet 14SE inneholder uttakskoeffisienter som gjelder de klassebaserte lineære forutsigelseskoeffisienter som er fremkommet ved utførelse av opplæringen i en opplæringsanordning på figur 17, som forklart senere, og gir som utgang uttakskoeffisientene som er lagret i en adresse knyttet til klassekodeutgangen fra klassifiseringsenheten 144A til forutsigelsesenheten 146A.
Koeffisientminnet 14SE inneholder uttakskoeffisienter som gjelder de klassebaserte lineære forutsigelseskoeffisienter som er fremkommet ved utførelse av opplæringen i opplæringsanordningen på figur 17, og gir som utgang de uttakskoeffisienter som er lagret i den adresse som tilsvarer klassekoden som er utgang fra klassifiseirngsenheten 144E til forutsigelsesenheten 146E hvis, i tilfelle p-dimensjonale lineære forutsigelseskoeffisienter skal finnes i hver ramme og de p-dimensjonale lineære forutsigelseskoeffisienter skal finnes ved forutsigende beregninger som i den tidligere likning (6), er det nødvendig med p-sett med uttakskoeffisienter. På denne måte er det i koeffisientminnet 145A lagret p-sett med uttakskoeffisienter i en adresse som er knyttet til en klassekode. Av samme årsak er det samme antall sett som antall av utvalgspunkter i restsignalene i hver ramme lagret i koeffisientminnet 145E.
Forutsigelsesenheten 146A henter forutsigelsesuttaksutgang fra uttaksgeneratoren 143 A og uttakskoeffisientutganger fra koeffisientminnet 145 A, og ved bruk av disse forutsigelses- og uttakskoeffisienter utføres det lineære forutsigelsesberegninger (sum-av-produktbehandling) som er vist med likning (6), for å finne de p-dimensjonale lineære forutsigelseskoeffisienter for rammen som er av interesse, eller mer nøyaktig, de forutsagte verdier for disse som så sendes til talesyntesefilteret 147. Forutsigelsesenheten 146E henter ut forutsigelsesuttak som utgang fra uttaksgeneratoren 143E, og uttakskoeffisienter som utgang fra koeffisientminnet 145E og uttakskoeffisientutgang fra koeffisientminnet 145E. Ved bruk av de forutsigelseskoeffisienter og uttakskoeffisienter som er hentet på denne måte foretar forutsigelsesenheten 146E de lineære forutsigelsesberegninger som er vist med likning (6) for å finne de forutsagte verdier for restsignalene i rammen som er av interesse for så å sende de verdier som er funnet på denne måte til talesyntesefilteret 147.
Koeffisientminne 145A gir som utgang p-sett med uttakskoeffisienter for å finne de forutsagte verdier for de p-dimensjonale forutsigelseskoeffisienter som danner rammen av interesse. På den annen side utfører forutsigelsesenheten 146A sum-av-produktbehandling av likning (5) ved bruk av forutsigelsesuttakene, og settene med uttakskoeffisienter svarende til antallet av dimensjoner for å finne de lineære forutsigelseskoeffisienter for de respektive dimensjoner. Det samme gjelder for forutsigelsesenheten 146E.
På samme måte som talesynteseenheten 29 som er forklart med henvisning til figur 1 er talesyntesefilteret 147 et digitalt filter av IIR-typen, og foretar filtrering av restsignalene fra forutsigelsesenheten 146 som inngangssignal med de lineære forutsigelseskoeffisienter fra forutsigelsesenheten 146A som koeffisienter for IIR-filter for å frembringe den syntetiserte lyd som er inngang til D/A-omformer 148. D/A-omformeren 148 D/A-omformer den syntetsierte lyd fra talesyntesefilteret 147 fra de digitalsignaler til analoge signaler som blir sendt som utgang til en høyttaler 149.
I figur 14 blir klasseuttakene frembragt i uttaksgeneratorene 143A, 143E, klassifisering basert på disse klasseuttak blir utført i klassifiseirngsenhetene 144 A, 144E, og uttakskoeffisientene for de lineære forutsigelseskoeffisienter og restsignalene som tilsvarer klassekodene som er resultat av klassifiseringen blir hentet fra koeffisientminnene 145A, 145E. Som alternativ kan uttakskoeffisientene for de lineære forutsigelseskoeffisienter og restsignalene hentes ut som følger: Det vil si at uttaksgeneratorene 143A, 143E, klassifiseirngsenhetene 144A, 144E og koeffisientminnene 145A, 145E er konstruert som respektive integrerte enheter. Hvis uttaksgeneratorene, klassifiseringsenhetene og koeffisientminnene, konstruert som respektive integrerte enheter, blir betegnet som en uttaksgenerator 143, en klassifiseirngsenhet 144 og et koeffisientminne 145 bringes uttaksgeneratoren 143 til å utforme klasseuttak fra de dekodede lineære forutsigelseskoeffisienter og dekode dem restsignaler mens klassifiseringsenheten 144 bringes til å utføre klassifisering basert på klasseuttakene for å gi en klassekode som utgang. Koeffisientminnet 145 bringes til å lagre sett med uttakskoeffisienter for de dekodede lineære forutsigelseskoeffisient og uttakskoeffisienter for restsignalene, og bringes til å gi som utgang sett med utgangskoeffisienter for hver av de lineære forutsigelseskoeffisienter, og restsignalene som er lagret i den adresse som er knyttet til den klassekode som er utgang fra klassifiseirngsenheten 144. Forutsigelsesenhetene 146 A, 146E kan bringes til å utføre behandlingen basert på uttakskoeffisienten som tilhører de lineære forutsigelseskoeffisienter som er utgang i form av sett fra koeffisientminne 145 og basert på uttakskoeffisientene for restsignalene.
Hvis uttaksgeneratoren 143A, 143E, klassifiseirngsenhetene 144A, 144E og koeffisientminnene 145A, 145E er konstruert som respektive separate enheter, er antallet av klasser for de lineære forutsigelseskoeffisienter ikke nødvendigvis det samme som antallet av klasser for restsignalene. Når det gjelder utførelsen som integrerte enheter er antall av klasser for de lineære forutsigelseskoeffisienter det samme som for restsignalene.
Figur 15 viser en spesiell oppbygning av talesyntesefilteret 147 som danner talesynteseanordningen som er vist på figur 14.
Talesyntesefilteret 147 benytter de p-dimensjonale lineære forutsigelseskoeffisienter . som vist på figur 15, og er dermed bygget opp med en enkel summerer 151, p forsinkelseskretser (D) 152i til 152p og p multiplikatorer 153i til 153p.
I multiplikatorene 153i til 153p blir sett med p-dimensjonale lineære forutsigelseskoeffisienter ai, a2 ..., Op, tilført fra forutsigelsesenheten 146A hvorved talesyntesefilteret 147 utfører beregninger i overensstemmelse med likning (4) for å frembringe den syntetiserte lyd.
Her blir restsignalene som er utgang fra forutsigelsesenheten 146E sendt til en forsinkelseskrets 152i gjennom en summerer 151. Forsinkelseskretsen 152p forsinker inngangssignalet med et utvalg av restsignalene for å gi som utgang det forsinkede signal til forsinkelseskretsen 152p+i på nedstrømssiden og til duplikatoren 153p. Multiplikatoren 153p multipliserer utgangen fra forsinkelseskretsen 152p med den lineære forutsigelseskoeffisient Op som her er stilt for så å sende den resulterende produktverdi til summereren 151.
Summereren 151 summerer alle utganger fra multiplikatorene 153j til 153p, og restsignalene e for å sende den resulterende strøm til forsinkelseskretsen 152i, og for å gi som utgang summen som resultat av talesyntesen (det resulterende lydsignal).
Med henvisning til flytskjema på figur 16 blir talesyntesebehandlingen på figur 14 forklart.
Demultiplekseren 141 vil sekvensmessig skille rammebasert A-kode og restkode fra kodedataene som blir tilført for så å sende de adskilte koder til filterkoeffisientdekoderen 142A og til restkodeboklagerenheten 142E.
Filterkoeffisientdekoderen 142A vil sekvensmessig dekode den rammebaserte A-kode som er tilført fra demultiplekseren 141, til dekodede lineære forutsigelseskoeffisienter som så tilføres uttaksgeneratoren 143 A. Restkodeboklagerenheten 142E vil sekvensmessig dekode de rammebaserte restkoder som er tilført fra demultiplekseren 141 til dekodede restsignaler som blir sendt til uttaksgeneratoren 143E.
Uttaksgeneratoren 143 A vil i sekvens gjøre rammene for de dekodede lineære forutsigelseskoeffisienter som er tilført til rammene som er av interesse. Uttaksgeneratoren 143A frembringer ved trinn S101 klasseuttakene og forutsigelsesuttakene fra de dekodede lineære forutsigelseskoeffisienter som er tilført fra filterkoeffisientdekoderen 142A. Ved trinn S101 frembringer uttaksgeneratoren 143E også klasseuttak og forutsigelsesuttak fra de dekodede restsignaler som er tilført fra restkodeboklagerenheten 142E. De klasseuttak som er frembragt ved uttaksgeneratoren 143A blir tilført klassifiseirngsenheten 144A mens forutsigelsesuttakene blir sendt til forutsigelsesenheten 146A. Klasseuttakene som er frembragt av uttaksgeneratoren 143E blir sendt til klassifiseirngsenheten 144E mens forutsigelsesuttakene sendes til forutsigelsesenheten 146E.
Ved trinn 102 utfører klassifiseirngsenhetene 144A, 144E klassifisering basert på klasseuttakene som er tilført fra uttakstgeneratorene 143A, 143E, og sender de resulterende klassekoder til koeffisientminnene 145 A, 145E. Programmet går så til trinn S103.
Ved trinn 103 leser koeffisientminnene 145A, 145E ut uttakskoeffisienter fra adressene for de klassekoder som er sendt fra klassifiseirngsenhetene 144A, 144E, og sender de utleste koeffisienter til forutsigelsesenhetene 146A, 146E.
Programmet går så til trinn Sl04 der forutsigelsesenheten 146A henter ut uttakskoeffisientene som er utgang fra koeffisientminne 145A, og bruker disse uttakskoeffisienter og forutsigelsesuttakene fra uttaksgeneratoren 143 A, for å hente ut forutsigelsesverdiene for de sanne lineære forutsigelseskoeffisienter til rammen som er av interesse. Når trinn Sl03 henter forutsigelsesenheten 146E uttakskoeffisienter som er utgang fra koeffisientminne 145E, bruker uttakskoeffisientene og forutsigelsesuttakene fra uttaksgeneratoren 143E, og foretar den sum-av-produktbehandling som er vist med likning (6) for å hente de sanne restsignaler for rammen som er av interesse, eller mer nøyaktig, de forutsagte verdier for disse.
Restsignalene og de lineære forutsigelseskoeffisienter som fremkom som beskrevet ovenfor blir sendt til talesyntesefilteret 147 som så utfører beregningene med likning (4) ved bruk av restsignalene og de lineære forutsigelseskoeffisienter for å skape det syntetiserte lydsignal for rammen som er av interesse. Det syntetiserte lydsignal blir sendt fra talesyntesefilteret 147 gjennom D/A-omformeren 148 til høyttaleren 149, som så gir som utgang den syntetiserte lyd som svarer til det syntetiserte lydsignal.
Etter at de lineære forutsigelseskoeffisienter og restsignalene er blitt frembragt i forutsigelsesenhetene 146A, 146E går programmet til trinn Sl05 der det blir bekreftet om det finnes eventuelle dekodede lineære forutsigelseskoeffisienter og dekodede restsignaler som skal behandles eller ikke som rammen som er av interesse. Hvis det bekreftes ved trinn Sl05 at det finnes dekodede lineære forutsigelseskoeffisienter og dekodede restsignaler som skal behandles som rammen som er av interesse, går programmet tilbake til trinn Sl01 der rammen som skal bli den neste ramme av interesse frembringes. Den samme frekvens med operasjoner blir så utført. Hvis det blir bekreftet ved trinn Sl05 at det ikke finnes noen dekodede lineære forutsigelseskoeffisienter, eller dekodede restsignaler som skal behandles som den ramme som er av interesse, blir talesyntesebehandlingen avsluttet.
Opplæringsanordningen til utførelse av de uttakskoeffisienter som skal lagres i koeffisientminnene 145A, 145E som er vist på figur 14 er utformet som vist på figur 17.
Opplæringsanordningen som er vist på figur 17 blir matet med de digitale talesignaler som opplæring på rammebasis. Disse digitale talesignaler for opplæring blir sendt til en LPC-analyseenhet 161A og til et forutsigelsesfilter 161E.
LPC-analyseenheten 161A utformer sekvensmessig rammene for de talesignaler som blir tilført, rammene av interesse, og LPC analyserer talesignalene for rammen av interesse for å finne p-dimensjonale lineære forutsigelseskoeffisienter. Disse lineære forutsigelseskoeffisienter blir sendt til en forutsigelsesenhet 161E og til en vektorkvantiserer 162A, mens de blir sendt til en normal likningssummerende krets 166A som lærerdata for å finne utakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter.
Forutsigelsesfilteret 161E foretar beregninger i overensstemmelse med likning (1) ved bruk av talesignalene og de lineære forutsigelseskoeffisienter som blir tilført for å finne restsignaler for rammen av interesse, for å sende de resulterende signaler til vektorkvantisereren 162E så vel som for å sende restsignalene til den normale likiungssummerende krets 166E som lærerdata for å finne de uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter.
Det vil si at hvis Z-transformererne av Sn og e„ i likning (1) er representert henholdsvis av S og E, kan likning (1) representeres med:
E <=> (1 + aiz"<1> + a2z"<2> +... + OpZ"<p>)S.
...(15)
Fra likning (15) kan restsignalene e finnes ved sum-av-produktbehandling av talesignalet s og de lineære forutsigelseskoeffisienter otp, slik at forutsigelsesfilteret 161E for å finne restsignalene e kan dannes av et FIR (Finite Impulse Response) digitalt filter.
Figur 18 viser som illustrasjon oppbygningen av forutsigelsesfilteret 161E.
Forutsigelsesfilteret 161E blir matet med p-dimensjonale lineære forutsigelseskoeffisienter fra LPC-analyseenheten 161 A. Her er forutsigelsesfilteret 161E bygget opp av p-forsinkelseskretser (D) 1711 til 171p, p-multiplikatorer 172i til 172p og en summerer 173.
I multiplikatorene 172i til 172p blir sett ai, a2,..., Op fra blant de p-dimensjonale lineære forutsigelseskoeffisienter sendt fra LPC-analyseenheten 161 A.
Talesignalene s for rammen som er av interesse blir sendt til en forsinkelseskrets 1711 og til en summerer 173. Forsinkelseskretsen 171p forsinker inngangssignalene med et
utvalg av restsignalene for å gi som utgang det forsinkede signal til forsinkelseskretsen 171p+i på nedstrømssiden og til multiplikatoren 172p. Multiplikatoren 172p multipliserer utgangen fra forsinkelseskretsen 171p med den lineære forutsigelseskoeffisient Op for å sende det resulterende produkt til summereren 173.
Summereren 173 summerer alle utgangene fra multiplikatorene 172i til 172p til talesignalene s for å gi som utgang resultatet av summeringen som restsignalene e.
Det vises igjen til figur 17 der vektorkvantisereren 162A inneholder en kodebok som knytter de kodevektorer som har lineære forutsigelseskoeffisienter som komponenter til kodene. Basert på kodeboken vil vektorkvantisereren 162 A vektorkvantisere den spesielle vektor som er dannet av lineære forutsigelseskoeffisienter for den ramme som er av interesse fra LPC analyseenheten 161A for å rutestyre den kode A som fremkommer ved vektorkvantiseringen til en filterkoeffisientdekoder 163 A. Vektorkvantisereren 162 A har en kodebok som knytter de kodevektorer som har utvalgsverdier for signalet fra vektorkvantisereren 162A som komponenter til koder, og vektorkvantiserer restvektorene som er dannet ved utvalgsverdier for restsignalene i rammen som er av interesse fra forutsigelsesfilteret 161E for å rutestyre den restkode som fremkommer ved denne vektorkvantisering til en restkodeboklagerenhet 163E.
Filterkoeffisientdekoderen 163A har samme kodebok som den som er lagret ved vektorkvantisereren 162A, og basert på denne kodebok dekoder den A-koden fra vektorkvantisereren 162A til dekodede lineære forutsigelseskoeffisienter som så blir sendt til uttaksgeneratoren 164A som elevdata til bruk for å finne de uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter. Restkodeboklagerenheten 142E som er vist på figur 14 er utført svarende til filterkoeffisientdekoderen 163 A som er vist på figur 17.
Restkodeboklagerenheten 163E har samme kodebok som den som er lagret i vektorkvantisereren 162E, og basert på denne kodebok dekoder den restkoden fra vektorkvantisereren 162E til dekodede restsignaler som så blir sendt til uttaksgeneratoren 164E som elevdata til bruk for å finne uttakskoeffisienter som gjelder restsignalene. Restkodeboklagerenheten 142E som er vist på figur 14, er utført svarende til restkodeboklagerenheten 142E som er vist på figur 17.
Svarende til uttaksgeneratoren 143 A på figur 14 utformer uttaksgeneratoren 164A forutsigelsesuttak og klasseuttak fra de dekodede lineære forutsigelseskoeffisienter som er tilført fra filterkoeffisientdekoderen 163A, for så å sende klasseuttakene til en klassifiseringsenhet 165 A samtidig med tilførsel av forutsigelsesuttakene til den normale likningssummerende krets 166A. På samme måte som uttaksgeneratoren 143E på figur 14, utformer uttaksgeneratoren 164E forutsigelsesuttak og klasseuttak fra de dekodede restsignaler som er tilført fra restkodeboklagerenheten 163E for å sende klasseuttakene, og forutsigelsesuttakene til klassifiseringsenheten 165E og til den normale likningssummerende krets 166E.
Svarende til klassifiseirngsenheten 144A og 144E på figur 3, foretar klassifiseirngsenhetene 165 A og 165E klassifisering basert på de klasseuttak som er tilført for så å sende de resulterende klassekoder til de normale likningssummerende kretser 166A og 166E.
Den normale likningssummerende krets 166 A foretar summering på de lineære forutsigelseskoeffisienter for rammen av interesse som lærerdata fra LPC
analyseenheten 161A og på dekodelineære forutsigelseskoeffisient og utformer forutsigelsesuttak som elevdata fra uttaksgeneratoren 164A. Den normale likningssummerende krets 166E foretar summering av restsignalene for rammen som er av interesse som lærerdata fra forutsigelsesfilteret 161E, og av de dekodede restsignaler for å danne de forutsigende uttak som elevdata fra uttaksgeneratoren 164E.
Dette betyr at den normale likningssummerende krets 166A bruker elevdataene som forutsigelsesuttak for å utføre beregninger som er ekvivalent med resiprok multiplikasjon av elevdataene (xjnXjm) som komponentene for matrisen A med den ovennevnte likning (13), og til summering (£) for hver klasse som tilføres fra klassifiseirngsenheten 165 A.
Den normale likningssummerende krets 166A benytter også elevdataene som er lineære forutsigelseskoeffisienter for rammen som er av interesse og lærerdataene som er de N dekodede lineære forutsigelseskoeffisienter som danner forutsigelsesuttakene, og de lineære forutsigelseskoeffisienter for den ramme som er av interesse som lærerdata for å utføre multiplikasjon (Xiny0 av elevdata og lærerdata, og for summering (£) for hver klasse av klassekode som tilføres fra klassifiseirngsenheten 165A.
Den normale likningssummerende krets 166A utfører den tidligere nevnte summering
av rammene av lineære forutsigelseskoeffisienter som er tilført fra LPC analyseenheten 161 A, som rammene som er av interesse for å stille opp den normale likning som vedrører de lineære forutsigelseskoeffisienter som er vist på figur 13.
Den normale likningssummerende krets 166E utfører også en tilsvarende summering med alle de rammer for restsignalene som er sendt frå forutsigelsesfilteret 161E som rammen av interesse hvorved en normal likning vedrørende de restsignaler som er vist i likning (13) fremkommer for hver klasse.
En uttakskoeffisientbesluttende krets 167A og en uttakskoeffisientbesluttende krets
167E løser de normale likninger som er fremkommet i de normale likningssummerende kretser 166A, 166E fra klasse til klasse for å finne uttakskoeffisientene for de lineære forutsigelseskoeffisienter og for restsignalene som så blir sendt til adresser som er knyttet til respektive klasser av koeffisientminnene 168A, 168E.
Avhengig av talesignalene som er dannet som talesignaler for opplæring oppstår det forhold der, i en klasse eller flere klasser, der et antall av de normale likninger som er nødvendig for å finne uttakskoeffisientene ikke kan frembringes i den normale likningssummerende krets 166A eller 166E. For slik klasse (klasser) gir de uttakskoeffisientbestemmende kretser 167A eller 167E standard uttakskoeffisienter som utganger.
Koeffisientminnene 168A, 168E memoriserer de klassebaserte uttakskoeffisienter og restsignaler som blir tilført fra de uttakskoeffisientbestemmende kretser 167A, 167E.
Med henvisning til flytskjema på figur 19 blir prosessen for opplæring av opplæringsanordningen på figur 17 forklart.
Opplæringsanordningen blir tilført talesignaler for opplæring. Ved trinn Sill blir lærerdata og elevdata dannet fra talesignalene for opplæring.
Dette betyr at LPC analyseenheten 161A sekvensmessig gjør rammene for talesignalene til opplæring til rammen som er av interesse, og LPC analyseenheten analyserer talesignalene i rammen som er av interesse for å finne p-dimensjonale lineære forutsigelseskoeffisienter som blir sendt som lærerdata til den normale likningssummerende krets 166A. Disse lineære forutsigelseskoeffisienter blir også sendt til forutsigelsesfilteret 161E og til vektorkvantisereren 162A. Denne vektorkvantiserer 162A vektorkvantiserer den detalj vektor som dannes av de lineære forutsigelseskoeffisienter for rammen av interesse fra LPC analyseenheten 161A for å sende A-koden som fremkommer ved denne vektorkvantisering til filterkoeffisientdekoderen 163A. Filterkoeffisientdekoderen 163A dekoder A-koden fra vektorkvantisereren 162A til dekodede lineære forutsigelseskoeffisienter som blir sendt som elevdata til uttaksgeneratoren 164A.
På den annen side vil forutsigelsesfilteret 161E som har mottatt de lineære forutsigelseskoeffisienter for rammen som er av interesse fra analyseenheten 161A utføre beregninger som faller sammen med den tidligere nevnte likning 1 ved bruk av de lineære forutsigelseskoeffisienter og talesignalene for opplæring av rammen som er av interesse, for å finne restsignalene for rammen som er av interesse, som blir sendt til den normale likningssummerende krets 166E som lærerdata. Restsignalene blir også sendt til vektorkvantisereren 162E. Vektorkvantisereren 162E vektorkvantiserer restvektoren, dannet med utvalgsverdier for signalene i rammen som er av interesse fra forutsigelsesfilteret 161E for så å sende den restkode som fremkommer som resultatet av vektorkvantiseringen til restkodeboklagerenheten 163E. Restkodeboklagerenheten 163E dekoder restkoden fra vektorkvantisereren 162E for å danne de dekodede restsignaler som så blir sendt som elevdata til uttaksgeneratoren 164E.
Programmet går så til trinn Sl 12 der uttaksgeneratoren 164A utformer forutsigelsesutganger og klasseutganger som gjelder de lineære forutsigelseskoeffisienter på grunnlag av de dekodede lineære forutsigelseskoeffisienter som er sendt fra filterkoeffisientdekoderen 163A, mens uttaksgeneratoren 164E utformer forutsigelsesutganger og klasseutganger som gjelder restsignalene fra de dekodede restsignaler som er tilført fra restkodeboklagerenheten 163E. Klasseuttakene som gjelder de lineære forutsigelseskoeffisienter blir sendt til klassifiseringsenheten 165 A, mens forutsigelsesuttakene blir sendt til den normale likningssummerende krets 166A. Klasseuttakene som gjelder restsignalene blir sendt til klassifiseringsenheten 165E, mens forutsigelsesuttakene blir sendt til den normale likningssummerende krets 166E.
Deretter, ved trinn Sl 13, utfører klassifiseirngsenheten 165A klassifisering basert på klasseuttakene som gjelder de lineære forutsigelseskoeffisienter, og sender de resulterende klassekoder til den normale likningssummerende krets 166A mens klassifiseirngsenheten 165E utfører klassifisering basert på klasseuttakene som gjelder restsignalene og sender den resulterende klassekode til den normale likningssummerende krets 166E.
Programmet går så til trinn Sl 14 der den normale likningssummerende krets 166A utfører den tidligere summering av matrisen A og vektoren v for likningen (13) for de lineære forutsigelseskoeffisienter i rammen som er av interesse som lærerdata fra LPC analyseenheten 161 A, og for de dekodede lineære forutsigelseskoeffisienter som danner forutsigelsesuttakene som elevdata fra uttaksgeneratoren 164A. Ved trinn Sl 14 utfører den normale likningssummerende krets 166E den tidligere nevnte summering av matrisen A og vektoren v for likning (13) for restsignalene i rammen som er av interesse som lærerdata fra forutsigelsesfilter 161E og for dekodede restsignaler som danner forutsigelsesuttakene som elevdata fra uttaksgeneratoren 164E. Programmet går deretter til trinn Sl 15.
Ved trinn Sl 15 blir det bekreftet om det finnes noen talesignaler for opplæring for rammen som skal behandles som rammen av interesse eller ikke. Hvis det bekreftes ved trinn Sl 15 at det finnes talesignaler for opplæring av rammen som skal behandles som rammen av interesse, går programmet tilbake til trinn Sl 11 der den neste ramme blir stilt som en ny ramme av interesse. Behandlingen som svarer til det som er beskrevet ovenfor blir så gjentatt.
Hvis det ved trinn Sl 15 bekreftes at det ikke finnes noe talesignal for opplæring av rammen som skal behandles som rammen av interesse, det vil si hvis den normale likning er fremkommet i hver klasse i de normale likningssummerende kretser 166A, 166E går programmet til trinn Sl 16 der den uttakskoeffisient besluttende krets 167A løser den normale likning som er frembragt for hver klasse for å finne uttakskoeffisientene for de lineære forutsigelseskoeffisienter for hver klasse. Disse uttakskoeffisienter blir sendt til adressen som er knyttet til hver klasse for lagring. Den uttakskoeffisientbestemmende krets 167E løser også den normale likning som er frembragt for hver klasse for å finne uttakskoeffisientene for restsignalene for hver klasse. Disse uttakskoeffisienter blir sendt til, og blir lagret i, den adresse som er knyttet til hver klasse for å avslutte behandlingen.
De uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter for hver klasse blir således lagret i koeffisientminnet 168A, blir lagret i koeffisientminnet 145A på figur 14, mens uttakskoeffisienter som gjelder de klassebaserte restsignaler som er lagret i koeffisientminnet 168E blir lagret i koeffisientminne 145E på figur 14.
Som følge av dette er uttakskoeffisientene som er lagret i koeffisientminnet 145A på figur 14 blitt funnet ved opplæring slik at forutsigelsesfeilene for forutsigelsesverdien for de sanne lineære forutsigelseskoeffisienter som er fremkommet ved utførelse av lineære forutsigelsesberegninger, her kvadratfeil, vil ligge på et statistisk minimum, mens de uttakskoeffisienter som er lagret i koeffisientminnet 145E på figur 14, og som er funnet ved opplæring, slik at forutsigelsesfeilene for forutsigelsesverdiene for de sanne restsignaler, fremkommet ved utførelse av lineære forutsigende beregninger, her kvadratfeil, også vil ligge på et statistisk minimum. Som følge av dette vil de lineære forutsigelseskoeffisienter og restsignalene som er utgang fra forutsigelsesenhetene 146A, 146E på figur 14 i det vesentlige falle sammen med de sanne lineære forutsigelseskoeffisienter og med de sanne restsignaler med det resultat at den syntetiserte lyd som frembringes med disse forutsigelseskoeffisienter og restsignaler er frie for forvrengning, og har høy lydkvalitet.
Hvis, i synteseanordningen som er vist på figur 14, klasseuttakene og forutsigelsesuttakene for de lineære forutsigelseskoeffisienter skal trekkes ut med uttaksgeneratoren 143A fra både de dekodede lineære forutsigelseskoeffisienter og de dekodede restsignaler, er det nødvendig å få uttaksgeneratoren 164A på figur 17 til å trekke ut klasseuttakene, eller forutsigelsesuttakene, for de lineære forutsigelseskoeffisienter fra både de dekodede lineære forutsigelseskoeffisient og fra de dekodede restsignaler. Det samme gjelder uttaksgeneratoren 164E.
Hvis, i synteseanordningen som er vist på figur 14, uttaksgeneratorene 143A, 143E, klassifiseringsenhetene 144A, 144E og koeffisientminnene 145A, 145E er konstruert som respektive adskilte enheter må uttaksgeneratorene 164A, 164E klassifiseringsenhetene 165 A, 165E, de normale likningssummerende kretser 166A, 166E, de uttakskoeffisientbesluttende kretser 167A, 167E og koeffisientminnene 168A, 168E være konstruert som respektive separate enheter. I dette tilfellet er i den normale likningssummerende krets hvori de normale likningssummerende kretser 166A, 166E er konstruert enhetlig, blir den normale likning oppstilt med både de lineære forutsigende koeffisienter som er utgang fra LPC analyseenheten 161A og restsignalene som er utgang fra forutsigelsesenhetene 161E som lærerdata om gangen, og med både de dekodede lineære forutsigende koeffisienter som er utgang fra filterkoeffisientdekoderen 163 A og de dekodede restsignaler som er utgang fra restkodeboklagerenheten 163E som elevdata om gangen. I uttakskoeffisientens beslutningsprosess hvor uttakskoeffisientens beslutningsprosess 167A, 167E er enhetskonstruert, og for restsignalene for hver klasse om gangen.
Et eksempel på overføringssystemet som innbefatter foreliggende oppfinnelse blir nå forklart med henvisning til figur 20. Systemet er et sett med logisk oppstilte flere anordninger selv om det ikke spiller noen rolle om de respektive anordninger er i samme hus eller ikke.
I dette overføringssystem sørger bærbare telefonsett 1811,18 12 for radiooverføring og mottagning med basestasjoner 182], 1822 mens basestasjonene 182i, 1822 utfører taleoverføring og mottagning med en vekselstasjon 183 for å muliggjøre overføring og mottagning av tale mellom de bærbare telefonsett 1811,1812 ved hjelp av basestasjonene 182], 1822 og vekselstasjonen 183. Basestasjonene 182i, 1822 kan være like eller være forskjellige fra hverandre.
De bærbare telefonsett 1811,18I2 blir i det følgende betegnet som et bærbart telefonsett 181 hvis det ikke er nødvendig å kunne skille mellom de to sett.
Figur 21 viser en illustrasjon av oppbygningen av det bærbare telefonsett 181 som er vist på figur 20.
En antenne 191 mottar elektriske bølger fra basestasjonene 182i, 1822 for å sende de mottatte signaler til et modell 192 så vel som å sende signalene fra modemet 192 til basestasjonene 182i, 1822 som elektriske bølger. Modemet 192 demodulerer signalene fra antennen 191 for så å sende de resulterende kodedata som forklart på figur 1 til en mottagerenhet 194. Modemet 192 er også utført for å modulere kodedataene fra senderen 193 som vist på figur 1, og sender det resulterte modulerte signal til antennen 191. Senderenheten 193 er utført svarende til den senderenhet som er vist på figur 1, og koder brukerens taleinngang til kodedata som blir sendt til modemet 192. Mottagerenheten 194 mottar kodedataene fra modemet 192 for å dekode og gi som utgang tale med høy lydkvalitet svarene til det som oppnås med talesynteseanordningen på figur 14.
Figur 22 viser et illustrerende eksempel på mottagerenheten 194 på figur 21. På tegningen er deler eller komponenter som svarer til de som er vist på figur 2 betegnet med samme henvisningstall, og blir ikke spesielt forklart.
Uttaksgeneratoren 101 blir matet med rammebaserte eller delrammebaserte L-, G- og A-koder som er utgang fra en kanaldekoder 21. Uttaksgeneratoren frembringer det som skal bli klasseuttak på grunnlag av L-, G-, I- og A-kodene for så å rutestyre de uttrukne klasseuttak til en klassifiseirngsenhet 104. Klasseuttakene som er dannet for eksempel med registreringer, frembragt av utgangsgeneratoren 101, blir noen ganger betegnet som første klasseuttak.
Uttaksgeneratoren 102 blir matet med rammebaserte, eller delrammebaserte, restsignaler e som er utgang fra operativenheten 28. Uttaksgeneratoren 102 trekker ut det som skal bli klasseuttak (utvalgspunkter) fra restsignalene for å rutestyre de resulterende klasseuttak til klassifiseirngsenheten 104. Uttaksgeneratoren 102 trekker også ut det som skal bli forutsigelsesuttak fra restsignalene fra operativenheten 28 for å rutestyre de resulterende forutsigelsesuttak til klassifiseirngsenheten 106. Klasseuttakene som er dannet for eksempel med restsignaler frembragt av uttaksgeneratoren 102 blir noen ganger i det følgende betegnet som annen klasse uttak. Uttaksgeneratoren 103 blir matet med rammebaserte eller delrammebaserte lineære forutsigelseskoeffisienter ai som er utgang fra filterkoeffisientdekoderen 25. Uttaksgeneratoren 103 trekker ut det som skal bli klasseuttak fra de lineære forutsigelseskoeffisienter for så å rutestyre de resulterende klasseuttak til klassifiseringsenheten 104. Uttaksgeneratoren 103 trekker også ut det som skal bli forutsigelsesuttak for de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 25 for så å rutestyre det resulterende forutsigelsesutgang til forutsigelsesenheten 107. Klasseuttakene som er dannet for eksempel med lineære forutsigelseskoeffisienter, frembragt med uttaksgeneratoren 103, blir noen ganger i det følgende betegnet som tredje klasse utganger.
Klassifiseringsenheten 104 integrerer de første til tredje klasseuttak som er tilført fra uttaksgeneratorene 101 til 103 for å danne endelige klasseuttak. Basert på disse endelige klasseuttak utfører klassifiseringsenheten 104 klassifiseringen for deretter å sende klassekodene som er resultat av klassifiseringen til koeffisientminnet 105.
Koeffisientminnet 105 lagrer de uttakskoeffisienter som vedrører de klassebaserte lineære forutsigelseskoeffisienter, og de uttakskoeffisienter som vedrører restsignalene slik de fremkommer ved opplæringsprosessen i opplæringsanordningen på figur 24 slik det vil bli forklart i det følgende. Koeffisientminnet 105 gir som utganger de uttakskoeffisienter som er lagret i den adresse som er knyttet til den klassekodeutgang som kommer fra klassifiseirngsenheten 104 til forutsigelsesenhetene 106 og 107. Dessuten blir uttakskoeffisientene We som gjelder restsignalene sendt fra koeffisientminnet 105 til forutsigelsesenheten 106, mens uttakskoeffisientene Wa som gjelder de lineære forutsigelseskoeffisienter blir sendt fra koeffisientminnet 105 til forutsigelsesenheten 107.
Svarende til forutsigelsesenheten 146E henter forutsigelsesenheten 106 ut forutsigelsesuttakene som er utgang fra uttaksgeneratoren 102, de uttakskoeffisienter som gjelder restsignalene, som er utgang fra koeffisientminnet 105 og foretar de lineære forutsigende beregninger av likning (6) ved bruk av forutsigelsesuttakene og uttakskoeffisientene. På denne måte finner forutsigelsesenheten 106 en forutsagt verdi em for restsignalene i rammen som er av interesse, for så å sende de forutsagte verdier em til talesynteseenheten 29 som et inngangssignal.
På samme måte som forutsigelsesenheten 146A på figur 14, henter forutsigelsesenheten 107 ut forutsigelsesuttakene som er utgang fra uttaksgeneratoren 103, og de uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter som er utgang fra koeffisientminnet, og ved bruk av forutsigelsesuttakene og uttakskoeffisientene utfører den de lineære forutsigende beregninger av likning (6). På denne måte finner forutsigelsesenheten 107 en forutsagt verdi mcip for de lineære forutsigelseskoeffisienter for rammen som er av interesse for så å sende de forutsagte verdier som er funnet på denne måte til talesynteseenheten 29.
I mottagerenheten 194, som er konstruert som ovenfor, blir den behandling som i hovedsaken er den samme som behandlingen som tilsvarer flytskjema på figur 16 utført for å gi som utgang den syntetsierte tale med høy lydkvalitet som er resultatet av taledekodingen.
Kanaldekoderen 21 skiller således L-, G-, I- og A-kodene fra kodedataene som er tilført for å sende de adskilte koder til den adaptive kodeboklagerenhet 22, forsterkningsdekoderen 23, eksiteringskodeboklagerenheten 24 og til filterkoeffisientdekoderen 25. L-, G-, I- og A-kodene blir også sendt til uttaksgeneratoren 101.
Den adaptive kodeboklagerenhet 22, forsterkningsdekoderen 23,
eksiteringskodeboklagerenheten 24 og operativenhetene 26 til 28 utfører behandlingen svarende til den som ble utført i den adaptive kodeboklagerenhet 9, forsterkningsdekoderen 10, eksiteringskodeboklagerenheten 11 og i operativenhetene 12-14 på figur 1 for å dekode L-, G- og I-kodene til restsignaler e. Restsignalene blir rutestyrt fra operativenheten 28, og til uttaksgeneratoren 102.
Som forklart med henvisning til figur 1 dekoder filterkoeffisientdekoderen 25 de tilførte A-koder til lineære forutsigelseskoeffisienter som så blir rutestyrt til uttaksgeneratoren 103.
Uttaksgeneratoren 101 gjør rammene for L-, G-, I- og A-kodene som blir tilført til rammen som er av interesse. Ved trinn S101 (figur 16) frembringer uttaksgeneratoren 101 førsteklasseuttak fra L-, G-, I- og A-kodene fra kanaldekoderen 21 for så å sende de førsteklasseuttak, som er frembragt på denne måte, til klassifiseringsenheten 104. Ved trinn Sl01 frembringer uttaksgeneratoren 102 annenklasseuttak fra de dekodede restsignaler fra operativenheten 28, for så å sende annenklasseuttakene som er frembragt på denne måte til klassifiseringsenheten 104 mens uttaksgeneratoren 103 frembringer tredjeklasseuttak fra de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 25, for så å sende de tredjeklasseuttak som fremkommer på denne måte til klassifiseringsenheten 104. Ved trinn S101 frembringer uttaksgeneratoren 102 det som skal bli forutsigelsesuttak fra restsignalene fra operativenheten 28, for å sende forutsigelsesuttakene til forutsigelsesenheten 106 mens uttaksgeneratoren 102 frembringer forutsigelsesuttak fra de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 25, for så å sende forutsigelsesuttakene som fremkommer på denne måten til forutsigelsesenheten 107.
Ved trinn Sl02 foretar klassifiseringsenheten 104 klassifisering basert på de siste klasseuttak som har kombinert de første- til tredjeklasseuttak som er tilført fra uttaksgeneratorene 101 til 103, og sender de resulterende klassekoder til koeffisientminnet 105. Programmet går deretter til trinn Sl03.
Ved trinn Sl03 leser koeffisientminnet 105 ut de uttakskoeffisienter som vedrører restsignalene og de lineære forutsigelseskoeffisienter fra den adresse som er knyttet til kodeklassen slik den ble tilført fra klassifiseringsenheten 104, og sender de uttakskoeffisienter som gjelder restsignalene og de uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter til henholdsvis forutsigelsesenhetene 106,107.
Ved trinn Sl04 henter forutsigelsesenheten 106 ut de uttakskoeffisienter som vedrører restsignalene, som er utgang fra koeffisientminnet 105, og utfører sum-av-produktbehandlingen av likning (6) ved bruk av de koeffisienter som er hentet ut på denne måte, og forutsigelsesuttakene fra uttaksgeneratoren 102 for å komme frem til de forutsagte verdier av de sanne restsignaler i rammen som er av interesse. På dette trinn Sl04 henter forutsigelsesenheten 107 også ut de uttakskoeffisienter som vedrører de lineære forutsigelseskoeffisienter som er utgang fra forutsigelsesenheten 105, og ved bruk av de uttakskoeffisienter som er fremkommet på denne måte, og uttakskoeffisientene fra uttaksgeneratoren 103 utføres det sum-av-produktbehandling av likning (6) for å komme fram til forutsagte verdier for de sanne lineære forutsigelseskoeffisienter for rammen som er av interesse.
Restsignalene, og de lineære forutsigelseskoeffisienter som er hentet ut på denne måte, blir rutestyrt til talesynteseenheten 29 som så utfører behandlingen av likning (4) ved bruk av restsignalene og de lineære forutsigelseskoeffisienter for å frembringe det syntetiserte lydsignal for rammen av interesse. Disse syntetiserte lydsignaler blir sendt fra talesynteseenheten 29 gjennom D/A-omformeren 30 til høyttaleren 31, som så gir som utgang den syntetiserte lyd svarende til de syntetiserte lydsignaler.
Etter at restsignalene og de lineære forutsigelseskoeffisienter er blitt hentet ut med forutsigelsesenhetene 106,107, går programmet til trinn Sl05 der det blir bekreftet om det finnes ytterligere L-, G-, I- eller A-koder av rammen som skal behandles som rammen av interesse eller ikke. Hvis det ved trinn Sl05 finnes at det fremdeles er L-, G-, I- eller A-koder i rammen som skal behandles som rammen av interesse, går programmet tilbake til trinn Sl01 for å stille den ramme som skal bli den neste ramme av interesse som den nye ramme av interesse for så å gjenta den behandling som tilsvarer det som er beskrevet ovenfor. Hvis det ved trinn Sl05 finnes at det ikke er noen ytterligere L-, G-, I- eller A-koder for den ramme som skal behandles som rammen av interesse, avsluttes behandlingen.
Et eksempel på en opplæringsanordning til utførelse av opplæring av behandlingen av uttakskoeffisienter som skal lagres i koeffisientminnet 105 som er vist på figur 22, vil du bli forklart med henvisning til figur 23.1 den følgende forklaring, har deler eller komponenter som svarer til de som er benyttet i opplæringsanordningen som er vist på figur 12, betegnet med tilsvarende henvisningstall.
Komponentene fra mikrofonen 201 til kodebeslutningsenheten 215 er utført svarende til komponentene fra mikrofonen 1 til kodebeslutningsenheten 15. Mikrofonen 201 blir matet med talesignaler for opplæring, slik at komponentene fra mikrofonen 201 til beslutningsenheten 215 utfører en behandling som svarer til det som er vist på figur 1.
Et forutsigelsesfilter 111E blir matet med talesignaler for opplæring som digitale signaler i form av utgang fra A/D-omformeren 202, og med lineære forutsigelseskoeffisienter som er utgang fra LPC analyseenheten 204. Uttaksgeneratoren 112A blir matet med de lineære forutsigelseskoeffisienter som er utgang fra vektorkvantisereren 205, som er lineære forutsigelseskoeffisienter til dannelse av kodevektorene (sentroidevektor) i den kodebok som benyttes for vektorkvantisering mens uttaksgeneratoren 112E blir matet med restsignaler som er utgang fra operativenheten 214, og disse er dessuten de samme restsignaler som de som ble sendt til talesyntesefilteret 206. Den normale likningssummerende krets 114A blir matet med de lineære forutsigelseskoeffisienter som er utgang fra LPC analyseenheten 204, mens uttaksgeneratoren 117 blir matet med L-, G-, I- og A-kodene som er utgang fra kodebeslutningsenheten 215.
Forutsigelsesfilteret 111E vil sekvensmessig stille rammene for talesignalene for opplæring, sendt fra A/D-omformeren 202, og utfører for eksempel behandlingen som følger likning (1) ved bruk av talesignalene for rammen som er av interesse og de lineære forutsigelseskoeffisienter som tilføres fra LPC analyseenheten 204 for å finne restsignalene for rammen av interesse. Disse restsignaler blir sendt som lærerdata til den normale likningssummerende krets 114E.
Fra de lineære forutsigelseskoeffisienter som er tilført fra vektorkvantisereren 20S, danner uttaksgeneratoren 112A de samme forutsigelsesuttak som de som kommer fra uttaksgeneratoren 103 på figur 11 og tredjeklasseuttak, og rutestyrer de tredjeklasseuttak til klassifiseringsenhetene 113A, 113E samtidig med rutestyring av forutsigelsesuttakene til den normale likningssummerende krets 114A.
Fra de lineære forutsigelseskoeffisienter som er tilført fra operativenheten 214, danner uttaksegeneratoren 112E de samme forutsigelsesuttak som de i uttaksgeneratoren 102 på figur 122 og annenklasseuttak, og rutestyrer annenklasseuttakene til klassifiseringsenhetene 113A, 113E samtidig med rutestyring av forutsigelsesuttakene til den normale likningssummerende krets 114E. Klassifiseirngsenhetene 113A, 113E blir matet med tredjeklasse fra henholdsvis uttaksgeneratorene 112A, 112E samtidig med at de mates med førsteklasseuttakene fra uttaksgeneratoren 117 svarende til klassifiseirngsenheten 104 på figur 22 vil klassifiseirngsenhetene 113 A, 113E integrere første til tredjeklasseuttakene som tilføres for å danne de endelige klasseuttak. Basert på disse endelige klasseuttak utfører klassifiseirngsenhetene klassifiseringen for så å sende klassekoden til de normale likningssummerende kretser 114A, 114E.
Den normale likningssummerende krets 114A mottar de lineære forutsigelseskoeffisienter fra rammen av interesse fra LPC analyseenheten 204 som lærerdata, samtidig med at de mottar forutsigelsesuttakene fra uttaksgeneratoren 112A som elevdata. Den normale likningssummerende krets utfører summeringen som den normale likningssummerende krets 166 på figur 17, for lærerdataene og elevdataene fra en klassekode fra klassifiseirngsenheten 113 A til en annen for å stille opp den normale likning (13) som gjelder de lineære forutsigelseskoeffisienter fra en klasse til en annen. Den normale lilaungssuihmerende krets 114E mottar restsignalene fra rammen som er av interesse fra forutsigelsesenheten 111E som lærerdata, samtidig med at den mottar forutsigelsesuttakene fra uttaksgeneratoren 112E som elevdata. Den normale likningssummerende krets utfører summering på samme måte som den normale likningssummerende krets 166E på figur 17, for lærerdataene og elevdataene fra en klassekode fra klassifiseirngsenheten 113 til en annen for å stille opp den normale likning (13) vedrørende restsignalene fra en klasse til en annen. En uttakskoeffisientbesluttende krets 1 ISA og en uttakskoeffisientbesluttende krets 115E løser den normale likning som fremkommer i de normale likningssummerende kretser 114A, 114E fra klasse til klasse, for å finne de uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter og restsignalene for de respektive klasser. Uttakskoeffisientene som finnes på denne måte blir sendt til adressene for de koeffisientminner 116A, 116E som er knyttet til de respektive klasser.
Avhengig av talesignalene som tilføres som talesignaler for opplæring finnes det tilfeller der det i en klasse eller i flere klasser ikke kan frembringes et antall normale likninger som er nødvendig for å finne uttakskoeffisientene, og som frembringes i de normale likningssummerende kretser 114A, 114E. For slik klasse (klasser) gir de uttakskoeffisientbesluttende kretser 1 ISA, 1 ISE utganger for eksempel i form av standard uttakskoeffisienter.
Koeffisientminnene 116A, 116E memorerer de klassebaserte uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter og restsignalene som tilføres fra de uttakkoeffisientbesluttende kretser USA, 115E.
Fra L-, G-, I- og A-kodene som blir tilført fra den kodebesluttende enhet 215, frembringer uttaksgeneratoren 117 de samme førsteklasseuttak som de i uttaksgeneratoren 101 på figur 22, for å sende de klasseuttak som er frembragt på denne måte til klassifiseirngsenhetene 113A, 113E.
Den ovenfor beskrevne opplæringsanordning utfører hovedsakelig den samme behandling som den behandling som følger flytskjema på figur 19 for å finne de uttakskoeffisienter som er nødvendige til frembringelse av den syntetiserte lyd med høy lydkvalitet. Opplæringsanordningen blir matet med talesignalene for opplæring og frembringer lærerdata og elevdata ved trinn Sl 11 på grunnlag av taledataene for opplæring.
Deretter blir talesignalene for opplæring ført som inngang til mikrofonen 201. Komponentene fra mikrofonen 201 til den kodebesluttende enhet 215 fikk den samme behandling som den som ble utført med mikrofonen 1 til den kodebesluttende krets 15 på figur 1.
De lineære forutsigelseskoeffisienter som blir hentet ut med LPC analyseenheten 204, blir sendt som lærerdata til den normale likningssummerende krets 114A. Disse lineære forutsigelseskoeffisienter blir også sendt til forutsigelsesfilteret 111E. Restsignalene som frembringes i operativenheten 214 blir sendt som elevdata til uttaksgeneratoren 112E.
De digitale talesignaler som er utgang fra A/D-omformeren 202 blir sendt til forutsigelsesfilteret 111E, mens de lineære forutsigelseskoeffisienter som er utgang fra vektorkvantisereren 204, blir sendt som elevdata til uttaksgeneratoren 112A. L-, G-, I-og A-kodene som er utgang fra den kodebesluttende enhet 215 blir sendt til uttaksgeneratoren 117.
Forutsigelsesfilteret 111E vil sekvensielt gjøre rammene for talesignalene for opplæring, tilført fra A/D-omformeren 202 til rammen av interesse, og utfører behandling svarende til likning (1) ved bruk av talesignalene for rammen av interesse og de lineære forutsigelseskoeffisienter som er tilført fra LPC analyseenheten 204 for å finne restsignalene for rammen av interesse. Restsignalene som fremkommer med dette forutsigelsesfilter 111E, blir sendt som lærerdata til den normale likningssummerende krets 114E.
Etter uthenting av lærerdataene og elevdataene, som beskrevet ovenfor, går programmet til trinn Sl 12 der uttaksgeneratoren 112A frembringer forutsigelsesuttak som gjelder lineære forutsigelseskoeffisienter der disse er tilført fra vektorkvantisereren 205, og tredjeklasseuttak fra de lineære forutsigelseskoeffisienter mens uttaksgeneratoren 112E frembringer forutsigelsesuttak som gjelder de restsignaler som er tilført fra operativenheten 214, og annenklasseuttakene fra restsignalene. Videre, ved trinn Sl 12, blir de førsteklasseuttak frembragt uttaksgeneratoren 117 på grunnlag av L-, G-, I- og A-kodene tilført fra den kodebesluttende enhet 215.
De forutsigelsesuttak som gjelder de lineære forutsigelseskoeffisienter, blir sendt til den normale likningssummerende krets 114A, mens forutsigelsesuttakene som gjelder restsignalene blir sendt til den normale likningssummerende krets 114E. De første- til tredjeklasseuttak blir sendt til klassifiseringsenhetene 113A, 113E.
Deretter, ved trinn Sl 13, utfører klassifiseirngsenhetene 113A, 113E klassifisering basert på de første- til tredjeklasseuttak for så å sende den resulterende klassekode til de normale likningssummerende kretser 114A, 114E.
Programmet går så til trinn Sl 14, der den normale likningssummerende krets 114A utfører den nevnte summering av matrisen A og vektoren v for likning (13) for de lineære forutsigelseskoeffisienter til rammen av interesse fra LPC-analyseenheten 204 som lærerdata, og for forutsigelsesuttakene fra uttaksgeneratoren 112A som lærerdata for hver klassekode fra klassifiseirngsenheten 113A. Ved trinn Sl 14 utfører den normale likningssummerende krets 114E den tidligere nevnte summering av matrisen A og vektoren v for likning 13, for restsignalene til rammen av interesse som lærerdata fra forutsigelsesfilteret 111E og for forutsigelsesuttakene som elevdata fra utaksgeneratoren 112E for hver klassekode fra klassifiseirngsenheten 113E. Programmet går deretter til
trinn S115.
Ved trinn Sl 15 blir det bekreftet om det finnes noe ytterligere talesignal for opplæring for rammen som skal behandles som rammen av interesse eller ikke. Hvis det bekreftes ved trinn Sl 15 at det finnes talesignal for opplæring av rammen som skal behandles som rammen av interesse går programmet tilbake til trinn Sl 11, der den neste ramme blir stilt som den nye ramme av interesse. Behandlingen svarende til det som er beskrevet ovenfor blir så gjentatt.
Hvis det bekreftes ved trinn Sl 15 at det ikke finnes noe ytterligere signal for opplæring av rammen som skal behandles som rammen av interesse, det vil si hvis den normale likning fremkommer i hver klasse i de normale likningssummerende kretser 114A, 114E, går programmet videre til trinn Sl 16 der den uttakskoeffisientbesluttende krets 115 A løser den normale likning som er frembragt for hver klasse for å finne uttakskoeffisienten for de lineære forutsigelseskoeffisienter for hver klasse. Disse uttakskoeffisienter er blitt sendt til den adresse som er knyttet til hver klasse i koeffisientminnet 116A for lagring i dette. Den uttakskoeffisientbesluttende krets 115E løser den normale likning som er frembragt for hver klasse for å finne uttakskoeffisientene for restsignalene for hver klasse. Disse uttakskoeffisienter blir sendt til den adresse som er knyttet til hver klasse i koeffisientminnet 116E for lagring i dette. Dette avslutter behandlingen.
De uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter for hver klasse, og som er lagret i koeffisientminnet 116A, er lagret i koeffisientminnet 105 på figur 22, mens uttakskoeffisientene som gjelder de klassebaserte restsignaler som er lagret i koeffisientminnet 116E er lagret i det samme koeffisientminnet.
Som følge av dette er uttakskoeffisientene som er lagret i koeffisientminnet 105 på figur 22 blitt funnet ved opplæring slik at forutsigelsesfeilene for forutsigelsesverdiene for de sanne forutsigende koeffisienter eller restsignaler som fremkommer ved utførelse av lineære forutsigende beregninger, her kvadratfeil, vil ligge på et statistisk minimum, og av den grunn vil restsignalene og de lineære forutsigelseskoeffisienter som er utgang fra forutsigelsesenhetene 106,107 på figur 22, stort sett falle sammen med de sanne restsignaler, og med de sanne lineære forutsigelseskoeffisienter med det resultat at den syntetiserte lyd som frembringes av disse restsignaler og de lineære forutsigelseskoeffisienter, er frie for forvrengning og har høy lydkvalitet.
Den ovenfor beskrevne sekvens av operasjoner kan utføres med maskinvare eller programvare. Hvis sekvensen av operasjoner utføres med programvare blir programmet som danner programvaren installert for eksempel på en vanlig datamaskin.
Datamaskinen som har fått installert programmet for utførelse av den ovenfor beskrevne sekvens av operasjoner, er utformet som vist på figur 13, som beskrevet ovenfor, og operasjonen som tilsvarer den som ble utført av datamaskinen på figur 13 blir også utført her, og er derfor ikke spesielt forklart.
Under henvisning til tegningene blir en ytterligere modifikasjon av foreliggende oppfinnelse forklart i det følgende. Talesynteseanordningen blir matet med kodedata som er multiplekset fra restkoden og A-koden kodet for eksempel ved vektorkvantisering fra restsignalene og de lineære forutsigelseskoeffisienter som tilføres talesyntesefilteret 244. Fra restkoden og A-koden blir restsignalene og de lineære forutsigelseskoeffisienter dekodet, og sendt til talesyntesefilteret 244 for å frembringe den syntetiserte lyd. Den foreliggende talesynteseanordning er beregnet på å utføre forutsigende behandling ved bruk av den syntetiserte lyd som er syntetisert med talesyntesefilteret og uttakskoeffisientene som finnes ved opplæring for å finne og gi som utgang talen med høy lydkvalitet (syntetisert lyd) som er den syntetiserte lyd med forbedret lydkvalitet.
Det vil si at talesynteseanordningen, som er vist på figur 24, utnytter den klassifiserende adaptive behandling til å dekode den syntetiserte lyd til forutsagte verdier for den sanne lyd med høy kvalitet.
Den klassifiserende adaptive behandling er dannet av klassifiseringsbehandlingen og den adaptive behandling. Ved klassifiseringsbehandlingen blir dataene klassifisert alt etter egenskaper, og underkastes adaptiv behandling fra klasse til klasse. Den adaptive behandling blir utført på den måte som er beskrevet ovenfor, og det blir her bare vist til den tidligere beskrivelse for å unngå en ny detaljert beskrivelse av dette.
Talesynteseanordningen som er vist på figur 24 dekoder de dekodede lineære forutsigelseskoeffisienter til sanne lineære forutsigelseskoeffisienter, eller mer bestemt, forutsagte verdier av disse med den ovenfor beskrevne klassifiserende adaptive behandling samtidig med dekoding av de dekodede restsignaler til sanne restsignaler, eller mer nøyaktig til forutsagte verdier av disse.
Dette betyr at en demultipleksér (DEMUKS) 241 blir matet med kodedata, og skiller den rammebaserte A-kode og restkoden fra de kodedata som er tilført. Demultiplekseren 241 sender A-koden til en filterkoeffisientdekoder 242, og til uttaksgenerator 245* 246, for så å sende restkoden til en restkodeboklagerenhet 243, og til uttaksgeneratorene 245, 246.
Det skal påpekes at A-koden, og restkoden som ligger i kodedataene på figur 24, fremkommer ved vektorkvantisering av de lineære forutsigelseskoeffisienter, og restsignalene som begge er frembragt ved LPC-analyse av talen ved bruk av en forhåndssatt kodebok.
Filterkoeffisientdekoderen 242 dekoder den rammebaserte A-kode som er tilført fra demultiplekseren 241 til lineære forutsigelseskoeffisienter, basert på den samme kodebok som ble benyttet ved frembringelsen av A-koden for så å sende de, på denne måte, dekodede lineære forutsigelseskoeffisienter til talefilteret 244.
Restkodeboklagerenheten 243 dekoder den rammebaserte restkode som tilføres fra demultiplekseren 241 basert på den samme kodebok som ble benyttet ved frembringelsen av restkoden, for så å sende de resulterende restsignaler til talesyntesefilteret 244.
Som talesyntesefilteret 29, som er vist på figur 2, er talesyntesefilteret 244 et IIR-type digitalt filter, og filtrerer restsignalene fra restkodeboklagerenheten 243 som et inngangssignal med de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 242 som uttakskoeffisienter for HR-filteret, for dermed å frembringe den syntetiserte iyd som blir sendt til uttaksgeneratorene 245,246.
Uttaksgeneratoren 245 trekker ut fra utvalgsverdiene av den syntetiserte lyd som sendes fra talesyntesefilteret 244 og fra restkoden og A-koden som tilføres fra demultiplekseren 241, det som skal bli forutsigelsesuttak til bruk i forutsigende beregninger i en forutsigelsesenhet 249, som forklart senere. Uttaksgeneratoren 245 stiller således A-koden, restkoden og utvalgsverdiene for den syntetiserte lyd for rammen som er av interesse, og for hvilken forutsagte verdi for talen med høy lydkvalitet for eksempel skal finnes som forutsigelsesuttak. Uttaksgeneratoren 245 rutestyrer forutsigelsesuttakene til forutsigelsesenheten 249.
Uttaksgeneratoren 246 trekker ut det som skal bli klasseuttak fra utvalgsverdiene for den syntetiserte lyd som er tilført fra talesyntesefilteret 244, og fra den rammebaserte eller delrammebaserte A-kode og restkode som er tilført fra demultiplekseren 241. Tilsvarende uttaksgeneratoren 245 vil uttaksgeneratoren 246 stille alle utvalgsverdier for den syntetiserte lyd for rammen som er av interesse, for A-koden og restkoden som klasseuttakene. Uttaksgeneratoren 246 sender klasseuttakene til en klassifiseringsenhet 247.
Mønsteret for oppbygningen av forutsigelses- og klasseuttakene skal ikke være begrenset til det ovennevnte mønster. Selv om klasse- og forutsigelsesuttakene er de samme i den ovenstående klasse, kan klasseuttakene og forutsigelsesuttakene være forskjellige fra hverandre når det gjelder konfigurasjonen.
I uttaksgenerator 245 eller 246 kan klasseuttakene og forutsigelsesuttakene også bli trukket ut fra de lineære forutsigelseskoeffisienter som er dannet fra A-koden som er utgang fra filterkoeffisientdekoderen 242, eller fra restsignalene som fremkommer fra restkodene som er utgang fra restkodeboklagerenheten 243, som angitt med stiplede linjer på figur 24.
Basert på klasseuttakene fra uttaksgeneratoren 246, klassifiserer klassifiseringsenheten 247 taleutvalgsverdiene for rammen som er av interesse, og gir som utgang klassekoden svarende til den resulterende klasse, til et koeffisientminne 248.
Det er også mulig for klassifiseringsenheten 247 å gi som utgang selve bitstrengen som danner utvalgsverdiene for den syntetiserte lyd til rammen av interesse som klasseuttak, A-koden og restkoden.
Koeffisientminnet 248 inneholder klassebaserte uttakskoeffisienter fremkommet ved opplæring i opplæringsanordningen på figur 27, som forklart senere, og gir som utganger til forutsigelsesenheten 249 de uttakskoeffisienter som er lagret i den adresse som svarer til klassekodeutganger med klassifiseirngsenheten 247.
Hvis N-utvalg av talen som har høy lydkvalitet kan finnes for hver ramme, er N-sett med uttakskoeffisienter nødvendig for å komme frem til N-utvalg for talen med de forutsigende beregninger av likning (6) for rammen av interesse. I det foreliggende tilfelle blir således n-sett med uttakskoeffisienter lagret på adressen for koeffisientminnet 248 tilknyttet en klassekode.
Forutsigelsesenheten 249 henter ut forutsigelsesuttakutgangen med uttaksgeneratoren 245, og uttakskoeffisientutgangen med koeffisientminnet 248, og foretar lineære forutsigende beregninger som angitt med likning (6) for å finne forutsagte verdier for talen som har høy lydkvalitet i rammen som er av interesse for å gi som utgang de forutsagte verdier til en D/A-omformer 250.
Koeffisientminnet 248 gir som utgang N-sett med uttakskoeffisienter for å finne hver av N-utvalg av talen i rammen av interesse som beskrevet ovenfor. Forutsigelsesenheten 249 utfører sum-av-produktbehandling av likning (6) ved bruk av forutsigelsesuttakene for de respektive utvalgsverdier, og et sett med uttakskoeffisienter som er knyttet til de respektive utvalgsverdier. D/A-omformeren 250 D/A-omformer forutsigelsesverdiene for talen fra forutsigelsesenheten 249 fra digitale signaler til analoge signaler som så blir sendt som utgang til høyttaleren 251.
Figur 25 viser en spesiell oppbygning av det talesyntesefilter 244 som er vist på figur 24. Talesyntesefilteret 244 som er vist på figur 25 benytter p-dimensjonale lineære forutsigelseskoeffisienter, og er derfor dannet av en summerer 261, p-forsinkelseskretser (D) 2621 til 262p og p-multiplikatorer 2631 til 263p.
I multiplikatorene 2631 til 263p er sett med p-dimensjonale lineære forutsigelseskoeffisienter ai, a2,..otp tilført fra filterkoeffisientdekoderen 242, slik at talesyntesefilteret 244 utfører beregningene som passer til likning (4) for å frembringe den syntetiserte lyd.
Restsignalene e som er utgang fra restkodeboklagerenheten 243 blir således sendt gjennom en summerer 261 til en forsinkelseskrets 262i. Forsinkelseskretsen 262p forsinker inngangssignalet til denne med et utvalg av restsignalet for å gi som resultat det forsinkede signal til en forsinkelseskrets 262p+i på nedstrømssiden, og til en multiplikator 263p.
Multiplikatoren 263p multipliserer utgangen fra forsinkelseskretsen 262p med den lineære forutsigelseskoeffisient Op som der er stilt for som utgang å gi produktverdien til summereren 261.
Summereren 261 summerer alle utganger fra multiplikatorene 2631 til 263p, og restsignalet e for å sende en resulterende sum til en forsinkelseskrets 2621, så vel som å gi som utgang resultatet av talesyntesen (syntetisert lyd).
Med henvisning til flytskjema på side 26 blir behandlingen ved talesyntese i talesynteseanordningen på figur 24 forklart. Demultiplekseren 241 vil sekvensielt skille A-koden og restkoden fra de tilførte kodedata på rammebasis for å sende de respektive koder til filterkoeffisientdekoderen 242, og til restkodeboklagerenheten 243. Demultiplekseren 241 sender også A-koden og restkoden til uttaksgeneratorene 245, 246.
Filterkoeffisientdekoderen 242 vil sekvensielt dekode den rammebaserte A-kode som er tilført fra demultiplekseren 241 til lineære forutsigelseskoeffisienter som så blir sendt til talesyntesefilteret 244. Restkodeboklagerenheten 243 vil sekvensielt dekode den rammebaserte restkode som er tilført fra demultiplekseren 241 til restsignaler som så blir sendt til talesyntesefilteret 244.
Talesyntesefilteret 244 utfører så beregningen ifølge likning (4) ved bruk av restsignalene og de lineære forutsigelseskoeffisienter, som det har fått tilført til å frembringe den syntetiserte lyd for rammen som er av interesse. Denne syntetiserte lyd blir sendt til uttaksgeneratorene 245,246.
Uttaksgeneratoren 245 frembringer sekvensielt rammen for den syntetiserte lyd som er tilført, nemlig rammen som er av interesse. Ved trinn S201 frembringer utgangsgeneratoren 245 forutsigelsesuttak fra utvalgsverdiene for den syntetiserte lyd som er tilført fra talesyntesefilteret 244, og fra A-koden og restkoden som er tilført fra demultiplekseren 241, for å gi som utgang de frembragte forutsigelsesuttak til forutsigelsesenheten 249. Ved trinn S201 frembringer uttaksgeneratoren 246 klasseuttak fra den syntetiserte lyd som er sendt fra talesyntesefilteret 244, og fra A-koden og restkoden som er tilført fra demultiplekseren 241 for å rutestyre klasseuttakene som fremkommer på denne måte til klassifiseringsenheten 247.
Ved trinn S202 foretar klassifiseringsenheten 247 klassifiseringen basert på de klasseuttak som er tilført fra uttaksgeneratoren 246, for så å sende den resulterende klassekode til koeffisientminnet 248. Programmet går så til trinn S203.
Ved trinn S203 vil koeffisientminnet 248 lese ut uttakskoeffisientene fra den adresse som er knyttet til den klassekode som er sendt fra klassifiseirngsenheten 247, for så å sende de utleste uttakskoeffisienter til forutsigelsesenheten 249.
Ved trinn S204 vil forutsigelsesenheten 249 hente ut de uttakskoeffisienter som er utgang fra koeffisientminnet 248, og ved bruk av uttakskoeffisienten og forutsigelseskoeffisientene fra uttaksgeneratoren 245, utføres sum-av-produktbehandling av likning (6) for å komme frem til de forutsagte verdier for talen med høy lydkvalitet for rammen som er av interesse. Talen med høy lydkvalitet blir sendt til, og er utgang for, høyttaleren 251, fra forutsigelsesenheten 249 gjennom D/A-omformeren 250.
Etter at talen med høy lydkvalitet er fremkommet ved forutsigelsesenheten 249, går programmet til trinn S205 der det bekreftes om det finnes en ytterligere ramme som skal behandles som rammen av interesse eller ikke. Hvis det bekreftes ved trinn S205 at det finnes en ramme som skal behandles som rammen av interesse går programmet tilbake til trinn S201, der rammen som skal bli den neste ramme av interesse blir stilt som en ny ramme av interesse. Den samme behandling blir så gjentatt. Hvis det bekreftes ved trinn S205 at det ikke finnes noen ytterligere ramme som skal behandles blir prosessen med talesyntesen avsluttet.
Figur 27 er et blokkskjema som viser et eksempel på en opplæringsanordning som er innrettet til å foreta opplæringen av de uttakskoeffisienter som skal lagres i koeffisientminnet 248, som er vist på figur 24.
Opplæringsanordningen som er vist på figur 27, blir matet med digitale talesignaler for opplæring til høy lydkvalitet uttrykt som en forhåndssatt ramme som en enhet. De digitale talesignaler for opplæring blir sendt til en LPC analyseenhet 271, og til et forutsigelsesfilter 274. De digitale talesignaler for opplæring blir også sendt som lærerdata til en normal likningssummerende krets 281.
LPC analyseenheten 271 danner så rammene av talesignaler som blir tilsendt, rammen av interesse og LPC analyserer talesignalene i rammen av interesse for å finne p-dimensjonale lineære forutsigelseskoeffisienter som så blir sendt til en vektorkvantiserer 272 og til forutsigelsesenheten 274.
Vektorkvantisereren 272 inneholder en kodebok som knytter kodevektorer som har de lineære forutsigelseskoeffisienter som kodevektorer til kodene, og basert på denne kodebok, vektorkvantiserer særvektoren som er dannet av lineære forutsigelseskoeffisienter for rammen av interesse fra LPC analyseenheten 271 for å sende A-koden som er resultatet av vektorkvantifiseringen til filterkoeffisientdekoderen 273 og til uttaksgeneratorene 278,279.
Filterkoeffisientdekoderen 273 har samme kodebok som den som er lagret i vektorkvantisereren 272, og vil basert på denne kodebok, dekode A-koden fra vektorkvantisereren 272 til lineære forutsigelseskoeffisienter som så blir sendt til et talesyntesefilter 277. Det skal påpekes at filterkoeffisientdekoderen 242 på figur 24 er av samme utførelse som filterkoeffisientdekoderen 273 på figur 27.
Forutsigelsesfilteret 274 foretar beregninger i samsvar med likning (1) ved bruk av talesignalene for rammen som er av interesse og som er tilført, og de lineære forutsigelseskoeffisienter fra LPC analyseenheten 271 for å finne restsignalene for rammen som er av interesse og som blir rutestyrt til en vektorkvantiserer 275.
Dette betyr at hvis Z-transformene av Sn og e„ i likning (1) er representert med S og E, kan likning (1) gjengis slik:
...(16)
Fra likning (14) kan forutsigelsesfilteret 274 som skal finne restsignalene e utformes som et FIR (Finite Impulse Response) digitalt filter.
Figur 28 viser et eksempel på oppbygningen av forutsigelsesfilteret 274.
Forutsigelsesfilteret 274 blir matet med p-dimensjonale lineære forutsigelseskoeffisienter fra LPC analyseenheten 271. Videre er forutsigelsesfilteret 274 utført med p-forsinkelseskretser (D) 2911 til 291p, p-multiplikatorer 292i til 292p og en enkel summerer 293.
I multiplikatorene 292i til 292,, er det stilt p-dimensjonale lineære forutsigelseskoeffisienter ai, 0:2,..., otp som er tilført fra LPC analyseenheten 271.
På den annen side blir talesignalene s for rammen som er av interesse sendt til en forsinkelseskrets 29li og til summereren 293. Forsinkelseskretsen 29lp forsinker der inngangssignalet med et utvalg fra restsignalene for å gi som utgang det forsinkede signal til en forsinkelseskrets 291p+i på nedstrømssiden, og til en operativenhet 292p. Multiplikatoren 292p multipliserer utgangen fra forsinkelseskretsen 29 lp med den lineære forutsigelseskoeffisient Op som der er stilt for å sende resultatet av summeringen som restsignalene e til summereren 293.
Summereren 293 summerer alle utganger fra multiplikatorene 292i til 292p, og talesignalene s for så å sende resultatet av summeringen som restsignalene e.
Som vist på figur 27 har vektorkvantisereren 275 en kodebok som knytter kodevektorer til utvalgsverdier for restsignalene som komponenter, og basert på denne kodebok vektorkvantiseres restvektoren som er blandet av utvalgsverdier for signalene e fra rammen av interesse fra forutsigelsesfilteret 274, for så å sende restkoden som er resultatet av vektorkvantiseringen til restkodeboklagerenheten 276 og til uttaksgeneratorene 278,279.
Restkodeboklagerenheten 276 har samme kodebok som den som er lagret i vektorkvantisereren 275, og basert på denne kodebok dekoder den restkoden fra vektorkvantisereren 275 til restsignaler som blir sendt til talesyntesefilteret 277. Det skal påpekes at det lagrede innhold i restkodeboklagerenheten 243 på figur 24 er de samme som de lagrede innhold i restkodeboklagerenheten 276 på figur 27. Talesyntesefilteret 277 er et IIR-type digitalt filter konstruert som talesyntesefilteret 244 på figur 24, og filtrerer restsignalene fra filterrestkodeboklagerenheten 276 som et inngangssignal med de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 273 som uttakskoeffisienter for IER-filteret for å frembringe den syntetiserte lyd som så blir sendt til uttaksgeneratorene 278,279.
På samme måte som ved uttaksgeneratoren 245 på figur 24, former uttaksgeneratoren 278 forutsigelsesuttak fra den syntetiserte lyd fra talesyntesefilteret 277, A-koden som er tilført fra vektorkvantisereren 272, og fra restkoden som er tilført fra vektorkvantisereren 275 for å sende forutsigelsesuttakene som er dannet på denne måte til den normale likningssummerende krets 281. Videre vil uttaksgeneratoren 279, som tilsvarer uttaksgeneratoren 246 på figur 24, forme klasseuttak fra den syntetiserte lyd fra talesyntesefilteret 277, fra A-koden som er tilført fra vektorkvantisereren 272 og fra restkoden som er tilført fra vektorkvantisereren 275 for å sende klasseuttakene som er dannet på denne måte til den normale likningssummerende krets 281. På samme måte som klassifiseringsenheten 247 på figur 24 utfører klassifiseringsenheten 280 klassifisering basert på klasseuttakene som er tilført for så å sende den resulterende klassekode til den normale likningssummerende krets 281.
Den normale likningssummerende krets 281 utfører summering av talen for opplæring, som er talen med høy lydkvalitet for rammen som er av interesse, som lærerdata og forutsigelsesuttak fra uttaksgeneratoren 78 som elevdata.
Den normale likningssummerende krets 281 utfører beregninger svarende til resiprok multiplikasjon (xjnXjm) og summering (Z) av elevdata som respektive komponenter i den tidligere nevnte matrise A for likning (13) ved bruk av forutsigelsesuttak (elevdata), fra en klasse svarende til den klasse som ble tilført fra klassifiseringsenheten 280 til en annen.
Videre utfører den normale likningssummerende krets 281 beregninger svarende til resiprok multiplikasjon (yinyim) og summering (Z) av elevdata og lærerdata som respektive komponenter i vektoren v i likning 13, ved bruk av elevdata og lærerdata fra en klasse svarende til klassekoden som er tilført fra klassifiseringsenheten 280 til en annen.
Den nevnte summering med den normale likningssummerende krets 281 blir utført med de samlede talerammer for opplæring, som er tilført for å stille den normale likning (13) for hver klasse.
En uttakskoeffisientbesluttende krets 282 løser den normale likning som er frembragt i den normale likningssummerende krets 281, fra klasse til klasse for å finne uttakskoeffisienter som gjelder de lineære forutsigelseskoeffisienter og restsignalene for de respektive klasser. Uttakskoeffisientene som er funnet på denne måte blir sendt til adressene for koeffisientminnet 283 som er tilknyttet de respektive klasser.
Avhengig av talesignalene som kommer som talesignaler for opplæring finnes det tilfeller der i en viss klasse, eller i flere klasser, et antall av de normale likninger som er nødvendig for å finne uttakskoeffisientene ikke kan frembringes i den normale likningssummerende krets 281. For en slik klasse (klasser) vil den uttakskoeffisientbesluttende krets gi som utganger for eksempel standard uttakskoeffisienter.
Koeffisientminnet 283 memorerer de klassebaserte uttakskoeffisienter som er tilført fra den tappekoeffisientbesluttende krets 282 i en adresse som er knyttet i klassen.
Med henvisning til flytskjema på figur 29 blir opplæringsprosessen med opplæringsanordningen på figur 27 forklart.
Opplæringsanordningen blir matet med talesignaler for opplæring. Talesignalene for opplæring blir sendt til LPC analyseenheten 271 og til forutsigelsesfilteret 274, mens de blir sendt som lærerdata til den normale likningssummerende krets 281. Ved trinn S211 frembringes det elevdata fra talesignalene for opplæring som lærerdata.
Mer bestemt stiller LPC analyseenheten 271 sekvensmessig rammene for talesignalene for opplæring som rammer av interesse, og LPC analyserer talesignalene for rammen av interesse for å finne p-dimensjonale lineære forutsigelseskoeffisienter som blir sendt til vektorkvantisereren 272. Vektorkvantisereren 272 vektorkvantiserer særvektoren som er dannet av lineære forutsigelseskoeffisienter for rammen av interesse fra LPC analyseenheten 271, for så å sende A-koden som fremkommer ved slik vektorkvantisering som elevdata til filterkoeffisientdekoderen 273 og til uttaksgeneratorene 278,279. Filterkoeffisientdekoderen 273 dekoder A-koden fra vektorkvantisereren 272 til lineære forutsigelseskoeffisienter som så blir rutestyrt til talesyntesefilteret 277.
Ved mottagning av lineære forutsigelseskoeffisienter for rammen av interesse fra LPC analyseenheten 271 utfører forutsigelsesfilteret 274 beregningene for likning (1) ved bruk av lineære forutsigelseskoeffisienter og talesignalene for opplæring av rammen som er av interesse for å finne restsignalene for denne ramme som så blir rutestyrt til vektorkvantisereren 275. Vektorkvantisereren 275 vektorkvantiserer restvektoren som er dannet av utvalgsverdier av restsignalene på rammen av interesse fra forutsigelsesfilteret 279, og rutestyrer den restkode som fremkommer ved vektorkvanitseringen som elevdata til restkodeboklagerenheten 276 og til uttaksgeneratorene 278,279. Restkodeboklagerenheten 176 dekoder restkoden fra vektorkvantisereren 275 til restsignalet som blir tilført talesyntesefilteret 277.
Ved mottagning av de lineære forutsigelseskoeffisienter og restsignalene vil således talesyntesefilteret 277 syntetisere talen ved bruk av de lineære forutsigelseskoeffisienter og restsignalene, og sende den resulterende syntetiserte lyd som elevdata til uttaksgeneratorene 278,279.
Programmet går så til trinn S212 der uttaksgeneratoren 278 frembringer forutsigelsesuttak og klasseuttak fra den syntetiserte lyd som er tilført fra talesyntesefilteret 277, en kode som er tilført fra vektorkvantisereren 272 og fra restkoden som er tilført fra vektorkvantisereren 275. Forutsigelsesuttakene og klasseuttakene blir sendt til henholdsvis den normale likningssummerende krets 281, og klassifiseringsenheten 280.
Deretter, ved trinn S213, utfører klassifiseringsenheten 280 klassifisering basert på klasseuttakene fra uttaksgeneratoren 279, for så å sende den resulterende klassekode til den normale likningssummerende krets 281.
Programmet går så til trinn S214 der den normale likningssummerende krets 281 foretar, den tidligere nevnte summering av matrisen A og vektoren v for likning (13) for utvalgsverdiene for talen som har høy lydkvalitet i rammen av interesse som tilføres denne som lærerdata, og for forutsigelsesuttakene fra uttaksgeneratoren 778 som elevdata for hver klassekode fra klassifiseringsenheten 280. Programmet går så til trinn S215.
Ved trinn S215 blir det bekreftet om det finnes noe ytterligere signal for opplæring for rammen som er behandlet som rammen av interesse eller ikke. Hvis det blir bekreftet ved trinn S215 at det finnes et ytterligere signal for opplæring av rammen som er behandlet som rammen av interesse, går programmet tilbake til trinn S211 der den neste ramme blir stilt som en ny ramme av interesse. Behandling svarende til den som er beskrevet ovenfor blir så gjentatt.
Hvis det blir bekreftet ved trinn S215 at det ikke finnes noe ytterligere signal for opplæring av rammen som skal behandles som rammen av interesse, det vil si hvis den normale likning blir frembragt i hver klasse i den normale likningssummerende krets 281, går programmet til trinn S216 der den uttakskoeffisientbesluttende krets 281 løser den normale likning som er frembragt for hver klasse for å finne uttakskoefifsientene for hver klasse. Disse uttakskoeffisienter blir sendt til den adresse som er knyttet til hver klasse i koeffisientminnet 283 for lagring i dette. Dette avslutter behandlingen.
De klassebaserte uttakskoeffisienter som således er lagret i koeffisientminnet 283 er lagret i koeffisientminnet 248 på figur 24.
Som følge av dette vil uttakskoeffisientene som er lagret i koeffisientminnet 248 på figur 24 som er blitt funnet ved opplæring, slik at forutsigelsesfeilene for forutsigelsesverdiene til den sanne tale med høy lydkvalitet, fremkommet ved utførelse av lineære forutsigende beregninger, her kvadratfeil, vil være på et statistisk minimum slik at restsignalene og de lineære forutsigelseskoeffisienter som er utgang fra forutsigelsesenheten 249 på figur 29 er frie for forvrengning av den syntetiserte lyd som er dannet i talesyntesefilteret 244 og dermed har høy lydkvalitet.
Hvis, i uttaksgeneratoren 246 i talesynteseanordningen som er vist på figur 24, klasseuttakene skal trekkes fra de lineære forutsigelseskoeffisienter og restsignalene, er den nødvendig for uttaksgeneratorene 278 på figur 27 å trekke ut tilsvarende klasseuttak fra de lineære forutsigelseskoeffisienter som er frembragt med filterkoeffisientdekoderen 273, eller fra restsignalene som er utgang fra restkodeboklagerenheten 276 som vist med stiplede linjer. Det samme gjelder de forutsigelsesuttak som er frembragt med uttaksgeneratoren 245 på figur 24, eller med uttaksgeneratoren 278 på figur 27.
For å forenkle forklaringen av de ovenstående eksempel, blir klassifiseringen utført slik at bitstrengen som danner Masseuttaket blir benyttet direkte som klassekoden. I dette tilfellet kan imidlertid antallet av klasser bli urimelig høyt. I klassifiseringen kan således klasseuttakene komprimeres ved for eksempel vektorkvantisering for å benytte bitstrengen som er resultatet fra kompresjonen som klassekode.
Et eksempel på overføringssystemet som benytter foreliggende oppfinnelse vil nå bli forklart med henvisning til figur 30. Systemet her betyr et sett med logisk oppstilte anordninger, og det spiller ingen rolle om de respektive anordninger befinner seg i samme omhylning eller ikke.
I overføringssystemet utfører de bærbare telefonsett 4011,4012 radiosending og - mottagning ved henholdsvis radiostasjonene 4021,4022 mens basestasjonene 4021,4022 utfører talesending og -mottagning med en vekselstasjon 403 for å muliggjøre sending og mottagning mellom de bærbare telefonsett 4011,4012. Ved hjelp av basestasjonene 4021,4022 og vekselstasjonen 403. Basestasjonene 402i, 4022 kan være like eller være forskjellige fra hverandre.
De bærbare telefonsett 4011,4012 blir i det følgende betegnet som et bærbart telefonsett 401 hvis det ikke, av andre årsaker, er nødvendig å skille mellom de to sett. Figur 31 viser eksempel på oppbygningen av telefonsettet 401 som er vist på figur 30. En antenne 411 mottar elektriske bølger fra basestasjonene 4021,4022 for å sende de mottatte signaler til et modem 412, så vel som for å sende signalene fra modemet 412 til basestasjonene 402i, 4022 som elektriske bølger. Modemet 412 demodulerer signalene fra antennen 411, for å sende de resulterende kodedata som er forklart i forbindelse med figur 1 til en mottagerenhet 414. Modemet 412 er også utformet for modulering av kodedataene fra senderen 413 som vist på figur 1, og sender det resulterende modulerte signal til antennen 411. Senderenheten 413 er utformet svarende til den senderenhet som er vist på figur 1, og koder brukerens taleinngang til kodedata som blir sendt til modemet 412. Mottagerenheten 414 mottar kodedataene fra modemet 412, for så å dekode og gi som utgang talen med høy lydkvalitet svarende til det som ble oppnådd i talesynteseanordningen på figur 24. Figur 32 viser et eksempel på mottagerenheten 414 i det bærbare telefonsett 401, som er vist på figur 31. På tegningen er deler eller komponenter som svarer til de som er vist på figur 2 angitt med samme henvisningstall og blir ikke spesielt forklart.
Den rammebaserte syntetiserte lyd som er utgang fra talesynteseenheten 29, og de rammebaserte eller delrammebaserte L-, G-, I- og A-koder som er utgang fra
kanaldekoderen 21, blir sendt til uttaksgeneratorene 221,222. Uttaksgeneratorene 221, 222 trekker ut det som skal bli forutsigelsesuttakene, og det som skal bli klasseuttakene for den syntetiserte lyd, nemlig fra L-koden G-koden I-koden og A-koden som er tilført. Forutsigelsesuttakene blir sendt til en forutsigelsesenhet 225, mens klasseuttakene blir sendt til klassifiseringsenheten 223.
Klassifiseringsenheten 223 utfører klassifisering basert på klasseuttakene som er tilført fra uttaksgeneratoren 222, for å rutestyre klassekodene som er resultatet fra klassifiseringen, til et koeffisientminne 224.
Koeffisientminnet 224 har de klassebaserte uttakskoeffisienter som fremkommer ved opplæring av opplæringsanordningen på figur 33 som senere vil bli forklart. Koeffisientminnet sender de uttakskoeffisienter som er lagret i den adresse som er knyttet til klassekodeutganger av klassifiseringsenheten 223, til forutsigelsesenheten 225.
Svarende til forutsigelsesenheten 249 på figur 29 henter forutsigelsesenheten 225 ut forutsigelsesuttakene som er utgang fra uttaksgeneratoren 221, og uttakskoeffisientene som er utgang fra koeffisientminnet 224, og ved bruk av forutsigelses- og klasseuttakene utføres de lineære forutsigende beregninger som er vist i likning (6). På denne måte finner forutsigelsesenheten 225 de forutsagte verdier for talen som har høy lydkvalitet i rammen av interesse, for så å rutestyre de forutsagte verdier som er funnet på denne måte til D/A-omformeren 30.
Mottagerenheten 414,som er utført som beskrevet ovenfor, foretar den behandling som hovedsakelig er i overensstemmelse med flytskjema på figur 26, for å frembringe som utgang en syntetisert lyd med høy lydkvalitet som da er resultatet av taledekoding.
Kanaldekoderen 21 skiller L-, G-, I- og A-kodene fra de kodedata som blir tilført for å sende kodene som er adskilt på denne måte til den adaptive kodeboklagerenhet 22, forsterkningsdekoder 23, eksiteringskodeboklagerenhet 24 og til filterkoeffisienten 25.
L-, G-, I- og A-kodene blir også sendt til uttaksgeneratorene 221,222.
Den adaptive kodeboklagerenhet 22, forsterkningsdekoderen 23, eksiteringskodeboklagerenheten 24 og operativenhetene 26-28, utfører behandling svarende til den som blir utført i den adaptive kodeboklagerenhet 9, forsterkningsdekoderen 10, eksiteringskodeboklagerenheten 11 og operativenhetene 12 til 14 på figur 1 for å dekode L-, G- og I-kodene til restsignaler e. Restsignalene blir rutestyrt til talesynteseenheten 29.
Som forklart med henvisning til figur 1 dekoder filterkoeffisientdekoderen 25 A-kodene som blir tilført til lineære forutsigelseskoeffisienter som blir rutestyrt til talesynteseenheten 29. Talesynteseenheten 29 utfører talesyntese ved bruk av de lineære forutsigelseskoeffisienter fra filterkoeffisientdekoderen 25, for å sende den resulterende syntetiserte lyd til uttaksgeneratorene 221,222.
Uttaksgeneratorene 221 utfører rammene for den syntetiserte lydutgang fra talesynteseenheten 29 til en ramme som er av interesse. Ved trinn S201 frembringer uttaksgeneratoren forutsigelsesutgang fra den syntetiserte lyd i rammen av interesse, og fra L-, G-, I- og A-kodene for å rutestyre de forutsigelsesuttak som er frembragt på denne måte til forutsigelsesenheten 225. Ved trinn S201 frembringer uttaksgeneratoren 222 klasseuttak fra den syntetiserte lyd i rammen av interesse, og fra L-, G-, I- og A-koder for å sende de klasseuttak som er frembragt på denne måte til klassifiseirngsenheten 223.
Ved trinn S202 utfører klassifiseirngsenheten 223 klassifisering basert på de klasseuttak som er tilført fra uttaksgeneratoren 222, for så å sende den resulterende klassekode til koeffisientminne 224. Programmet går så til trinn S203.
Ved trinn S203 leser koeffisientminnet ut uttakskoeffisienter fra adressen som er knytte til den klassekode som er tilført fra klassifiseirngsenheten 223, for så å sende de utleste uttakskoeffisienter til den forutsigende enhet 225.
Ved trinn S204 henter forutsigelsesenheten 225 ut uttakskoeffisientene som er utgang fra koeffisientminne 224, og ved bruk av uttakskoeffisientene og forutsigelsesuttakene fra uttaksgeneratoren 221 utføres den sum-av-produktbehandling som er vist i likning (6) for å hente ut den forutsagte verdi for talen som har høy lydkvalitet i rammen av interesse.
Talen med den høye lydkvalitet, som er fremkommet som beskrevet ovenfor, blir sendt fra forutsigelsesenheten 225 gjennom D/A-omformeren 30 til høyttaleren 31, som så gjengir talen som har høy lydkvalitet.
Etter behandlingen i trinn S204 går programmet til trinn S205 der det blir bekreftet om det finnes noen ytterligere ramme som skal bli behandlet som rammen av interesse eller ikke. Hvis det finnes en slik ramme, går programmet tilbake til trinn S201 der den ramme som skal bli den neste ramme av interesse blir stilt som den nye ramme av interesse, og deretter blir samme sekvens av operasjoner gjentatt. Hvis det ved trinn S20S finnes at det ikke er noen ytterligere ramme som skal behandles som rammen av interesse, blir behandlingen avsluttet.
Med henvisning til figur 33 vil et eksempel på en opplæringsanordning for opplæring av uttakskoeffisientene som skal lagres i koeffisientminnet 224 på figur 32 forklart.
Komponentene fra en mikrofon 501 til en kodebeslutningsenhet 515, er utført svarende til mikrofonen 1 og kodebeslutningsenheten 15 på figur 1. Mikrofonen 501 får tilført talesignaler for opplæring slik at komponentene mikrofon 501 til kodebeslutningsenheten 515, kan behandle talesignalene for opplæring slik tilfellet er på figur 1.
Den syntetiserte lydutgang fra et talesyntesefilter 506 blir, når kvadratfeilen bekreftes å være minst i en minimum kvadratfeilbesluttende enhet 508, sendt til uttaksgeneratorene 431,432. Uttaksgeneratorene 431,432 blir også matet med L-, G-, I- og A-kodeutgangen når den kodebesluttende enhet 515 har mottatt det bestemte signal fra den minimum kvadratfeilbesluttende enhet 508. Talen som er utgang fra en A/D-omformer 502 blir matet som lærerdata til en normal likningssummerende krets 434.
En uttaksgenerator 431 frembringer de samme forutsigelsesuttak som uttaksgeneratoren 221 på figur 32, basert på den syntetiserte lydutgang fra talesyntesefilteret 506, og L-, G-, I- og A-kodene som er utgang fra den kodebesluttende enhet 515, for så å sende forutsigelsesuttakene som fremkommer på denne måte som elevdata til den normale likningssummerende krets 434.
En uttaksgenerator 432 former de samme klasseuttak som de fra uttaksgeneratoren 222 på figur 32, fra den syntetiserte lydutgang fra talesyntesefilteret 506 og L-, G-, I- og A-kodene som er utgang fra den kodebesluttende enhet 515, og rutestyrer de klasseuttak som er fremkommet på denne måte til en klassifiseirngsenhet 433. Basert på klasseuttakene fra uttaksgeneratoren 432, utfører klassifiseirngsenheten 433 klassifisering på samme måte som klassifiseirngsenheten 223 på figur 32, for så å sende den resulterende klassekode til den normale likningssummerende krets 434.
Den normale likningssummerende krets 434 mottar tale fra en A/D-omformer 502 som lærerdata, og forutsigelsesutgang fra uttaksgeneratoren 431. Den normale likningssummerende krets utfører så summeringen som den normale likningssummerende krets 281 på figur 27, for å stille svarende til likning 13 for hver klasse fra klassifiseringsenheten 433.
En uttakskoeffisientbesluttende krets 435 løser den normale likning som er frembragt på klassebasis med den normale likningssummerende krets 434, for å finne uttakskoeffisienter fra klasse til klasse, og for å sende disse uttakskoeffisienter til den adresse som er knyttet til hver klasse i koeffisientminnet 436. Avhengig av talesignalene som er frembragt som talesignaler for opplæring, kan det hende at det i en klasse, eller flere klasser, ikke er mulig å frembringe det antall normale likninger som kreves for å finne uttakskoefifsientene i den normale likningssummerende krets 434. For en slik klasse (klasser) gir den uttakskoeffisientbestemmende krets 435 som utganger for eksempel standard uttakskoeffisienter.
Koeffisientminne 436 memorerer de klassebaserte uttakskoeffisienter som gjelder lineære forutsigelseskoeffisienter, og restsignaler som er tilført fra den uttakskoeffisientbesluttende krets 435.
I den ovenfor beskrevne opplæringsanordning utføres behandlingen svarende til den behandling som følger flytskjemaet på figur 29, for å finne uttakskoeffisienter til frembringelse av den syntetiserte lyd med høy lydkvalitet.
Dette betyr at opplæringsanordningen blir matet med talesignaler for opplæring, og ved trinn S211 frembringes det lærerdata og elevdata på grunnlag av disse talesignaler for opplæring.
Talesignalene for opplæring kommer som inngang til mikrofonen 501. Komponentene fra mikrofonen 501 til den kodebesluttende enhet 515, utfører behandling svarende til det som ble utført med komponentene fra mikrofon 1 til den kodebesluttende enhet 15 på figur 1.
Resultatet er at talen med digitale signaler som fremkommer ved A/D-omformeren 502 blir sendt som lærerdata til den normale likningssummerende krets 434. Den syntetiserte lyd som er utgangen fra talesyntesefilteret 506, når den minimum kvadratfeilbesluttende enhet 508 har fastslått at kvadratfeilen er blitt minst, blir sendt som elevdata til uttaksgeneratorene 431,432. L-, G-, I- og A-kodene som er utgang fra den kodebesluttende enhet SIS, når den minimum kvadratbesluttende enhet S08 er bekreftet at kvadratfeilen er blitt minst, blir også sendt som elevdata til uttaksgeneratorene 431,432.
Programmet går så til trinn S212 der uttaksgeneratoren 431 frembringer forutsigelsesutgang med rammen for den syntetiserte lyd sendt som elevdata fra talesyntesefilteret 506 som rammen av interesse, fra L-, G-, I- og A-kodene og den syntetiserte lyd fra rammen av interesse for å rutestyre de forutsigelsesuttak som er frembragt på denne måte til den normale likningssummerende krets 434. Ved trinn S212 genererer uttaksgeneratoren 432 også klasseuttak fra L-, G-, I- og A-kodene, og den syntetiserte lyd fra rammen av interesse for å sende disse klasseuttak til klassifiseirngsenheten 433.
Etter behandling ved trinn S212, går programmet til trinn S213 der klassifiseirngsenheten 433 utfører klassifisering basert på klasseuttakene fra uttaksgeneratoren 432, for å sende de resulterende klassekoder til den normale likningssummerende krets 434.
Programmet går så til trinn S214 der den normale likningssummerende krets 434 foretar den tidligere nevnte summering av matrisen A og vektoren v for likning (13), for talen med høy lydkvalitet i rammen av interesse, fra A/D-omformeren 502 som lærerdata og for forutsigelsesuttakene fra uttaksgeneratoren 432 som elevdata for hver klassekode fra klassifiseirngsenheten 433. Programmet går så til trinn S215.
Ved trinn S215 blir det bekreftet om det finnes noe ytterligere talesignal for opplæring for rammen som skal behandles som rammen av interesse eller ikke. Hvis det bekreftes ved trinn S215 at det finnes talesignal for opplæring av rammen som skal behandles som rammen av interesse, går programmet tilbake til S211 der den neste ramme blir stilt som en ny ramme av interesse. Behandling svarende til det som er beskrevet ovenfor blir så gjentatt.
Hvis det i trinn S215 blir bekreftet at det ikke finnes noe ytterligere talesignal for opplæring av den ramme som skal behandles som rammen av interesse, det vil si hvis den normale likning er fremkommet i hver klasse i den normale likningssummerende krets 434, går programmet til trinn S216 der den uttakskoeffisientbestemmende krets 435 løser den normale likning som er frembragt for hver klasse, for å finne uttakskoeffisientene for hver klasse. Disse uttakskoeffisienter blir sendt til, og lagret i, adressen i koeffisientminne 436 som er knyttet til hver klasse for å avslutte behandlingen.
De klassebaserte uttakskoeffisienter som er lagret i koeffisientminnet 436, er lagret i koeffisientminnet 224 på figur 32.
Følgene av dette er at uttakskoeffisientene som er lagret i koeffisientminnet 224 på figur 32 er blitt funnet ved opplæring, slik at forutsigelsesfeilene ved forutsigelsesverdiene for den sanne tale med høy lydkvalitet, fremkommet og utførelse av lineære forutsigende beregninger, her kvadratfeil, vil være på et statistisk minimum slik at taleutgangen fra forutsigelsesenheten 225 på figur 32 får høy lydkvalitet.
I eksemplene som er vist på figurene 32 og 33 blir klasseuttakene frembragt fra den syntetiserte lydutgang fra talesyntesefilteret 506, og L-, G-, I- og A-kodene. Som alternativ kan klasseuttakene også frembringes fra en eller flere av L-, G-, I- og A-kodene, og fra den syntetiske lydutgang fra talesyntesefilteret 506. Klasseuttakene kan også dannes fra lineære forutsigelseskoeffisienter Op som fåes fra A-koden, den informasjon som fåes fra L-, G-, I- eller A-koden innbefattende forsterkningsverdiene P og y som fåes fra G-koden som for eksempel restsignaler e eller 1 eller n, som frembringelse av adressesignaler e med l/p eller n/y som vist med stiplede linjer på figur 32. Klasseuttakene kan også frembringes fra den syntetiserte lydutgang med talesyntesefilteret 506, eller den ovennevnte informasjon avledet fra L-, G-, I- eller A-koden. Hvis programvareinterpoleringsbiter eller rammeenergien inneholdes i de kodede data i CELP-systemet, kan klasseuttakene dannes ved bruk av de myke interpoleirngsbiter eller rammeenergien. Det samme kan sies om forutsigelsesuttakene.
Figur 34 viser talesignaler s, benyttet som lærerdata, data ss for den syntetiserte lyd benyttet som elevdata, restsignaler e og n, 1 benyttet for å finne restsignalene e i opplæringsanordningen på figur 33.
Den ovenfor beskrevne sekvens av operasjoner kan utføres med programvare eller maskinvare. Hvis sekvensen med operasjoner utføres med programvare, kan programmet som danner programvaren installeres på for eksempel en vanlig datamaskin.
Den datamaskin som har programmet installert for utførelse av den ovenfor beskrevne sekvens med operasjoner er konfigurert som vist på figur 13 og beskrevet ovenfor, og operasjonen tilsvarer det som utføres med den datamaskin som er vist på figur 13 og blir av den grunn ikke forklart nærmere.
I den foreliggende oppfinnelse behøver prosesstrinnene for angivelse av programmet til utførelse av de forskjellige behandlingsoperasjoner med datamaskinen ikke utføres kronologisk i den rekkefølge som er vist på flytskjemaet, men kan behandles i parallellføring eller satsvis som for eksempel parallellbehandling eller objekt-basert behandling.
Programmet kan utføres av en enkel datamaskin, eller med flere datamaskiner på en fordelt måte. Videre kan programmet overføres til en utenforliggende datamaskin for utførelse. Selv om det ved foreliggende oppfinnelse ikke er angitt noen særlig referanse når det gjelder hvilken type talesignaler for opplæring som skal benyttes, behøver talesignalene for opplæring ikke bare være tale som kommer fra en person, men kan også være et musikknummer. Hvis, i den ovenfor beskrevne opplæring, talen som sies av en person, benyttes som talesignalene for opplæring, vil uttakskoeffisientene forbedre lydkvaliteten på talen mens, hvis talesignalene for opplæring er musikknumre, kan slike uttakskoeffisienter forbedre lydkvaliteten i musikknummeret.
Foreliggende oppfinnelse kan ha bred anvendelse ved frembringelse av syntetisert lyd fra den kode som fremkommer ved koding med CELP-systemet som for eksempel VSELP (Vector Sum Excited Linear Prediction), PSI-CELP (Pitch Synchronous Innovation CELP), CS-ACELP (Conjugate Structure Algebraic CELP).
Foreliggende oppfinnelse har også bred anvendelse ikke bare i eksempler der den syntetiserte lyd blir frembragt fra den kode som fremkommer ved koding med CELP-systemet, men kan også anvendes der restsignaler og lineære forutsigelseskoeffisient fremkommer fra en gitt kode for å frembringe den syntetiserte lyd.
I den ovenfor beskrevne utførelse blir forutsigelsesverdiene for restsignalene, og lineære forutsigelseskoeffisienter, funnet ved endimensjonale lineære forutsigende beregninger. Som alternativ kan disse forutsigelsesverdier finnes med to eller høyere dimensjonale forutsigelsesberegninger.
I den ovenstående forklaring blir klassifiseringen utført med vektorkvantisering av klasseuttakene. Som alternativ kan klassifiseringen også utføres ved å benytte for eksempel ADRC-behandling.
I klassifisering som benytter ADRC blir elementene som danner Masseuttaket, og som er utvalgsverdier for den syntetiserte lyd, eller LGI og A-koder behandlet med ADRC og klassen blir bestemt i overensstemmelse med den resulterende ADRC-kode.
I K-bit ADRC påvises maksimumverdien MAX og minimumverdien MIN for elementene, som danner Masseuttaket, og DR = MAX - MIN blir stilt som det lokale dynamiske område for dette, og elementene som danner klasseuttakene blir rekvantisert til K-biter. Dette betyr at minimumverdien MIN blir subtrahert fra de respektive elementer som danner Masseuttaket, og den resulterende forskjellverdi blir delt med DR/2K. Verdien for K-bitene for de respektive elementer som danner Masseuttaket, og som fremkommer som beskrevet ovenfor, blir stilt opp i en på forhånd bestemt sekvens i en bitstreng som så er utgang i form av en ADRC-kode.
Industriell anvendbarhet
I henhold til foreliggende oppfinnelse som er beskrevet ovenfor benyttes forutsigelsesuttakene til å forutsi tale med høy lydkvalitet som måltale, og forutsigelsesverdiene som skal finnes blir trukket ut fra den syntetiserte lyd eller fra koden eller fra informasjonen som er avledet fra koden, mens klasseuttakene benyttes til sortering av måltaler i en av en rekke klasser, og blir trukket ut fra den syntetiserte lyd, koden eller informasjon som er avledet fra koden. Klassen for måltalen blir funnet basert på klasseuttakene. Ved bruk av forutsigelsesuttakene og uttakskoeffisientene som tilsvarer klassen for måltalen, finnes forutsigelsesverdier for måltalen til frembringelse av den syntetiserte lyd med høy kvalitet.

Claims (15)

1. Databehandlingsanordning til utførelse av talebehandling der forutsigelsesdata for å finne forutsigelsesverdier for tale av høy lydkvalitet ekstraheres fra den syntetiserte lyd som er skaffet ved å levere lineære forutsigelseskoeffisienter og restsignaler, frembragt av en forhåndsinnstilt kode, til et talesyntesefilter (44), hvilken tale med høy lydkvalitet ligger høyere i lydkvalitet enn den syntetiserte lyd, og der forutsigelsesdataene blir benyttet sammen med forhåndsstilte koeffisienter for å utføre forhåndsbestemte forutsigelsesberegninger for å finne forutsigelsesverdiene for talen med høy lydkvalitet, karakterisert ved atdatabehandlingsanordningen omfatter: fomtsigelsesuttaksinnretning (45) for å ekstrahere fra den syntetiserte lyd de forutsigelsesdata som benyttes til forutsigelse av måltale med høy lydkvalitet; klasseuttaksinnretning (46) for å ekstrahere fra koden de data som blir benyttet til sortering av måltalen i en av et flertall klasser, klassifiseringsirinretning (47) for å finne måltalens klasse basert på dataene fra klasseuttaksirmretningen; uthentingsinnretning for uthenting av forhåndsstilte koeffisienter som er knyttet til måltalens klasse fra blant et flertall av forhåndsstilte koeffisienter som er funnet ved opplæring fra klasse til klasse; og forutsigelsesinnretning (49) for å finne forutsigelsesverdiene for måltalen ved anvendelse av de forhåndsstilte koeffisienter som er knyttet til måltalens klasse på forutsigelsesdataene.
2. Databehandlingsanordning som angitt i krav 1, karakterisert ved at forutsigelsesuttaksinnretningen utfører endimensjonale lineære forutsigelsesberegninger, ved bruk av forutsigelsesdataene og de forhåndsstilte koeffisientene, for å finne forutsigelsesverdiene for måltalen.
3. Databehandlingsanordning som angitt i krav 1, karakterisert v e d at uthentingsinnretningen henter ut de forhåndsstilte koeffisienter for den klasse som er knyttet til måltalen fra lageranordning som inneholder de forhåndsstilte koeffisientene på klassebasis.
4. Databehandlingsanordning som angitt i krav 1, karakterisert v e d at klasseuttaksinnretningen ekstraherer dataene fra koden, og fra de lineære forutsigelseskoeffisienter eller restsignaler som fremkommer ved dekoding av koden.
5. Databehandlingsanordning som angitt i krav 1, karakterisert ved at de forhåndsstilte koeffisienten er fremkommet ved utførelse av opplæring slik at forutsigelsesfeilene for de forutsagte verdier for talen med høy lydkvalitet som fremkommer ved utførelse av forhåndsbestemte forutsigelsesberegninger som anvender av forutsigelses- og de forhåndsstilte koeffisientene vil ligge på et statistisk minimum.
6. Databehandlingsanordning som angitt i krav 1, karakterisert ved at den videre omfatter talesyntesefilteret.
7. Databehandlingsanordning som angitt i krav 1, karakterisert ved at koden er fremkommet ved koding av talen i overensstemmelse med CELP-(Code Excited Linear Prediction Coding)-systemet.
8. Databehandlingsfremgangsmåte til utførelse av talebehandling for å ekstrahere forutsigelsesdata for å finne forutsigelsesverdier for tale med høy lydkvalitet fra syntetisert lyd som blir frembrakt ved å levere til et talesyntesefilter (44) lineære forutsigelseskoeffisienter og restsignaler, dannet fra en fofhåndsstilt kode, hvilken tale med høy lydkvalitet har høyere lydkvalitet enn den syntetiserte lyd, og til utførelse av forhåndsstilte forutsigelsesberegninger ved bruk av forutsigelsesdataene sammen med forhåndsstilte koeffisienter for å finne de nevnte forutsigelsesverdier for talen med høy lydkvalitet, karakterisert ved at fremgangsmåten innbefatter: et forutsigelsesuttakstrinn med ekstrahering fra den syntetiserte lyd av de forutsigelsesdata som benyttes til forutsigelse av måltale med høy lydkvalitet, et klasseuttakstrinn for å ekstrahere fra koden data som blir benyttet for sortering av måltalen til en av et flertall klasser; et klassifiseirngstrinn for å finne måltalens klasse basert på dataklasseuttakstrinnets ekstrahering; et uthentingstrinn for uthenting av forhåndsstilte koeffisienter som er knyttet til måltalens klasse fra et mangfold av forhåndsstilte koeffisienter som funnet ved opplæring fra klasse til klasse, og et forutsigelsestrinn for å finne forutsigelsesverdiene for måltalen ved anvendelse av de forhåndsstilte koeffisientene som er knyttet til måltalens klasse på forutsigelsesdataene.
9. Registreirngsmedium hvorpå det er registrert et program som får en datamaskin til å utføre de fremgangsmåtetrinn som er angitt i krav 8.
10. Opplæringsanordning for opplæring av forhåndsstilte klasseuttak som er egnet til å finne, ved forhåndsstilte forutsigelsesberegninger, forutsigelsesverdiene for tale med høy lydkvalitet fra den syntetiserte lyd som blir frembrakt ved tilførsel til et talesyntesefilter av lineære forutsigelseskoeffisienter og restsignaler som er frembragt fra en forhåhdsstilt kode, hvilken tale med høy lydkvalitet har høyere lydkvalitet enn den syntetiserte lydikarakterisert ved at opplæringsanordningen innbefatter: klasseuttaksinnretning (79) for å ekstrahere data fra den nevnte kode, hvilke data benyttes til klassifisering av talen med høy lydkvalitet, som måltale, klassifiseringsinnretning (80) for å finne måltalens klasse basert på de ekstraherte data, og opplæringsinnretning til utførelse av opplæring slik at forutsigelsesfeilene til forutsigelsesverdiene for talen med høy lydkvalitet som blir frembrakt ved utførelse av forutsigelsesberegninger ved bruk av forhåndsstilte koeffisienter og den syntetiserte lyd vil ligge på statistisk minimum for å bestemme forhåndsstilte koeffisienter for forskjellige klasser.
11. Opplæringsanordning som gitt i krav 10, karakterisert v e d at den utfører opplæring slik at forutsigelsesfeilene til forutsigelsesverdiene for talen med høy lydkvalitet som fremkommer ved utførelse av endimensjonale lineære forutsigelsesberegninger ved bruk av de forhåndsstilte koeffisientene og den syntetiserte lyd vil ligge på et statistisk minimum.
12. Opplæringsanordning som angitt i krav 10, karakterisert ved at Idasseuttaksirjmetningen ekstraherer dataene fra den nevnte kode og fra de nevnte lineære forutsigelseskoeffisienter og restsignalene som blir frembrakt ved dekoding av koden.
13. Opplæringsanordning som angitt i krav 10, karakterisert ved at koden blir frembrakt ved koding av talen i overensstemmelse med CELP-(Code Excited Linear Prediction Coding)-systemet.
14. Opplæringsrfemgangsmåte for opplæring av forhåndsstilte klasseuttak som er egnet til å finne, ved hjelp av forhåndsstilte forutsigelsesberegninger, forutsigelsesverdier for talen med høy lydkvalitet fra den syntetiserte lyd som fremkommer ved tilførsel til et syntesefilter av lineære forutsigelseskoeffisienter og restsignaler frembragt fra en forhåndsstilt kode, hvilken tale med høy lydkvalitet har høyere lydkvalitet enn den syntetiserte lyd, karakterisert ved at opplæringsfremgangsmåten innbefatter: et klasseuttakstrinn for å ekstrahere data fra koden, hvilke data blir benyttet til klassifisering av talen med høy lydkvalitet, et klassifiseirngstrinn for å finne talens klasse basert på de ekstraherte dataene, og et opplæringstrinn til utførelse av opplæring slik at forutsigelsesfeilene til forutsigelsesverdiene for talen med høy lydkvalitet som blir frembrakt ved utførelse av forutsigelsesberegninger ved bruk av de forhåndsstilte koeffisienter og den syntetiserte lyd vil ligge på et statistisk minimum for å bestemme forhåndsstilte koeffisienter for forskjellige klasser.
15. Registreirngsmedium hvorpå det er registrert et program som får en datamaskin til å utføre opplæringsfremgangsmåten som angitt i krav 14.
NO20021631A 2000-08-09 2002-04-05 Fremgangsmate og anordning for taledata NO326880B1 (no)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000241062 2000-08-09
JP2000251969A JP2002062899A (ja) 2000-08-23 2000-08-23 データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP2000346675A JP4517262B2 (ja) 2000-11-14 2000-11-14 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
PCT/JP2001/006708 WO2002013183A1 (fr) 2000-08-09 2001-08-03 Procede et dispositif de traitement de donnees vocales

Publications (3)

Publication Number Publication Date
NO20021631D0 NO20021631D0 (no) 2002-04-05
NO20021631L NO20021631L (no) 2002-06-07
NO326880B1 true NO326880B1 (no) 2009-03-09

Family

ID=27344301

Family Applications (3)

Application Number Title Priority Date Filing Date
NO20021631A NO326880B1 (no) 2000-08-09 2002-04-05 Fremgangsmate og anordning for taledata
NO20082401A NO20082401L (no) 2000-08-09 2008-05-26 Fremgangsmate og anordning for taledata
NO20082403A NO20082403L (no) 2000-08-09 2008-05-26 Fremgangsmate og anordning for taledata

Family Applications After (2)

Application Number Title Priority Date Filing Date
NO20082401A NO20082401L (no) 2000-08-09 2008-05-26 Fremgangsmate og anordning for taledata
NO20082403A NO20082403L (no) 2000-08-09 2008-05-26 Fremgangsmate og anordning for taledata

Country Status (7)

Country Link
US (1) US7912711B2 (no)
EP (3) EP1944759B1 (no)
KR (1) KR100819623B1 (no)
DE (3) DE60134861D1 (no)
NO (3) NO326880B1 (no)
TW (1) TW564398B (no)
WO (1) WO2002013183A1 (no)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857467B2 (ja) 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4711099B2 (ja) 2001-06-26 2011-06-29 ソニー株式会社 送信装置および送信方法、送受信装置および送受信方法、並びにプログラムおよび記録媒体
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8504090B2 (en) * 2010-03-29 2013-08-06 Motorola Solutions, Inc. Enhanced public safety communication system
CN109144570A (zh) 2011-10-27 2019-01-04 英特尔公司 具有带有复数指数非线性函数的指令集的数字处理器
RU2012102842A (ru) 2012-01-27 2013-08-10 ЭлЭсАй Корпорейшн Инкрементное обнаружение преамбулы
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
US9813223B2 (en) 2013-04-17 2017-11-07 Intel Corporation Non-linear modeling of a physical system using direct optimization of look-up table values
US9923595B2 (en) 2013-04-17 2018-03-20 Intel Corporation Digital predistortion for dual-band power amplifiers

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
JP2797348B2 (ja) 1988-11-28 1998-09-17 松下電器産業株式会社 音声符号化・復号化装置
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
CA2031965A1 (en) 1990-01-02 1991-07-03 Paul A. Rosenstrach Sound synthesizer
JP2736157B2 (ja) 1990-07-17 1998-04-02 シャープ株式会社 符号化装置
JPH05158495A (ja) 1991-05-07 1993-06-25 Fujitsu Ltd 音声符号化伝送装置
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
JP3076086B2 (ja) * 1991-06-28 2000-08-14 シャープ株式会社 音声合成装置用ポストフィルタ
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
JP3043920B2 (ja) * 1993-06-14 2000-05-22 富士写真フイルム株式会社 ネガクリップ
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JPH08202399A (ja) 1995-01-27 1996-08-09 Kyocera Corp 復号音声の後処理方法
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
JP3235703B2 (ja) * 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JPH0990997A (ja) * 1995-09-26 1997-04-04 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法および複合ディジタルフィルタ
JP3248668B2 (ja) * 1996-03-25 2002-01-21 日本電信電話株式会社 ディジタルフィルタおよび音響符号化/復号化装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JP3095133B2 (ja) * 1997-02-25 2000-10-03 日本電信電話株式会社 音響信号符号化方法
JP3946812B2 (ja) * 1997-05-12 2007-07-18 ソニー株式会社 オーディオ信号変換装置及びオーディオ信号変換方法
US5995923A (en) 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
JP2000066700A (ja) * 1998-08-17 2000-03-03 Oki Electric Ind Co Ltd 音声信号符号器、音声信号復号器
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
JP4099879B2 (ja) 1998-10-26 2008-06-11 ソニー株式会社 帯域幅拡張方法及び装置
US6260009B1 (en) 1999-02-12 2001-07-10 Qualcomm Incorporated CELP-based to CELP-based vocoder packet translation
US6434519B1 (en) * 1999-07-19 2002-08-13 Qualcomm Incorporated Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
JP4752088B2 (ja) 2000-05-09 2011-08-17 ソニー株式会社 データ処理装置およびデータ処理方法、並びに記録媒体
WO2001086820A1 (en) * 2000-05-09 2001-11-15 Sony Corporation Data processing device and data processing method, and recorded medium
JP4517448B2 (ja) 2000-05-09 2010-08-04 ソニー株式会社 データ処理装置およびデータ処理方法、並びに記録媒体
US7283961B2 (en) * 2000-08-09 2007-10-16 Sony Corporation High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP4857468B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP4857467B2 (ja) * 2001-01-25 2012-01-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP3876781B2 (ja) * 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
JP4554561B2 (ja) * 2006-06-20 2010-09-29 株式会社シマノ 釣り用グローブ

Also Published As

Publication number Publication date
EP1944760B1 (en) 2009-09-23
EP1308927B9 (en) 2009-02-25
DE60143327D1 (de) 2010-12-02
EP1944759A3 (en) 2008-07-30
EP1308927B1 (en) 2008-07-16
US20080027720A1 (en) 2008-01-31
EP1944759B1 (en) 2010-10-20
TW564398B (en) 2003-12-01
NO20021631L (no) 2002-06-07
DE60140020D1 (de) 2009-11-05
EP1308927A1 (en) 2003-05-07
WO2002013183A1 (fr) 2002-02-14
NO20082401L (no) 2002-06-07
KR20020040846A (ko) 2002-05-30
EP1944759A2 (en) 2008-07-16
EP1944760A2 (en) 2008-07-16
EP1944760A3 (en) 2008-07-30
NO20082403L (no) 2002-06-07
US7912711B2 (en) 2011-03-22
KR100819623B1 (ko) 2008-04-04
EP1308927A4 (en) 2005-09-28
NO20021631D0 (no) 2002-04-05
DE60134861D1 (de) 2008-08-28

Similar Documents

Publication Publication Date Title
US7912711B2 (en) Method and apparatus for speech data
AU648479B2 (en) Speech coding system and a method of encoding speech
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
CN101925950A (zh) 音频编码器和解码器
EP1281172A2 (en) Method and apparatus for compression of speech encoded parameters
EP0477960B1 (en) Linear prediction speech coding with high-frequency preemphasis
US6629078B1 (en) Apparatus and method of coding a mono signal and stereo information
US5682407A (en) Voice coder for coding voice signal with code-excited linear prediction coding
JPWO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
EP0396121B1 (en) A system for coding wide-band audio signals
JP4857468B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
WO2006009075A1 (ja) 音声符号化装置および音声符号化方法
WO2002071394A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
WO2003001709A1 (en) Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception apparatus
US5774856A (en) User-Customized, low bit-rate speech vocoding method and communication unit for use therewith
KR100875783B1 (ko) 데이터 처리 장치
US7283961B2 (en) High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JP4736266B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP2001318698A (ja) 音声符号化装置及び音声復号化装置
JP4517262B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP2002062899A (ja) データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JP2000047695A (ja) 符号化装置及び復号化装置
JPH0981194A (ja) 音声符号化/復号化方法および音声符号化/復号化装置
JPH09185395A (ja) 音声符号化装置及び音声復号化装置

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees