NO332045B1 - Fremgangsmate og anordning for frekvensselektiv tonehoydeforsterkning av syntetisk tale - Google Patents

Fremgangsmate og anordning for frekvensselektiv tonehoydeforsterkning av syntetisk tale Download PDF

Info

Publication number
NO332045B1
NO332045B1 NO20045717A NO20045717A NO332045B1 NO 332045 B1 NO332045 B1 NO 332045B1 NO 20045717 A NO20045717 A NO 20045717A NO 20045717 A NO20045717 A NO 20045717A NO 332045 B1 NO332045 B1 NO 332045B1
Authority
NO
Norway
Prior art keywords
audio signal
post
decoded audio
frequency
processing
Prior art date
Application number
NO20045717A
Other languages
English (en)
Other versions
NO20045717L (no
Inventor
Bruno Bessette
Roch Lefebvre
Claude Laflamme
Milan Jelinek
Original Assignee
Voiceage Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29589086&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=NO332045(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Voiceage Corp filed Critical Voiceage Corp
Publication of NO20045717L publication Critical patent/NO20045717L/no
Publication of NO332045B1 publication Critical patent/NO332045B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

2004 -12- 3 0 29 SAMMENDRAG I en fremgangsmåte og en anordning for postprosessering av et dekodet lydsignal med tanke på · forsterkning av oppfattet kvalitet p'a dette dekodede lydsignalet, deles det dekodede lydsignalet i et flertall av frekvens-subbåndssignaler, og postprosessering utføres på minst ett av frekvens-subb'andssignalene. Etter postprosesseringen av dette minst ene frekvens- 10 subb'andssignalet, kan frekvens-subb 'andssignalet adderes for å produsere utgangs postprosessert dekodet lydsignal. På denne måten kan postprosesseringen lokaliseres til et ønsket subb'and eller flere subb'and ved å etterlate subbånd s'a 'a si 15 uen'dret. dek@, @deile wiranieier£, ------------------ - --------------- - 201 a 202 a 204a N Adapti @l u n s- 205a fil filier l .. . ........ . 20 1 b dekodet 202 rKp.@lpr<)sessert 203 dékodef /ale- 204b talc%ignul .,ignal Adaptiivi ti n s- 1\ filtei 2 113 112 205b 201 202 N 2-0 )4N 205N A dapi i vi ilter N

Description

Fremgangsmåte og innretning for frekvensselektiv tonehøydeforbedring av syntetisert tale
1. Teknisk område:
Den foreliggende oppfinnelsen angår en fremgangsmåte og anordning for postprosessering av et dekodet lydsignal med tanke på forsterkning av oppfattet kvalitet på dette dekodede lydsignalet.
Denne postprosesseringsfremgangsmåten og -anordningen kan spesielt, men ikke utelukkende, anvendes til digital koding av lyd (inkludert tale) -signaler. For eksempel kan disse postprosesseringsfremgangsmåtene og anordningen utføres på mer generelle tilfeller av signalforsterkning hvor støykilden kan være fra ethvert medium eller system, og ikke nødvendigvis relatert til koding eller kvantifisering av lyd.
2. Kjent teknikk:
2. 1 Talekodere
Talekodere er mye brukt i digitale kommunikasjonssystemer for effektiv overføring og/eller lagring av talesignaler. I digitale systemer samples først analoge inngangstalesignaler ved en passende samplingshastighet, og etterfølgende talesamplinger prosesseres videre i det digitale området. Spesielt mottar en talekoder talesamplinger som input, og genererer en komprimert utgangsbitstrøm som overføres gjennom en kanal eller lagres på et passende lagringsmedium. Ved mottakeren mottar en taledekoder denne bitstrømmen som inngangssignal og produserer et rekonstruert utgangstalesignal.
For å være nyttige må talekodere produsere en komprimert bitstrøm med en bithastighet som er lavere enn bithastigheten til det digitale, samplede inngangstalesignalet. Dagens talekodere oppnår typisk et kompresjonsforhold på minst 16 til 1 og muliggjør fortsatt dekoding av tale med høy kvalitet. Mange av dagens talekodere er basert på CELP (Code-Excited Linear Predictive) -modellen med forskjellige varianter avhengig av algoritmen.
I CELP-koding prosesseres det digitale talesignalet i etterfølgende blokker av talesamplinger kalt rammer. For hver ramme, trekker koderen ut et antall parametere som er kodet digitalt fra de digitale talesamplingene og overføres og/eller lagres deretter. Dekoderen er utformet for å prosessere de mottatte parametrene for å rekonstruere eller syntetisere den gitte rammen til et talesignal. Typisk ekstraheres de følgende parametere ut fra de digitale talesamplingene av en CELP-koder: Lineære prediksjonskoeffisienter (LP-koeffisienter), overført i et transformert område slik som linjespetralfrekvenser (LSF) eller immitansspektralfrekvenser
(ISF);
Tonehøydeparametere, inkludert en tonehøydeforsinkelse (eller sakking) og
tonehøydeforsterkning; og
Innovative eksiteringsparametere (fast kodebokindeks og forsterkning).
Tonehøydeparameterne og de innovative eksiteringsparameterne beskriver sammen det som kalles eksiteringssignalet. Dette eksiteringssignalet leveres som en input til et lineært prediksjons (LP) -filter beskrevet av LP-koeffisientene. LP-filteret kan betraktes som en modell av vokaltrakten, hvorved eksiteringssignalet kan betraktes som output fra glottis. LP- eller LSF-koeffisientene beregnes og overføres vanligvis for hver ramme, hvorved tonehøyde- og innovative eksiteringsparametere beregnes og overføres flere ganger pr ramme. Mer spesifikt deles hver ramme opp i flere signalblokker kalt subrammer, og tonehøydeparameterne og de innovative eksiteringsparameterne beregnes og overføres hver subramme. En ramme har vanligvis en varighet på 10 til 30 millisekunder, hvorved en subramme vanligvis har en varighet på 5 millisekunder.
Flere talekodestandarder er basert på den algebraiske CELP (ACELP) -modellen, og mer nøyaktig på ACELP-algoritmen. Et av hovedtrekkene ved ACELP er anvendelsen av algebraiske kodebøker for å kode den innovative eksiteringen ved hver subramme. En algebraisk kodebok deler en subramme opp i et sett av spor eller innskutte pulsposisjoner. Kun et fåtall ikke-nullamplitudepulser pr spor er tillatt, og hver ikke-nullamplitudepuls er begrenset til posisjonene hos tilsvarende spor. Koderen anvender hurtige søkealgoritmer for å finne de optimale pulsposisjonene og amplitudene for pulsene til hver subramme. En beskrivelse av ACELP-algoritmen kan finnes i artikkelen til R. SALAMI et al., " Design and description of CS- ACELP: a toll quality 8 kb/ s speech coder", IEEE Trans, on Speech and Audio Proe, Vol. 6, nr. 2, sidene 116- 130, mars 1998, som herved innlemmes ved referanse, og som beskriver ITU-T G.729 CS-ACELP smalbåndet talekodingsalgoritme ved 8 kbits/sekund. Det skal bemerkes at det er flere variasjoner av ACELP innovasjonskodeboksøk, avhengig av viktighetsgrunnlag. Den foreliggende oppfinnelsen er ikke avhengig av disse variasjonene, siden den kun utføres på postprosessering av det dekodede (syntetiserte) talesignalet.
En nyere standard basert på ACELP-algoritmen er ETSI/3GPP AMR-WB-talekodingsalgoritmen som også ble innført av ITU-T (Telecommunication Standardization Sector of ITU (International Telecommunication Union)) som en anbefaling G.722.2 [ ITU- T Recommendation G. 722. 2 " Wideband coding of speech at around 16 hbit/ s using Adaptive Multi- Rate Wideband ( QMR- WB)", Genéve, 2002], [ 3GPP TS 26. 190, " AMR Wideband Speech Codec: Trans coding Fuctions", 3GPP Technical Specification]. AMR-WB er en flerhastighets algoritme utviklet for å operere ved ni forskjellige bitrater mellom 6,6 og 23,85 kbits/sekund. Fagpersoner på området kjenner til at kvaliteten på dekodet tale generelt øker med bitraten. AMR-WB har blitt utformet for å tillate at mobile kommunikasjonssystemer reduserer bitraten til talekoderen ved dårlige kanalforhold; bitene konverteres til kanalkodebits for å øke beskyttelsen til de overførte bits. På denne måten kan den totale kvaliteten på de overførte bits holdes høyere enn det som er tilfellet når talekoderen opererer ved en enkelt fast bitrate.
Figur 7 er et skjematisk blokkdiagram som viser prinsippet til AMR-WB-dekoderen. Mer spesifikt er figur 7 en høynivårepresentasjon av dekoderen, som fremhever det faktum at den mottatte bitstrømmen koder talesignalet kun opp til 6,4 kHz (12,8 kHz samplingsfrekvens), og frekvenser høyere enn 6,4 kHz syntetiseres ved dekoderen fra lavbåndsparameterne. Dette innebærer at det originale bredbåndet i koderen, 16 kHz samplet talesignal, først ble nedsamplet til 12,8 kHz samplingsfrekvens ved bruk av flerhastighets konverteringsteknikker velkjente for fagpersoner på området. Parameterdekoderen 701 og taledekoderen 702 i figur 7 er analoge til parameterdekoderen 106 og kildedekoderen 107 i figur 1. Den mottatte bitstrømmen 709 dekodes først ved parameterdekoderen 701 for å gjenopprette parameterne 710 levert til taledekoderen 702 for å resyntetisere talesignalet. I det spesifikke tilfellet ved AMR-WB-dekoderen er disse parameterne: ISF-koeffisienter for hver ramme på 20 millisekunder;
En heltalls tonehøydeforsinkelse TO, en brøkdels tonehøydeverdi TO Jrac
rundt TO, og en tonehøydeforsterkning for hver 5 millisekunders subramme; og En algebraisk kodebokform (pulsposisjoner og fortegn) og forsterkning for
hver 5 millisekunders subramme.
Fra parameterne 710 er taledekoderen 702 utformet for å syntetisere en gitt ramme med talesignal for frekvensene lik og mindre enn 6,4 kHz, og med dette produsere et lavbånds, syntetisert talesignal 712 ved 12,8 kHz samplingsfrekvens. For å gjenopprette fullbåndssignalet tilsvarende 16 kHz samplingsfrekvens, omfatter AMR-WB-dekoderen en høybånds resyntetiseringsprosessor 707 som er mottakelig for de dekodede parameterne 710 fra parameterdekoderen 701 for å resyntetisere et høybåndssignal 711 ved samplingsfrekvensen på 16 kHz. Detaljene ved den høybånds resyntetiseringsprosessoren 707 kan finnes i følgende publikasjoner som herved innlemmes ved referanse: ITU- TRecommendation G. 722. 2 " Wideband coding of speech at around 16
kbit/ s using Adaptive Multi- Rate Wideband ( AMR- WB)", Genéve, 2002;
3GPP TS 26. 190, " AMR Wideband Speech Codec: Transcoding Functions,"
3GPP Technical Specification.
Output fra den høybånds resyntetiseringsprosessoren 707, som henvises til som høybåndssignalet 711 i figur 7, er et signal ved 16 kHz samplingsfrekvens med energi konsentrert over 6,4 kHz. Prosessoren 708 summerer høybåndssignalet 711 til et 16 kHz oppsamplet lavbånds talesignal 713 for å danne det fullstendige dekodede talesignalet 714 hos AMR-WB-dekoderen ved 16 kHz samplingsfrekvens.
Publikasjonen "Efficient frequency domain postfiltrering for multiband excited linear predictive coding of speech", av Chan, C-F et al:, ELECTRONICS LETTERS, IEEE STEVENAGE, GB, vol. 32 no 12, 6 June 1996 (1996.06.06), pages 1061-1063, ISSN: 0013-5194 beskriver et system og en metode for frekvens domene postfiltreing for en MBELP-koder.
2. 2 Behov for postprosessering
Når en talekoder anvendes i et kommunikasjonssystem, er det syntetiserte eller dekodede talesignalet aldri identisk til det originale talesignalet selv ved fravær av overføringsfeil. Jo høyere kompresjonsforhold, desto høyere er forstyrrelsen introdusert av koderen. Denne forstyrrelsen kan gjøres subjektivt mindre ved bruk av forskjellige tilnærminger. En første tilnærming er å behandle signalet ved koderen for bedre å beskrive, eller kode, subjektivt relevant informasjon i talesignalet. Anvendelsen av et formantvektingsfilter (eng: formant weighting filter), ofte representert som W( z), er et mye brukt eksempel på denne første tilnærmingen [B. Kleijn og K. Paliwal redaktører, "Speech Coding and Synthesis," Elsevier, 1995]. Dette filteret W( z) er vanligvis laget adaptivt og er beregnet på en slik måte at det reduserer signalenergien nær spektralformantene, og øker med dette den relative energien til de nedre energibåndene. Koderen kan deretter bedre kvantifisere nedre energibånd, som ellers ville bli maskert av kodestøy, som øker den fattbare forstyrrelsen. Et annet eksempel på signalbehandling ved koderen er det såkalt tonehøydeskjerpingsfilteret, som forsterker den harmoniske strukturen til eksitasjonssignalet ved koderen. Tonehøydeskjerping sikter mot å sikre at det interharmoniske støynivået holdes lavt nok med tanke på oppfattelse.
En andre tilnærming for minimering av den oppfattbare forstyrrelsen introdusert av en talekoder, er å anvende en såkalt postprosesseringsalgoritme. Postprosessering utføres ved dekoderen som vist i figur 1.1 figur 1 brytes talekoderen 101 og taledekoderen 105 ned i to moduler. Når det er snakk om talekoderen 101, produserer en kildekoder 102 en serie talekodingsparametere 109 som skal overføres eller lagres. Disse parameterne 109 kodes så binært av parameterkoderen 103 ved bruk av en spesifikk kodings fremgangsmåte, avhengig av talekodingsalgoritmen og parameterne som skal kodes. Det kodede talesignalet (binære kodeparametere) 110 overføres deretter til dekoderen gjennom en kommunikasjonskanal 104. Ved dekoderen analyseres den mottatte bitstrømmen 111 først av en parameterdekoder 106 for å dekode de mottatte, kodede lydsignalkodeparameterne, som så anvendes av kildedekoderen 107 for å generere det syntetiserte talesignalet 112. Formålet med postprosessering (se postprosessering 108 i figur 1) er å forsterke den oppfattbare relevante informasjonen i det syntetiserte talesignalet, eller å tilsvarende redusere eller fjerne oppfattbar forstyrrende informasjon. To vanlig brukte typer postprosessering er formantpostprosessering og tonehøydepostprosessering. I det første tilfellet forsterkes den formante strukturen til det syntetiserte talesignalet ved anvendelse av et adaptivt filter med en frekvensrespons korrelert til taleformantene. Spektraltoppverdiene til det syntetiserte talesignalet fremheves så på bekostning av spektralbunnverdier, hvis relative energi blir mindre. I tilfelle det er snakk om tonehøydepostprosessering, anvendes også et adaptivt filter på det syntetiserte talesignalet. Imidlertid filterets frekvensrespons i dette tilfellet korrelert til den rene (eng: fine) spektralstrukturen, det vil si de harmoniske. Et tonehøydepostfilter fremhever deretter harmoniene på bekostning av interharmonisk energi som blir relativt mindre. Bemerk at frekvensresponsen til et tonehøydepostfilter vanligvis dekker hele frekvensområdet. Innvirkningen er at en harmonisk struktur benytter seg av den postprosesserte talen selv i frekvensbånd som ikke oppviser en harmonisk struktur i den dekodede talen. Når det gjelder oppfattelse, er dette ikke en optimal tilnærming for bredbåndstale (tale samplet ved 16 kHz), som sjelden oppviser en periodisk struktur i hele frekvensområdet.
SAMMENDRAG AV OPPFINNELSEN
Den foreliggende oppfinnelsen angår en fremgangsmåte i samsvar med patentkrav 1 for postprosessering av et dekodet lydsignal med tanke på forsterkning av oppfattbar kvalitet på dette dekodede lydsignalet, omfattende oppdeling av det dekodede lydsignalet i et flertall av frekvens-subbåndssignaler, og utføring av postprosessering på minst ett av frekvens-subbåndssignalene, men ikke alle frekvens-subbåndssignalene.
Den foreliggende oppfinnelsen angår også en anordning i samsvar med patentkrav 32 for postprosessering av et dekodet lydsignal med tanke på forsterkning av en oppfattbar kvalitet på dette dekodede lydsignalet, omfattende midler for oppdeling av det dekodede lydsignalet i et flertall av frekvens-subbåndssignaler, og midler for postprosessering av minst ett av disse frekvens-subbåndssignalene, men ikke alle frekvens-subbåndssignalene.
I samsvar med en illustrativ utførelsesform adderes frekvens-subbåndssignalene etter postprosesseringen av det ovenfor nevnte minst ene frekvens-subbåndssignalet for å produsere et utgangspostprosessert dekodet lydsignal.
I samsvar med dette gjør postprosesseringsfremgangsmåten og anordningen det mulig å lokalisere postprosesseringen i det eller de ønskede subbåndene og å la andre subbånd være så å si uendret.
Videre angår den foreliggende oppfinnelsen en lydsignaldekoder i samsvar med patentkrav 63 som omfatter en inngang for mottak av et kodet lydsignal, en parameterdekoder forsynt med det kodede lydsignalet for dekoding av lydsignalkodeparametere, en lydsignaldekoder forsynte med de dekodede lydsignalkodeparameterne for å produsere et dekodet lydsignal, og en postprosesserende anordning som beskrevet ovenfor for postprosessering av det dekodede lydsignalet med tanke på forsterkning av en oppfattbar kvalitet på dette dekodede lydsignalet.
De ovenstående og andre formål, fordeler og egenskaper ved den foreliggende oppfinnelsen vil komme bedre til syne ved lesing av den følgende ikke-begrensende beskrivelsen av illustrative utførelsesformer, gitt ved henvisning til de vedlagte tegningene.
KORT BESKRIVELSE AV TEGNINGENE
I de vedlagte tegningene:
Figur 1 er et skjematisk blokkdiagram av en høynivåstruktur for et eksempel på et talekodings/dekodingssystem ved bruk av postprosessering ved dekoderen; Figur 2 er et skjematisk blokkdiagram som viser hovedprinsippet til en illustrativ utførelsesform av den foreliggende oppfinnelsen ved bruk av en rekke adaptive filtere og subbåndfiltere, hvor inngangen til de adaptive filtrene er dekodede (syntetiserte) talesignaler (heltrukket linje) og dekodede parametere (stiplet linje); Figur 3 er et skjematisk blokkdiagram av en tobånds tonehøydeforsterker, som danner et spesielt tilfelle av den illustrative utførelsesformen i figur 2; Figur 4 er et skjematisk blokkdiagram av en illustrativ utførelsesform av den foreliggende oppfinnelsen, som anvendt til det spesielle tilfellet av AMR-WB bredbåndstaledekoderen; Figur 5 er et skjematisk blokkdiagram av en alternativ implementering av den illustrative utførelsesformen i figur 4; Figur 6a er en graf som illustrerer et eksempel på et spektrum fra et forhåndsprosessert signal; Figur 6b er en graf som viser et eksempel på et spektrum fra det postprosesserte signalet oppnådd ved bruk av fremgangsmåten beskrevet i figur 3; Figur 7 er et skjematisk blokkdiagram som viser prinsippet til operasjonen av 3GPP AMR-WB-dekoderen; Figurene 8a og 8b er grafer som viser et eksempel på frekvensresponsen til et tonehøydeforsterkerfilter som beskrevet av likning (1), med det spesielle tilfellet med en tonehøydeperiode T= 10 samplinger; Figur 9a er en graf som viser et eksempel på frekvensresponsen til lavpassfilteret 404 i figur 4; Figur 9b er en graf som viser et eksempel på frekvensresponsen for båndpassfilteret 407 i figur 4; Figur 9c er en graf som viser et eksempel på den kombinerte frekvensresponsen til lavpassfilteret 404 og båndpassfilteret 407 i figur 4; og Figur 10 er en graf som viser et eksempel på frekvensresponsen til et interharmonisk filter som beskrevet av likning (2) og som anvendes i det interharmoniske filteret 503 i figur 5, for det spesielle tilfellet at T= 10 samplinger.
DETALJERT BESKRIVELSE
Figur 2 viser et skjematisk blokkdiagram som illustrerer hovedprinsippet av et illustrativt utførelseseksempel av den foreliggende oppfinnelsen.
I figur 1 er inngangssignalet (signalet hvorpå postprosesseringen utføres) det dekodede (syntetiserte) talesignalet 112 produsert av taledekoderen 105 (figur 1) ved mottakeren av et kommunikasjonssystem (utgangen fra kildedekoderen 107 i figur 1). Formålet er å produsere et postprosessert dekodet talesignal ved utgangen 113 hos postprosessoren 108 i figur 1 (som også er utgangen av prosessoren 203 i figur 2) med forsterket oppfattbar kvalitet. Dette oppnås ved først å anvende minst en, og kanskje mer enn en, adaptiv filtreringsoperasjon på inngangssignalet 112 (se adaptive filtere 201a, 201b ..., 201N). Disse adaptive filtrene vil bli beskrevet i den etterfølgende beskrivelsen. Det skal bemerkes her at enkelte av de adaptive filtrene 201a til 201N kan være trivielle funksjoner når det kreves, for eksempel at utgangen er lik inngangen. Utgangen 201a, 204b ..., 204N for hvert adaptive filter 201a, 201b 201N blir så båndpassfiltrert gjennom henholdsvis et subbåndfilter 202a, 202b 202N, og det postprosesserte dekodede talesignalet 113 oppnås ved addering gjennom en prosessor 203 av de respektive resulterende utgangene 205a, 205b ..., 205N hos subbåndfiltrene 202a, 202b ..., 202N.
I en illustrativ utførelsesform anvendes en tobånds dekomposisjon og adaptiv filtrering anvendes på det nedre båndet. Dette resulterer i en total postprosessering som for det meste sikter mot frekvenser nær den første harmoniske til det syntetiserte talesignalet.
Figur 3 er et skjematisk blokkdiagram av en tobånds tonehøydeforsterker som danner et spesielt tilfelle av den illustrative utførelsesformen i figur 2. Mer spesifikt viser figur 3 de grunnleggende funksjonene til en tobånds postprosessor (se postprosessor 108 i figur 1). I samsvar med denne illustrative utførelsesformen betraktes kun tonehøydeforsterkning som postprosessering, selv om andre typer postprosessering kan overveies. I figur 3 forsynes det dekodede talesignalet (antatt å være utgangen 112 hos kildedekoderen 107 i figur 1) gjennom et par av subgrener 308 og 309.
I den øvre grenen 308 filtreres det dekodede talesignalet 112 gjennom et høypassfilter 301 for å produsere det øvre båndssignalet 310 ( sn). I dette spesifikke eksempelet anvendes ikke noe adaptivt filter i den øvre grenen. I den nedre grenen 309 prosesseres det dekodede talesignalet 112 først gjennom et adaptivt filter 307 omfattende et valgfritt lavpassfilter 302, en tonehøydesporende modul 303 og en tonehøydeforsterker 304, og filtreres så gjennom et lavpassfilter 305 for å oppnå det nedre båndet, postprosessert signal 311 (slef). Det postprosesserte dekodede talesignalet 113 oppnås ved addering gjennom en adderer 306 av de lavbånds 311 og høybånds 312 postprosesserte signalene henholdsvis fra utgangen av lavpassfilteret 305 og høypassfilteret 301. Det skal bemerkes at lavpass 305 og høypass 301 -filterne kan være av mange ulike typer, for eksempel uendelig impulsrespons (Infinite Impuls Response) (UR) eller endelig impulsrespons (Finite Impulse Respons) (FIR). I denne illustrative utførelsesformen anvendes lineærfasede FIR-filtere.
Derfor består det adaptive filteret 307 i figur 3 av to, og kanskje tre prosessorer, det valgfrie lavpassfilteret 302 lik lavpassfilteret 305, tonehøydesporingsmodulen 303 og tonehøydeforsterkeren 304.
Lavpassfilteret 302 kan utelates, men det er inkludert for å tillate visning av postprosesseringen i figur 3 som en tobånds dekomposisjon fulgt av spesifikk filtrering i hvert subbånd. Etter valgfri lavbåndsfiltrering (filter 302) av det dekodede talesignalet 112 i det nedre båndet, prosesseres det resulterende signalet St gjennom tonehøydeforsterkeren 304. Formålet med tonehøydeforsterkeren 304 er å redusere den interharmoniske støyen i det dekodede talesignalet. I den foreliggende illustrative utførelsesformen oppnås tonehøydeforsterkeren 304 ved et tidsvarierende lineært filter beskrevet ved følgende likning:
hvor a er en koeffisient som styrer den interharmoniske dempingen, T er tonehøydeperioden til inngangssignalet x[ ri] og y[ n] er utgangssignalet fra tonehøydeforsterkeren. En mer generell likning kan også anvendes hvor filtertappene (engelsk: filter taps) ved n- T og n+ Tkan være ulike forsinkelser (for eksempel n- Tl og n+ T2). Parameterne T og a varierer med tid og gis av tonehøydesporingsmodulen 303. Med en verdi på a = 1, er forsterkningen til filteret beskrevet av likning (1) nøyaktig lik 0 ved frekvenser 1/(27), 3/(27), 5/(27) osv, det vil si ved midtpunktet mellom de harmoniske frekvensene l/ T, 3/ T, 5/ T osv. Når a nærmer seg 0, reduseres dempingen mellom de harmoniske produsert av filteret i likning (1). Med en verdi på a = 0 er filterets utgang lik filterets inngang. Figur 8 viser frekvensresponsen (i dB) hos filteret beskrevet av likning (1) for verdiene a = 0,8 og 1, når tonehøydeforsinkelsen er (vilkårlig) satt ved en verdi T= 10 samplinger. Verdien til a kan beregnes ved bruke av flere tilnærminger. For
eksempel kan den normaliserte tonehøydekorrelasjonen som er velkjent for fagpersoner på området, anvendes til å styre koeffisienten a: Jo høyere den normaliserte tonehøydekorrelasjonen er (jo nærmere den er 1), desto høyere er verdien av a. Et periodisk signal x[ n] med en periode på T= 10 samplinger vil ha harmoniske ved maksimalpunktene til frekvensresponsen i figur 8, det vil si ved normaliserte frekvenser 0,2, 0,4 osv. Det er lett å forstå fra figur 8 at tonehøydeforsterkeren i likning (1) vil dempe signalenergien kun mellom sine harmoniske, og at de harmoniske komponentene ikke vil bli endret av filteret. Figur 8 viser at variering av parameteren a muliggjør styring av mengden av interharmonisk demping tilveiebrakt av filteret i likning (1). Merk at frekvensresponsen til filteret i likning (1) vist i figur 8 omfatte alle frekvensene i spekteret.
Ettersom tonehøydeperioden til et talesignal varierer med tid, må tonehøydeverdien r til tonehøydeforsterkeren 304 måtte variere tilsvarende.
Tonehøydesporingsmodulen 303 er ansvarlig for tilveiebringelse av den passende tonehøydeverdien r til tonehøydeforsterkeren 304 for hver ramme i det dekodede talesignalet som må prosesseres. For dette formålet mottar tonehøydesporingsmodulen 303 på inngangen ikke bare de dekodede talesamplingene, men også de dekodede parameterne 114 fra parameterdekoderen 106 i figur 1.
Siden en typisk talekoder trekker ut en tonehøydeforsinkelse for hver talesubramme som vi kaller T0og kanskje en brøkdelsverdi T0jracanvendt for å interpolere det adaptive kodebokbidraget til brøkdelssamplingsoppløsningen, kan tonehøydesporingsmodulen 303 deretter anvende denne dekodede tonehøydeforsinkelsen for å fokusere tonehøydesporingen ved dekoderen. En mulighet er å anvende To og Tojracdirekte i tonehøydeforsterkeren 304, og utnytte det faktum at koderen allerede har utført tonehøydesporing. En annen mulighet som er brukt i denne illustrative utførelsesformen, er å gjenberegne tonehøydesporingen ved dekoderen som fokuserer på verdiene rundt, og multipler og submultipler av den dekodede tonehøydeverdien T0. Tonehøydesporingsmodulen 303 tilveiebringer deretter en tonehøydeforsinkelse r til tonehøydeforsterkeren 304, som anvender denne verdien av Ti likning (1) for den tilstedeværende rammen av det dekodede talesignalet. Utgangen er signalet sle-
Det tonehøydeforsterkede signalet slelavpassfiltreres deretter gjennom filteret 305 for å isolere de lave frekvensene til det tonehøydeforsterkede signalet sle, og for å fjerne de høyfrekvente komponentene som oppstår når det tonehøydeforsterkende filteret i likning (1) varieres med tid, i samsvar med tonehøydeforsinkelsen T, ved den dekodede talerammens grenseverdier. Dette produserer det lavbånds postprosesserte signalet slef som nå kan adderes til høybåndssignalet sh i addereren 306. Resultatet er det postprosesserte dekodede talesignalet 113, med redusert interharmonisk støy i det nedre båndet. Frekvensbåndet hvor tonehøydeforsterkningen vil utføres, avhenger av grensefrekvensen til lavpassfilteret 305 (og valgfritt i lavpassfilteret 302).
Figurene 6a og 6b viser et eksempel på signalspekter som viser virkningen av postprosesseringen beskrevet i figur 3. Figur 6a er spekteret til inngangssignalet 112 hos postprosessoren 108 i figur 1 (dekodet talesignal 112 i figur 3). I dette illustrative eksempelet er inngangssignalet bestående av 20 harmoniske, med fundamentale frekvenser f0 = 373 Hz valgt vilkårlig, med "støy"-komponenter addert ved frekvenser foll, 3fo/ 2 og 5/ø/2. Disse tre støykomponentene kan ses mellom de lavfrekvente harmoniske i figur 6a. Samplingsfrekvensen antas å være 16 kHz i dette eksempelet. Tobånds tonehøydeforsterkeren vist i figur 3 og beskrevet ovenfor anvendes så på signalet i figur 6a. Med en samplingsfrekvens på 16 kHz og et periodisk signal hos fundamentalfrekvensen lik 373 Hz som i figur 6a, bør tonehøydesporingsmodulen 303 finne en periode på T= 16000/373 « 43 samplinger. Dette er verdien som ble brukt for tonehøydeforsterkningsfilteret i likning (1), anvendt på tonehøydeforsterkeren 304 i figur 3. En verdi på a = 0,5 ble også brukt. Lavpass 305 og høypass 301 -filtrene er symmetriske, lineærfasede FIR-filtere med 31 tapper. Grensefrekvensen for dette eksempelet er valgt som 2000 Hz. Disse spesifikke verdiene er gitt kun som et illustrativt eksempel.
De postprosesserte dekodede talesignalene 113 ved utgangen av addereren 306 har et spekter som vist i figur 6b. Det kan ses at de tre interharmoniske sinuskurvene i figur 6a er blitt fullstendig fjernet, mens de harmoniske til signalene praktisk talt er uendret. Det skal også bemerkes at virkningen av tonehøydeforsterkningen forsvinner ettersom frekvensen nærmer seg lavpassfilterets grensefrekvens (2000 Hz i dette eksempelet). Av dette følger at kun den ene er påvirket av postprosesseringen. Dette er en hovedegenskap ved denne illustrative utførelsesformen av den foreliggende oppfinnelsen. Ved å variere grensefrekvensene til det valgfrie lavpassfilteret 302, lavpassfilteret 305 og høypassfilteret 301, er det mulig å styre opp til hvilken frekvens tonehøydeforsterkningen skal anvendes.
Anvendelse ved AMR- WB taledekoderen
Den foreliggende oppfinnelsen kan anvendes på ethvert talesignal syntetisert av en taledekoder, eller til og med ethvert talesignal ødelagt av interharmonisk støy som behøver å bli redusert. Denne delen vil vise en spesifikk, eksemplifisert implementering av den foreliggende oppfinnelsen på et AMR-WB dekodet talesignal. Postprosesseringen anvendes på det lavbånds syntetiserte talesignalet 712 i figur 7, det vil si på utgangen av taledekoderen 702, som produserer en syntetisert tale med en samplingsfrekvens på 12,8 kHz.
Figur 4 viser blokkdiagrammet av en tonehøydepostprosessor når inngangsignalet er det AMR-WB lavbåndssyntetiserte talesignalet ved en samplingsfrekvens på 12,8 kHz. Mer nøyaktig erstatter postprosessoren vist i figur 4 oppsamplingsenheten 703 som omfatter prosessorene 704, 705 og 706. Tonehøydepostprosessoren i figur 4 kan også anvendes til det 16 kHz samplede syntetiserte talesignalet, men anvendelse av denne før oppsamplingen reduserer antallet filtreringsoperasjoner ved dekoderen, og reduserer på denne måten dennes kompleksitet.
Inngangssignalet ( AMR- WB lavbåndssyntetisert tale ( 12, 8 kHz)) i figur 4 er henvist til som signal s. I dette spesifikke eksempelet er signalet s det AMR-WB lavbåndssyntetiserte talesignalet ved samplingsfrekvensen på 12,8 kHz (utgangen fra prosessoren 702). Tonehøydepostprosessoren i figur 4 omfatter en tonehøydesporingsmodul 401 for å bestemme, for hver 5 millisekunds subramme, tonehøydeforsinkelsen T ved bruk av de mottatte, dekodede parameterne 114 (figur 1) og det syntetiserte talesignalet s. De dekodede parameterne brukt av tonehøydesporingsmodulen er To, heltalls tonehøydeverdien for subrammen og Tojrac, brøkdelstonehøydeverdien for subsamplingsoppløsningen. Tonehøydeforsinkelsen T beregnet i tonehøydesporingsmodulen 401 vil bli anvendt i de neste trinnene for tonehøydeforsterkning. Det vil være mulig å anvende de mottatte, dekodede tonehøydeparameterne To og Tojrac direkte for å danne forsinkelsen T anvendt av tonehøydeforsterkeren i tonehøydefilteret 402. Imidlertid er tonehøydesporingsmodulen 401 i stand til å korrigere tonehøydemultipler eller submultipler, som kan ha en skadelig virkning på tonehøydeforsterkningen.
En illustrativ utførelsesform av tonehøydesporingsalgoritmen for modulen 401 er i det følgende (de spesifikke terskelverdiene og tonehøydesporingsverdiene er gitt kun som eksempler): Først sammenlignes den dekodede tonehøydeinformasjonen (tonehøydeforsinkelse To) med en lagret verdi for den dekodede tonehøydeforsinkelsen T_ prev hos den forrige rammen. T_ prev kan ha blitt modifisert av enkelte av de følgende trinnene i samsvar med tonehøydesporingsalgoritmen. For eksempel dersom Tø< 1,16*7' jprev, så gå til tilfelle 1 nedenfor, ellers dersom To > 1,16*7* jprev, så sett Tjemp = To og gå til tilfelle 2 nedenfor.
Tilfelle 1: Først beregn krysskorrelasjonen C2 (kryssproduktet) mellom den siste syntetiserte subrammen og syntetiseringssignalet ved å starte ved 7ø/2 samplinger før begynnelsen på den siste subrammen (se på korrelasjonen ved halvparten av den dekodede tonehøydeverdien).
Beregn deretter krysskorrelasjonen C3 (kryssproduktet) mellom den sist syntetiserte subrammen og syntetiseringssignalet ved å starte på To/ 3 samplinger før begynnelsen på den siste subrammen (se på korrelasjon ved en tredjedel av den dekodede tonehøydeverdien).
Velg så maksimalverdien mellom C2 og C3 og beregn den normaliserte korrelasjonen Cn (normalisert versjon av C2 eller C3) ved tilsvarende submultiple av To (ved Toll dersom C2 > C3 og ved To/ 3 dersom C3 > Cl). Kall T_ new den tonehøyde-submultiple tilsvarende den høyeste normaliserte korrelasjonen.
Dersom Cn > 0,09 (sterkt normalisert korrelasjon), er den nye tonehøydeperioden T_ new (i stedet for To). I utverdien T = T_ new fra tonehøydesporingsmodulen 401. Lagre Tjprev = 7* for neste subramme tonehøydesporing og gå ut av tonehøydesporingsmodulen 401.
Dersom 0,7 < Cn < 0,95, så lagre Tjemp = T0/ 2 eller T0I3 (i samsvar med C2 eller C3 ovenfor) for sammenligninger i tilfelle 2 nedenfor. Ellers, dersom Cn < 0,7, lagre Tjemp = T0.
Tilfelle 2: Beregn alle mulige verdier av forholdet Tn = [ Tjemp/ n] hvor [ x] betyr heltallsdelen av x og n = 1, 2, 3 osv er et helt tall.
Beregn alle krysskorrelasjoner Cn ved tonehøydeforsinkelses-submultiplene Tn. Behold Cnjnax som den maksimale krysskorrelasjonen blant alle Cn. Dersom n > 1 og Cn > 0,8, gi ut Tn som tonehøydeperiodeutgangen T hos tonehøydesporingsenheten 401. Ellers, gi ut 71 = Tjemp. Her vil verdien på Tjemp avhenge av beregningene i tilfelle 1 ovenfor.
Det skal bemerkes at eksempelet ovenfor av tonehøydesporingsmodulen 401 kun er gitt for illustrasjonsformål. Enhver annen tonehøydesporingsfremgangsmåte eller anordning kan implementeres i modulen 401 (eller 303 og 502) for å sørge for en bedre tonehøydesporing ved dekoderen.
Derfor er utgangen til tonehøydesporingsmodulen perioden T som skal anvendes i tonehøydefilteret 402, som i dette foretrukne utførelseseksempelet er beskrevet ved filteret i likning (1). Igjen innebærer en verdi a = 0 ingen filtrering (utgangen på tonehøydefilteret 402 er lik inngangen), og en verdi på a - 1 tilsvarer den høyeste mengden av tonehøydeforsterkning.
Med en gang det forsterkede signalet Se (figur 4) er bestemt, blir det kombinert med inngangssignalet s slik at kun det nedre båndet er utsatt for tonehøydeforsterkning som i figur 3.1 figur 4 anvendes en modifisert tilnærming sammenlignet med figur 3. Ettersom tonehøydepostprosessoren i figur 3 erstatter oppsamplingsenheten 703 i figur 7, er subbåndfiltrene 301 og 305 kombinert med interpoleringsfilteret 705 i figur 7 for å minimere antallet filtreringsoperasjoner og filtreringsforsinkelsen. Mer spesifikt tjener filtrene 404 og 407 i figur 4 både som båndpassfiltre (for å separere frekvensbåndene) og som interpoleringsfiltre (for oppsampling fra 12,8 til 16 kHz). Disse filtrene 404 og 407 kan videre utformes slik at båndpassfilteret 407 har mindre strenge grenser i sitt lavfrekvente stoppbånd (det vil si det behøver ikke å måtte fullstendig dempe signalet ved lave frekvenser). Dette kan oppnås ved å anvende utformingsgrenser lik de vist i figur 9. Figur 9a er et eksempel på frekvensresponsen for lavpassfilteret 404. Det skal bemerkes at DC (likestrøm)
-forsterkningen til dette filteret er 5 (i stedet for 1), ettersom dette filteret også tjener som interpoleringsfilter, med et 5/4 interpoleringsforhold som innebærer at filterets forsterkning må være 5 ved 0 Hz. Så viser figur 9b frekvensresponsen til båndpassfilteret 407 som gjør dette filteret 407 komplementært, i lavbåndet, til lavpassfilteret 407.1 dette eksempelet er filteret 407 et båndpassfilter, ikke et høypassfilter slik som filteret 301, siden det må tjene både som høypassfilter (slik som filteret 301) og lavpassfilter (slik som interpolerings filteret 705). Det henvises igjen til figur 9 hvor vi ser at lavpassfiltrene og båndpassfiltrene 404 og 407 er komplementære når de betraktes i parallell, slik som i figur 4. Deres kombinerte frekvensrespons (når de anvendes i parallell) er vist i figur 9c. For fullstendighet, er tabellene med filterkoeffisienter brukt i denne illustrative utførelsesformen av filtrene 404 og 407 gitt nedenfor. Selvfølgelig er disse tabellene med filterkoeffisienter kun gitt som eksempel. Det skal forstås at disse filtrene kan erstattes uten å modifisere rammen, ånden og egenskapen til den foreliggende oppfinnelsen.
Utgangen til tonehøydefilteret 402 i figur 4 kalles SE. For å kunne rekombineres med signalet ved den øvre grenen, blir det først oppsamplet av prosessoren 403, lavpassfilteret 404 og prosessoren 405, og adderes gjennom en adderer 409 til det oppsamplede øvre grensignalet 410. Oppsamplingsoperasjonen i den øvre grenen utføres av prosessoren 406, båndpassfilteret 407 og prosessoren 408.
Alternativ implementering av foreslått tonehøydeforsterker
Figur 5 viser en alternativ implementering av en tobånds tonehøydeforsterker i samsvar med en illustrativ utførelsesform av den foreliggende oppfinnelsen. Det skal bemerkes at den øvre grenen i figur 5 ikke prosesserer inngangssignalet i det hele tatt. Dette betyr at i dette spesielle tilfellet, har filtrene i den øvre grenen i figur 2 (adaptive filtere 201a og 201b) trivielle inngangs-utgangskarakteristikker (utgang er lik inngang). I den nedre grenen prosesseres inngangssignalet (signalet som skal forsterkes) først gjennom et valgfritt lavpassfilter 501, deretter gjennom et lineært filter kalt interharmonisk filter 503, definert av følgende likning:
Det skal bemerkes at det er et negativt fortegn foran det andre uttrykket på høyre side sammenlignet med (1). Det skal også bemerkes at forsterkningsfaktoren a ikke er inkludert i likning (2), men heller er introdusert ved hjelp av en adaptiv forsterkning av prosessoren 504 i figur 5. Det interharmoniske filteret 503, beskrevet av likning (2), har en frekvensrespons slik at den fullstendig fjerner de harmoniske til et periodisk signal med en periode på T samplinger og slik at en sinuskurve ved en frekvens nøyaktig mellom harmoniske passerer gjennom filteret uendret i amplituden, men med en fasereversering på nøyaktig 180 grader (samme som fortegns endring). For eksempel viser figur 10 frekvensresponsen til filteret beskrevet av likning (2) når perioden er (vilkårlig) valgt ved T- 10 samplinger. Et periodisk signal med periode T= \ 0 samplinger vil presentere harmoniske ved normaliserte frekvenser 0,2, 0,4, 0,6 osv, og figur 10 viser at filteret i likning (2) med T- 10 samplinger, fullstendig vil fjerne disse harmoniske. På den annen side, vil frekvensene ved det nøyaktige midtpunktet mellom de harmoniske komme til syne ved utgangen av filteret med samme amplitude, men med en faseforskyvning på 180°. Dette er grunnen til at filteret beskrevet i likning (2) og anvendt som filter 503 kalles et interharmonisk filter.
Tonehøydeverdien r for bruk i det interharmoniske filteret 503 oppnås adaptivt ved tonehøydesporingsmodulen 502. Tonehøydesporingsmodulen 502 opererer på det dekodede talesignalet og de dekodede parameterne, på samme måte som de tidligere viste fremgangsmåtene som vist i figurene 3 og 4.
Utgangen 507 hos det interharmoniske filteret 503 er et signal vesentlig dannet av den interharmoniske delen av det inngangsdekodede signalet 112, med 180° faseforskyvning ved midtpunktet mellom de signalharmoniske. Utgangen 507 av det interharmoniske filteret 503 multipleres med en forsterkning a (prosessor 504) og lavpassfiltreres (filter 505) deretter for å oppnå den lavfrekvente båndmodifikasjonen som utføres til det inngangsdekodede talesignalet 112 i figur 5 for å oppnå det postprosesserte dekodede signalet (forsterket signal) 509. Koeffisienten a i prosessor 504 styrer mengden av tonehøyde- eller interharmonisk forsterkning. Jo nærmere a er 1, desto høyere er forsterkningen. Når a er lik 0, er det ingen forsterkning, det vil si at utgangen til addereren 506 er nøyaktig lik inngangssignalet (dekodet tale i figur 5). Verdien til a kan beregnes ved bruk av flere tilnærminger. For eksempel kan normalisert tonehøydekorrelasjon, som er kjent for fagpersoner på området, bli brukt til å styre koeffisienten a: Jo høyere den normaliserte tonehøydekorrelasjonen (jo nærmere den er 1), desto høyere er verdien av a.
Det endelige postprosesserte dekodede talesignalet 509 oppnås ved addering gjennom en adderer 506 av utgangen fra lavpassfilteret 505 med inngangssignalet (dekodet talesignal 112 i figur 5). Avhengig av grensefrekvensen til lavpassfilteret 505, vil innvirkningen av denne postprosesseringen bli begrenset til de nedre frekvensene av inngangssignalet 112 opp til en gitt frekvens. De høyere frekvensene vil være effektivt upåvirket av postprosesseringen.
Ettbåndsalternativ ved bruk av et adaptivt høypassfilter
Et siste alternativ for implementering av subbånds postprosessering for forsterkning av syntesesignalet ved lave frekvenser, er å anvende et adaptivt høypassfilter, hvis grensefrekvens varieres i samsvar med inngangssignalets tonehøydeverdi. Spesifikt, og uten å henvise til noen tegning, vil den nedre frekvensforsterkningen ved bruk av denne illustrative utførelsesformen bli utført ved hver inngangssignalramme, i samsvar med de følgende trinn: 1. Bestemme inngangssignalets tonehøydeverdi (signalperiode) ved bruk av inngangssignalet og muligens også de dekodede parameterne (utgangen hos taledekoderen 105) dersom det er snakk om postprosessering av et dekodet talesignal; dette er en lignende operasjon som tonehøydesporingsoperasjonen til modulene 303, 401 og 502. 2. Beregne koeffisientene til et høypassfilter slik at grensefrekvensen er under, men nær, den fundamentale frekvensen til inngangssignalet; alternativt interpolere mellom forhåndsberegnede, lagrede høypassfiltere med kjente grensefrekvenser (interpoleringen kan gjøres i filtertappingsområdet eller i pol-null-området eller i andre transformerte områder, slik som LSF (Line Spectral Frequencies) hos ISF (Immitance Spectral Frequencies) -området). 3. Filtrere inngangssignalrammen med det beregnede høypassfilteret for å oppnå det postprosesserte signalet for den rammen.
Det skal bemerkes at den foreliggende illustrative utførelsesformen av den foreliggende oppfinnelsen er ekvivaltent med bruk av kun én prosesseringsgren i figur 2, og med det å definere det adaptive filteret hos den grenen som et tonehøydestyrt høypassfilter. Postprosesseringen oppnådd med denne tilnærmingen vil kunne påvirke frekvensområdet under den første harmoniske og ikke den interharmoniske energien over den første harmoniske.
Selv om den foreliggende oppfinnelsen er blitt beskrevet i den ovenstående beskrivelsen med henvisning til illustrative utførelsesformer av denne, kan disse utførelsesformene modifiseres innenfor rammen av de vedlagte patentkrav uten å forlate ånden og naturen til den foreliggende oppfinnelsen. For eksempel, selv om de illustrative utførelsesformene er blitt beskrevet i forhold til et dekodet talesignal, vil fagpersoner på området verdsette at konseptene i den foreliggende oppfinnelsen også kan anvendes til andre typer dekodede signaler, spesielt men ikke utelukkende, til andre typer dekodede lydsignaler.

Claims (63)

1. Fremgangsmåte for postprosessering av et dekodet lydsignal (112) med tanke på forsterkning av oppfattbar kvalitet hos det dekodede lydsignalet (112), hvor fremgangsmåten omfatter: oppdeling av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler; og utføring av postprosessering på minst ett av frekvens-subbåndssignalene,karakterisert vedat, for tonehøydeforsterkning, utføres postprosesseringen på kun et nedre subbånd av frekvenssubbåndsignalene.
2. Postprosesseringsfremgangsmåte i samsvar med krav 1, karakterisert vedat den videre omfatter addering av frekvens-subbåndssignalene etter postprosessering av det minst ene frekvens-subbåndssignalet, for å produsere et utgangspostprosessert dekodet lydsignal (113).
3. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor utførelsen av postprosessering på minst ett av frekvens-subbåndssignalene omfatter adaptiv filtrering av det minst ene frekvens-subbåndssignalet.
4. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor oppdelingen av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler omfatter subbåndsfiltrering av det dekodede lydsignalet (112) for å produsere et flertall av frekvens-subbåndssignaler.
5. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor følgende trinn utføres for det minst ene frekvens-subbåndssignalet: utføring av postprosesseringen omfatter adaptiv filtrering av det dekodede lydsignalet (112); og oppdeling av det dekodede lydsignalet (112) omfatter subbåndsfiltrering av det adaptivt filtrert dekodede lydsignalet.
6. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor oppdeling av det dekodede lydsignalet i et flertall av frekvens-subbåndssignaler omfatter: høypassfiltrering av det dekodede lydsignalet (112) for å produsere et frekvens-høybåndssignal (310); og en første lavpassfiltrering av det dekodede lydsignalet (112) for å produsere et frekvens-lavbåndssignal (311); og hvor utføring av postprosesseringen på minst ett av frekvenssubbåndssignalene omfatter: utføring av postprosessering på det dekodede lydsignalet (112) før lavpassfiltreringen av det dekodede lydsignalet for å produsere frekvenslavbåndssignalet (311).
7. Postprosesseringsfremgangsmåte i samsvar med krav 6, hvor utføring av postprosessering på det dekodede lydsignalet (112) omfatter tonehøydeforsterkning av det dekodede lydsignalet (112) for å redusere en interharmonisk støy i det dekodede lydsignalet (112).
8. Postprosesseringsfremgangsmåte i samsvar med krav 7, hvor utføring av postprosessering på det dekodede lydsignalet (112) videre omfatter en andre lavpassfiltrering av det dekodede lydsignalet (112) før tonehøydeforsterkningen av det dekodede lydsignalet (112).
9. Postprosesseringsfremgangsmåte i samsvar med krav 6, karakterisert vedat den videre omfatter addering av fre kvens - høybåndssignalene (310) og frekvens-lavbåndssignalene (311) for å produsere et utgangspostprosessert dekodet lydsignal (113).
10. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor: oppdelingen av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler omfatter: båndpassfiltrering av det dekodede lydsignalet (112)for å produsere et frekvens-øvrebåndssignal (410); og lavpassfiltrering av det dekodede lydsignalet (112)for å produsere et frekvens- nedrebåndssignal; og hvor utføringen av postprosessering på minst ett av frekvens-subbåndssignalene omfatter: utføring av postprosessering på det dekodede lydsignalet (112) før lavpassfiltreringen av det dekodede lydsignalet (112) for å produsere frekvens-nedrebåndssignalet.
11. Postprosesseringsfremgangsmåte i samsvar med krav 10, hvor utføring av postprosessering på frekvens-nedrebåndssignalet omfatter tonehøydeforsterkning av det dekodede lydsignalet (112) før lavpassfiltrering av det dekodede lydsignalet (112).
12. Postprosesseringsfremgangsmåte i samsvar med krav 10,karakterisert vedat den videre omfatter addering av frekvens øvre-bånds-og nedrebåndssignalene for å produsere et utgangspostprosessert dekodet lydsignal.
13. Postprosessering i samsvar med krav 1, hvor: oppdelingen av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler omfatter: lavpassfiltrering av det dekodede lydsignalet (112) for å produsere et frekvens- lavbåndssignal; og hvor utføringen av postprosesseringen på minst ett av frekvens-subbåndssignalene omfatter: utføring av postprosesseringen på frekvens-lavbåndssignalet.
14. Postprosesseringsfremgangsmåte i samsvar med krav 13, hvor utføringen av postprosesseringen på frekvens-lavbåndssignalet omfatter prosessering av det dekodede lydsignalet (112) gjennom et interharmonisk filter (503) for interharmonisk demping av det dekodede lydsignalet (112).
15. Postprosesseringsfremgangsmåte i samsvar med krav 14, hvor utføringen av postprosesseringen på frekvens-lavbåndssignalet omfatter multiplisering av det interharmoniske filtrerte dekodede lydsignalet (507) med en adaptiv tonehøydeforsterkning (a).
16. Postprosesseringsfremgangsmåte i samsvar med krav 14,karakterisert vedat den videre omfatter lavpassfiltrering av det dekodede lydsignalet (112) før prosesseringen av det dekodede lydsignalet (112) gjennom det interharmoniske filteret (503).
17. Postprosesseringsfremgangsmåte i samsvar med krav 13,karakterisert vedat den videre omfatter addering av det dekodede lydsignalet (112) og frekvenslav-båndssignalet for å produsere et utgangspostprosessert dekodet lydsignal (509).
18. Postprosesseringsfremgangsmåte i samsvar med krav 13, hvor utføringen av postprosesseringen på frekvens-lavbåndssignalet omfatter prosessering av det dekodede lydsignalet (112) gjennom et interharmonisk filter (503) med følgende transferfunksjon:
for interharmonisk demping av det dekodede lydsignalet hvor xfnj er det dekodede lydsignalet, yfnj er det interharmoniske filtrerte dekodede lydsignalet i et gitt subbånd og T er tonehøydeforsinkelsen til det dekodede lydsignalet.
19. Postprosesseringsfremgangsmåte i samsvar med krav 18,karakterisert vedat den videre omfatter addering av det uprosesserte dekodede lydsignalet (112) og det interharmoniske filtrerte frekvenslavbåndssignalet (508) for å produsere et utgangspostprosessert dekodede lydsignal (509).
20. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor utførelsen av postprosesseringen på minst ett av frekvenssubbåndssignalene omfatter tonehøydeforsterkning av det dekodede lydsignalet (112) ved bruk av følgende ligning:
hvor x[ n] er det dekodede lydsignalet, y[ n] er det tonehøydeforsterkede dekodede lydsignalet i et gitt subbånd, T er tonehøydeforsinkelsen til det dekodede lydsignalet og a er koeffisienten som varierer mellom 0 og 1 for å styre en mengde av interharmonisk demping hos det dekodede lydsignalet.
21. Postprosesseringsfremgangsmåte i samsvar med krav 20,karakterisert vedå omfatte mottak av tonehøydeforsinkelsen T gjennom en bitstrøm.
22. Postprosesseringsfremgangsmåte i samsvar med krav 20,karakterisert vedå omfatte dekoding av tonehøydeforsinkelsen T fra en mottatt, kodet bitstrøm.
23. Postprosesseringsfremgangsmåte i samsvar med krav 20,karakterisert vedå omfatte beregning av tonehøydeforsinkelsen T som svar på det dekodede lydsignalet (112)for en forbedret tonehøydesporing.
24. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor det under kodingen skjer en nedsampling av lydsignalet fra en øvre samplingsfrekvens til en lavere samplingsfrekvens, og hvor oppdelingen av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler omfatter oppsampling av det dekodede lydsignalet fra den lavere samplingsfrekvensen til den øvre samplingsfrekvensen.
25. Postprosesseringsfremgangsmåte i samsvar med krav 24, hvor oppdeling av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler omfatter subbåndsfiltrering av det dekodede lydsignalet (112), og hvor oppsamplingen av det dekodede lydsignalet (112) fra den nedre samplingsfrekvensen til den øvre samplingsfrekvensen er kombinert med subbåndsfiltreringen.
26. Postprosesseringsfremgangsmåte i samsvar med krav 24,karakterisert vedå omfatte: båndpassfiltrering av det dekodede lydsignalet (112) for å produsere et frekvenshøybåndssignal, hvor båndpassfiltreringen av det dekodede lydsignalet (112) kombineres med oppsamling av det dekodede lydsignalet (112) fra den nedre samplingsfrekvensen til den øvre samplingsfrekvensen; og postprosessering av det dekodede lydsignalet (112) og lavpassfiltrering av det postprosesserte dekodede lydsignalet (112) for å produsere et frekvenslavbåndssignal, og hvor lavpassfiltreringen av det postprosesserte dekodede lydsignalet kombineres med oppsampling av det postprosesserte dekodede lydsignalet fra den nedre samplingsfrekvensen til den øvre samplingsfrekvensen.
27. Postprosesseringsfremgangsmåte i samsvar med krav 26,karakterisert vedat den videre omfatter addering av frekvenshøybåndssignalet med frekvenslavbåndssignalet for å danne et utgangspostprosessert og oppsamplet dekodet lydsignal.
28. Postprosesseringsfremgangsmåte i samsvar med krav 26, hvor postprosesseringen av det dekodede lydsignalet (112) omfatter tonehøydeforsterkning av det dekodede lydsignalet (112) for å redusere interharmonisk støy i det dekodede lydsignalet.
29. Postprosesseringsfremgangsmåte i samsvar med krav 28, hvor tonehøydeforsterkningen av det dekodede lydsignalet (112) omfatter prosessering av det dekodede lydsignalet (112) ved hjelp av følgende likning:
hvor x[ n] er det dekodede lydsignalet, y[ n] er det tonehøydeforsterkede dekodede lydsignalet i et gitt subbånd, T er tonehøydeforsinkelsen av det dekodede lydsignalet og a er koeffisienten som varierer mellom 0 og 1 for å styre en mengde av interharmonisk demping av det dekodede lydsignalet.
30. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor: oppdeling av det dekodede lydsignalet i et flertall frekvenssubbåndssignaler omfatter oppdeling av det dekodede lydsignalet i et frekvenshøybåndssignal og et frekvenslavbåndssignal; og utføringen av postprosesseringen på minst ett av frekvenssubbåndssignalene omfatter postprosessering av frekvenslavbåndssignalet.
31. Postprosesseringsfremgangsmåte i samsvar med krav 1, hvor utførelsen av postprosesseringen på minst ett av frekvenssubbåndssignalene omfatter: bestemmelse av en tonehøydeverdi hos det dekodede lydsignalet (112) beregning, i forhold til den bestemte tonehøydeverdien, av et høypassfilter med en grensefrekvens under en fundamental frekvens hos det dekodede lydsignalet (112); og prosessering av det dekodede lydsignalet (112) gjennom det beregnede høypassfilteret.
32. Anordning for postprosessering (108) av et dekodet lydsignal (112) med tanke på en forsterkning av oppfattet kvalitet hos det dekodede lydsignalet, omfattende: midler (202a - 202N; 301, 305; 407, 404; 505) for oppdeling av det dekodede lydsignalet (112) i et flertall av frekvens-subbåndssignaler; og midler for postprosessering (21a- 201N; 307; 401, 402; 503) av minst ett av frekvenssubbåndssignalene; midler for tonehøydeforsterkning av et subbåndsignal;karakterisert vedat midlene for postprosessering er tilpasset til forsyne kun et nedre subbånd av frekvens-subåndssignalene til midlene for tonehøydeforsterkningen.
33. Postprosesseringsanordning (108) i samsvar med krav 32,karakterisert vedat den videre omfatter addisjonsmidler (203; 306; 409;
506) for addering av frekvenssubbåndssignalene, etter postprosesseringen av minst ett av frekvenssubbåndssignalene, for å produsere et utgangspostprosessert dekodet lydsignal (113).
34. Postprosesseringsanordning (108) i samsvar med krav 32, hvor postprosesseringsmidlene omfatter et adaptivt filtermiddel (201a-201N; 307) forsynt med det dekodede lydsignalet (112).
35. Postprosesseringsanordning (108) i samsvar med krav 32, hvor oppdelingsmidlene omfatter subbåndsfiltermidler (202a- 202N; 301, 305;407,
405; 505) forsynt med det dekodede lydsignalet (112).
36. Postprosesseringsanordning (108) i samsvar med krav 32, hvor, for minst ett av frekvenssubbåndssignalene: postprosesseringsmidlene omfatter et adaptivt filter (201a; 307) forsynt med det dekodede lydsignalet (112) for å produsere et adaptivt filtrert dekodet lydsignal (204; Sle); og oppdelingsmidlene omfatter et subbåndsfilter (202a) forsynt med det adaptivt filtrerte dekodede lydsignalet (204; Sle).
37. Postprosesseringsanordning (108) i samsvar med krav 32, hvor oppdelingsmidlene omfatter: et høypassfilter (301) forsynt med det dekodede lydsignalet (112) for å produsere et frekvens-høybåndssignal (310); og et første lavpassfilter (305) forsynt med det dekodede lydsignalet for å produsere et frekvens-lavbåndssignal (311); og hvor postprosesseringsmidlene omfatter: en postprosessor (307) for postprosessering av det dekodede lydsignalet (112) før lavpassfiltrering av det dekodede lydsignalet (112) gjennom lavpassfilteret (305).
38. Postprosesseringsanordning (108) i samsvar med krav 32, hvor postprosessoren (307) omfatter en tonehøydeforsterker (308) forsynt med det dekodede lydsignalet (112) for å produsere et tonehøydeforsterket dekodet lydsignal (Sle).
39. Postprosesseringsanordning (108) i samsvar med krav 38,karakterisert vedat postprosessoren (307) videre omfatter et andre lavpassfilter (302) forsynt med det dekodede lydsignalet (112) for å produsere et lavpassfiltrert dekodet lydsignal (Sle) forsynt til tonehøydeforsterkeren (304).
40. Postprosesseringsanordning (108) i samsvar med krav 37,karakterisert vedat den videre omfatter en adderer (306) for addisjon av frekvenshøybånds- (310) og frekvenslavbåndssignalene (311) for å produsere et utgangsprosessert dekodet lydsignal (113).
41. Postprosesseringsanordning (108) i samsvar med krav 32, hvor oppdelingsmidlene omfatter: et båndpassfilter (407) forsynt med det dekodede lydsignalet (112) for å produsere et frekvenshøybåndssignal (410); og et lavpassfilter (404) forsynt med det dekodede lydsignalet (112) for å produsere et frekvenslavbåndssignal; og hvor postprosesseringsmiddelet omfatter: en postprosessor (402; 401) for postprosessering av det dekodede lydsignalet før lavpassfiltrering av det dekodede lydsignalet gjennom lavpassfilteret (404) for å produsere frekvenslavbåndssignalet.
42. Postprosesseringsanordning i samsvar med krav 41, hvor postprosessoren omfatter et tonehøydefilter (402) forsynt med det dekodede lydsignalet (s) for å produsere et tonehøydeforsterket dekodet lydsignal (Se) forsynt til lavpassfilteret (404).
43. Postprosesseringsanordning (108) i samsvar med krav 41,karakterisert vedat den videre omfatter en adderer (409) for addering av det frekvenshøybånds- og frekvenslavbåndssignalene for å produsere et utgangspostprosessert dekodet lydsignal.
44. Postprosesseringsanordning (108) i samsvar med krav 32, hvor oppdelingsmidlene omfatter: et lavpassfilter (506) forsynt med det dekodede lydsignalet (112) for å produsere et frekvenslavbåndssignal (508); og hvor postprosesseringsmidlene omfatter: en postprosessor (503; 504; 502) for postprosessering av det dekodede lydsignalet (112) for å produsere et postprosessert dekodet lydsignal forsynet til lavpassfilteret (505).
45. Postprosesseringsanordning (108) i samsvar med krav 44, hvor postprosessoren (505; 504; 502) omfatter et interharmonisk filter (503) forsynt med det dekodede lydsignalet (112) for å produsere et interharmonisk, dempet lydsignal (507).
46. Postprosesseringsanordning (108) i samsvar med krav 45, hvor postprosessoren (503; 504; 502) omfatter en multiplikator (504) for multiplisering av det interharmoniske, dempede dekodede lydsignalet (507) ved en adaptiv tonehøydeforsterkning (a).
47. Postprosesseringsanordning (108) i samsvar med krav 45,karakterisert vedat den videre omfatter et lavpassfilter (501) forsynt med det dekodede lydsignalet (112) for å produsere et lavpassfiltrert dekodet lydsignal (Slp) forsynt til det interharmoniske filteret (503).
48. Postprosesseringsanordning (108) i samsvar med krav 44,karakterisert vedat den videre omfatter en adderer (506) for addisjon av det dekodede lydsignalet (112) og frekvenslavbåndssignalet (508) for å produsere et utgangspostprosessert dekodet lydsignal (509).
49. Postprosesseringsanordning (108) i samsvar med krav 44, hvor postprosessoren omfatter et interharmonisk filter med følgende trans f erfunksj on:
for interharmonisk demping av det dekodede lydsignalet hvor xfnjer det dekodede lydsignalet, y[ n] er det interharmoniske filtrerte dekodede lydsignalet i et gitt subbånd, og T er tonehøydeforsinkelsen til det dekodede lydsignalet.
50. Postprosesseringsanordning (108) i samsvar med krav 49,karakterisert vedat den videre omfatter en adderer (506) for addisjon av det uprosesserte dekodede lydsignalet (112) og det interharmoniske filtrerte frekvenslavbåndssignalet (508) for å produsere et utgangspostprosessert dekodet lydsignal (509).
51. Postprosesseringsanordning (108) i samsvar med krav 32, hvor postprosesseringsmidlene omfatter en tonehøydeforsterker hos det dekodede lydsignalet ved bruk av den følgende likningen:
hvor x[ n] er det dekodede lydsignalet, y[ n] er det tonehøydeforsterkede dekodede lydsignalet i et gitt subbånd, T er tonehøydeforsinkelsen til det dekodede lydsignalet, og a er en koeffisient som varierer mellom 0 og 1 for å styre mengden av interharmonisk demping hos det dekodede lydsignalet (112).
52. Postprosesseringsanordning (108) i samsvar med krav 51,karakterisert vedå omfatte midler for mottak av tonehøydeforsinkelsen T gjennom en bitstrøm.
53. Postprosesseringsanordning (108) i samsvar med krav 51,karakterisert vedå omfatte midler for dekoding av tonehøydeforsinkelsen T fra en mottatt, kodet bitstrøm.
54. Postprosesseringsanordning (108) i samsvar med krav 51,karakterisert vedat den videre omfatter midler for beregning av tonehøydeforsinkelsen T som svar på det dekodede lydsignalet for en forbedret tonehøydesporing.
55. Postprosesseringsanordning (108) i samsvar med krav 32, hvor det i løpet av kodingen nedsamples et lydsignal fra en øvre samplingsfrekvens til en lavere samplingsfrekvens, og hvor oppdelingsmidlene omfatter midler (403, 404, 405; 406, 407, 408) for oppsampling av det dekodede lydsignalet fra den nedre samplingsfrekvensen til den øvre samplingsfrekvensen.
56. Postprosesseringsanordning (108)i samsvar med krav 55, hvor oppdelingsmidlene omfatter subbåndsfiltermidler (407) forsynt med det dekodede lydsignalet og hvor oppsamlingsmidlene (406) er kombinert med subbåndfiltermidlene (407).
57. Postprosesseringsanordning (108) i samsvar med krav 55, hvor: postprosesseringsmiddelet omfatter: midler for postprosessering (402; 401) av det dekodede lydsignalet; og oppdelingsmidlene omfatter: et båndpassfilter (407) forsynt med det dekodede lydsignalet for å produsere et frekvenshøybåndssignal, hvornevnte båndpassfilter (407) er kombinert med oppsamplingsmidlene (406, 407, 408); og et lavpassfilter (404) forsynt med det postprosesserte dekodede lydsignalet for å produsere et frekvenslavbåndssignal hvor nevnte lavpassfilter (404) er kombinert med oppsamlingsmidlene (403, 404, 405).
58. Postprosesseringsanordning (108) i samsvar med krav 57,karakterisert vedat den videre omfatter en adderer (409) for addisjon av frekvenshøybåndssignalet (410) med frekvenslavbåndssignalet for å danne et utgangspostprosessert og oppsamplet dekodet lydsignal.
59. Postprosesseringsanordning (108) i samsvar med krav 57, hvor midlene for postprosessering av det dekodede lydsignalet omfatter midler for tonehøydeforsterkning (402) av det dekodede lydsignalet for å produsere en interharmonisk støy i det dekodede lydsignalet.
60. Postprosesseringsanordning (108) i samsvar med krav 59, hvor tonehøydeforsterkningsmidlene (402) omfatter midler for prosessering av det dekodede lydsignalet ved hjelp av den følgende likningen:
hvor x[ n] er det dekodede lydsignalet, y[ n] er det tonehøydeforsterkede dekodede lydsignalet i et gitt subbånd, T er tonehøydeforsinkelsen til det dekodede lydsignalet og a er en koeffisient som varierer mellom 0 og 1 for å styre en mengde av interharmonisk demping av det dekodede lydsignalet.
61. Postprosesseringsanordning (108) i samsvar med krav 32, hvor: oppdelingsmidlene omfatter midler for oppdeling av det dekodede lydsignalet i et frekvenshøybåndssignal (711) og et frekvenslavbåndssignal (713); og postprosesseringsmiddelet (703) omfatter midler for postprosessering av frekvenslavbåndssignalet.
62. Postprosesseringsanordning (108) i samsvar med krav 32, hvor postprosesseringsmiddelet omfatter: midler (303; 401;502) for bestemmelse av en tonehøydeverdi hos det dekodede lydsignalet; midler for beregning av et høypassfilter med en grensefrekvens under en fundamental frekvens hos det dekodede lydsignalet, i forhold til den bestemte tonehøydeverdien; og midler for prosessering av det dekodede lydsignalet (112) gjennom det beregnede høypassfilteret.
63. Lydsignaldekoder (105), karakterisert vedat den omfatter: en inngang for mottak av et kodet lydsignal (110); en parameterdekoder (106) forsynt med det kodede lydsignalet (110) for dekoding av lydsignalkodeparameterne; en lydsignaldekoder (107) forsynet med det dekodede lydsignalets kodeparametere for å produsere et dekodet lydsignal (112); og en postprosesseringsanordning (108) i samsvar med ethvert av patentkravene 32 til 62 for postprosessering av det dekodede lydsignalet (112) med tanke på forsterkning av en oppfattbar kvalitet hos det dekodede lydsignalet (112). SAMMENDRAG I en fremgangsmåte og en anordning for postprosessering av et dekodet lydsignal med tanke på forsterkning av oppfattet kvalitet på dette dekodede lydsignalet, deles det dekodede lydsignalet i et flertall av frekvens-subbåndssignaler, og postprosessering utføres på minst ett av frekvens-subbåndssignalene. Etter postprosesseringen av dette minst ene frekvens-subbåndssignalet, kan frekvens-subbåndssignalet adderes for å produsere utgangs postprosessert dekodet lydsignal. På denne måten kan postprosesseringen lokaliseres til et ønsket subbånd eller flere subbånd ved å etterlate subbånd så å si uendret.
NO20045717A 2002-05-31 2004-12-30 Fremgangsmate og anordning for frekvensselektiv tonehoydeforsterkning av syntetisk tale NO332045B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002388352A CA2388352A1 (en) 2002-05-31 2002-05-31 A method and device for frequency-selective pitch enhancement of synthesized speed
PCT/CA2003/000828 WO2003102923A2 (en) 2002-05-31 2003-05-30 Methode and device for pitch enhancement of decoded speech

Publications (2)

Publication Number Publication Date
NO20045717L NO20045717L (no) 2004-12-30
NO332045B1 true NO332045B1 (no) 2012-06-11

Family

ID=29589086

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20045717A NO332045B1 (no) 2002-05-31 2004-12-30 Fremgangsmate og anordning for frekvensselektiv tonehoydeforsterkning av syntetisk tale

Country Status (22)

Country Link
US (1) US7529660B2 (no)
EP (1) EP1509906B1 (no)
JP (1) JP4842538B2 (no)
KR (1) KR101039343B1 (no)
CN (1) CN100365706C (no)
AT (1) ATE399361T1 (no)
AU (1) AU2003233722B2 (no)
BR (2) BR0311314A (no)
CA (2) CA2388352A1 (no)
CY (1) CY1110439T1 (no)
DE (1) DE60321786D1 (no)
DK (1) DK1509906T3 (no)
ES (1) ES2309315T3 (no)
HK (1) HK1078978A1 (no)
MX (1) MXPA04011845A (no)
MY (1) MY140905A (no)
NO (1) NO332045B1 (no)
NZ (1) NZ536237A (no)
PT (1) PT1509906E (no)
RU (1) RU2327230C2 (no)
WO (1) WO2003102923A2 (no)
ZA (1) ZA200409647B (no)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6315985B1 (en) * 1999-06-18 2001-11-13 3M Innovative Properties Company C-17/21 OH 20-ketosteroid solution aerosol products with enhanced chemical stability
JP4380174B2 (ja) * 2003-02-27 2009-12-09 沖電気工業株式会社 帯域補正装置
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
BRPI0510014B1 (pt) * 2004-05-14 2019-03-26 Panasonic Intellectual Property Corporation Of America Dispositivo de codificação, dispositivo de decodificação e método do mesmo
WO2005112001A1 (ja) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
US7848921B2 (en) * 2004-08-31 2010-12-07 Panasonic Corporation Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
JP4407538B2 (ja) * 2005-03-03 2010-02-03 ヤマハ株式会社 マイクロフォンアレー用信号処理装置およびマイクロフォンアレーシステム
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US8346546B2 (en) * 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
WO2008081920A1 (ja) * 2007-01-05 2008-07-10 Kyushu University, National University Corporation 音声強調処理装置
JP5046233B2 (ja) * 2007-01-05 2012-10-10 国立大学法人九州大学 音声強調処理装置
ES2394515T3 (es) 2007-03-02 2013-02-01 Telefonaktiebolaget Lm Ericsson (Publ) Métodos y adaptaciones en una red de telecomunicaciones
US8571852B2 (en) * 2007-03-02 2013-10-29 Telefonaktiebolaget L M Ericsson (Publ) Postfilter for layered codecs
ES2383365T3 (es) * 2007-03-02 2012-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Post-filtro no causal
CN101266797B (zh) * 2007-03-16 2011-06-01 展讯通信(上海)有限公司 语音信号后处理滤波方法
US8639501B2 (en) * 2007-06-27 2014-01-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for enhancing spatial audio signals
WO2009004718A1 (ja) * 2007-07-03 2009-01-08 Pioneer Corporation 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP2009044268A (ja) * 2007-08-06 2009-02-26 Sharp Corp 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、及び、記録媒体
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
GB2473266A (en) 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
ES2507165T3 (es) * 2009-10-21 2014-10-14 Dolby International Ab Sobremuestreo en un banco de filtros de reemisor combinado
ES2645415T3 (es) * 2009-11-19 2017-12-05 Telefonaktiebolaget Lm Ericsson (Publ) Métodos y disposiciones para la compensación de volumen y nitidez en códecs de audio
WO2011074233A1 (ja) * 2009-12-14 2011-06-23 パナソニック株式会社 ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
WO2011128723A1 (en) * 2010-04-12 2011-10-20 Freescale Semiconductor, Inc. Audio communication device, method for outputting an audio signal, and communication system
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
WO2011127832A1 (en) * 2010-04-14 2011-10-20 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
DK3079153T3 (en) 2010-07-02 2018-11-05 Dolby Int Ab AUDIO DECOD WITH SELECTIVE FILTERING
TWI484479B (zh) 2011-02-14 2015-05-11 Fraunhofer Ges Forschung 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
BR112013020592B1 (pt) 2011-02-14 2021-06-22 Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. Codec de áudio utilizando síntese de ruído durante fases inativas
EP3239978B1 (en) 2011-02-14 2018-12-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
EP2550653B1 (en) 2011-02-14 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
CN103503061B (zh) * 2011-02-14 2016-02-17 弗劳恩霍夫应用研究促进协会 在一频谱域中用以处理已解码音频信号的装置及方法
PL3385950T3 (pl) * 2012-05-23 2020-02-28 Nippon Telegraph And Telephone Corporation Sposoby dekodowania audio, dekodery audio oraz odpowiedni program i nośnik rejestrujący
FR3000328A1 (fr) * 2012-12-21 2014-06-27 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
US8927847B2 (en) * 2013-06-11 2015-01-06 The Board Of Trustees Of The Leland Stanford Junior University Glitch-free frequency modulation synthesis of sounds
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP6220610B2 (ja) * 2013-09-12 2017-10-25 日本電信電話株式会社 信号処理装置、信号処理方法、プログラム、記録媒体
CN110767241B (zh) * 2013-10-18 2023-04-21 瑞典爱立信有限公司 谱峰位置的编码与解码
JP6486962B2 (ja) 2014-04-17 2019-03-20 ヴォイスエイジ・コーポレーション 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
US9948261B2 (en) * 2014-11-20 2018-04-17 Tymphany Hk Limited Method and apparatus to equalize acoustic response of a speaker system using multi-rate FIR and all-pass IIR filters
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
EP3443557B1 (en) 2016-04-12 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU447857A1 (ru) 1971-09-07 1974-10-25 Предприятие П/Я А-3103 Устройство дл записи информации на термопластический носитель
SU447853A1 (ru) 1972-12-01 1974-10-25 Предприятие П/Я А-7306 Устройство передачи и приема речевых сигналов
JPS6041077B2 (ja) * 1976-09-06 1985-09-13 喜徳 喜谷 1,2‐ジアミノシクロヘキサン異性体のシス白金(2)錯体
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
JP3062392B2 (ja) * 1994-04-22 2000-07-10 株式会社河合楽器製作所 波形形成装置およびこの出力波形を用いた電子楽器
BR9508554A (pt) * 1994-08-08 1997-11-25 Debiopharm Sa Preparação farmaceuticamente estável de oxaliplatina
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
GB9512284D0 (en) 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
GB9804013D0 (en) * 1998-02-25 1998-04-22 Sanofi Sa Formulations
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
JP3612260B2 (ja) * 2000-02-29 2005-01-19 株式会社東芝 音声符号化方法及び装置並びに及び音声復号方法及び装置
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US6476068B1 (en) * 2001-12-06 2002-11-05 Pharmacia Italia, S.P.A. Platinum derivative pharmaceutical formulations
WO2005020980A1 (en) * 2003-08-28 2005-03-10 Mayne Pharma Pty Ltd Acid containing oxaliplatin formulations

Also Published As

Publication number Publication date
EP1509906B1 (en) 2008-06-25
KR101039343B1 (ko) 2011-06-08
JP4842538B2 (ja) 2011-12-21
DK1509906T3 (da) 2008-10-20
ES2309315T3 (es) 2008-12-16
WO2003102923A2 (en) 2003-12-11
MXPA04011845A (es) 2005-07-26
ZA200409647B (en) 2006-06-28
BR0311314A (pt) 2005-02-15
CN1659626A (zh) 2005-08-24
US7529660B2 (en) 2009-05-05
AU2003233722A1 (en) 2003-12-19
NZ536237A (en) 2007-05-31
HK1078978A1 (en) 2006-03-24
BRPI0311314B1 (pt) 2018-02-14
CA2483790A1 (en) 2003-12-11
AU2003233722B2 (en) 2009-06-04
CA2483790C (en) 2011-12-20
CY1110439T1 (el) 2015-04-29
DE60321786D1 (de) 2008-08-07
NO20045717L (no) 2004-12-30
JP2005528647A (ja) 2005-09-22
CA2388352A1 (en) 2003-11-30
CN100365706C (zh) 2008-01-30
RU2327230C2 (ru) 2008-06-20
EP1509906A2 (en) 2005-03-02
US20050165603A1 (en) 2005-07-28
RU2004138291A (ru) 2005-05-27
KR20050004897A (ko) 2005-01-12
ATE399361T1 (de) 2008-07-15
WO2003102923A3 (en) 2004-09-30
MY140905A (en) 2010-01-29
PT1509906E (pt) 2008-11-13

Similar Documents

Publication Publication Date Title
NO332045B1 (no) Fremgangsmate og anordning for frekvensselektiv tonehoydeforsterkning av syntetisk tale
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP5688852B2 (ja) オーディオコーデックポストフィルタ
KR101699898B1 (ko) 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
JP5117407B2 (ja) オーディオ符号化/復号化で知覚的に重み付けするための装置
JP6039678B2 (ja) 音声信号符号化方法及び復号化方法とこれを利用する装置
KR102380487B1 (ko) 오디오 신호 디코더에서의 개선된 주파수 대역 확장
MX2013004673A (es) Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo.
KR102156846B1 (ko) 디지털 오디오 신호 내의 프리-에코의 효과적인 감쇠
JP5457171B2 (ja) オーディオデコーダ内で信号を後処理する方法
EP2132732B1 (en) Postfilter for layered codecs
JPH09127986A (ja) 符号化信号の多重化方法及び信号符号化装置

Legal Events

Date Code Title Description
MK1K Patent expired