NO340436B1 - Audiokoder, audiodekoder og audioprosessor med en dynamisk, variabel forvrengningskarakteristikk - Google Patents

Audiokoder, audiodekoder og audioprosessor med en dynamisk, variabel forvrengningskarakteristikk Download PDF

Info

Publication number
NO340436B1
NO340436B1 NO20090400A NO20090400A NO340436B1 NO 340436 B1 NO340436 B1 NO 340436B1 NO 20090400 A NO20090400 A NO 20090400A NO 20090400 A NO20090400 A NO 20090400A NO 340436 B1 NO340436 B1 NO 340436B1
Authority
NO
Norway
Prior art keywords
coding
audio
signal
filter
distortion
Prior art date
Application number
NO20090400A
Other languages
English (en)
Other versions
NO20090400L (no
Inventor
Gerald Schuller
Jürgen Herre
Ulrich Krämer
Jens Hirschfeld
Bernhard Grill
Markus Multrus
Stefan Bayer
Stefan Wabnik
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/428,297 external-priority patent/US7873511B2/en
Priority claimed from EP06013604A external-priority patent/EP1873754B1/en
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of NO20090400L publication Critical patent/NO20090400L/no
Publication of NO340436B1 publication Critical patent/NO340436B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Description

Oppfinnelsen angår audiobehandling ved bruk av forvrengningsfiltre og især flerbruksaudiokoding.
I forbindelse med audio- og talekodingsteknologi med lav bitrate har flere forskjellige kodmgsteknikker tradisjonelt blitt brukt for å oppnå lav bitratekoding av slike signaler med best mulig subjektiv kvalitet ved en gitt bitrate. Koder for generelle musikk/lydsignaler tar sikte på å optimere den subjektive kvalitet ved å forme spektralform (og tidsbestemt form) av kvantiseringsfeilen som oppstår i forbindelse med en maskeringsterskelkurve som beregnes fra inngangssignalet ved hjelp av en oppfatningsmodell ("perseptuell audiokoding"). På den annen side har koding av tale ved svært lav bitrate vist seg å virke svært effektivt når den baseres på en produksjonsmodell av menneskelig tale, dvs. ved å bruke lineær prediktiv koding (LPC) for å modellere resonanseffektene fra det menneskelige stemmebånd sammen med en effektiv koding av rest eksiteringssignalet.
Som følge av disse to forskjellige fremgangsmåter, vil generelt audiokodere
(som for eksempel MPEG-1 lag 3 eller MPEG-2/4 avansert audiokoding, AAC)
vanligvis ikke virke så godt for talesignaler med svært lave datarater som dedikerte LPC-baserte talekodere på grunn av mangelen av å utnytte en talekildemodell. Omvendt vil LPC-baserte talekodere vanligvis ikke oppnå overbevisende resultater når de brukes for generelle musikksignaler på grunn av deres manglende evne til fleksibelt å forme spektralinnhyllingen av den kodete forvrengning i samsvar med en maskeringsterskelkurve. Det er et formål med oppfinnelsen å tilveiebringe et konsept som kombinerer fordelene med både LPC-basert koding og perseptuell koding i en enkelt ramme og beskriver således en forent audiokoding som er effektiv for både generell lyd og talesignaler.
Det følgende avsnitt beskriver et sett av relevante teknologier som har blitt foreslått for effektiv koding av audio- og talesignaler.
Perseptuell (oppfatningsmessig) audiokoding (fig. 9)
Tradisjonelt bruker perseptuelle audiokodere en filterbankbasert fremgangsmåte for effektivt å kode audiosignaler og forme kvantiseringsforvrengning i samsvar med et estimat av maskeringskurven.
Fig. 9 viser det grunnleggende blokkskjema av et monofonisk, perseptuelt kodesystem. En analysefilterbank blir brukt for å tilordne tidsdomenesampler til subsamplete, spektrale komponenter.
Avhengig av antallet spektrale komponenter, kalles systemet også en subbåndkoder (et lite antall subbånd, feks. 32) eller en filterbasert koder (stort antall frekvenslinjer, feks. 512). En perseptuell ("psykoakustisk") modell blir brukt for å estimere den faktiske tidsavhengige maskeringsterskel. Spektral ("delbånd" eller "frekvensdomene")-komponenter blir kvantisert og kodet på en slik måte at kvantiseringsstøyen blir skjult under det faktiske sentersignal og ikke oppfattes etter dekoding. Dette oppnås ved å variere granulariteten av kvantiseringen av spektralverdiene over tid og frekvens.
Som et alternativ til det helt filterbankbaserte perseptuelt kodekonsept, har koding basert på pre-/postfiltreringen vært foreslått nylig som vist på fig. 10.
I [Edl 00], har en perseptuell audiokoder blitt foreslått som separerer aspektene med ikke-relevant reduksjon (dvs. støyforming i samsvar med perseptuelle kriterier) og redundansreduksjon (dvs. å tilveiebringe en matematisk og mer kompakt fremstilling av informasjonen) ved å bruke et såkalt prefilter snarere enn en variabelkvantisering av spektralkoeffisienten over frekvens. Dette prinsippet er vist på den følgende figur. Inngangssignalet blir analysert av en perseptuell modell for å beregne et estimat av maskeringsterskelverdien og frekvens. Maskeringsterskelen blir konvertert til et sett av prefilterkoeffisienter, slik at størrelsen av den frekvensrespons blir omvendt proporsjonal med maskeringsterskelen. Prefilteret bruker dette sett av koeffisienter på inngangssignalet som frembringer et utgangssignal der alle frekvenskomponenter fremtrer i samsvar med deres perseptuelle viktighet ("perseptuell hviting"). Dette signal blir deretter kodet av en audiokoder som frembringer en "hvit" kvantiseringsforvrengning, dvs. at den ikke bruker en perseptuell støyforming. Således omfatter både overføringen/lagringen av audiosignalet koderens bitstrøm og en kodet versjon av prefiltreringskoeffisientene. I dekoderen blir koderens bitstrøm dekodet til et mellomaudiosignal som deretter utsettes for en postfiltreringsoperasjon i samsvar med de overførte filterkoeffisienter. Siden postfilteret utfører en omvendt filtreringsprosess i forhold til prefilteret, bruker den spektralvekting av inngangssignalet i samsvar med maskeringskurven. På denne måte vises den spektralt flate ("hvite") kodestøy som perseptuelt formet ved dekoderens utgang, som tiltenkt.
Siden perseptuell støyforming i et slikt system oppnås via pre-/postfil-trermgstrinnet snarere enn frekvensavhengig kvantisering av spektralkoeffisienter, kan konseptet generaliseres til å omfatte en ikke-filterbank basert kodingsmekanisme for å gjengi det prefiltrerte audiosignal snarere enn en filterbank basert audiokoder. I [SCH02] vises dette for kodekjernetidsdomenet ved å bruke prediktive og tropisk kodete trinn.
[Edl00] B. Edler, G. Schuller: "Audio coding using a psychoacoustic pre- and post-filter", ICASSP 2000, Volume 2, 5-9 June 2000 Page(s): II881-II884 vol.2
[sch02] G. Schuller, B. Yu, D. Huang and B. Edler, "Perceptual Audio Coding using Adaptive Pre- and Post-Filters and Lossless Compression", IEEE Transactions on Speech and Audio Processing, September 2002, pp. 379-390.
For å iverksette en hensiktsmessig spektralstøyforming ved å bruke pre-/postfiltreringsteknikker er det viktig å tilpasse frekvensoppløsningen av pre-/postfilteret til det menneskelige hørselssystem. Ideelt vil frekvensoppløsningen følge kjente, perseptuelle frekvensskalaer, for eksempel BARK eller ERB-frekvensskalaen [Zwi]. Dette er særlig ønskelig for å minimere rekkefølgen i pre-/postfiltermodellene og således den tilhørende beregningskompleksiteten og sideinformasjonens overføringsrate.
Tilpasningen av pre-/postfilterfrekvensoppløsning kan oppnås ved hjelp av det kjente frekvensforvrengningskonsept [KHL97]. Generelt blir enhetsforsinkelsene i en filterstruktur erstattet av (første eller høyere nivå) allpassfiltre som fører til en ikke-innført deformering ("forvrengning") av filterets frekvensrespons. Det har vist seg at
selv ved å bruke et første ordenspassfilter (f eks. ), blir en ganske nøyaktig
\-Åz~l
approksimering av perseptuellgrenseskalaene mulig ved et passende valg av allpasskoeffisienter [SA99]. Således vil de mest kjente systemer ikke bruke høyere ordens allpassfiltere for frekvensforvrengning. Siden en første ordens allpass filter helt blir avgjort av en enkelt skalleringsparameter (som kalles "forvrengningsfaktor"
- KX<1), som bestemmer deformeringen av frekvensskalaen. For eksempel for en forvrengningsfaktor på = 0, blir for eksempel ingen deformering effektiv, dvs. at filteret virker på den vanlige frekvensskala. Jo høyere forvrengningsfaktor som velges, jo mer blir frekvensoppløsningen konsentrert på den nedre frekvensdel av spektrumet (som er nødvendig for å approksimere en perseptuell frekvensskala) og tas vekk fra den høyere frekvensdel av spektrumet. Dette vises på fig. 5 for både positive og negative forvrengningskoeffisienter: Ved å bruke et forvrengt pre-/postfilter, bruker typisk audiokodere en filterorden mellom 8 og 20 ved vanlige samplingsrater som 48 kHz eller 44.1 kHz [WSKH05].
Flere andre anvendelser av forvrengt filtrering har blitt beskrevet, for eksempel modellering av rompulsresponser [HKS00] og parametrisk modellering av en støykomponent i audiosignalet (under ekvivalent navne Laguerre/Kauz-filtrering)
[SOB03].
[Zwi] Zwicker, E. og H. Fastl, "Psychoacustics, Facts and Models",
Springer Verlag, Berlin.
[KHL97] M. Karjalainen, A. Harma, U.K. Laine, "Realizable warped IIR
filters and their properties", IEEE I-CASSP 1997, pp.2205-2208, vol. 3
[SA99] J.O. Smith, J.S. Abel, "BARK and ERB Bilinear Transforms",
IEEE Transactions on Speech and Audio Processing, Volume 7,
Issue 6, Nov. 1999, pp.697-708
[HKS00] Harma, Aki, Karjalainen, Matti, Savioja, Lauri, Vålimåki, Vesa,
Laine, Unto K., Huopaniemi, Jyri, "Frecquency-Warped Signal Processing for Audio Applications", Journal of the AES, Voluem
48 Number 11 pp. 1011-1031, November 2000
[WSKH05] S. Wabnik, G. Schuller, U. Kramer, J. Hirschfeld, "Frequency Warping in Low Delay Audio Coding", IEEE International Conference on Acoustics, Speech, and Signal Processing, March 18-23, 2005, Philadelphia, PA, USA
LPC-basert talekoding
Tradisjonelt har effektiv talekoding vært basert på lineær prediktiv koding (LPC) for å modellere resonanseffekter i menneskelig taleorganer sammen med en effektiv koding av resteksitering av et [VM06]. Begge LPC og eksiteringsparametrene blir overført fra koderen til dekoderen. Dette prinsippet er vist på den følgende figur (koder og dekoder).
Over tid har mange fremgangsmåter blitt foreslått for en effektiv og perseptuell overbevisende gjengivelse av rest-(eksiterings)-signalet, for eksempel multipuls eksitering (MPE), vanlig pulseksitering (RPE) og kodeeksitert, lineær prediksjon
(CELP).
Lineær, prediktiv koding forsøker å produsere et estimat av gjeldende sampelverdi av en sekvens basert på observasjonen av et bestemt antall tidligere verdier som en lineær kombinasjon av tidligere observeringer. For å redusere redundans i inngangssignalet, "hvitter" koder-LPC-filteret inngangssignalet i dets spektrale innhylling, dvs. at dens frekvensrespons blir en modell av det omvendte av signalets spektrale innhylling. Omvendt blir frekvensresponsen av dekoder-LPC-filteret en modell av signalets spektralinnhylling. Spesifikt er den kjente, audioregressive (AR) lineære, prediktive analyse kjent for å kunne modellere signalspektralinnhylling av en allpol approksimering.
Typisk bruker smalbåndstalekodere (dvs. talekodere med en samplingsrate på 8 kHz) et LPF-filter i en størrelsesorden mellom 8 og 12. På grunn av LPC-filterets natur, blir en ensartet frekvensoppløsning effektiv over hele frekvensområdet. Dette tilsvarer ikke en perseptuell frekvensskala.
Forvrengt LPC-koding
I og med at en ikke-ensartet frekvensfølsomhet som tilbys av forvrengnings-teknikkene, kan gi fordeler også for talekoding, har det kommet forslag om å starte den vanlige LPC-analyse av forvrengt, prediktiv analyse. Spesifikt foreslår [TML94] en talekode som modellerer talespektralinnhyllingen med sepstral (eng: cepstral" koeffisienter c (m) som er en oppdatert sampel-etter-sampel i samsvar med det tidsvarierende inngangssignal. Frekvensskalaen av modellen er tilpasset for å approksimere den perseptuelle MEL-skala [Zwi] ved å bruke et første i størrelsesorden allpassfilter i stedet for den vanlige enhetsforsinkelse. En fast verdi på 0,31 for forvrengningskoeffisienten blir brukt ved kodesamplingsraten på 8 kHz. Fremgangsmåten har blitt videre utviklet til å omfatte en CELP-kodingskjerne for å gjengi eksiteringssignalet i [KTK95], igjen ved å bruke en fast verdi på 0,31 for forvrengningskoeffisienten ved kodersamlingsraten på 8 kHz.
Selv om forfatterne forstår og har oppnådd god ytelse av det foreslåtte system, har ikke den gjeldende koding tatt til seg de forvrengte, prediktive kodeteknikker.
Andre kombinasjoner av forvrengt LPC- og CELP-koding er kjent, for eksempel [HLM99] for hvilken en forvrengningsfaktor på 0,723 blir brukt i en samplingsrate på 44,1 kHz.
[TMK94] K. Tokuda, H. Matsumura, T. Kobayashi and S. Imai, "Speech coding base don adaptive mel-vepstral analysis", Proe. IEEE ICASSP'94,
pp. 197-200, Apr. 1994.
[KTK95] K. Koishida, K. Tokuda, T. Kobayashi og S. Imai, "CELP coding based
on mel-cepstral analysis", Proe. IEEE ICASSP'95, pp.33-36, 1995.
[HLM99] Aki Harma, Unto K. Laine, Matti Karjalainen, "Warped low-delay CELP
for wideband audio coding", 17* International AES Conference,
Florence, Italy 1999
[VM06] Peter Vary, Rainer Martin, "Digital Speech Transmission: Enhancement,
Coding and Error Concealment", published by John Wiley & Sons, LTD, 2006, ISBN 0-471-56018-9
Generalisert forvrengt LPC-koding
Ideen med å utføre talekoding på en forvrengt frekvensskala blir ytterligere utviklet i løpet av de neste år. Spesifikt blir det oppdaget at en fullstendig konvensjonell forvrengning av spektralanalysen ifølge en perseptuell frekvensskala ikke er hensiktsmessig for å kunne oppnå best mulig kvalitetskoding av talesignaler. Følgelig ble det foreslått en Mel-generalisert, spektral analyse i [KTK96] som gjør det mulig å fade egenskapene av spektralmodellen mellom den tidligere foreslåtte Mel-sepstral analyse (med en fullstendig forvrengt frekvensskala og en cepstral analyse) og egenskapene til en tradisjonell LPC-modell (med ensartet frekvensskala og en allpol modell av signalets spektralinnhylling). Spesifikt har den foreslåtte, generaliserte analyse to parametere som regulerer disse egenskapene: • Parameteren y, -1< y < 0 fader kontinuerlig mellom en cepstral-type og en LPC-type analyse, der y = 0 tilsvarer en cepstral-type analyse og y = -1 tilsvarer en LPC-type-analyse. • Parameteren a|a|<l er forvrengningsfaktoren. En verdi på a = 0 tilsvarer en helt jevn frekvensskala (som i standard LPC), og en verdi på a = 0,31 tilsvarer en helt perceptuell frekvensforvrengning.
Samme konsept ble brukt for å koding av bredbåndstale (ved en samplingsrate på 16 kHz) i [KHT98]. Det skal bemerkes at driftspunktet (y; a) for en slik generalisert analyse velges på forhånd og blir ikke variert over tid.
[KTK96] K.Koishida, K. Tokuda, T.Kobayashi and S. Imai, "CELP koding system base don mel-generalized cepstral analysis", Proe. ICSLP'96, pp. 318-321, 1996.
[KHT98] K. Koishida, G. Hirabayashi, K. Tokuda, and T. Kobayashi, "A wideband CELP speech coder at 16 kbit/s based on mel-generalized cepstral analysis", Proe. IEEE ICASSP'98, pp. 161-164, 1998.
En struktur som omfatter både et kodefilter og to alternative kodekjerner har blitt beskrevet tidligere i litteraturen ("WB-AMR+ koder" [BLS05]). Det finnes ikke opplysning om bruk av et forvrengt filter eller et filter med tidsvarierende forvrengningsegenskaper.
[BLS05] B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO
CODING USING HYBRID ACELP/TCX TECHNIQUES", Proe. IEEE
ICASSP 2005, pp. 301-304, 2005.
Ulempen med alle disse tidligere teknikker er at de alle er for bruk med en spesifikk audiokodingsalgoritme. En talekoder som bruker forvrengningsfiltre blir optimalt tilpasset for talesignaler, men er kompromitterende når det kommer til å kode generelle audiosignaler, for eksempel musikksignaler.
På den annen side blir generelle audiokodere optimert for perfekt å skjule kvantiseringsstøy under markeringsterkselen, dvs. at de er optimalt tilpasset for å utføre en irrelevant reduksjon. For å oppnå dette har de en funksjonalitet for å ta hensyn til den ikke-ensartete frekvensoppløsning av den menneskelige høringsmekanisme. På grunn av at de er generelle audiokodere, kan de imidlertid ikke spesifikt bruke en tidligere kunnskap om en spesifikk type signalmønstre, hvilket er årsaken til at det oppnås svært lave bitrater som kjent fra for eksempel talekodere.
Videre er mange talekodere tidsdomenekodere som bruker faste og variable kodebøker, selv om de fleste generelle audiokodere, på grunn av maskeringsterskelproblemet, som er et frekvensmål, er filterbaserte kodere, slik at det blir svært problematisk å innføre begge koderne i en enkelt kode/dekoderramme på en effektiv måte, selv om det også finnes tidsdomenebaserte, generelle audiokodere.
Publikasjonen "Combined speech and audio coding by discrimination ", L. Tancerel, et al., Speech Coding, 2000, Proceedings of IEEE Workshop 17. til 20. september 2000, Piscataway, NJ, USA, sidene 154-156, beskriver en kodearkitektur som har en inngang koblet til en bryter. Bryterutgangen er koplet til en inngang til en CELP-koder og en annen utgang til bryteren er koblet til en inngang til en transformasjonskoder. Bryteren styres av et tale/musikk diskriminerings-(SMD)-enhet. Videre er en modusbit multiplekset inn i en utgangs bitstrømmen som også har en utgang fra CELP-koderen og en utgang fra transformasjonskoderen.
Sammendrag av oppfinnelsen
Det er et formål med oppfinnelsen å tilveiebringe et forbedret, generelt kodekonsept som tilveiebringer høy kvalitet og lav bitrate, ikke bare for spesifikke signalmønstre, men også for generelle audiosignaler.
I samsvar med det første aspekt ved oppfinnelsen oppnås dette formål av en audiokoder ved koding av et audiosignal som omfatter et prefilter for generering av et prefiltrert audiosignal, idet prefilteret har en variabel forvrengningsegenskap som kan reguleres som svar på et tidsvarierende styresignal som indikerer en liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk, en styreenhet for å levere det tidsvarierende styresignal som varierer uavhengig av audiosignalet, og en styrbar kodeprosessor for å behandle det prefiltrerte audiosignal for å oppnå et kodet audiosignal, der kodeprosessoren er tilpasset for å behandle det prefiltrerte audiosignal i samsvar med en første kodealgoritme tilpasset et spesifikt signalmønster, eller i samsvar med en andre, forskjellig kodealgoritme som egner seg for å kode et generelt kodesignal.
Fortrinnsvis er kodeprosessoren tilpasset for å kunne styres av styreenheten, slik at en audiosignaldel som blir filtrert ved å bruke en relativt høy forvrengningskarakteristikk blir behandlet ved å bruke den ande kodealgoritme for å oppnå det kodete signal og et audiosignal som blir filtrert ved å bruke den lille eller ingen forvrengningskarakteristikk, blir behandlet ved å bruke den første kodealgoritme.
Ifølge et annet aspekt ved oppfinnelsen oppnås dette formål av en audiodekoder for dekoding av et kodet audiosignal som har en første del kodet i samsvar med en første kodealgoritme tilpasset et spesifikt signalmønster og som har en andre dekoder i samsvar med en annerledes, andre kodealgoritme som egner seg for koding av et generelt audiosignal omfattende: en detektor for å påvise en kodet algoritme som ligger under den første eller andre del, en dekodingsprosessor for dekoding, som svar på detektoren, den første del ved å bruke en første kodealgoritme for å oppnå en første dekodet tidsdel og for å dekode den andre del ved å bruke den andre kodealgoritme for å oppnå en andre dekodet tidsdel og et postfilter med en variabel forvrengningskarakteristikk som kan reguleres mellom en første tilstand med en liten eller ingen forvrengningskarakteristikk og en andre tilstand med en relativt høy forvrengningskarakteristikk.
Fortrinnsvis blir postfilteret regulert slik at den første dekodete tidsdel blir filtrert ved å bruke den lille eller ingen forvrengningskarakteristikk og den andre dekodete tidsdel blir filtrert ved å bruke en relativt høy forvrengningskarakteristikk.
I samsvar med et annet aspekt ved oppfinnelsen oppnås dette formål av en audioprosessor for å behandle et audiosignal omfattende: et filter for å generere et filtrert audiosignal, idet filteret har en variabel forvrengningskarakteristikk som reguleres som svar på et tidsvarierende styresignal, idet styresignalet indikerer en liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk og en styreenhet for å tilveiebringe tidsvarierende styresignaler som er avhengige av audiosignalet. Andre aspekt ved oppfinnelsen angår tilsvarende fremgangsmåter for å kode, dekode og audiobehandle, samt tilhørende dataprogrammer og kodet audiosignal. Oppfinnelsen er basert på det funn at et prefilter med en variabel forvrengningskarakteristikk på audiokodersiden er et hovedtrekk for å integrere forskjellige koderalgoritmer til en enkelt koderamme. Disse to forskjellige koderalgoritmer er forskjellige fra hverandre. Den første kodealgoritme er tilpasset et spesifikt signalmønster, for eksempel talesignaler, men også andre spesifikke harmoniske mønstre, stigende mønstre eller transientmønstre, mens den andre kodealgoritme egner seg for koding av et generelt audiosignal. Prefilteret på kodersiden eller postfilterdekodersiden gjør det mulig å integrere signalspesifikk kodemodul og den generelle kodemodul i en enkelt koder-/dekoderramme.
Generelt kan inngangen for den generelle audiokodemodul eller signalspesifikke kodemodul forvrenges til en høyere eller lavere eller ingen grad. Dette avhenger av det spesifikke signal og implementeringen av kodemodulene. Således kan forholdene mellom forvrengningsfilterkarakteristikken og kodingsmodulen signaliseres. I flere tilfeller kan resultatet være at sterkere forvrengningskarakteristikker tilhører den generelle audiokoder og den lettere eller ingen forvrengningskarakteristikk tilhører den signalspesifikke modul. Denne situasjonen kan i enkelte utførelser settes fast eller det kan være resultatet av dynamisk signalering av kodermodulen for en bestemt signaldel.
Mens kodealgoritmen tilpasset for spesifikke signalmønstre normalt ikke er så avhengig av å bruke maskeringsterkselen for irrelevansreduksjon, behøver denne kodealgoritme ikke nødvendigvis ha noen forvrengningsforbehandling eller bare en "myk" forvrengningsform for behandling. Dette innebærer at den første kodealgoritme tilpasset for et spesifikt signalmønster med fordel bruker tidligere kunnskap om det spesifikke signalmønster, men ikke så mye om maskeringsterskelen og som følgelig ikke har behov for å nærme seg den ikke-ensartete frekvensoppløsning i det menneskelige lyttemekanisme. Den ikke-ensartete frekvensoppløsning i den menneskelige lyttemekanisme reflekteres av skalafaktorbåndet med forskjellig båndbredde langs frekvensskalaen. Denne ikke-ensartete frekvensskala er også kjent som BARK- eller ERB-skalaen.
Behandling og støyforming ved å bruke en ikke-ensartet frekvensoppløsning er bare nødvendig når kodealgoritmen er svært avhengig av irrelevans reduksjon ved å utnytte konseptet med maskeringsterskel, men ikke er nødvendig for en spesifikk kodealgoritme som er tilpasset et spesifikt signalmønster og bruker tidligere kunnskap for en svært effektiv behandling, for eksempel et spesifikt signalmønster. Faktisk kan enhver ikke-ensartet frekvensforvrengningsbehandling være skadelig for effektiviteten av et slikt spesifikt signalmønster tilpasset koderalgoritmen siden en slik forvrengning vil påvirke det spesifikke signalmønster som kommer på grunn av at den første kodealgoritme er svært optimert for et spesifikt signalmønster, sterkt kan svekke kodingseffektiviteten i den første kodingsalgoritme.
På den annen side kan den andre kodealgoritme bare produsere en akseptabel utgangsbitrate sammen med en akseptabel audiokvalitet når det blir satt i verk tiltak som tar hensyn til den ikke-ensartete frekvensoppløsning i den menneskelige lyttemekanisme, slik at optimal fordel kan utnyttes fra maskeringsterskelen.
Siden audiosignalet kan omfatte spesifikke signalmønstre etterfulgt av generell audio, dvs. signaler som ikke har dette spesifikke signalmønster eller bare har dette spesifikke signalmønster i liten utstrekning, forvrenger det nye prefilteret bare til en sterk grad når det finnes en signaldel uten det spesifikke signalmønster, mens det for et signal som ikke har det spesifikke signalmønster, blir det ikke brukt forvrengning i det hele tatt eller bare en liten forvrengningskarakteristikk.
Især for det tilfellet hvor den første kodingsalgoritme er en kodingsalgoritme som bruker lineær prediktiv koding og hvor den andre kodingsalgoritme er en generell audiokoder basert på en prefilter/postfilter arkitektur, kan prefilteret utføre forskjellige oppgaver ved å bruke samme filter. Når audiosignalet har spesifikke signalmønstre, virker prefilteret som et LPC-analysefilter, slik at den første kodingsalgoritme bare er knyttet til koding av restsignalet eller LPC-eksiteringssignalet.
Når det finnes en signaldel som ikke har det spesifikke signalmønster, blir prefilteret styrt til en sterk forvrengningskarakteristikk og fortrinnsvis for å utføre LPC-filtrering basert på den psykoakustiske maskeringsterskel, slik at prefilterets utgangssignal blir filtrert av frekvensforvrengningsfilteret og blir slik at viktigere spektraldeler psykoakustisk blir forsterket i forhold til psykoakustisk mindre viktige spektraldeler. Deretter kan en vanlig kvantiserer bruke, eller generelt kan kvantisering under koding finne sted uten å måtte fordele kodingsstøy ikke ensartet frekvensområdet i utgangen av forvrengningsfilteret. Støyformingen av kvantiseringsstøy vil automatisk finne sted av postfiltreringen som foretas av det tidsvarierende, forvrengte filter på dekodersiden, som er, når det gjelder forvrengningskarakteristikken, identisk med kodersidens prefilter og, på grunn av at dette filter er omvendt av prefilteret på dekodersiden og automatisk produserer støyforming for å oppnå maksimal irrelevansreduksjon og samtidig opprettholde en høy lydkvalitet.
Oppfinnelsen skal beskrives nærmere i det følgende under henvisning til tegningene, der
fig. 1 er et blokkskjema av en foretrukket audiokoder,
fig. 2 er et blokkskjema av en foretrukket audiokoder,
fig. 3a er et skjematisk riss av det kodete audiosignal,
fig. 3b er et skjematisk riss av sideinformasjonen for første og/eller andre tidsdel på fig. 3a,
fig. 4 er et riss av gjeldende teknikks FIR prefilter eller postfilter som egner seg for bruk ifølge oppfinnelsen,
fig. 5 viser forvrengningskarakteristikken av et filter avhengig av forvrengningsfaktoren,
fig. 6 viser en ny audioprosessor med et lineært filter med en tidsvarierende forvrengningskarakteristikk og en styreenhet,
fig. 7 viser en foretrukket utførelse av oppfinnelsens audiokoder,
fig. 8 viser en foretrukket utførelse for en ny audiodekoder,
fig. 9 viser filterbankbasert kodingsalgoritme med en koder og dekoder av gjeldende teknikk,
fig. 10 viser en pre/postfilterbasert audiokodingsalgoritme av gjeldende teknikk med en koder og en dekoder, og
fig. 11 viser en LPC-kodingsalgoritme med en koder og en dekoder av gjeldende teknikk.
Foretrukne utførelser av oppfinnelsen tilveiebringer en ensartet fremgangsmåte som muliggjør koding av både generelle audiosignaler og talesignaler med en kodingsytelse som minst tilsvarer ytelsen av de beste kjente kodingssystemer for begge typer signaler. Denne er basert på følgende betraktninger: For koding av generelle audiosignaler er det viktig å forme kodingsstøyens spektralomhylling som samsvarer med en maskeringsterskelkurve (i samsvar med ideen med "perseptuell audiokoding") og således en perseptuelt forvrengt frekvensskala. Ikke desto mindre kan det være bestemte (feks. harmoniske) audiosignaler der en ensartet frekvensoppløsning vil kunne yte bedre enn en perseptuelt forvrengt på grunn av at førstenevnte bedre kan oppløse deres enkeltvise, spektralt fine struktur.
For koding av talesignaler kan gjeldende kodingsytelse oppnås ved hjelp av en vanlig (ikke-forvrengt) lineær prediksjon. Det kan være bestemte talesignaler for hvilke noe forvrengning forbedrer kodingsytelsen.
I samsvar med den nye ide, blir dette dilemma løst av et kodingssystem som omfatter et kodet kodingsfilter som glatt kan fade inn sine egenskaper mellom en fullstendig forvrengt operasjon som generelt er å foretrekke for koding av talesignaler, og ikke-forvrengte operasjon, som generelt er å foretrekke for koding av talesignaler. Spesifikt omfatter den foreslåtte nye fremgangsmåte, et lineært filter med en tidsvarierende forvrengningsfaktor. Dette filter reguleres ved en ekstra inngang og mottar den ønskete forvrengningsfaktor for å modifisere filteroperasjonen tilsvarende.
En operasjon av et slikt filter gjør at filteret kan virke både som en modell av maskeringskurven (postfilter for koding av musikk med forvrengning på = Ao) og som modell for signalet spektralinnhylling (omvendt LPC-filter for koding av tale med forvrengning av X = 0), avhengig av styreinngangen. Hvis det nye filter også for å håndtere en fortsettelse av mellomforvrengningsfaktorer 0 <X.<Aoblir videre også myke mellomegenskaper mulige.
Naturligvis er den omvendte dekoderfiltreringsmekanisme tilsvarende utstyret, dvs. med et lineært dekoderfilter med en tidsvarierende forvrengningsfaktor og som kan virke som et perseptuelt prefilter samt LPC-filter.
For å generere et godt filtrert signal for senere koding, er det ønskelig ikke øyeblikkelig å svitsje mellom de to forskjellige verdier av forvrengningsfaktoren, ved bare å bruke en myk overgang av forvrengningsfaktoren over tid. Som et eksempel vil en overgang på 128 sampler mellom ikke-forvrengt og helt perseptuelt forvrengt brist unngå ønskete avbrudd i utgangssignalet.
Ved å bruke et slikt filter med varierende forvrengning blir det mulig å bygge opp en kombinert tale/audiokoder som oppnår en optimal tale- og audiovideo-kodingskvalitet på følgende måte (se fig. 7 eller 8): Beslutningen om kodingsmodusen som skal brukes ("talemodus" eller "musikkmodus") utføres i en egen modul ved å utføre en analyse av inngangssignalet og kan være basert på kjente teknikker for å skille talesignaler fra musikk. Som et resultat produserer beslutningsmodulen en beslutning om kodingsmodus/og en tilhørende, optimal forvrengningsfaktor for filteret. Avhengig av denne beslutning blir det videre bestemt et sett med passende filterkoeffisienter som egner seg for inngangssignalet ved den valgte kodingsmodus, dvs. at det for koding av tale utføres en LPC-analyse (uten forvrengning eller lav forvrengningsfaktor), mens det for koding av musikk, bin-det estimert en maskeringskurve og dens invers blir konvertert til forvrengte, spektrale koeffisienter. • Filteret med tidsvarierende forvrengningskarakteristikk er brukt som et felles koder/dekoderfilter og brukes på signalet avhengig av kodingsmodus-beslutnmgen/forvreningsfaktoren og settet av filterkoeffisienter produsert av beslutningsmodulen. • Utgangssignalet fra filtreringstrinnet blir kodet av enten en talekodingskjerne (for eksempel CELP-koder) eller en generisk audiokoderkjerne (f. eks. en filterbank/delbåndskoder eller en prediktiv audiokoder) eller begge deler, avhengig av kodingsmodusen. • Informasjonen for overføring/lagring omfatter kodingsmodusbeslutningen (eller en indikasjon om forvrengningsfaktoren), filterkoeffisientene i noe kodet form og informasjon levert av tale/eksiteringen og den generiske audiokoder.
Tilsvarende koder virker tilsvarende: Den mottar overført informasjon, dekodet tale og generiske audiodeler i samsvar med den kodete modusinformasjonen, kombinerer disse til et enkelt mellomsignal (f. eks. ved å addere dem) og filtrerer dette mellomsignalet ved å bruke kodingsmodusen/forvrengingsfaktoren og filterkoeffisientene for å forme det endelige utgangssignal.
Videre blir en fordelaktig utførelse av den nye audiokoder omtalt i forbindelse med fig. 1. Fig. 1 audiokoder kan kode et audiosignal på linjen 10. Audiosignalet blir sendt til et prefilter 12 for generering av et prefiltrert audiosignal ved linjen 13. Prefilteret har en variabel forvrengningskarakteristikk som kan reguleres som svar på et tidsvarierende styresignal på linje 16. Styresignalet indikerer liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk. Således kan det tidsvarierende forvreningsstyresignal være et signal med to forskjellige tilstander, for eksempel "1" for sterk forvrengning eller "0" for ingen forvrengning. Det tiltenkte mål for å bruke forvrengning er å oppnå en frekvensoppløsning av prefilteret tilsvarende BARK-skalaen. Også forskjellige tilstander av signal/forvrenings-egenskapens innstilling er imidlertid også mulig.
Videre omfatter den nye audiokoder en styreenhet 18 for å levere det tidsvarierende styresignal, der dette avhenger av audiosignalet som vist av linje 20 på fig. 1. Videre omfatter den nye audiokoder en regulerbar kodingsprosessor 22 for å behandle det prefiltrerte audiosignal for å oppnå et kodet audiosignal ut ved linje 24. Især er kodingsprosessoren 22 tilpasset for å behandle det prefiltrerte audiosignal i samsvar med en første kodingsalgoritme tilpasset et spesifikt signalmønster, eller i samsvar med en andre, forskjellig kodingsalgoritme som egner seg for koding av et generelt audiosignal. Især er kodingsprosessoren 22 tilpasset for å kunne styres av styreenhet 18 fortrinnsvis via et eget koderstyresignal på linje 26, slik at en audiosignaldel som blir filtrert bruker den relativt høye forvrengningsfaktor, blir behandlet ved å bruke den andre kodingsalgoritme for å oppnå det kodete signal for denne audiosignaldel, slik at en audiosignaldel som blir filtrert ved å bruke ingen eller bare en liten forvrengningskarakteristikk, blir behandlet ved å bruke den første kodingsalgoritme.
Som vist i styringstabellen 28 for signalet på styreledningen 26, blir i enkelte situasjoner ved behandling av et audiosignal ingen eller bare en liten forvrengning utført av filteret for et signal som blir filtrert i samsvar med den første kodingsalgoritme mens det når en sterk og fortrinnsvis perseptuelt fullskalaforvrengning blir tilført av prefilteret, blir tidsdelen behandlet ved å bruke den andre kodingsalgoritme for generelle audiosignaler som fortrinnsvis er basert på å skjule kvantiseringsstøy under en psykoakustisk maskeringsterskel. Naturligvis dekker oppfinnelsen også det tilfellet at en annen del av audiosignalet, som har det signalspesifikke mønster, får tilført en høy forvrengningskarakteristikk mens det får ytterligere en del som ikke har det spesifikke signalmønster, brukes en lav eller ingen forvrengningskarakteristikk. Dette kan for eksempel avgjøres av en analyse fra en syntesekoderbeslutning eller av en annen algoritme på kjent måte. Imidlertid kan kodermodulen også innstilles fast avhengig av den overførte forvrengningsfaktor eller forvrengningsfaktoren som avledes fra en overført kodermodulindikasjon. Videre kan begge informasjonsmåter overføres som sideinformasjon, dvs. kodermodulen og forvrengningsfaktoren.
Fig. 2 viser den nye dekoder for dekoding av et kodet audiosignals inngang ved linjen 30. Det kodete audiosignal har en første del som er kodet i samsvar med en første kodingsalgoritme tilpasset et spesifikt signalmønster og som har en andre del kodet sammen med en andre forskjellig kodingsalgoritme som egner seg for koding av et generelt audiosignal. Især omfatter den nye dekoder en detektor 32 for å påvise en kodingsalgoritme som ligger under første eller andre del. Denne påvisning kan finne sted ved å ekstrahere sideinformasjon fra det kodete audiosignal som vist av den stiplete linje 34 og/eller kan finne sted ved å undersøke bitstrømmen som kommer inn i dekodingsprosessoren 36 som vist av den stiplete linjen 38. Dekodingsprosessoren 36 er for dekoding som svar på detektoren som vist av audiostyrelinjen 40, slik at riktig kodingsalgoritme blir valgt både for første og andre deler.
Fortrinnsvis kan dekodingsprosessoren bruke en første kodingsalgoritme for dekoding av den første tidsdel og bruke den andre kodingsalgoritme for dekoding av den andre tidsdel, slik at første og andre dekodete tidsdeler blir sendt på linjen 42. Linje 42 bærer inngangssignalet til et postfilter 44 med en variabel forvrengningskarakteristikk. Især kan postfilteret 44 reguleres ved å bruke et tidsvarierende forvrengningsstyresignal på linjen 46, slik at dette postfilteret bare får en liten eller ingen forvrengningskarakteristikk i en første tilstand og har en høy forvrengningskarakteristikk i en andre tilstand.
Fortrinnsvis blir postfilteret 44 regulert slik at den første tidsdel dekodes ved å bruke en første kodingsalgoritme som blir filtrert ved å bruke liten eller ingen forvrengningskarakteristikk og hvor den andre tidsdel av det dekodete audiosignal blir filtrert ved å bruke den relativt sterke forvrengningskarakteristikk, slik at audiodekoderens utgangssignal kan hentes ved line 48.
På fig. 1 og 2 bestemmer den første kodingsalgoritme de koderrelaterte trinn som iverksettes i kodingsprosessoren 22 og tilsvarende dekoder tilknyttet trinn som må implementeres i dekodingsprosessoren 36. Videre bestemmes den andre kodete algoritme de koderelaterte, andre kodmgsalgoritmetrinn for bruk i kodingsprosessoren og tilsvarende andre kodingsalgoritmerelaterte dekodingstrinn for bruk i dekodingsprosessoren 36.
Videre er prefilteret 12 og postfilteret 44 generelt invers eller omvendt i forhold til hverandre. Forvrengningskarakteristikken av disse filtrene reguleres slik at postfilteret får samme forvrengningskarakteristikk som prefilteret eller minst tilsvarende forvrengningskarakteristikk innenfor en 10 prosent toleranse.
Når prefilteret ikke blir forvrengt på grunn av at det for eksempel er et signal med spesifikke signalmønstre, behøver ikke postfilteret nødvendigvis heller være et forvrengt filter.
Uansett kan prefilteret 12 samt postfilteret 44 implementere andre prefilter eller postfilteroperasjoner som kreves i forbindelse med den første kodingsalgoritme eller den andre kodingsalgoritme som nevnt nedenfor. Fig. 3a viser et eksempel på et kodet audiosignal oppnådd på linje 24 på fig. 1 og som kan finnes på linje 30 på fig. 2. Især omfatter det kodete audiosignal en første tidsdel i kodet form som har blitt generert av den første kodingsalgoritme som skissert ved 50 og tilsvarende sideinformasjon 52 for den første del. Videre omfatter bitstrømmen en andre tidsdel i kodet form som vist ved 54 og sideinformasjon 56 for den andre tidsdel. Det skal bemerkes her at størrelsesorden av punktene på fig. 3a kan variere. Videre behøver sideinformasjonen ikke nødvendigvis å være multiplekset mellom hovedinformasjonen 50 og 54. Disse signalene kan også komme fra egne kilder som diktert av eksterne kravimplementeringer. Fig. 3b viser sideinformasjon for den eksplisitte signaleringsutførelse ifølge oppfinnelsen for eksplisitt å signalisere forvrengningsfaktoren og kodemodus som kan brukes i 52 og 56 på fig. 3a. Det er vist under fig. 3b sin sideinformasjonsstrøm. Følgelig kan sideinformasjonen omfatte en kodingsmodusindikasjon som uttrykkelig signalerer første eller andre kodingsalgoritme som ligger under denne del til hvilken sideinformasjonen tilhører.
Videre kan en forvrengningsfaktor signaleres. Signalering av forvrengningsfaktorene er ikke nødvendige når hele systemet bare kan brukes i to forskjellige forvrengningskarakteristikker, dvs. ingen karakteristikk som den første mulighet og en perseptuelt fullskala forvrengningskarakteristikk som den andre mulighet. I dette tilfellet kan en forvrengningsfaktor være fast og bør ikke nødvendigvis å overføres.
I foretrukne utførelser kan forvrengningsfaktoren uansett ha flere enn disse to ekstreme verdier, slik at en eksplisitt signalering av forvrengningsfaktoren, for eksempel ved absolutte verdier eller differensialt kodete verdier blir brukt.
Videre er det foretrukket at prefilteret ikke bare implementeres som forvrengte men også implementerer oppgaver diktert av den første kodingsalgoritme og den andre kodingsalgoritme som fører til en mer effektiv funksjonalitet av første og andre kodingsalgoritmer.
Når den første kodingsalgoritme er en LPC-basert kodingsalgoritme, utfører prefilteret også funksjonaliteten av LPC-analysefilteret og postfilteret på dekodersiden utføres funksjonaliteten av et LPC-syntesefilter.
Når den andre kodingsalgoritme generelt er en audiokoder som ikke har en spesifikk støyformingsfunksjonalitet, er prefilteret fortrinnsvis et LPC-filter som prefiltrerer audiosignalet, slik at viktigere deler etter prefiltrering psykoakustisk blir forsterket i forhold til psykoakustisk mindre viktige deler. På dekodersiden blir postfilteret implementert som et filter for regenerering av situasjonen tilsvarende en situasjon før prefiltrering, dvs. et inversfilter som forsterker mindre viktige deler i forhold til de mer viktige deler, slik at signalet etter postfiltrering blir, bortsett fra kodingsfeil tilsvarende det opprinnelige audiosignals inngang til koderen.
Filterkoeffisientene for ovennevnte prefilter blir fortrinnsvis også overført via sideinformasjoner fra koderen til dekoderen.
Typisk vil prefilteret samt postfilteret implementeres som et forvrengt FIR-filter, en struktur av hvilket er vist på fig. 4, eller som et forvrengt IIR-digitalt filter.
Fig. 4-filteret er beskrevet i detalj i [KHL 97]. Eksempler på forvrengte IIR-filtre også vist i [KHL 97]. Alle disse digitale filtre har det til felles at de har forvrengt forsinkelseselementer 60 og veide koeffisienter eller veide elementer indikert av Po,-Pi, P2,....En filterstruktur blir overført til et forvrengt filter når et forsinkelseselement i en ikke-forvrengt filterstruktur (ikke vist her) blir erstattet av et allpassfilter, for eksempel et første ordens allpassfilter D(z), vist på begge sider av filterstrukturene på fig. 4. En beregningsmessig effektiv implementering av den venstre struktur er vist på høyre side av figur 4 hvor den eksplisitte bruk av forvrengningsfaktoren X og implementeringen av denne er vist.
Således kan filterstrukturen til høyre på fig. 4 lett implementeres innenfor prefilteret samt innenfor postfilteret, der forvrengningsfaktoren blir regulert av parameteren X mens filteregenskapene, dvs. filterkoeffisienten av LPC-analysen/syntesen eller prefiltreringen eller postfiltreringen for forsterkning/dempning psykoakustisk av viktigere deler reguleres ved å justere vektingsparametre Po,-Pi, P2," til passende verdier.
Fig. 5 viser avhengigheten av frekvens-forvrengningsegenskapene på forvrengningsfaktoren X for X mellom -0,8 og +0,8. Ingen forvrengning i det hele tatt vil oppnås når X blir satt til 0,0. En psykoakustisk fullskala forvrengning blir oppnådd ved å sette X mellom 0,3 og 0,4. Generelt avhenger den optimale forvrengningsfaktor av den valgte samplingsrate å ha verdier på mellom 0,3 og 0,4 for samplingsrate mellom 32 og 48 kHz. Deretter blir den da oppnådde ikke-ensartete frekvensoppløsning ved å bruke det forvrengte filter lik BARK- eller ERB-skalaen. Vesentlig sterkere forvrengningskarakteristikker kan implementeres, men de egner seg bare i enkelte situasjoner som kan skje når styreenheten bestemmer at disse høyere forsterkningsfaktorer er nyttige.
Således vil prefilteret på kodersiden fortrinnsvis ha positive forvrengningsfaktorer X for å øke frekvensoppløsningen i det nedre frekvensområdet og minske frekvensoppløsningen i høyere frekvensområdet. Følgelig vil postfilteret på dekodersiden også ha positive forvrengningsfaktorer. Således er et foretrukket nytt tidsvarierende forvrengningsfilter vist på fig. 6 ved 70 som en del av audioprosessoren. Det nye filteret er fortrinnsvis et lineært filter som blir implementert som et prefilter eller postfilter for filtrering for forsterke eller dempe psykoakustisk mer/mindre viktige deler eller som implementeres som et LPC-analyse/syntesefilter avhengig av styresignalet av systemet. Det skal bemerkes på dette punkt at det forvrengte filter er et lineært filter og endrer ikke sekvensen av en komponent, for eksempel en sinusformet bølge til filteret. Når det forutsettes at filteret fører forvrengning av et lavpassfilter, må imidlertid skjemaet på fig. 5 fortolkes som skissert nedenfor.
Når eksempel på sinusbølgen har en normalisert, opprinnelig frekvens på 0,6, må filteret levere for en forvrengningsfaktor lik 0,0, fase- og amplitudevektingen som definert av filterpulsresponsen av dette ikke-forvrengte filter.
Når en forvrengningsfaktor på 0,8 blir satt for dette lavpassfilter (nå blir filteret et forvrengt filter), vil sinusbølgen med en normalisert frekvens på 0,6 bli filtrert, slik at utgangen blir vektet ved fase- og amplitudeveiing som det ikke-forvrengte filter har for en normalisert frekvens på 0,97 på fig. 5. Siden dette filteret er et lineært filter, blir frekvensen av sinusbølgen ikke endret.
Avhengig av situasjonen, og når filteret 70 bare er forvrengt, må en forvrengningsfaktor eller generelt forvrengningsstyringen 16 eller 46, brukes. Filterkoeffisientene Pi blir avledet fra maskeringsterskelen. Disse filterkoeffisientene kan være pre- eller postfilterkoeffisienter, eller LPC-analyse/syntesefilterkoeffisienter, eller andre filterkoeffisienter som egner seg i forbindelse med første eller andre kodingsalgoritmer.
Således omfatter en audioprosessor i samsvar med oppfinnelsen i tillegg til filteret med variable forvrengningskarakteristikker, styreenheten 18 på fig. 1, eller styreenheten implementert som kodingsalgoritmedetektor 32 på fig. 2 eller en generell audioinngangssignalanalysator som ser etter et spesifikt signalmønster i audioinngangen 10/42 slik at en bestemt forvrengningskarakteristikk kan settes som passer til det spesifikke signalmønster, slik at en tidstilpasset, variabel forvrengning av audioinngangen, enten det er et kodet eller dekodet audiosignal, kan oppnås. Fortrinnsvis er prefilterkoeffisientene og postfilterkoeffisientene identiske.
Signalet fra audioprosessoren illustrert på fig. 6 består av filteret 70 og styreenheten 74 kan lagres for ethvert formål eller kan behandles av kodingsprosessoren 22 eller av en audioinngivelseenhet når audioprosessoren er på dekodersiden eller kan behandles av andre signalbehandlingsalgoritmer.
Fig. 7 og 8 vil nå bli omtalt og viser foretrukne utførelser av den nye dekoder (fig. 7) og den nye dekoder (fig. 8). Funksjonaliteten av enhetene tilsvarer enheten på fig. 1 og 2. Især viser fig. 1 utførelsen der den første kodingsalgoritme er en talekoder, lik kodingsalgoritmen, der det spesifikke signalmønster er et talemønster i audioinngangen 10. Den andre kodingsalgoritmen 22b er en genetisk audiokoder, for eksempel den generelle filterbankbaserte audiokoder som viser og er omtalt i forbindelse med fig. 9 eller prefilter/postfilter audiokodingsalgoritme som vist på fig. 10.
Den første kodingsalgoritme tilsvarende fig. 11 kodingssystem som i tillegg til et LPC analyse/syntesefilter 1100 og 1102 også omfatter en rest/eksiteringskoder 1104 og tilsvarende eksisteringsdekoder 1106. I denne utførelse har det tidsvarierende, forvrengte filter 12 på fig. 7 samme funksjonalitet som LPC-filteret 1100 og LPC-analysen implementert i blokk 1108 på fig. 11 blir implementert i styreenheten 18. Rest/eksiteringskoderen 1104 tilsvarer rest/eksiteringskoderkjernen 22a på fig. 7. Likeledes tilsvarer eksiteringsdekoderen 1106 rest/eksiteringsdekoderen 36a på fig. 8 og det tidsvarierende, forvrengte filter 44 har funksjonaliteten av det inverse LPC-filter 1102 for en første tidsdel som blir kodet i samsvar med den første kodingsalgoritme.
LPC-filterkoeffisientene generert av LPC-analyseblokken 1108 tilsvarer filterkoeffisientene vist ved 90 på fig. 7 for den første tidsdel og LPC-filterkoeffisientenes signal til blokken 1102 på fig. 11 tilsvarer filterkoeffisientene på linjen 92 på fig. 8. Videre omfatter koderen på fig. 7 et koderutgangsgrensesnitt 94 som implementeres som en bitstrøms multiplekser, men som også kan implementeres som en annen enhet som produserer en datastrøm som egner seg for overføring og/eller lagring. Tilsvarende omfatter dekoderen på fig. 8 et inngangsgrensesnitt 96 som kan implementeres som en bitstrømdemultiplekser for demultipleksing av den spesifikke tidsdels informasjon som nevnt i fig. 3a og for også å ekstrahere den nødvendige innformasjon som vist på fig. 3b.
I utførelsen på fig. 7 har begge kodingskjernene 22a, 22b en felles inngang 96 og blir styrt av styreenheten 18 via linjene 97a og 97b. Denne styring sikrer at bare en av begge koderkjerner 22a, 22b på et bestemt tidspunkt, sender hoved- og sideinformasjon til utgangsgrensesnittet. Alternativt kan begge kodingskjernene virke helt parallelt og koderens styreenhet 18 vil sikre at bare signalet fra kodekjernen blir sendt til bitstrømmen som vist av kodingsmodusinformasjonen, mens utgangssignalet fra en andre koder blir forkastet.
Alternativt kan begge dekodere virke parallelt og signalene fra side kan legges til. I denne situasjonen er det foretrukket å bruke en middels forvrengningskarakteristikk for kodersidens prefilter og for dekodersidens postfilter. Videre behandler denne utførelse for eksempel en taledel av et signal, for eksempel et bestemt frekvensområde eller generelt signaldelen med den første kodealgoritme og resten av signalet med den andre generelle kodealgoritme. Deretter blir signalene for begge kodere sendt fra koderen til dekodersiden. Dekodersidekombinasjonen sikrer at signalet blir ført sammen før det blir postfiltrert.
En type spesifikke kontroller kan implementeres så lenge de sikrer at det kodete audiosignal 24 har en sekvens med første og andre deler som vist på fig. 3 eller en riktig kombinasjon av signaldeler, for eksempel en taledel og en generell audiodel.
På dekodersiden blir kodemodusinformasjonen brukt for dekoding av tidsdelen ved å bruke riktig dekodingsalgoritme, slik at et tidsforskjøvet mønster av første og andre deler finner sted ved utgangen av dekoderkjernene 36a og 36b som deretter blir multiplekset til et enkelt domenesignal som er vist skjematisk ved å bruke adderingssymbolet 36c. Ved utgangen av 36c, finnes det deretter et audiosignal for et tidsdomene som bare må postfiltreres slik at det dekodete audiosignal blir oppnådd.
Som nevnt tidligere i oppsummeringen etter den korte beskrivelse av tegningene, kan både koderen på fig. 7 samt dekoderen på fig. 8 omfatte en interpolator 100 eller 102, slik at en jevn overgang via en bestemt tidsdel som minst omfatter to sampler, men som fortrinnsvis omfatter flere enn 50 sampler og mer enn 100 sampler, kan implementeres. Dette sikrer at kodeforvrengning unngås som kan forårsakes ved raske endringer av forvrengningsfaktoren og filterkoeffisienten. Siden postfilteret samt prefilteret imidlertid virker helt i tidsdomenet, vil det ikke være noen problemer i forbindelse med blokkbaserte, spesifikke implementeringer. Således kan verdiene for Po, Pi, P2, -- og A. fra sampel til sampel endres når fig. 4 igjen betraktes, slik at en overfading av for eksempel en helt forvrengt tilstand til en annen tilstand uten noen forvrengning, blir mulig. Selv om det er mulig å interpolere parametere som kan spare interpolatoren på dekodersiden, er det foretrukket ikke å sende de interpolerte verdier, men å sende verdiene før interpoleringen siden det da kreves mindre sideinformasjonsbiter for det sistnevnte valg.
Som allerede vist ovenfor, kan videre den generiske audiokodekjerne 22b som vist på fig. 7 være identisk med koderen 1000 på fig. 10. I denne sammenheng vil prefilteret 12 også utføre funksjonaliteten til prefilteret 1002 på fig. 10. Oppfatningsmodellen 1004 på fig. 10 vil deretter implementeres i styreenheten 18 på fig. 7. Filterkoeffisientene generert av omfatningsmodellen 1004 tilsvarer filterkoeffisientene på linje 90 på fig. 7 for en tidsdel for hvilken den andre kodingsalgoritme er på.
Analogt blir dekoderen 1106 på fig. 10 implementert av den generiske audiodekoderkjerne 36b på fig. 8 og postfilteret 1008 blir implementert av det tidsvarierende, forvrengte filter 44 på fig. 8. De fortrinnvis kodete filterkoeffisienter generert av oppfatnings- eller perseptuellmodellen blir mottatt på dekodersiden på linje 92, slik at en linje benevnt "filterkoeffisienter" ankommer postfilteret 1008 på fig. 10 og tilsvarer linje 92 på fig. 8 for den andre tidsdel av kodealgoritmen.
Sammenliknet med to parallelle arbeidende kodere i samsvar med fig. 10 og 11 som begge ikke er perfekte når det gjelder audiokvalitet og bitrate, bruker de nye koderenheter og de nye dekoderenheter imidlertid bare et enkelt, men justerbart filter og utfører en diskriminering på inngangsaudiosignalet for å finne ut om tidsdelen av audiosignalet har det spesifikke mønster eller bare er et generelt audiosignal.
Når det gjelder audioanalysatoren i styreenheten 18, kan forskjellige implementeringer brukes for å bestemme om en del av et audiosignal er en del som har det spesifikke signalmønsteret eller om denne del ikke har dette spesifikke signalmønster og følgelig må behandles ved å bruke den generelle audiokodealgoritme. Selv om foretrukne utførelser har blitt omtalt der det spesifikke signalmønster er et talesignal, kan andre signalspesifikke mønstre bestemmes og kodes ved å bruke slike signalspesifikke, første koderalgoritmer, for eksempel koderalgoritmer for harmoniske signaler, for støysignaler, for tonale signaler, for pulstrekkesignaler osv.
Vanlige detektorer er analyser ved syntesedetektorer som for eksempel forsøker forskjellige koderalgoritmer sammen med forskjellige forvrengningsdektorer for å finne ut den beste forvrengningsfaktor sammen med de beste filterkoeffisienter og beste koderalgoritmer. Slike analyser ved syntesedektorer er i enkelte tilfeller ganske beregningskostbare. Dette betyr ikke noe i en situasjon der det finnes et lite antall kodere og stort antall dekodere siden dekoderen her er svært enkel i dette tilfellet. Dette skyldes at bare koderen bare utfører denne kompliserte beregningsoppgavens dekoder ganske enkelt ved å bruke den overførte sideinformasjon.
Andre signaldetektorer er basert på analysering av algoritmer med et likefremt mønster som ser etter et spesifikt signalmønster innenfor audiosignalet og signaliserer et positivt resultat når en tilpasset grad overskrider en bestemt terskel. Flere opplysninger om slike detektorer er gitt i [BLS05].
Avhengig av bestemte implementeringskrav av de nye fremgangsmåter, kan de nye fremgangsmåter videre implementeres i maskinvaren eller i programvaren. Implementeringen kan utføres ved å bruke et digitalt lagringsmedium, især en disk eller en CD med elektronisk lesbare styresignaler lagret som kan samvirke med et programmerbart datasystem, slik at de nye fremgangsmåter kan utføres. Generelt er følgelig oppfinnelsen et dataprogram produkt med en programkode lagret på en maskinlesbar bærer og som er konfigurert for å utføre minst én av de nye fremgangsmåter når dataprogrammet kjøres på en datamaskin. Med andre ord gjelder de nye fremgangsmåter også et dataprogram med en programkode for å utføre de nye fremgangsmåter når dataprogrammet kjøres på en datamaskin.
De ovenfor beskrevne utførelser er bare illustrasjonsformål for å presentere oppfinnelsens prinsipper. Det vil fremgå at modifikasjoner og variasjoner av anordningene og detaljene som er beskrevet her vil fremgå for en fagmann. Den er følgelig tenkt bare å være begrenset av omfanget av de vedlagte patentkrav og ikke av de spesifikke detaljer som er presentert her i beskrivelsen og forklaringene av utførelsene.

Claims (49)

1. Audiokoder for koding av et audiosignal,karakterisert ved: et prefilter (12) for generering av et prefiltrert audiosignal, idet prefilteret har en variabel forvrengningskarakteristikk, idet forvrengningskarakteristikken er regulerbar som svar på et tidsvarierende styresignal som indikerer en liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk, en styreenhet (18) for å tilveiebringe det tidsvarierende styresignal, idet det tidsvarierende styresignal er avhengig av audiosignalet, og en styrbar kodingsprosessor (22) for å behandle det prefiltrerte audiosignal for å oppnå et kodet audiosignal, der kodingsprosessoren er tilpasset til å behandle det prefiltrerte audiosignal i samsvar med en første kodingsalgoritme tilpasset et spesifikt signalmønster eller i samsvar med en andre, forskjellig kodingsalgoritme som egner seg for koding av et generelt audiosignal.
2. Audiokoder ifølge krav 1,karakterisert vedat kodingsprosessoren (22) er tilpasset for å bruke minst en del av en talekodingsalgoritme som den første kodingsalgoritme.
3. Audiokoder ifølge krav 1,karakterisert vedat kodingsprosessoren (22) er tilpasset for å bruke en rest/eksiteringskodealgoritme som en del av den første koderalgoritme, idet rest/eksiteringskodingsalgoritmen omfatter en kodeeksitert, lineær prediktiv (CELP) koding for algoritmen, en flerpuls eksiterings (MPE) kodingsalgoritme eller en vanlig pulseksiterings (RPE) kodingsalgoritme.
4. Audiokoder ifølge krav 1,karakterisert vedat kodingsprosessoren (22) er tilpasset for å bruke en filterbankbasert eller tidsdomenebasert kodingsalgoritme som den andre kodingsalgoritme.
5. Audiokoder ifølge krav 1,karakterisert vedat den videre omfatter en psykoakustisk modul for å levere informasjon på en maskeringsterskel, og der prefilteret (12) kan utføre en filteroperasjon basert maskeringsterskelen, slik at det i det prefiltrerte audiosignal, psykoakustiske viktigere deler blir forsterket i forhold til psykoakustisk mindre viktige deler.
6. Audiokoder ifølge krav 5,karakterisert vedat prefilteret (12) er et lineært filter med en regulerbar beregningsfaktor som bestemmes av det tidsvarierende styringssignal, og der filterkoeffisientene bestemmes av en analyse basert på maskeringsterskelen.
7. Audiokoder ifølge krav 1,karakterisert vedat den første kodingsalgoritme omfatter et rest- eller eksitermgskodmgstrinn og den andre kodingsalgoritme omfatter et generelt audiokoding strinn.
8. Audiokoder ifølge krav 1,karakterisert vedat kodingsprosessoren (22) omfatter: en første kodingskjerne (22a) for å bruke den første kodingsalgoritme til audiosignalet, en andre kodingskjerne (22b) for å bruke den andre kodingsalgoritme til audiosignalet, der begge kodingskjerner (22a, 22b) har en felles inngang koplet til en utgang av prefilteret (12), der begge kodingskjerner har separate utganger, der audiokoderen videre omfatter et utgangstrinn (94) for å sende ut det kodete signal, og der styreenheten (18) ikke bare kan kople en utgang av kodingskjernen indikert av styreenheten til å være aktiv for en tidsdel til utgangstrinnet.
9. Audiokoder ifølge krav 1,karakterisert vedat kodingsprosessen (22) omfatter: en første kodingskjerne (22a) for å bruke den første kodingsalgoritme til audiosignalet, en andre kodingskjerne (22b) for å bruke den andre kodingsalgoritme til audiosignalet, der begge kodingskjerner (22a, 22b) har en felles inngang koplet til en utgang prefilteret (12), der begge kodingskjerner har en separat utgang, og der styreenheten (18) kan aktivere kodingskjernen som velges av kodingsmodusindikasjonen og deaktivere kodingskjernen som ikke velges av kodingsmodusindikasjonen eller aktivere begge kodingskjerner for forskjellige deler av samme tidsdel av audiosignalet.
10. Audiokoder ifølge krav 1,karakterisert vedat den videre omfatter et utgangstrinn (94) for å sende ut det tidsvarierende styresignal eller et signal avledet fra det tidsvarierende styresignal av en kvantisering eller koding som sideinformasjon til det kodete signal.
11. Audiokoder ifølge krav 6,karakterisert vedat den videre omfatter et utgangstrinn (94) for å sende ut innformasjon på maskeringsterskelen som sideinformasjon til det kodete audiosignal.
12. Audiokoder ifølge krav 6,karakterisert vedat kodingsprosessoren (22) er, når det brukes den andre kodingsalgoritme, kan kvantisere det prefiltrerte audiosignal ved bruke en kvantiserer med en kvantiseringskarakteristikk som innfører en kvantiseringsstøy med en flat, spektral fordeling.
13. Audiokoder ifølge krav 12,karakterisert vedat kodingsprosessoren (22) er, når det brukes en andre kodingsalgoritme, operativ for å kvantisere de prefiltrerte tidsdomenesampler eller delbåndssampler, frekvenskoeffisienter eller restsampler avledet fra det prefiltrerte audiosignal.
14. Audiokoder ifølge krav 1,karakterisert vedat styreenheten (18) er operativ for å levere det tidsvarierende styresignal, slik at en forvrengningsoperasjon øker en frekvensoppløsning i det nedre frekvensområdet og minsker frekvensoppløsningen i et høyere frekvensområde for den relativt høye forvrengningsstatistikk av prefilteret sammenliknet med den lille eller ingen forvrengningskarakteristikk av prefilteret.
15. Audiokoder ifølge krav 1,karakterisert vedat styreenheten (18) omfatter audiosignalanalysator for å analysere audiosignalet for å bestemme det tidsvarierende styresignal.
16. Audiokoder ifølge krav 1,karakterisert vedat styreenheten (18) kan generere et tidsvarierende styresignal som har, i tillegg til en første ekstrem statusindikasjon, ingen eller bare en liten forvrengningskarakteristikk, og en andre ekstrem statusindikasjon, den maksimale forvrengningskarakteristikk, ingen, en eller flere mellom tilstander som indikerer en forvrengningskarakteristikk mellom de ekstreme tilstander.
17. Audiokoder ifølge krav 1,karakterisert vedat den videre omfatter en interpolator (100) som kan styre prefilteret, slik at forvrengningskarakteristikken blir fadet mellom to forvrengningstilstander signalert av det tilsvarende styresignal over en fadingstidsperiode med minst to tidsdomenesampler.
18. Audiokoder ifølge krav 17,karakterisert vedat fadingstidsperioden omfatter minst 50 tidsdomenesampler mellom en filterkarakteristikk som forårsaker ingen eller liten forvrengning og en filterkarakteristikk som forårsaker en relativt høy forvrengning som fører til en forvrengt frekvensoppløsning tilsvarende en BARK- eller ERB-skala.
19. Audiokoder ifølge krav 17,karakterisert vedat interpolatoren (100) kan bruke en forvrengningsfaktor som fører til en forvrengningskarakteristikk mellom to forvrengningskarakteristikker som indikert av det tidsvarierende styresignal i fadingstidsperioden.
20. Audiokoder ifølge krav 1,karakterisert vedat prefilteret (12) er et digitalt filter med en forvrengt FIR- eller forvrengt IIR-struktur, idet strukturen omfatter forsinkelseselementer (60), et forsinkelseselement som er formet slik at forsinkelseselementet får en første ordens eller høyere ordens allpassfilter karakteristikk.
21. Audiokoder ifølge krav 20,karakterisert vedat allpassfilter karakteristikken er basert på den følgende filterkarakteristikk:(z^yO-Xz1), der z"<1>indikerer en forsinkelse i det tidsdiskrete domene og der X er en forvrengningsfaktor som indikerer en sterkere forvrengningskarakteristikk for forvrengningsfaktorstørrelser nærmere "1" og for å indikere en mindre forvrengningskarakteristikk for størrelser av forvrengningsfaktoren som er nærmere
22. Audiokoder ifølge krav 20,karakterisert vedat FIR- eller IIR-strukturen videre omfatter vektingselementer som hvert har en tilhørende vektingsfaktor, der vektingsfaktorene bestemmes av filterkoeffisientene for prefilteret, idet filterkoeffisientene omfatter LPC-analyse eller syntesefilterkoeffisienter, eller maskeringsterskelbestemte analyse- eller syntesefilterkoeffisienter.
23. Audiokoder ifølge krav 20,karakterisert vedat prefilteret (12) har en filterstørrelsesorden mellom 6 og 30.
24. Audiokoder ifølge krav 1,karakterisert vedat kodingsprosessoren (22) er tilpasset for å reguleres av styreenheten (18), slik audiosignaldelen som blir filtrert ved å bruke en relativt høy forvrengningskarakteristikk blir behandlet ved å bruke en andre kodingsalgoritme for å oppnå det kodete signal og et audiosignal blir filtrert ved å bruke den minste eller ingen forvreningskarakteristikk som blir behandlet ved å bruke den første kodingsalgoritme.
25. Audiokoder for dekoding av et kodet audiosignal som har en første del kodet i samsvar med en første kodingsalgoritme tilpasset et spesifikt signalmønster, og som har en andre del kodet i samsvar med en forskjellig andre kodingsalgoritme som egner seg for koding av et generelt audiosignal,karakterisert ved: en detektor (32) for å påvise en kodet algoritme som ligger under den første del av den andre del, en dekodingsprosessor (36) for dekoding som svar på detektoren (32), der den første del anvender den første kodingsalgoritme for å oppnå en første dekodet tidsdel og for å dekode den andre del ved å anvende den andre kodingsalgoritme for å oppnå en andre, dekodet tidsdel, og et postfilter (44) med en variabel forvrengningskarakteristikk som er regulerebar mellom en første tilstand med en liten eller ingen forvrengningskarakteristikk og en andre tilstand med en relativt høy forvrengningskarakteristikk.
26. Audiodekoder ifølge krav 25,karakterisert vedat postfilteret (44) er innstilt slik at forvrengningskarakteristikken under postfiltrering tilsvarer en forvrengningskarakteristikk som brukes under prefiltrering innenfor et toleranseområde på 10 % i forhold til forvrengningsstyrken.
27. Audiodekoder ifølge krav 25,karakterisert vedat det kodete audiosignal omfatter en kodingsmodusindikator eller forvrengnmgsfaktorinformasjon, der detektoren (32) kan hente ut (34) informasjon på den kodete modus eller innføringsfaktor fra det kodete audiosignal, og der dekodingsprosessoren (36) eller postfilteret kan styres ved å bruke den uthentete informasjon.
28. Audiodekoder ifølge krav 27,karakterisert vedat en forvrengningsfaktor som er avledet fra den uthentete informasjon og brukt for å regulere postfilteret (44), har et positivt tegn.
29. Audiodekoder ifølge krav 25,karakterisert vedat det kodete signal videre omfatter informasjon om filterkoeffisienter avhengig av maskeringsterskelen på et opprinnelig signal som ligger under det dekodete signal, og der detektoren (32) kan hente ut (34) informasjon om filterkoeffisienter fra det kodete audiosignal, og der postfilteret (44) er tilpasset for å reguleres basert på den uthentete informasjon om filterkoeffisientene, slik at et postfiltrert signal blir mer likt et opprinnelig signal enn signalet før postfiltrering.
30. Audiodekoder ifølge krav 25,karakterisert vedat dekodingsprosessoren (36) er tilpasset for å bruke en talekodingsalgoritme som den første kodingsalgoritme.
31. Audiodekoder ifølge krav 25,karakterisert vedat dekodingsprosessoren (36) er tilpasset for å bruke en rest/eksiteringsdekodingsalgoritme (36a) som den første kodingsalgoritme.
32. Audiodekoder ifølge krav 25,karakterisert vedat rest/eksiterings-dekodingsalgoritmen (36a) omfatter som en del av den første kodingsalgoritme, rest/eksiteringskodingsalgoritmen med en kodeeksitert, lineær prediktiv (CELP) kodingsalgoritme, en flerpuls eksiterings (MPE) kodingsalgoritme eller en vanlig pulseksiterings (RPE) kodingsalgoritme.
33. Audiodekoder ifølge krav 25,karakterisert vedat dekoderprosessoren (36) er tilpasset for å bruke filterbankbaserte eller transformeringsbaserte eller tidsdomenebaserte dekodingsalgoritmer (36b) som en andre kodingsalgoritme.
34. Audiodekoder ifølge krav 25,karakterisert vedat dekoderprosessoren (36) omfatte ren første kodingskjerne (36a) for å bruke den første kodingsalgoritme til det kodete audiosignal, en andre kodingskjerne (36b) for å bruke en andre kodingsalgoritme til det kodete audiosignal, der begge dekodingskjerner har en utgang som hver er koplet til en kombineringsenhet (36c) som har en utgang koplet til en inngang av postfilteret (44), der kodingskjernen blir regulert slik at bare en dekodet tidsdel blir sendt ut av en valgt kodingsalgoritme og videresendt til kombineringsenheten og postfilteret eller de forskjellige deler av samme tidsdel av audiosignalet blir behandlet av forskjellige kodingskjerner og kombineringsenheten kan kombinere dekodete gjengivelser av de forskjellige deler.
35. Audiodekoder ifølge krav 34,karakterisert vedat dekoderprosessoren (36) er, når den bruker den andre kodingsalgoritme, operativ for å dekvantisere et audiosignal som har blitt kvantisert ved å bruke en kvantiserer med en kvantiseringskarakteristikk som innfører en kvantiseringsstøy med en flat, spektral fordeling.
36. Audiodekoder ifølge 35,karakterisert vedat dekoderprosessoren (36) er, når den bruker den andre kodingsalgoritme som dekvantiserer kvantisert tidsdomenesampler, kvantiserte frekvenskoeffisienter eller kvantiserte restsampler.
37. Audiodekoder ifølge krav 25,karakterisert vedat detektoren (32) kan levere et tidsvarierende styresignal (92) for postfilteret, slik at et forvrengt filters utgangssignal får en minsket frekvens og oppløsning i et høyere frekvensområde og en økt frekvensoppløsning i et lavere frekvensområde for den relativt høye forvrengningskarakteristikk av postfilteret sammenliknet med et filterutgangssignal av et postfilter med en liten eller ingen forvrengningskarakteristikk.
38. Audiodekoder ifølge krav 25,karakterisert vedat den videre omfatter en interpolator (102) for å styre postfilteret slik at forvrengningskarakteristikken blir fadet mellom to forvrengningstilstander og en forvrengningstidsperiode med minst to tidsdomenesampler.
39. Audiodekoder ifølge krav 25,karakterisert vedat postfilteret (44) er et digitalt filter med en forvrengt FIR- eller forvrengt IIR-struktur som omfatter forsinkelseselementer, idet et forsinkelseselement er formet slik at forsinkelseselementet får en første ordens eller høyere ordens allpassfilteregenskap.
40. Audiodekoder ifølge krav 25,karakterisert vedat allpassfilter karakteristikken er basert på den følgende filterkarakteristikk: (z^-A-VO - Xz1) hvor z"<1>indikerer en forsinkelse i det tidsdiskrete domenet og der X er en forvrengingsfaktor som indikerer en sterkere forvrengningskarakteristikk for forvrengningsfaktorens størrelse nærmere "1" og som indikerer en mindre forvrengningskarakteristikk for størrelser av forvrengningsfaktoren som er nærmere
41. Audiodekoder ifølge krav 25,karakterisert vedat den forvrengte FIR-eller forvrengte IIR-struktur videre omfatter vektingselementer som hvert har en tilhørende vektingsfaktor, der vektingsfaktorene bestemmes av filterkoeffisientene for prefilteret, idet filterkoeffisientene omfatter LPC-analyse eller syntesefilterkoefffisienter eller maskeringsterskelbestemt analyse eller syntesefilterkoeffisienter.
42. Audiodekoder ifølge krav 25,karakterisert vedat postfilteret (42) blir regulert slik at den første dekodete tidsdel blir filtrert ved å bruke den lille eller ingen forvrengningskarakteristikk og den andre dekodete tidsdel blir filtrert ved å bruke en relativt høy forvrengningskarakteristikk.
43. Kodet audiosignal med en første tidsdel (50) kodet i samsvar med en første kodingsalgoritme (22a) tilpasset et spesifikt signalmønster og som har en andre tidsdel (54) kodet i samsvar med en forskjellig, andre kodingsalgoritme (22b) som egner seg for koding av et generelt audiosignal, og som sideinformasjon (52, 56), en kodingsmodusindikator som indikerer om første eller andre kodingsalgoritme ligger under den første eller andre del, eller en forvrengningsfaktor som indikerer en forvrengningsstyrke som ligger under denne første eller andre del av det kodete audiosignal eller filterkoeffisientinformasjonen som indikerer et prefilter brukt for å kode audiosignalet eller indikere et postfilter som blir brukt ved dekoding av audiosignalet.
44. Fremgangsmåte for koding av et audiosignal,karakterisert ved: generere (12) et prefilter audiosignal ved hjelp av et prefilter, idet prefilteret har en variabel forvrengningskarakteristikk, idet forvrengningskarakteristikken er regulerbar som svar på et tidsvarierende styresignal som indikerer en liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk, tilveiebringe (18) det tidsvarierende styresignal, hvor det tidsvarierende styresignal er avhengig av styresignalet, og behandle (22) det prefiltrerte audiosignal for å oppnå et kodet audiosignal i samsvar med en første kodingsalgoritme (22a) tilpasset et spesifikt signalmønster eller i samsvar med en andre, forskjellig kodingsalgoritme (22b) som egner seg for koding av et generelt audiosignal, hvor trinnet med behandling utføres slik at audiosignaldelen filtreres ved å bruke en relativt høy forvrengningskarakteristikk blir behandlet ved å bruke en andre kodingsalgoritme for å oppnå det kodete signal og et audiosignal blir filtrert ved å bruke den minste eller ingen forvrengningskarakteristikk som blir behandlet ved å bruke den første kodingsalgoritme.
45. Fremgangsmåte for koding av et kodet audiosignal som har en første del kodet i samsvar med en første kodingsalgoritme tilpasset et spesifikt signalmønster og som har en andre del kodet i samsvar med en forskjellig, andre kodingsalgoritme som egner seg for koding av et generelt audiosignal,karakterisert ved: påvise (32) en kodingsalgoritme som ligger under den første eller andre del, dekode (36), som svar på påvisningstrinnet, den første del ved å bruke den første kodingsalgoritme for å oppnå en første, dekodet tidsdel og dekode den andre del ved å bruke en andre, kodet algoritme for å oppnå en andre dekodet tidsdel, og postfiltrere (44) ved å bruke en variabel forvrengningskarakteristikk som er regulerbar mellom en første tilstand med en liten eller ingen forvrengningskarakteristikk og en andre tilstand med en relativt høy forvrengningskarakteristikk.
46. Audioprosessor for å behandle et audiosignal (10, 42),karakterisert ved: et filter (70, 12, 44) for å generere et filtrert audiosignal (14, 48), idet filteret har en variabel forvrengningskarakteristikk som er regulerbar som svar på det tidsvarierende styresignal, idet styresignalet indikerer en liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk, og en styreenhet (74, 18, 32) for å levere det tidsvarierende styresignal (72, 16, 46), der det tidsvarierende styresignal er avhengig av audiosignalet.
47. Audioprosessor ifølge krav 46,karakterisert vedat det lineære filter (70, 12, 44)er et lavpassfilter.
48. Fremgangsmåte for å behandle et audiosignal (10, 42),karakterisert ved: generere (70, 12, 44) et filtrert audiosignal (14, 48) ved å bruke et filter med en variabel forvrengningskarakteristikk, idet forvrengningskarakteristikken er regulerbar som svar på et tidsvarierende styresignal (72, 16, 46) som indikerer en liten eller ingen forvrengningskarakteristikk eller en relativt høy forvrengningskarakteristikk, og tilveiebringe (74, 18, 32) det tidsvarierende styresignal, der det tidsvarierende styresignal er avhengig av audiosignalet.
49. Dataprogram med en programkode for å utføre fremgangsmåten ifølge krav 44, 45 eller 48 når det kjøres på en datamaskin.
NO20090400A 2006-06-30 2009-01-27 Audiokoder, audiodekoder og audioprosessor med en dynamisk, variabel forvrengningskarakteristikk NO340436B1 (no)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/428,297 US7873511B2 (en) 2006-06-30 2006-06-30 Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP06013604A EP1873754B1 (en) 2006-06-30 2006-06-30 Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
PCT/EP2007/004401 WO2008000316A1 (en) 2006-06-30 2007-05-16 Audio encoder, audio decoder and audio processor having a dynamically variable harping characteristic

Publications (2)

Publication Number Publication Date
NO20090400L NO20090400L (no) 2009-01-27
NO340436B1 true NO340436B1 (no) 2017-04-24

Family

ID=38509999

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20090400A NO340436B1 (no) 2006-06-30 2009-01-27 Audiokoder, audiodekoder og audioprosessor med en dynamisk, variabel forvrengningskarakteristikk

Country Status (17)

Country Link
EP (1) EP2038879B1 (no)
JP (1) JP5205373B2 (no)
KR (1) KR101145578B1 (no)
AR (1) AR061696A1 (no)
AU (2) AU2007264175B2 (no)
BR (1) BRPI0712625B1 (no)
CA (1) CA2656423C (no)
ES (1) ES2559307T3 (no)
HK (1) HK1128811A1 (no)
IL (1) IL195983A (no)
MX (1) MX2008016163A (no)
MY (1) MY142675A (no)
NO (1) NO340436B1 (no)
PL (1) PL2038879T3 (no)
RU (1) RU2418322C2 (no)
TW (1) TWI348683B (no)
WO (1) WO2008000316A1 (no)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
FR2949582B1 (fr) * 2009-09-02 2011-08-26 Alcatel Lucent Procede pour rendre un signal musical compatible avec un codec a transmission discontinue ; et dispositif pour la mise en ?uvre de ce procede
JP5992427B2 (ja) * 2010-11-10 2016-09-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号におけるピッチおよび/または基本周波数に関するパターンを推定する方法および装置
MY158977A (en) * 2010-12-03 2016-11-30 ERICSSON TELEFON AB L M (publ) Source signal adaptive frame aggregation
TWI800092B (zh) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2013183928A1 (ko) * 2012-06-04 2013-12-12 삼성전자 주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
TWI517142B (zh) * 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US9548056B2 (en) 2012-12-19 2017-01-17 Dolby International Ab Signal adaptive FIR/IIR predictors for minimizing entropy
EP2992605B1 (en) * 2013-04-29 2017-06-07 Dolby Laboratories Licensing Corporation Frequency band compression with dynamic thresholds
CN104934034B (zh) 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
RU2628459C1 (ru) * 2016-10-13 2017-08-17 Общество с ограниченной ответственностью "Силовая электроника" Способ декодирования LDPC-кодов и устройство для его осуществления
US10694298B2 (en) * 2018-10-22 2020-06-23 Zeev Neumeier Hearing aid

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
JP2000322095A (ja) * 1999-05-13 2000-11-24 Mitsubishi Electric Corp 音声復号装置
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7587254B2 (en) 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TANCERIE L ET AL.: Combined speech and audio coding by discrimination, SPEECH CODING, 2000, PROCEEDINGS, 2000 IEEE WORKSHOP ON SEPTEMPER 17-20, 200, PISCATAWAY, NJ, USA, IEEE, 17 September 2000, pages 154-156., Dated: 01.01.0001 *

Also Published As

Publication number Publication date
CA2656423C (en) 2013-12-17
IL195983A0 (en) 2009-09-01
HK1128811A1 (zh) 2009-11-06
AU2011200461B2 (en) 2011-11-10
AU2011200461A1 (en) 2011-02-24
KR101145578B1 (ko) 2012-05-16
MX2008016163A (es) 2009-02-04
IL195983A (en) 2012-01-31
TWI348683B (en) 2011-09-11
CA2656423A1 (en) 2008-01-03
ES2559307T3 (es) 2016-02-11
AU2007264175B2 (en) 2011-03-03
WO2008000316A8 (en) 2009-02-26
JP2009541802A (ja) 2009-11-26
RU2009103010A (ru) 2010-08-10
MY142675A (en) 2010-12-15
EP2038879B1 (en) 2015-11-04
BRPI0712625A2 (pt) 2012-10-16
EP2038879A1 (en) 2009-03-25
JP5205373B2 (ja) 2013-06-05
BRPI0712625B1 (pt) 2023-10-10
PL2038879T3 (pl) 2016-04-29
AU2007264175A1 (en) 2008-01-03
AR061696A1 (es) 2008-09-17
KR20090025304A (ko) 2009-03-10
RU2418322C2 (ru) 2011-05-10
WO2008000316A1 (en) 2008-01-03
NO20090400L (no) 2009-01-27
TW200809771A (en) 2008-02-16

Similar Documents

Publication Publication Date Title
US7873511B2 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
NO340436B1 (no) Audiokoder, audiodekoder og audioprosessor med en dynamisk, variabel forvrengningskarakteristikk
CA2691993C (en) Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
AU2009267531B2 (en) An apparatus and a method for decoding an encoded audio signal
US20130332151A1 (en) Apparatus and method for processing a decoded audio signal in a spectral domain
Edler et al. Audio coding using a psychoacoustic pre-and post-filter
WO2006091150A1 (en) Improved filter smoothing in multi-channel audio encoding and/or decoding
EP1873754B1 (en) Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN107710324B (zh) 音频编码器和用于对音频信号进行编码的方法
AU2016204672A1 (en) Audio encoder and decoder with multiple coding modes