NO343261B1 - System og metode for etterbehandling av spektrale verdier, koder og dekoder for lydsignaler - Google Patents

System og metode for etterbehandling av spektrale verdier, koder og dekoder for lydsignaler Download PDF

Info

Publication number
NO343261B1
NO343261B1 NO20171179A NO20171179A NO343261B1 NO 343261 B1 NO343261 B1 NO 343261B1 NO 20171179 A NO20171179 A NO 20171179A NO 20171179 A NO20171179 A NO 20171179A NO 343261 B1 NO343261 B1 NO 343261B1
Authority
NO
Norway
Prior art keywords
spectral values
spectral
blocks
post
transformation algorithm
Prior art date
Application number
NO20171179A
Other languages
English (en)
Other versions
NO20171179A1 (no
Inventor
Harald Popp
Johannes Hilpert
Christian Ertel
Bernd Edler
Ralf Geiger
Original Assignee
Fraunhofer Ges Zur Foerderung Der Angewandten Forschung E V De
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Publication of NO20171179A1 publication Critical patent/NO20171179A1/no
Application filed by Fraunhofer Ges Zur Foerderung Der Angewandten Forschung E V De filed Critical Fraunhofer Ges Zur Foerderung Der Angewandten Forschung E V De
Publication of NO343261B1 publication Critical patent/NO343261B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

For etterbehandling av spektralverdier som er basert på en første transformasjonsalgoritme for å omforme audiosignalet til en spektral representasjon, tilveiebringes først en sekvens med blokker med spektralverdiene som representerer en sekvens med blokker med sampler av audiosignalet. Deretter utføres en vektet addition av spektral-verdier av sekvensen med blokker med spektralverdier for å fremskaffe en sekvens med blokker med etterbehandlete spektralverdier, hvor kombinasjonen utføres slike at det for å beregne en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet brukes, hvor kombinasjonen videre er utført slik at slike vektfaktorer brukes at de etterbehandlete spektralverdier er en approksimering til de spektralverdiene som de er fremskaffet gjennom å omforme audiosignalet til en spektral representasjon ved å bruke en andre transformasjonsalgoritme som er forskjellig fra den første transformasjonsalgoritmen. De etterbehandlete spektralverdiene er særlig brukt for en forskjellsdannelse henholds-vis innenfor en skalerbar koder eller for en tilføyelse innenfor en skalerbar dekoder.

Description

Teknisk felt
Den foreliggende oppfinnelse vedrører audiokoding og -dekoding og i særdeleshet skalerbare koder- og dekoderkonsepter med et grunnlag og et utvidelseslag.
Beskrivelse av relatert teknikk
Audiokodere og -dekodere har vært kjent i lang tid. I særdeleshet audiokodere og –dekodere som betjenes ifølge ISO/IEC 11172-3, hvor denne standarden også er kjent som MP3-standarden, blir referert til som transformasjonskodere. En slik MP3 koder mottar en sekvens av tidsprøver som et inngangssignal, og disse blir gjenstand for en vindusteknikkbehandling (engelsk: windowing). Behandlingen fører til at sekvensielle blokker av tidsprøver som så blir omformet til en spektral representasjon, blokk for blokk. Ifølge MP3-standarden blir her en omforming utført med en såkalt hybridfilterbank. Det første trinn av hybridfilterbanken er en filterbank som har 32 kanaler for å generere 32 delbåndsignaler. Delbåndfiltrene fra dette første trinn omfatter overlappende passeringsbånd, som er grunnen til at denne filtreringen er utsatt for overharmonisk støy (engelsk: aliasing). Det andre trinn er et MDCT-trinn for å splitte de 32 delbåndsignaler inn i 576 spektralverdier. Spektralverdiene blir så kvantisert under betrakting av den psykoakustiske modell, og deretter Huffman-kodet for til slutt å oppnå en sekvens av bit som omfatter en strøm av Huffman-kodeord og sideinformasjon som er nødvendig for dekoding.
På dekodersiden blir Huffman-kodeordene så beregnet tilbake til kvantiseringsindekser. En gjenkvantisering fører til spektralverdier som så blir matet til en hybrid syntesefilterbank som er realisert analogt med analysefilterbanken for igjen å oppnå blokker av tidsprøver av de kodede og igjen dekodede audiosignaler. Alle trinn på kodersiden og på dekodersiden er presentert i MP3-standarden. Med hensyn til terminologien blir det bemerket at i det følgende blir det også referert til en "invers kvantisering". Selv om en kvantisering ikke er inverterbar siden det ville omfatte et ugjenkallelig tap av data blir uttrykket invers kvantisering ofte brukt for å indikere en gjenkvantisering som beskrevet ovenfor.
Også en audiokoder/ -dekoder algoritme kalt AAC (avansert audiokoding, engelsk: Advanced Audio Coding) er kjent innen teknikken. En slik koder som er standardisert i den internasjonale standard ISO/IEC 13818-7, betjenes igjen ned basis i tidsprøver av et audiosignal. Tidsprøvene av audiosignalet blir igjen gjenstand for en vindusteknikkbehandling for å oppnå sekvensielle blokker av vindusteknikkbehandlede tidsprøver. I motsetning til MP3-koderen, i hvilken en hybridfilterbank blir brukt, blir i AAC-koderen én enkelt MDCT-transformasjon utført for å oppnå en sekvens av blokker av MDCT-spektralverdier. Disse MDCT-spektralverdier blir så igjen kvantisert på grunnlag av en psykoakustisk modell, og de kvantiserte spektralverdier blir til slutt Huffman-kodet. På dekodersiden er behandlingen tilsvarende. Huffman-kodeordene blir dekodet, og kvantiseringsindeksene eller de kvantiserte spektralverdier oppnådd derfra blir så hhv. gjenkvantisert eller inverskvantisert for til slutt å oppnå spektralverdier som kan bli gjort tilgjengelige for en MDCT-syntesefilterbank for til slutt å gjenoppnå kodede /dekodede tidsprøver.
Begge metoder virker med overlappende blokker og tilpasningsbare vindusfunksjoner som beskrevet i fagpublikasjonen "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen" av Berndt Edler, Frequenz, bind 43, 1989, sider 252-256.
I særdeleshet når transiente områder blir bestemt i audiosignalet blir en veksling utført fra lange vindusfunksjoner til korte vindusfunksjoner for heller å oppnå en redusert frekvensoppløsning enn en bedre tidsoppløsning. En sekvens av korte vinduer blir innført ved et startvindu, og en sekvens av korte vinduer blir avsluttet ved et stoppvindu. Derved kan en overgang uten gap mellom overlappende lange vindusfunksjoner til overlappende korte vindusfunksjoner bli oppnådd. Avhengig av realiseringen er det overlappende område med korte vinduer mindre enn det overlappende område med lange vinduer, hvilket imidlertid er rimelig i betraktning av det faktum at transiente deler av signal er tilstede i audiosignalet ikke nødvendigvis trenger være tilfellet. Dermed kan sekvenser av korte vinduer og sekvenser av lange vinduer være realisert med en overlapping på 50 %. I særdeleshet for å forbedre kodingen av transiente signaldeler med korte vinduer, kan imidlertid en redusert overlappingslengde bli valgt, som for eksempel bare 10 % eller til og med enda mindre istedenfor 50 %.
Både i MP3-standarden og også i AAC-standarden eksisterer vindusteknikken med lange og korte vinduer, og henholdsvis startvinduene eller stoppvinduene blir skalert slik at den samme blokkinndeling generelt, alltid kan bli opprettholdt. For MP3-standarden betyr dette at for hver lang blokk blir 576 spektralverdier fremstilt og at tre korte blokker svarer til én lang blokk. Dette betyr at én kort blokk fremstiller 192 spektralverdier. Med en overlapping på 50 %, blir for å behandle med vindusteknikk dermed en vinduslengde på 1152 tidsprøver brukt, som på grunn av overlappingen og prinsippet ved å addere en 50 % overlapping alltid fører to blokker av tidsprøver til én blokk av spektralverdier.
Både med MP3 kodere og også med AAC-kodere finner en kompresjon med tap sted. Tap innføres ved at en kvantisering av spektralverdier finner sted. Spektralverdiene er i særdeleshet kvantisert slik at forstyrrelsene innført fra kvantiseringen, også referert til som kvantiseringsstøy, har en energi som er under den psykoakustiske maskeringsterskel.
Jo grovere et audiosignal blir kvantisert, det vil si jo større størrelsen av kvantiseringstrinn, dess høyere kvantiseringsstøyen. På den annen side blir imidlertid for en grovere kvantisering et mindre sett av utgangsverdier fra kvantisering betraktet, slik at verdier kvantisert grovere kan bli entropikodet ved å bruke færre bit. Dette betyr imidlertid at en grovere kvantisering som fører til en høyere datakompresjon samtidig fører til høyere signaltap.
Disse signaltap er uproblematiske hvis de er under maskeringsterskelen. Selv om den psykoakustiske maskeringsterskel bare overskrides litt, trenger dette enda muligens ikke føre til hørbare interferenser for ukyndige lyttere. Uansett kan imidlertid et informasjonstap finne sted som kan være uønsket for eksempel på grunn av unaturligheter som kan være hørbare i visse situasjoner.
I særdeleshet henholdsvis med bredbånddataforbindelser eller når datahastigheten ikke er den avgjørende parameter, eller når både bredbånds og også smalbånds datanettverk er tilgjengelige kan det være ønskelig å ha ikke en med tap, men en tapsfri eller nesten tapsfri, komprimert presentasjon av et audiosignal.
En slik skalerbar koder er skjematisk illustrert i figur 7 og en forbunden dekoder skjematisk illustrert i figur 8 er kjent fra eksperters publikasjon "INTMDCT -A Link Between Perceptual And Lossless Audio Coding" av Ralf Geiger, Jürgen Herre, Jürgen Koller og Karlheinz Brandenburg, fra Int. Conference on Acoustics Speech and Signal Processing (ICASSP), 13. - 17. Mai, 2002, Orlando, Florida, USA. En liknende teknologi blir beskrevet i det europeiske patent EP 1 495 464 B1. Elementene 71, 72, 73 og 74 illustrerer en AAC-koder for å fremstille en kodet bitstrøm med tap, referert til som "oppfattelsesmessig kodet bitstrøm" i figur 7. Denne bitstrøm representerer grunnlaget (engelsk: base layer). I særdeleshet tildeler blokk 71 i figur 7 analysefilterbanken omfattende vindusteknikken med lange og korte vinduer ifølge AAC-standarden. Blokk 73 representerer kvantiseringen/kodingen ifølge AAC-standarden og blokk 74 representerer bitstrømfremstillingen slik at bitstrømmen på utgangssiden ikke bare omfatter Huffman-kodeord av kvantiserte spektralverdier, men også den nødvendige sideinformasjon, som for eksempel skaleringsfaktorer og liknende slik at en dekoding kan bli utført. Kvantiseringen med tap i blokk 73 blir her styrt av den psykoakustiske modell betegnet som den "oppfatningsmessige modell" 72 i figur 7.
Som allerede indikert er utgangssignalet fra blokk 74 et grunnskalerende lag som krever forholdsvis få bit, men imidlertid bare er en representasjon med tap av det opprinnelige audiosignal og kan omfatte koderunaturligheter. Blokkene 75, 76, 77 og 78 representerer tilleggselementene som er nødvendige for å fremstille en utvidelsesbitstrøm som er tapsfri eller tilsynelatende tapsfri, slik det er indikert i figur 7. I særdeleshet er det opprinnelige audiosignal gjenstand for et heltalls- (engelsk: integer) MDCT (IntMDCT) ved utgangen 70 slik det er illustrert ved blokk 75. Videre er de kvantiserte spektralverdier, fremstilt av blokk 73, i hvilke kodertapene allerede er innført, gjenstand for en invers kvantisering og for en etterfølgende avrunding for å oppnå avrundede spektralverdier. Disse blir tilført en forskjellsdanner 77, for å danne en spektralverdimessig forskjell som så er gjenstand for en entropikoding i blokk 78 for å fremstille en tapsfri forbedringsbitstrøm av skaleringsplanen i figur 7. Et spektrum av forskjellsverdier (engelsk: differential values) ved utgangen av blokk 77 representerer dermed forstyrrelsen innført av den psykoakustiske kvantisering i blokk 73.
På dekodersiden blir den med tap kodede bitstrøm eller den oppfattelsesmessig kodede bitstrøm tilført en bitstrømdekoder 81. På utgangssiden sørger blokk 81 for en sekvens av blokker av kvantiserte spektralverdier som så er gjenstand for en invers kvantisering i en blokk 82. Ved utgangen av blokk 82 blir dermed invers kvantiserte spektralverdier tilstede, som nå i motsetning til verdiene ved inngangen av blokk 82 ikke representerer kvantisererindekser lenger, men som nå er så å si "korrekte" spektralverdier som imidlertid er forskjellige fra spektralverdiene forut for kodingen i blokk 73 fra figur 7 på grunn av kvantiseringen med tap. Disse kvantiserte spektralverdier blir nå tilført henholdsvis en syntesefilterbank eller en invers MDCT-transformasjon (invers MDCT), i blokk 83 for å oppnå et psykoakustisk kodet og igjen dekodet audiosignal (oppfattelsesmessig audio) som er forskjellig fra det opprinnelige audiosignalet ved inngang 70 fra figur 7 på grunn av kodingsfeilene innført av koderen fra figur 7. For ikke bare å oppnå en med tap, men til og med en tapsfri kompresjon blir audiosignalet fra blokk 82 tilført en avrunding i en blokk 84. I en adderer 85 blir nå de avrundede, inverskvantiserte spektralverdier lagt til forskjellsverdiene som ble fremstilt av forskjellsdanneren 77, hvor det i en blokk 86 blir utført en entropidekoding for å dekode entropikodeordene omfattet av utvidelsesbitstrømmen omfattende henholdsvis den tapsfrie eller den tilsynelatende tapsfrie informasjon.
Ved utgangen av blokk 85, er dermed IntMDCT-spektralverdier dermed til stede som i det optimale tilfelle er identisk med MDCT-spektralverdiene ved utgangen av blokk 75 av koderen fra figur 7. De samme blir så gjenstand for en invers heltalls-MDCT (invers IntMDCT), for å oppnå et kodet, tapsfritt audiosignal eller et tilsynelatende tapsfritt audiosignal (tapsfri audio) ved utgangen av blokk 87.
Heltalls-MDCT-en (IntMDCT) er en tilnærmelse til MDCT-en, som imidlertid fremstiller heltalls utgangsverdier. Den er utledet fra MDCT-en ved å bruke fremgangsmåten med løfting. Denne virker i særdeleshet når MDCT-en er delt i såkalte Givens rotasjoner. Da førerer en totrinns algoritme med Givens rotasjoner og en etterfølgende DCT-IV til heltalls-MDCT-en på kodersiden og med et nedstrøms antall av Givens rotasjoner på dekodersiden. I planen fra figur 7 og 8 er dermed det kvantiserte MDCT-spektrum fremstilt i AAC-koderen brukt for å forutsi heltalls-MDCT-spekteret. Generelt er derfor heltalls-MDCT-en dermed et eksempel på en heltallstransformering for å fremstille heltalls spektralverdier og igjen tidsprøver fra de heltalls spektralverdier uten at tap blir innført fra avrundingsfeil. Andre heltallstransformasjoner finnes ved siden av heltalls-MDCT.
Skaleringsplanen indikert i figur 7 og 8 er bare tilstrekkelig effektiv når forskjellene ved utgangen av forskjellsdanneren 77 er små. I den illustrerte plan i figur 7 er dette tilfelle fordi henholdsvis MDCT-en og heltalls-MDCT-en likner hverandre og fordi IntMDCT-en i blokk 75 er avledet fra MDCT-en i blokk 71. Hvis dette ikke var tilfelle, ville ikke planen illustrert der være hensiktsmessig, fordi forskjellsverdiene i mange tilfeller ville være større enn de opprinnelige MDCT verdier, eller til og med større enn de opprinnelige IntMDCT-verdier. Da har skaleringsplanen i figur 7 tapt dens verdi fordi utvidelsesskaleringslaget gitt ut fra blokk 78 har en høy overflødighet med hensyn til grunnskaleringslaget.
Skalerbarhetsplaner er alltid optimale når grunnlaget omfatter et antall av bit og når utvidelseslaget omfatter et antall av bit og når summen av bitene i grunnlaget og i utvidelseslaget er lik et antall av bit som ville vært oppnådd hvis grunnlaget allerede var en tapsfri koding. Dette optimale tilfelle blir aldri oppnådd i praktiske skalerbarhetsplaner fordi at for utvidelseslaget blir tilleggssignaleringsbit krevet. Det siktes imidlertid mot dette optimum så langt som mulig. Fordi transformasjonene i blokkene 71 og 75 er forholdsvis liknende i figur 7, er konseptet illustrert i figur 7 nær optimalt.
Dette enkle skalerbarhetskonsept kan imidlertid ikke bli slik benyttet på utgangssignalet fra en MP3-koder fordi MP3-koderen, slik det ble illustrert omfatter ingen ren MDCT-filterbank som en filterbank, men hybridfilterbanken med et første filterbanktrinn for å fremstille forskjellige delbåndsignaler og en nedstrøms MDCT for ytterligere å bryte ned delbåndsignalene, der det i tillegg, som også er indikert i MP3-standarden er realisert et aliasing-kansellerende tilleggstrinn av hybridfilterbanken er realisert. Fordi heltalls-MDCT-en i blokk 75 av figur 7 har små likheter med hybridfilterbanken ifølge MP3-standarden, ville en direkte anvendelse av oppsettet vist i figur 7 for et MP3 utgangssignal føre til veldig høye forskjellsverdier ved utgangen av forskjellsdanneren 77, som fører til et uhyre ineffektiv skalerbarhetsoppsett, fordi utvidelseslaget krever alt for mange bit for rimelig å kode forskjellsverdiene ved utgangen av forskjellsdanneren 77.
En mulighet for å fremstille utvidelsesbitstrømmen for et MP3-utgangssignal er illustrert i figur 9 for koderen og i figur 10 for dekoderen. En MP3-koder 90 koder et audiosignal og gjør tilgjengelig et grunnlag 91 på utgangssiden. Det MP3-kodede audiosignal blir så tilført en MP3 dekoder 92 som gjør et audiosignal med tap tilgjengelig i tidsområdet. Dette signal blir så tilført en IntMDCT-blokk som i prinsipp kan være satt opp akkurat som blokk 75 i figur 7, hvor denne blokk 75 så gjør IntMDCT-spektralverdier tilgjengelige på utgangssiden, som blir tilført en forskjellsdanner 77, som også omfatter IntMDCT-spektralverdier mens ytterligere inngangsverdier, som imidlertid ikke ble fremstilt fra det MP3-dekodede audiosignal, men av det opprinnelige audiosignal som ble tilført MP3-koderen 90.
På dekodersiden blir grunnlaget igjen tilført en MP3-dekoder 92 for å gjøre tilgjengelig et med tap dekodet audiosignal ved en utgang 100, som ville korrespondere med signalet ved utgangen av blokk 83 fra figur 8. Dette signal ville så måtte bli gjenstand for en heltalls-MDCT 75 for så å bli kodet sammen med utvidelseslaget 93 som ble fremstilt ved utgangen av forskjellsdanneren 77. Det tapsfrie spektrum ville så være tilgjengelig ved en utgang 101 av addereren 102 og ville bare måtte bli omformet ved hjelp av en invers-IntMDCT 103 til tidsområdet for å oppnå et tapsfrimessig dekodet audiosignal som ville korrespondere med den "tapsfrie audio" ved begynnelsen av blokk 87 fra figur 8.
Oppsettet illustrert i figur 9 og i figur 10, som sørger for et forholdsvis effektivt kodet utvidelseslag akkurat som oppsettet illustrert i figur 7 og 8, er dyrt både på henholdsvis kodersiden (figur 9) og også på dekodersiden (figur 10). I motsetning til oppsettet i figur 7 er en komplett MP3-dekoder 92 og en IntMDCT 75 i tillegg krevet.
En annen ulempe i denne fremgangsmåten er at en bit-nøyaktig MP3-dekoder måtte blitt definert. Det er imidlertid ikke hensikten fordi MP3-standarden ikke representerer en bit-nøyaktig spesifikasjon, men bare trenger å bli oppfylt innenfor omfanget av en "likeformethet" av en dekoder.
På dekodersiden er videre et komplett IntMDCT-trinn 75 i tillegg krevet. Begge tilleggselementer forårsaker beregningsmessig administrasjon og er ufordelaktig i særdeleshet for bruk i mobile innretninger både med hensyn til kretsforbruk og også strømforbruk og også med hensyn til den forbundne forsinkelse.
Sammenfattet er fordelene av oppsettet illustrert i figur 7 og 8 at sammenliknet med metoder i tidsdomene er ingen komplett dekoding av de audiotilpassede, kodede signaler krevet, og at en effektiv koding blir oppnådd ved en representasjon av kvantiseringsfeilene i frekvensområdet som skal bli kodet i tillegg. Derfor bruker fremgangsmåten standardisert av ISO/IEC MPEG-4 skalerbar, tapsfri koding (engelsk: Scalable Lossless Coding) (SLS) denne fremgangsmåte, som beskrevet i R. Geiger, R. Yu, J. Herre, S. Rahardja, S. Kim, X. Lin og M. Schmidt: "ISO/IEC MPEG-4 High-Definition Scalable Advanced Audio Coding", 120. AES møte, 20. – 23. mai, 2006, Paris, France, forhåndstrykk 6791. Dermed blir en bakoverkompatibel tapsfri utvidelse av audiokodingsmetoder, for eksempel MPEG-2/4 AAC, oppnådd som benytter MDCT som en filterbank.
Denne fremgangsmåte trenger imidlertid ikke bli benyttet direkte for den alminnelig brukte metode MPEG-1/2 lag 3 (MP3), fordi hybridfilterbanken brukt i denne metode, i motsetning til MDCT-en ikke er kompatibel med IntMDCT-en eller en annen heltallstransformasjon. Derfor fører ikke en forskjellsdannelse mellom de dekodede spektralverdier og de tilsvarende IntMDCT-verdier generelt til små forskjellsverdier og dermed ikke til en effektiv koding av forskjellsverdiene. Kjernen av problemet her er tidsforskyvningene mellom de korresponderende modulasjonsfunksjoner av IntMDCT-en og MP3-hybridfilterbanken. Dette fører til faseskift som i ufordelaktige tilfeller til og med fører til det faktum at forskjellsverdiene omfatter høyere verdier enn IntMDCT-verdiene. Også en anvendelse av prinsippene som ligger til grunn for IntMDCT-en, som for eksempel den løftende fremgangsmåte, er problematisk for hybridfilterbanken av MP3, for med hensyn til dens grunnleggende fremgangsmåte er i motsetning til MDCT, hybridfilterbanken en filterbank som ikke sørger for noen perfekt rekonstruksjon.
WO 2004/013839 A1 fremlegger et filterbankoppsett til genereringen av en kompleks spektral representasjon av et tidsdiskret signal. Filterbankoppsettet omfatter en anordning for å generere en temporær serie med reale spektrale koeffisienter. Serien er innmating inn i en anordning for etterbehandling av den temporære serien av blokker av reale spektrale koeffisienter for å gi en tilnærmet kompleks spektral representasjon med serielle blokker. Et komplekst tilnærmet spektral koeffisient kan være representert gjennom en første partiell spektral koeffisient og en annen partiell spektral koeffisient, hvor i det minste enten den første eller den andre partielle spektrale koeffisienten bestemmes av en kombinasjon av minst to reale spektrale koeffisienter.
Sammendrag av oppfinnelsen
Det er målet med foreliggende oppfinnelse å tilveiebringe et effektivt konsept for prosessering av audiodata og da spesielt for å kode eller dekode audiodata.
Dette målet oppnås med en anordning for etterbehandling av spektralverdier ifølge krav 1, en koder ifølge krav 17, en dekoder ifølge krav 22 eller en fremgangsmåte ifølge krav 23, 24, 25 eller et datamaskinprogram ifølge krav 26.
Foreliggende oppfinnelse er basert på erkjennelsen, at spektralverdier, eksempelvis som representerer basislaget av et skaleringsprinsipp, det vil si. f.eks. Mp3 spektralverdier, blir underkastes etterbehandling, for å skaffe tilveie verdier derfra som er kompatible med tilsvarende verdier skaffet til veie i henhold til en alternativ transformasjonsalgoritme. I henhold til oppfinnelsen utføres derfor en slik etterbehandling ved å bruke vektede tillegg av spektralverdier slik at resultatet av etterbehandlingen er så lik som mulig som et resultat som oppnås når det samme lydsignal ikke blir omformet til en spektral fremstilling ved å bruke den første transformasjonsalgoritmen men ved å bruke den andre transformasjonsalgoritmen, som er, i foretrukne utførelsesformer av foreliggende oppfinnelse, en heltalls transformasjonsalgoritme.
Det har dermed blitt funnet at selv med en sterkt uforenlig, første transformasjonsalgoritme og en andre transformasjonsalgoritme, blir ved en vektet summering av visse spektralverdier fra den første transformasjonsalgoritme, en forenlighet av de etterbehandlede verdier med resultatet av den andre transformasjon oppnådd som er så god at et effektivt utvidelseslag kan bli formet med forskjellsverdier uten at den dyre og dermed ufordelaktige kodingen og dekodingen fra oppsettet i figur 9 og figur 10 blir nødvendig. I særdeleshet blir den vektede summering utført slik at en etterbehandlet spektralverdi blir fremstilt fra en vektet summering av en spektralverdi og en tilliggende spektralverdi ved utgangen av den første transformasjonsalgoritme, hvor helst begge spektralverdier fra tilliggende frekvensområder og også spektralverdier fra henholdsvis tilliggende tidsblokker eller tidsperioder blir benyttet. Ved den vektede summering av tilliggende spektralverdier blir det tatt i betraktning at i den første transformasjonsalgoritme overlapper tilliggende filtre av en filterbank, som det er tilfellet tilsynelatende med alle filterbanker. Ved bruken av tidsmessig tilliggende spektralverdier, det vil si ved den vektede summering av spektralverdier (for eksempel av den samme eller bare litt forskjellig frekvens) av to blokker i rekkefølge av spektralverdier fra den første transformasjon, blir det videre tatt i betraktning at typiske transformasjonsalgoritmer blir brukt i hvilke en blokkoverlapping blir benyttet.
Helst blir vektingsfaktorene permanent programmert både på kodersiden og også på dekodersiden, slik at ingen tilleggsbit er nødvendige for å overføre vektingsfaktorer. Isteden blir vektingsfaktorene satt én gang og for eksempel lagret som en tabell eller fast realisert i hardvare, fordi vektingsfaktorene ikke er signalavhengige men bare avhengig av den første transformasjonsalgoritme og av den andre transformasjonsalgoritme. I særdeleshet er det foretrukket å sette vektingsfaktorene slik at en impulsrespons av konstruksjonen av første transformasjonsalgoritme og etterbehandlingen er lik en impulsrespons av den andre transformasjonsalgoritme. Med dette hensyn kan en optimalisering av de vektende faktorer bli benyttet manuelt eller datamaskinassistert ved bruk av kjente optimaliseringsmetoder, for eksempel ved bruk av visse representative prøvesignaler, eller som indikert, direkte å bruke impulsresponsene av de resulterende filtre.
Den samme etterbehandlende innretning kan bli benyttet både på kodersiden og også på dekodersiden for å tilpasse virkelige, uforenlige spektralverdier av den første transformasjonsalgoritme til spektralverdier av den andre transformasjonsalgoritmen slik at begge blokker av spektralverdier kan bli gjenstand for en forskjellsdannelse for til slutt å gjøre tilgjengelig et utvidelseslager for et audiosignal som for eksempel er et MP3-kodet signal i grunnlaget og omfatter den tapsfrie utvidelse som utvidelseslaget.
Det skal bemerkes at den foreliggende oppfinnelse ikke er begrenset til kombinasjonen av MP3 og heltalls-MDCT, men at den foreliggende oppfinnelse er brukbar alle steder, når spektralverdier av virkelige, uforenlige transformasjonsalgoritmer skal bli behandlet sammen, for eksempel i den hensikt å danne en forskjell, en summering eller hvilken som helst annen kombinasjonsoperasjon i en audiokoder eller en audiodekoder. Den foretrukne bruk av den oppfinneriske etterbehandlende innretning er imidlertid å gjøre tilgjengelig et utvidelseslag for et grunnlag i hvilket et audiosignal blir kodet med en viss kvalitet, hvori utvidelseslaget sammen med grunnlaget virker for å oppnå en høyere kvalitets dekoding, hvor denne høyere kvalitets dekoding helst allerede er en tapsfri dekoding, men imidlertid også kan være en tilsynelatende tapsfri dekoding, så lenge som kvaliteten av det dekodede audiosignal er forbedret ved å bruke utvidelseslaget sammenliknet med dekodingen ved å bruke bare grunnlaget.
Kort beskrivelse av tegningene
I det følgende blir foretrukne utførelser av den foreliggende oppfinnelse forklart mer i detalj med referanse til de medfølgende tegninger, i hvilke:
figur 1 viser en oppfinnerisk innretning for å etterbehandle spektralverdier,
figur 2 viser en koderside av et oppfinnerisk koderoppsett,
figur 3 viser en dekoderside av et oppfinnerisk dekoderoppsett,
figur 4 viser en detaljert illustrasjon av en foretrukken utførelse av den oppfinneriske etterbehandling og forskjellsdannelse for lange blokker,
figur 5a viser en foretrukken realisering av den oppfinneriske innretning for etterbehandling for korte blokker ifølge en første variant,
figur 5b viser en skjematisk illustrasjon av blokker av verdier som hører sammen for oppsettet vist i figur 5a,
figur 5c viser en sekvens av vinduer for varianten vist i figur 5a,
figur 6a viser en foretrukken realisering av den oppfinneriske innretning for etterbehandling og forskjellsdannelse for korte blokker ifølge en andre variant av den foreliggende oppfinnelse,
figur 6b viser en illustrasjon av diverse verdier for varianten illustrert i figur 6a, figur 6c viser en blokkinndeling for varianten illustrert i figur 6a,
figur 7 viser en tidligere koderillustrasjon for å fremstille en skalert datastrøm, figur 8 viser en tidligere dekoderillustrasjon for å behandle en skalert datastrøm, figur 9 viser en ineffektiv kodervariant, og
figur 10 viser en ineffektiv dekodervariant.
Beskrivelse av de foretrukne utførelser
Figur 1 viser en oppfinnerisk innretning for å etterbehandle spektralverdier som helst er en representasjon med tap av et audiosignal, hvor spektralverdiene har en underliggende første transformasjonsalgoritme for å omforme audiosignalet til en spektral representasjon uavhengig av det faktum om de er med eller uten tap. Den oppfinneriske innretning illustrert i figur 1 eller fremgangsmåten også skjematisk illustrert i figur 1, atskiller seg henholdsvis, i forhold til innretningen ved et middel 12 for å gjøre tilgjengelig en sekvens av blokker av spektralverdier for å representere en sekvens av blokker av prøver av audiosignalet. I en foretrukken utførelse av den foreliggende oppfinnelse som vil bli illustrert senere, er sekvensen av blokker gjort tilgjengelig av middel 12 en sekvens av blokker fremstilt av en MP3-filterbank. Sekvensen av blokker av spektralverdier blir tilført en oppfinnerisk kombinerer 13, hvor kombinereren er realisert for å utføre en vektet summering av spektralverdier av sekvensen av blokker av spektralverdier, for på utgangssiden å oppnå en sekvens av blokker av etterbehandlede spektralverdier, slik det er illustrert ved utgang 14. I særdeleshet er kombinereren 13 realisert for bruk for å beregne en etterbehandlet spektralverdi for et frekvensbånd og en tidsperiode, en spektralverdi av sekvensen av blokker for frekvensbåndet og tidsperioden og en spektralverdi for et tilliggende frekvensbånd og/eller en tilliggende tidsperiode. Videre er kombinereren realisert for å bruke slike vektingsfaktorer for å vekte de brukte spektralverdier, at de etterbehandlede spektralverdier blir en tilnærmelse til spektralverdier oppnådd ved en andre transformasjonsalgoritme for å omforme audiosignalet til en spektral representasjon hvor den andre transformasjonsalgoritme imidlertid er forskjellig fra den første transformasjonsalgoritme.
Dette er illustrert av den skjematiske illustrasjon ved bunnen i figur 1. En første transformasjonsalgoritme er representert ved et referansetall 16. Etterbehandlingen, slik de blir utført av kombinereren er representert ved referansetallet 13, og den andre transformasjonsalgoritmen er representert ved et referansetall 17. Av blokkene 16, 13 og 17 er blokkene 16 og 17 faste og typisk obligatoriske på grunn av ytre betingelser. Bare vektingsfaktorene av henholdsvis etterbehandlingsmidlene 13 eller kombinatoren 13, representert ved referansetall 18, kan bli satt av brukeren. I denne forbindelse er dette imidlertid ikke signalavhengig men avhengig av den første transformasjonsalgoritme og den andre transformasjonsalgoritme. Ved vektingsfaktorene 18 kan det videre bli satt hvor mange tilliggende spektralverdier med hensyn til frekvens eller tilliggende spektralverdier i tid som blir kombinert med hverandre. Hvis en vektingsfaktor, som senere vil bli forklart med referanse til figur 4 til 6, blir satt til null, blir spektralverdien forbundet med denne vektingsfaktor ikke tatt i betraktning ved kombinasjonen.
I foretrukne utførelser av den foreliggende oppfinnelse blir for hver spektralverdi et sett av vektingsfaktorer gjort tilgjengelig. Dette fører til en betydelig mengde av vektingsfaktorer. Dette er imidlertid uproblematisk fordi vektingsfaktorene ikke trenger å bli overført, men bare trenger å bli permanent programmert på kodersiden og dekodersiden. Hvis koderen og dekoderen dermed er enige om det samme sett av vektingsfaktorer for hver spektralverdi, og ved anvendelighet for hver tidsperiode, eller som det vil bli illustrert i det følgende, for henholdsvis hver delblokk eller posisjon i rekkefølgen trenger ingen signalering bli benyttet for den foreliggende oppfinnelse, slik at det oppfinneriske oppsett oppnår en betydelig reduksjon av datahastigheten i utvidelseslaget uten noen signalering av tilleggsinformasjon, uten noen medfølgende kvalitetstap.
Den foreliggende oppfinnelse gjør dermed tilgjengelig en kompensasjon for faseskiftene mellom frekvensverdier slik de blir oppnådd ved den første transformasjonsalgoritme og frekvensverdier slik de blir oppnådd ved den andre transformasjonsalgoritme, hvor denne kompensering av faseskiftene kan bli presentert gjennom en kompleks, spektral representasjon. For dette formål er oppsettet beskrevet i DE 10 234 130 tatt med for enkelhets skyld, i hvilken for å beregne imaginære deler fra utgangsverdier fra realfilterbank lineære kombinasjoner av tidsmessig eller spektralmessig tilliggende spektralverdier blir oppnådd. Hvis denne prosedyre ble brukt for dekodede MP3 spektralverdier, ville en kompleksverdi, spektral representasjon bli oppnådd. Hver av de resulterende komplekse spektralverdier kan nå bli modifisert i dens fasestilling ved en multiplikasjon med en kompleksverdi korreksjonsfaktor slik at den ifølge den foreliggende oppfinnelse kommer så nær den andre transformasjonsalgoritmen som mulig, det vil si helst den korresponderende IntMDCT verdi, og blir dermed hensiktsmessig for en forskjellsdannelse. Ifølge oppfinnelsen blir videre også en mulig nødvendig amplitydekorreksjon utført. Ifølge oppfinnelsen blir disse skritt for dannelsen av den kompleksverdi, spektrale representasjon og henholdsvis fase- eller sumkorreksjonen summert slik at ved den lineære kombinasjon av spektralverdier på grunnlag av den første transformasjonsalgoritmen og dens tidsmessige og dens spektrale naboer blir en ny spektralverdi dannet som minimerer forskjellen til den korresponderende IntMDCT-verdi. Ifølge oppfinnelsen blir i motsetning til i DE 10234 130 en etterbehandling av utgangsverdier fra filterbank ikke utført ved å bruke vektende faktorer for å oppnå reelle og imaginære deler. Ifølge oppfinnelsen blir isteden en etterbehandling utført ved bruk av slike vektende faktorer at, som det ble illustrert i ved bunnen i figur 1, en kombinasjon av den første transformasjonsalgoritme 16 og etterbehandlingen 13 blir satt av vektingsfaktorene slik at resultatet korresponderer med en andre transformasjonsalgoritme, så langt som mulig.
Figur 2 og 3 viser et foretrukket bruksområde for det oppfinneriske oppsett illustrert i figur 1, både på kodersiden (figur 2) og også på dekodersiden (figur 3) av en skalerbar koder. Henholdsvis en MP3-bitstrøm 20 eller generelt en bitstrøm, slik den kan bli oppnådd fra en første transformasjonsalgoritme, blir matet til en blokk 21 for å fremstille spektralverdiene fra bitstrømmen som er for eksempel MP3-spektralverdier. Dekodingen av spektralverdiene i blokk 21 vil dermed typisk omfatte en entropidekoding og en invers kvantisering.
Så i blokk 10 blir en beregning av tilnærmingsverdier utført, hvor beregningen av henholdsvis tilnærmingsverdier eller av blokker av etterbehandlede, spektralverdier blir utført som det ble illustrert il figur 1. Deretter blir en forskjellsdannelse utført i en blokk 22 ved å bruke IntMDCT spektralverdier slik de blir oppnådd ved en IntMDCT-omforming i en blokk 23. Blokk 23 oppnår dermed et audiosignal som et inngangssignal fra hvilket MP3-bitstrømmen, slik den blir matet inn til inngangen 20, ble oppnådd ved koding. Helst blir de differensielle spektre slik de blir oppnådd ved blokk 22 gjenstand for en tapsfri koding 24 som for eksempel omfatter en deltakoding, en Huffman-koding, en aritmetisk koding eller hvilken som helst annen entropikoding ved hvilken datahastigheten blir redusert, men ingen tap blir innført i signalet.
På dekodersiden blir MP3-bitstrømmen 20, slik den også ble matet inn til inngangen 20 fra figur 2, igjen gjenstand for en dekoding av spektralverdiene ved en blokk 21, som kan korrespondere med blokk 21 fra figur 2. Derpå blir MP3-spektralverdiene oppnådd ved utgangen av blokk 21 igjen behandlet ifølge figur 1 eller blokk 10. På dekodersiden blir imidlertid blokkene av etterbehandlede spektralverdier, når de kommer ut fra blokk 10, tilført et addisjonstrinn 30 som oppnår IntMDCT-forskjellsverdier ved dets andre inngang, fordi disse blir oppnådd ved en tapsfri dekoding 31 fra den tapsfri utvidelsesbitstrøm som bli gitt ut av blokk 24 i figur 2. Ved summeringen av IntMDCT forskjellsverdiene gitt ut av blokk 31 og de behandlede spektralverdier gitt ut av blokk 10, blir så ved en utgang 32 av summeringstrinnet 30, blokker av IntMDCT spektralverdier oppnådd som er en tapsfri representasjon av det opprinnelige audiosignal, det vil si av audiosignalet som ble gitt inn til blokk 23 fra figur 2. Det tapsfrie audioutgangssignal blir så fremstilt av en blokk 33 som utfører en invers IntMDCT for å oppnå et tapsfritt eller tilsynelatende tapsfritt audioutgangssignal. Generelt sagt har audioutgangssignalet ved utgangen av blokk 33 en bedre kvalitet enn audiosignalet som ville blitt oppnådd hvis utgangssignalet av blokk 21 ble behandlet med en MP3-syntesehybridfilterbank. Avhengig av realiseringen kan audioutgangssignalet ved utgang 33 derfor være en identisk gjengivelse av audiosignalet som bli gitt inn til blokk 23 fra figur 2, eller en representasjon av dette audiosignal, som ikke er identisk, det vil si ikke helt tapsfritt som imidlertid allerede har en bedre kvalitet enn et normalt MP3-kodet audiosignal.
Ved dette punkt skal det bemerkes at som en første transformasjonsalgoritme er MP3-transformasjonsalgoritmen med dens hybridfilterbank foretrukket, og som en andre transformasjonsalgoritme er IntMDCT-algoritmen som en heltallstransformasjonsalgoritme foretrukket. Den foreliggende oppfinnelse er imidlertid allerede fordelaktig alle steder hvor to transformasjonsalgoritmer er forskjellige fra hverandre, hvor begge transformasjonsalgoritmer ikke nødvendigvis trenger å være heltallstransformasjonsalgoritmer innenfor omfanget av IntMDCT-transformasjonen, men også kan være normale transformasjonsalgoritmer som er innenfor omfanget av en MDCT, ikke nødvendigvis en inverterbar heltallstransformasjon. Ifølge oppfinnelsen er det imidlertid foretrukket at den første transformasjonsalgoritme er en ikke-heltalls transformasjonsalgoritme og at den andre transformasjonsalgoritme er en heltallstransformasjonsalgoritme, hvor den oppfinneriske etterbehandling i særdeleshet er fordelaktig når den første transformasjonsalgoritmen gjør tilgjengelig spektre som sammenliknet med spektrene gjort tilgjengelige av den andre transformasjonsalgoritme er faseskiftet og/eller endret med hensyn til deres størrelser. I særdeleshet når den første transformasjonsalgoritmen ikke engang rekonstruerer perfekt, er den oppfinneriske, enkle etterbehandling ved en lineær kombinasjon spesielt fordelaktig og kan bli benyttet effektivt.
Figur 4 viser en foretrukket realisering av kombinereren 13 innenfor en koder. Realiseringen innenfor en dekoder er imidlertid identisk, hvis addereren 22 ikke som i figur 4 utfører en forskjellsdannelse, slik det er illustrert ved minustegn over addereren 22, men når en addisjonsoperasjon blir utført, slik det er illustrert i blokk 30 fra figur 3. I hvert tilfelle blir verdiene som blir matet inn til en inngang 40 verdier slik de er oppnådd av den andre transformasjonsalgoritme 23 fra figur 2 for koderrealiseringen eller slik de blir oppnådd av blokk 31 fra figur 3 i dekoderrealiseringen.
I en foretrukket utførelse av den foreliggende oppfinnelse omfatter kombinereren tre seksjoner 41, 42 og 43. Hver seksjon omfatter tre multiplikatorer 42a, 42b og 42c, hvor hver multiplikator er forbundet med en spektralverdi med en frekvensindeks k-1, k eller k+1. Dermed blir multiplikatoren 42a forbundet med frekvensindeksen k-1. Multiplikatoren 42b blir forbundet med frekvensindeksen k og multiplikatoren 42c blir forbundet med frekvensindeksen k+1.
Hver gren tjener dermed for å vekte spektralverdier fra en løpende blokk med blokkindeksen v eller henholdsvis n+1, n eller n-1, for å oppnå vektede spektralverdier for den løpende blokk.
Dermed tjener den andre seksjon 42 for vektende, spektralverdier av en tidsmessig forutgående blokk eller en tidsmessig etterfølgende blokk. Med hensyn til seksjon 41, tjener seksjon 42 for vektende spektralverdier av blokken n som tidsmessig følger blokken n+1, og seksjon 43 tjener for å vekte blokken n-1 som tidsmessig følger blokk n. For å indikere dette er forsinkelseselementer 44 indikert i figur 4. For oppklarings skyld er bare ett forsinkelseselement "z<-1>" tilordnet ved referansetallet 44.
I særdeleshet er hver multiplikator forsynt med en spektral, indeksavhengig vektingsfaktor c0(k) til c8(k). Dette forårsaker i den foretrukne utførelse av den foreliggende oppfinnelse ni vektede spektralverdier, fra hvilke en etterbehandlet spektralverdi ŷ blir beregnet fra frekvensindeksen k og tidsblokken n. Disse ni vektede spektralverdier blir summert opp en blokk 45.
Den etterbehandlede spektralverdi for frekvensindeksen k og tidsindeksen n blir dermed beregnet ved addisjonen av muligens forskjellig vektede spektralverdier av den tidsmessig forutgående blokk (n-1) og den tidsmessig påfølgende blokk (n+1) og å bruke henholdsvis oppover (k+1) og nedover (k-1) tilliggende spektralverdier. Enklere realiseringer kan imidlertid være bare at en spektralverdi for frekvensindeksen k blir kombinert bare med én tilliggende spektralverdi k+1 eller k-1 fra den samme blokk, hvor denne spektralverdi som er kombinert med spektralverdien av frekvensindeksen k ikke nødvendigvis trenger å være direkte tilliggende, men kan også være en annen spektralverdi fra blokken. På grunn av den typiske overlapping av tilliggende bånd blir det imidlertid foretrukket å utføre en kombinasjon med den direkte tilliggende spektralverdi mot toppen og/eller mot bunnen.
Videre kan, alternativt eller i tillegg, hver spektralverdi med en spektralverdi for en annen tidsvarighet, det vil si en annen blokkindeks, bli kombinert med den korresponderende spektralverdi fra blokk n, hvor denne spektralverdi fra en annen blokk ikke nødvendigvis trenger ha den samme frekvensindeks, men kan ha en annen for eksempel tilliggende frekvensindeks. Helst blir imidlertid spektralverdien med den samme frekvensindeks fra en annen blokk kombinert med spektralverdien fra den løpende betraktede blokk. Denne andre blokk igjen trenger ikke nødvendigvis være den ene direkte tidsmessig tilliggende, selv om dette er spesielt å foretrekke når den første transformasjonsalgoritme og/eller den andre transformasjonsalgoritme har en blokkoverlappingskarakteristikk, som er det typiske for MP3-kodere eller AAC-kodere.
Dette betyr at når vektingsfaktorene fra figur 4 blir betraktet, er i det minste vektingsfaktoren c4(k) er ulik 0, og at minst en andre vektingsfaktor er ulik 0, mens alle andre vektingsfaktorer også kan være lik 0, som også allerede kan sørge for en behandling som på grunn av det lave antall av vektingsfaktorer ulike 0 imidlertid kan være bare en forholdsvis grov tilnærmelse av den andre transformasjonsalgoritme, hvis den nedre halvdel av figur 1 blir betraktet igjen. For å vurdere flere enn ni spektralverdier, kan ytterligere grener for blokker videre i fremtiden eller videre i fortiden bli lagt til. Videre kan også ytterligere multiplikatorer og ytterligere korresponderende vektingsfaktorer for spektralverdier som spektralt ligger lengre fra bli lagt til, for å fremstille et felt fra 3 x 3-feltet fra figur 4, som omfatter flere enn tre linjer og/eller flere enn tre kolonner. Det har imidlertid blitt funnet at når ni vektingsfaktorer er tillatt for hver spektralverdi, sammenliknet med et lavere antall av vektingsfaktorer, blir betydelige fordeler oppnådd, mens når antallet av vektingsfaktorer blir øket blir ingen ytterligere betydelige forbedringer oppnådd angående avtakende forskjellsverdier ved utgangene av blokk 22, slik at et større antall av vektingsfaktorer ved typiske transformasjonsalgoritmer med en overlapping av tilliggende delbåndfiltre og en tidsmessig overlapping av tilliggende blokker bringer ingen betydelige forbedringer.
I betraktning av de 50 % overlapping brukt i sekvensen av lange blokker, refereres det til den skjematiske illustrasjon fra figur 5c ved 45 til venstre i figuren, hvor to lange blokker i rekkefølge er skjematisk illustrert. Kombinereroppsettet illustrert i figur 4 er derfor alltid brukt ifølge oppfinnelsen, når en sekvens av lange blokker blir brukt, hvor blokklengden av IntMDCT-algoritmen 23 og graden av overlapping av IntMDCT-algoritmen er satt lik graden av overlapping av MP3-analysefilteret og blokklengden av MP3-analysefilteret. Generelt blir det foretrukket at blokkoverlappingen og blokklengden av begge transformasjonsalgoritmer blir satt likt, hvilket ikke fremsetter noen spesielle begrensninger, fordi den andre transformasjonsalgoritme, det vil for eksempel si IntMDCT-en 23 fra figur 2 lett kan bli satt med hensyn til disse parametre, mens det samme er ikke lett mulig med den første transformasjonsalgoritmen, i særdeleshet når den første transformasjonsalgoritme er standardisert, som med hensyn til eksemplet om MP3, og er ofte brukt og kan derfor ikke bli endret.
Som det allerede ble illustrert med referanse til figur 2 og 3, tilbakefører den forbundne dekoder i figur 3 forskjellsdannelsen igjen ved en addisjon av de samme tilnærmelsesverdier, det vil si at IntMDCT-forskjellsverdiene ved utgangen av blokk 22 fra figur 2 eller ved utgangen av blokk 31 fra figur 3.
Ifølge oppfinnelsen kan denne fremgangsmåte dermed generelt bli benyttet for forskjellsdannelsen mellom spektrale representasjoner oppnådd ved å bruke forskjellige filterbanker, det vil si når én filterbank/transformasjon som ligger til grunn for den første transformasjonsalgoritme er forskjellig fra en filterbank/transformasjon som ligger til grunn for den andre transformasjonsalgoritme.
Ett eksempel på den konkrete anvendelse er bruken av MP3-spektralverdiene fra "lang blokk" i forbindelse med en IntMDCT, slik den ble beskrevet med referanse til figur 4. Fordi frekvensoppløsningen av hybridfilterbanken i dette tilfelle er 576, vil IntMDCT-en også omfatte en frekvensoppløsning på 576, slik at vinduslengden kan omfatte et maksimum av 1152 tidsprøver.
I eksempelet beskrevet i det følgende blir bar de direkte tidsmessige og spektrale naboer brukt, mens i det generelle tilfelle kan også (eller alternativt) verdier som er lengre fra bli brukt.
Hvis spektralverdien av det k-te bånd i den n-te MP3-blokk er betegnet med x(k, n) og den korresponderende spektralverdi av IntMDCT-en er betegnet med y(k, n), blir forskjellen beregnet som illustrert i figur 4 for d(k, n). ŷ(k, n) er den tilnærmede verdi for y(k, n) oppnådd ved den lineære kombinasjon, og blir avgjort som det er illustrert ved den lange likning under figur 4.
Det skal her bemerkes at på grunn av de forskjellige faseforskjeller for hver av de 576 delbånd kan et klart definert sett av koeffisienter være påkrevet. I den praktiske realisering, som det er illustrert i figur 4, blir forsinkelser 44 brukt for tilgang til tidsmessig tilliggende spektralverdier, deres respektive utgangsverdier korresponderer med inngangsverdier i en korresponderende, forutgående blokk. For å muliggjøre en tilgang til spektralverdier i tidsmessig rekkefølge, dermed blir også IntMDCT-spektralverdiene slik de blir tilført inngangen 40 forsinket av en forsinkelse 46.
Figur 5a viser en noe modifisert prosedyre når MP3-hybridfilterbanken gjør tilgjengelig korte blokker hvor tre underblokker henholdsvis blir fremstilt fra 192 spektralverdier, hvor det ved siden av den første variant av figur 5a også er en andre variant i figur 6a er foretrukket ifølge oppfinnelsen.
Den første variant er basert på en trippelanvendelse av en IntMDCT med en frekvensoppløsning på 192 for å danne korresponderende blokker av spektralverdier. Her kan tilnærmelsesverdiene være dannet fra de tre verdier som hører til en frekvensindeks og deres korresponderende spektrale naboer. For hver delblokk er her et klart definert sett av koeffisienter krevet. For å beskrive prosedyren er derfor en delblokkindeks u innført slik at n igjen korresponderer med indeksen av en komplett blokk av lengden 576. Uttrykt som en likning fører systemet til likninger fra figur 5a. En slik sekvens av blokker er illustrert i figur 5b med referanse til verdiene og i figur 5c med referanse til vinduene. MP3-koderen frembringer korte MP3-blokker, slik de er illustrert ved 50. Den første variant frembringer også korte IntMDCT-blokker y(u0), y(u1) og y(u2), slik det er illustrert ved 51 i figur 5b. Ved dette kan tre korte differensielle blokker 52 bli beregnet slik at en 1:1 representasjon blir resultatet mellom en korresponderende spektralverdi ved frekvensen k i blokkene 50, 51 og 52.
I motsetning til figur 4 skal det bemerkes at i figur 5a er forsinkelsene 44 ikke indikert. Dette kommer av det faktum at etterbehandlingen bare kan bli utført når alle tre delblokker 0, 1 og 2 for en blokk n har blitt beregnet. Hvis delblokken med indeks 0 er den tidsmessig første delblokk, og hvis den neste delblokk med indeksen 1 er den tidsmessig senere blokk, og hvis indeksen u = 2 igjen er den tidsmessig senere, korte blokk, så blir forskjellsblokken for indeks u = 0 beregnet ved å bruke spektralverdier fra delblokken u0, delblokken u1og delblokken u2. Dette betyr at bare med referanse til den løpende beregnede delblokk med indeksen 0 blir fremtidige delblokker 1 og 2 benyttet, men ingen spektralverdier fra fortiden. Dette er fornuftig fordi en veksling til korte blokker ble utført fordi det var et transient resultat i audiosignalet, fordi dette er kjent og for eksempel illustrert i den over nevnte eksperts publikasjon av Edler. Etterbehandlingsverdiene for delblokken med indeksen 1, brukt for å oppnå forskjellsverdiene med delblokkindeksen 1, blir imidlertid beregnet fra en tidsmessig forutgående, fra en tidsmessig løpende og fra en tidsmessig etterfølgende delblokk, mens de etterbehandlede spektralverdier for den tredje delblokk med indeksen 2 ikke blir beregnet ved å bruke fremtidige delblokker, men bare ved å bruke tidligere delblokker med indeksen 1 og indeksen 0, som også er teknisk fornuftig, igjen så lenge som indikert i figur 5c, en vindusveksling til lange vinduer lett kan initieres av et stopp-vindu, slik at senere igjen en endring direkte til fremgangsmåten for lang blokk fra figur 4 kan bli utført.
Figur 5 gjør det derfor klart at i særdeleshet med korte blokker, men også generelt, kan det være fornuftig å se bare inn i fortiden eller inn i fremtiden og ikke alltid, som indikert i figur 4, både inn i fortiden og også inn i fremtiden for å oppnå spektralverdier som gjør tilgjengelig en etterbehandlet spektralverdi etter en vekting og en summering.
Under henvisning til figur 6a, 6b, og 6c blir i det følgende den andre variant for korte blokker illustrert. I den andre variant er frekvensoppløsningen av IntMDCT-en stadig 576, slik at tre spektralt tilliggende IntMDCT-spektralverdier hver ligger i frekvensområdet av én MP3-spektralverdi. For hver av disse tre IntMDCT spektralverdier blir derfor for en forskjellsdannelse en klart definert lineær kombinasjon dannet fra de tre tidsmessig i rekkefølge delblokkspektralverdier og deres spektrale naboer, hvor indeksen s som også blir referert til som en rekkefølgeindeks nå indikerer posisjonen innen hver gruppe av tre. Dette fører til likningen som den er illustrert i figur 6a under blokkdiagrammet. Denne andre variant er spesielt hensiktsmessig hvis en vindusfunksjon med et lite overlappingsområde blir benyttet i IntMDCT-en, fordi da korresponderer den betraktede signalseksjon godt med den av de tre delblokker. I dette tilfellet, som med den første variant er det foretrukket å tilpasse vindusformene av IntMDCT-en av henholdsvis forutgående eller etterfølgende lange blokker slik at det fører til en perfekt rekonstruksjon. Et korresponderende blokkdiagram for den første variant er illustrert i figur 5c. Et korresponderende diagram for den andre variant er illustrert i figur 6c, hvor nå bare én enkelt lang IntMDCT-blokk blir fremstilt av det lange vindu 63, hvor denne lange IntMDCT-blokk nå omfatter k trippelblokker av spektralverdier, hvor båndbredden av slik en trippelblokk som er resultatet av s = 0, s = 1 og s = 2 er lik båndbredden av en blokk k av de korte MP3-blokker 60 i figur 6b. Fra figur 6a kan det bli sett at for en subtraksjon fra den første spektralverdi med s = 0 for en trippelblokk med indeksen k er igjen verdiene av den løpende, den fremtidige og den neste fremtidige delblokk 0, 1 og 2 brukt, imidlertid blir ingen verdier fra fortiden brukt. For å beregne en forskjellsverdi for den andre verdi s = 1 av en trippelgruppe, blir imidlertid spektralverdier fra den forutgående delblokk og den fremtidige delblokk brukt, mens for å beregne en forskjellsmessig spektralverdi med ordensindeksen s = 2, blir bare forutgående delblokker brukt, slik det er illustrert ved grener 41 og 42 som er i fortiden i forhold til gren 43 i figur 6a.
Ved dette punkt skal det bemerkes at med alle beregningsregler utelates hvert av uttrykkene som overstiger grensene for frekvensområdet, det vil for eksempel si at frekvensindeksene -1 eller henholdsvis 576 eller 192 blir utelatt. I disse tilfeller i det generelle eksempel i figur 4 til 6 blir den lineære kombinasjon derfor redusert til 6 istedenfor 9 uttrykk.
I det følgende blir detaljert referanse gjort til vindussekvensene i figur 5c og 6c. Vindussekvensene omfatter en sekvens av lange blokker, slik de blir behandlet av fremgangsmåten i figur 4. Derpå følger et startvindu 56 med en asymmetrisk form, fordi det er "omformet" fra et langt overlappende område ved begynnelsen av startvinduet til et kort overlappende område ved enden av startvinduet. Tilsvarende dette finnes et stoppvindu 57 som igjen er omformet fra en sekvens av korte blokker til en sekvens av lange blokker, og dermed omfatter et kort overlappende område ved begynnelsen og et langt overlappende område ved enden.
En vindusveksler blir, som den er illustrert i den nevnte eksperts publikasjon av Edler, valgt hvis en tidsvarighet som omfatter et transient signal i audiosignalet blir detektert av en koder.
Slik en signalering blir lokalisert i MP3-bitstrømmen, slik at når IntMDCT-en ifølge figur 2 og ifølge den første variant av figur 5c også veksler til korte blokker er ingen klart definert transient deteksjon nødvendig, men en transient deteksjon basert bare på et varsel angående kort vindu i MP3-bitstrømmen finner sted. For etterbehandlingen av verdier i startvinduet er det foretrukket, på grunn av det lange overlappende området med det forutgående vindu, å bruke blokker med den forutgående blokkindeks n-1, mens blokker med den påfølgende blokkindeks blir bare lett vektet eller generelt ikke benyttet på grunn av det korte overlappende område.
Tilsvarende dette vil stoppvinduet for etterbehandling bare ta i betraktning verdier med en fremtidig blokkindeks n+1 til tillegg til verdier for den løpende blokk n, men vil bare utføre svak vekting eller en vekting lik null, det vil si ingen bruk fra fortiden, det vil for eksempel si fra den tredje korte blokk.
Når som vist i figur 6c, sekvensen av vinduer som den er realisert av IntMDCT-en 23, det vil si den andre transformasjonsalgoritme, ikke utfører noen veksling til korte vinduer, men realiserer den helst brukte vindusveksling, så er det foretrukket henholdsvis å initiere eller å terminere vinduet med den korte overlapping, betegnet i figur 6c med 63, også av et startvindu 56 og av et stoppvindu 57.
Selv om IntMDCT-en fra figur 2 i utførelsen illustrert i figur 6c ikke endrer til kortvindumodus kan signaleringen av korte vinduer i MP3-bitstrømmen allikevel bli benyttet for å aktivere vindusveksleren med et startvindu, et vindu med kort overlapping slik det er indikert i figur 6c ved 63 og et stoppvindu.
Videre skal det bemerkes at i særdeleshet vindussekvensene illustrert i AAC-standarden tilpasset for henholdsvis MP3-blokklengden eller MP3-matingen på 576 verdier for lange blokker og 192 verdier for korte blokker, og i særdeleshet også startvinduet og stoppvinduet illustrert der, er spesielt hensiktsmessige for en realisering av IntMDCT-en i blokk 23 av den foreliggende oppfinnelse.
I det følgende blir henvisning gjort til nøyaktigheten av tilnærmelsen av første transformasjonsalgoritme og etterbehandling.
For 576 inngangssignaler med deres respektive ene impuls ved posisjonen 0, …, 575 innenfor en blokk ble de følgende trinn utført:
- å beregne hybridfilterbanken og tilnærmelsen
- å beregne MDCT-en,
- å beregne summen av kvadrater av MDCT-spektralkomponentene,
- å beregne summen av kvadrater av avvikene mellom MDCT-spektralkomponenter og tilnærmelsen. Her blir det maksimale kvadratavvik over alle 576 signaler avgjort.
Det maksimale relative kvadratavvik over alle posisjoner ble under bruk av - lange blokker omtrent 3,3 %,
- korte blokker (hybrid) og lange blokker (MDCT) ifølge figur 6, omtrent 20,6 %.
Man kan derfor si at med en impuls ved inngangene av de to transformasjoner skulle summen av kvadrater av avvikene mellom tilnærmingen og de spektrale komponenter av den andre transformasjonen ikke være mer enn 30 % (og helst ikke en gang med enn henholdsvis 25 % eller 10 %) av summen av kvadrater av spektralkomponentene av den andre transformasjonen, uavhengig av posisjonen av impulsen i inngangsblokken. For å beregne summen av kvadrater skulle alle blokker av spektralkomponenter som er påvirket av impulsen bli tatt i betraktning.
Det skal bemerkes at inspeksjonen av feil over (MDCT mot hybridfilterbank etterbehandling) ble alltid den relative feil betraktet som er signaluavhengig.
I IntMDCT-en (mot MDCT) er imidlertid den absolutte feil signaluavhengig og ligger i et område rundt -2 til 2 fra den avrundede heltallsverdi. Fra denne er resultatet av den relative feil blir signalavhengig. For å eliminere denne signalavhengighet blir helst en fullt kontrollert impuls antatt (for eksempel verdien 32767 ved 16 bit PCM).
Dette vil så resultere i et tilsynelatende flatt spektrum med en gjennomsnittlig
amplityde på omtrent (energibevaring). Den midlere kvadratfeil ville så bli omtrent 2<2>/1365<2>= 0,0002 %, det vil si neglisjerbar.
Med en veldig lav impuls ved inngangen kunne feilen imidlertid være alvorlig. En impuls av amplityde 1 eller 2 ville tilsynelatende bli helt borte i IntMDCT-tilnærmelsesfeilen.
Feilkriteriet av nøyaktigheten av tilnærmelsen, det vil si den ønskede verdi for vektingsfaktorene blir derfor best sammenliknbare når det er indikert for en fullt kontrollert impuls.
Utførelsesform av oppfinnelsen omfatte en koder for å kode et lydsignal, som omfatter: en anordning 10 for etterbehandling av spektralverdier basert på en første transformasjonsalgoritme 16 for å konvertere et audiosignal til en spektral representasjon, som omfatter: et middel 12 for å tilveiebringe en sekvens med blokker med spektralverdiene som representerer en sekvens med blokker med sampler av audiosignalet; og en kombinerer 13 for på en vektet måte å addere spektralverdier av sekvensen med blokker med spektralverdier for å oppnå en sekvens med blokker med etterbehandlete spektralverdier, hvor kombinereren 13 er implementert til å benytte, for beregningen av en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet, en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten, og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet, og hvor kombinereren 13 er implementert til å benytte slike vektfaktorer når på en vektet måte å addere, at de etterbehandlete spektralverdier er en approksimering til spektralverdier som de er fremskaffet gjennom en andre transformasjonsalgoritme 17 for å omforme audiosignalet til en spektral representasjon, idet den andre transformasjonsalgoritmen 17 er ulik den første transformasjonsalgoritmen 16, hvor koderen videre omfatter et middel 23 for å beregne en sekvens med blokker med spektralverdier i henhold til den andre transformasjonsalgoritmen 17 fra audiosignalet; og et middel 22 for en differansedannelse etter spektralverdien mellom sekvensen med blokker på grunn av den andre transformasjonsalgoritmen og sekvensen med blokker med etterbehandlete spektralverdier.
En utførelsesform av koderen omfatter videre: et middel 24 for å generere en utvidelsesbitstrøm på grunnlag av et resultat generert med middelet 22 for en differansedannelse etter spektralverdien.
I en utførelsesform av koderen omfatter midlene 24 for generering en entropikoder.
I en utførelsesform av koderen baseres sekvensen med blokker på grunnlag av den første transformasjonsalgoritmen 16 på en tapsbefengt komprimering, og hvor sekvensen med blokker på grunnlag av den andre transformasjonsalgoritmen 17 er basert på en tapsfri eller praktisk talt tapsfri komprimering.
En utførelsesform av koderen omfatter et minne for å lagre vektfaktorene hvor vektfaktorene kan lagres uavhengig av et signal.
I en utførelsesform av koderen er midlene 23 for å generere sekvensen med blokker ved å bruke den andre transformasjonsalgoritmen 17 implementert til å utføre en vinduisering med en vindusekvens som avhenger på en vindusekvens som sekvensen med blokker med spektralverdiene er basert på som gis på grunnlag av den første transformasjonsalgoritmen 16.
I en utførelsesform av koderen, er midlene 23 for å tilveiebringe en sekvens med blokker ved å bruke den andre transformasjonsalgoritmen 17 implementert til å svitsje fra et langt vindu med et langt overlappingsområde til et langt vindu med et kort overlappingsområde eller til flere korte vinduer, når i sekvensen med blokker med spektralverdiene på grunnlag av den første transformasjonsalgoritmen 16 en veksel til korte vinduer finner sted.
Utførelsesform av oppfinnelsen omfatter en dekoder for å dekode et kodet audiosignal, som omfatter: en anordning 10 for etterbehandling av spektralverdier basert på en første transformasjonsalgoritme 16 for å konvertere et audiosignal til en spektral representasjon, som omfatter: et middel 12 for å tilveiebringe en sekvens med blokker med spektralverdiene som representerer en sekvens med blokker med sampler av audiosignalet; og en kombinerer 13 for på en vektet måte å addere spektralverdier av sekvensen med blokker med spektralverdier for å oppnå en sekvens med blokker med etterbehandlete spektralverdier, hvor kombinereren 13 er implementert til å benytte, for beregningen av en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet, en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten, og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet, og hvor kombinereren 13 er implementert til å benytte slike vektfaktorer når på en vektet måte å addere, at de etterbehandlete spektralverdier er en approksimering til spektralverdier som de er fremskaffet gjennom en andre transformasjonsalgoritme 17 for å omforme audiosignalet til en spektral representasjon, idet den andre transformasjonsalgoritmen 17 er ulik den første transformasjonsalgoritmen 16; hvor dekoderen videre omfatter et middel 31 for å tilveiebringe spektralverdi-messig differensielle verdier mellom en sekvens med blokker med etterbehandlete spektralverdier på grunnlag av den første transformasjonsalgoritmen 16 og en sekvens med blokker på grunnlag av den andre transformasjonsalgoritmen 17; et middel 30 for å kombinere sekvensen med blokker med de etterbehandlete spektralverdier og de differensielle verdiene for å fremskaffe en sekvens med blokker med kombinasjonsspektralverdier; og et middel 33 for invers å transformere sekvensen med blokker med kombinasjonsspektralverdier i henhold til den andre transformasjonsalgoritmen 17 for å fremskaffe et dekodet audiosignal.
Utførelsesformer videre omfatter en fremgangsmåte for å kode et lydsignal, som omfatter følgende trinn: å etterbehandle spektralverdier som er basert på en første transformasjonsalgoritme 16 for å konvertere et audiosignal til en spektral representasjon, som omfatter følgende trinn: å tilveiebringe 12 en sekvens med blokker med spektralverdiene som representerer en sekvens med blokker med sampler av audiosignalet; og på en vektet måte å addere 13 med spektralverdier av sekvensen med blokker med spektralverdier for å skaffe tilveie en sekvens av blokker med etterbehandlete spektralverdier, hvor for å beregne en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet brukes, og hvor slike vektfaktorer brukes når på en vektet måte å legge til slik at de etterbehandlete spektralverdier er en approksimering til spektralverdier slik de fremskaffes med en annen transformasjonsalgoritme 17 for å omforme audiosignalet til en spektral representasjon, idet den andre transformasjonsalgoritmen 17 er ulik den første transformasjonsalgoritmen 16; hvor fremgangsmåten videre omfatter å beregne 23 en sekvens med blokker med spektralverdier i henhold til den andre transformasjonsalgoritmen 17 fra audiosignalet; og differansedannelse etter spektralverdien 22 mellom sekvensen med blokker med spektralverdier på grunnlag av den andre transformasjonsalgoritmen og sekvensen med blokker med etterbehandlete spektralverdier.
Utførelsesformer videre omfatter en fremgangsmåte for dekoding av et kodet audiosignal, som omfatter følgende trinn: å etterbehandle spektralverdier som er basert på en første transformasjonsalgoritme 16 for å konvertere et audiosignal til en spektral representasjon, som omfatter følgende trinn: å tilveiebringe 12 en sekvens med blokker med spektralverdiene som representerer en sekvens med blokker med sampler av audiosignalet; og på en vektet måte å tilføye 13 med spektralverdier av sekvensen med blokker med spektralverdier for å skaffe tilveie en sekvens av blokker med etterbehandlete spektralverdier, hvor for å beregne en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet brukes, og hvor slike vektfaktorer brukes når på en vektet måte å legge til slik at de etterbehandlete spektralverdier er en approksimering til spektralverdier slik de fremskaffes med en annen transformasjonsalgoritme 17 for å omforme audiosignalet til en spektral representasjon, idet den andre transformasjonsalgoritmen 17 er ulik den første transformasjonsalgoritmen; idet fremgangsmåten for dekoding videre omfatter å tilveiebringe 31 av spektralverdimessig differensielle verdier mellom en sekvens med blokker med etterbehandlete spektralverdier på grunnlag av den første transformasjonsalgoritmen 16 og en sekvens med blokker med spektralverdier på grunnlag av den andre transformasjonsalgoritmen 17; å kombinere 30 sekvensen med blokker med de etterbehandlete spektralverdier og de differensielle verdiene for å skaffe tilveie en sekvens med blokker med kombinasjonsspektralverdier; og invers å transformere 33 sekvensen med blokker med kombinasjonsspektralverdier i henhold til den andre transformasjonsalgoritmen 17 for å fremskaffe et dekodet audiosignal.
Avhengig av omstendighetene kan den oppfinneriske fremgangsmåte bli realisert i hardvare eller i programvare. Realiseringen kan finne sted på et digitalt lagringsmedium, i særdeleshet en diskett eller en CD med elektronisk lesbare styresignaler, som kan samarbeide med et programmerbart datamaskinsystem slik at fremgangsmåten blir utført. Generelt omfatter oppfinnelsen derfor også et datamaskinprogramprodukt med en programkode lagret på en maskinlesbar bærer for å utføre den oppfinneriske fremgangsmåte når datamaskinprogrammet kjører på en datamaskin. Med andre ord kan oppfinnelsen dermed bli realisert som et datamaskinprogram med en programkode for å utføre fremgangsmåten når datamaskinprogrammet kjører på en datamaskin.

Claims (22)

  1. Patentkrav
    1 Anordning (10) for etterbehandling av spektralverdier basert på en første transformasjonsalgoritme (16) for å konvertere et audiosignal til en spektral representasjon, som omfatter:
    ● et middel (12) for å tilveiebringe en sekvens med blokker med spektralverdiene som representerer en sekvens med blokker med sampler av audiosignalet; og
    ● en kombinerer (13) for på en vektet måte å addere spektralverdier av sekvensen med blokker med spektralverdier for å oppnå en sekvens med blokker med etterbehandlete spektralverdier, hvor kombinereren (13) er implementert til å benytte, for beregningen av en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet, en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten, og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet, og hvor kombinereren (13) er implementert til å benytte slike vektfaktorer når den tilføyer på en vektet måte, at de etterbehandlete spektralverdiene er en approksimering til spektralverdier som de er fremskaffet gjennom en andre transformasjonsalgoritme (17) for å omforme audiosignalet til en spektral representasjon,
    karakterisert ved at den andre transformasjonsalgoritmen (17) er ulik den første transformasjonsalgoritmen (16), og at den første transformasjonsalgoritmen (16) og den andre transformasjonsalgoritmen (17) er slik at de tilveiebringer reale utmatingssignaler.
  2. 2 Anordningen i henhold til krav 1, hvor den første transformasjonsalgoritmen (16) er en hybrid transformasjonsalgoritme som har to trinn, og den andre transformasjonsalgoritmen (17) er en ett-trinns transformasjonsalgoritme.
  3. 3 Anordning ifølge krav 1, hvor den første transformasjonsalgoritmen (16) omfatter en polyfasefilterbank og en modifisert diskret cosinus-transformasjon, og hvor den andre transformasjonsalgoritmen (17) er en heltalls MDCT.
  4. 4 Anordning ifølge krav 1, hvor kombinereren (13) er implementert til å benytte slike vektfaktorer at den første transformasjonsalgoritmen (16) og en etterbehandling utført av kombinereren (13) sammen tilveiebringer en impulsrespons som approksimerer en impulsrespons av den andre transformasjonsalgoritmen (17).
  5. 5 Anordning ifølge krav 4, hvor i en approksimering fra den første transformasjonsalgoritmen og etterbehandling, vektfaktorene velges slike at det med en impuls ved inngangen av de to transformasjonene kvadratsummen av deviasjonene mellom approksimeringen og de spektrale komponentene av den andre transformasjonen er ikke mer enn 30 % av kvadratsummen av de spektrale komponentene av den andre transformasjonen.
  6. 6 Anordning ifølge krav 1, hvor midlene (12) for å tilveiebringe en sekvens med blokker er implementert for å tilveiebringe blokker som er en tapsbefengt representasjon av audiosignalet.
  7. 7 Anordning ifølge krav 1, hvor kombinereren (13) for en beregning av en etterbehandlet spektralverdi for et frekvensbånd k omfatter:
    ● et første avsnitt (41, 42, 43) for vektende spektralverdier av en aktuell blokk for frekvensbåndet k, et frekvensbånd k-1 eller et frekvensbånd k+1, for å fremskaffe vektede spektralverdier for den aktuelle blokken;
    ● et andre avsnitt (41, 42, 43) for vektende spektralverdier av en tidsmessig forutgående blokk k-1 eller tidsmessig etterfølgende blokk k+1, for å fremskaffe vektede spektralverdier for den tidsmessig forutgående blokk eller den tidsmessig etterfølgende blokk; og
    ● et middel (45) for å tilføye de vektede spektralverdier for å fremskaffe en etterbehandlet spektralverdi for frekvensbåndet k av en aktuell eller forutgående eller etterfølgende blokk av etterbehandlete spektralverdier.
  8. 8 Anordning ifølge krav 7, som videre omfatter et tredje avsnitt (43) for vektende spektralverdier av en forutgående blokk, hvor det første avsnitt er implementert til å vekte spektralverdier av en etterfølgende blokk, og hvor det andre avsnitt (42) er implementert til å vekte spektralverdier av en aktuell blokk, og hvor summereren (45) er implementert til å tilføye vektede spektralverdier av de tre avsnitt for å fremskaffe en etterbehandlet spektralverdi for den aktuelle blokken av etterbehandlete spektralverdier.
  9. 9 Anordning ifølge krav 1, hvor den første transformasjonsalgoritmen omfatter en blokkoverlappfunksjon, hvor blokker med sampler av tidsaudiosignalet, som sekvensen med blokker med spektralverdier er basert på, overlapper.
  10. 10 Anordning ifølge krav 1, hvor kombinereren (13) er implementert til å benytte et signaluavhengig sett med vektfaktorer for hver spektralverdi.
  11. 11 Anordning ifølge krav 1,
    ● hvor sekvensen med blokker med spektralverdiene omfatter et sett med blokker med spektralverdier som er kortere enn en lang blokk med spektralverdier som følger etter settet med blokker eller som står foran settet med blokker, og
    ● hvor kombinereren (13) er implementert til å benytte samme frekvensbånd eller et tilstøtende frekvensbånd ut fra flere blokker fra settet med korte blokker for å beregne en etterbehandlet spektralverdi for settet med blokker med spektralverdier.
  12. 12 Anordning ifølge krav 11, hvor kombinereren (13) er implementert til å benytte kun spektralverdier av korte blokker og ingen spektralverdi av en forutgående lang blokk eller en etterfølgende lang blokk for å beregne etterbehandlete spektralverdier på grunn av korte blokker med spektralverdier.
  13. 13 Anordning ifølge krav 1, hvor kombinereren (13) er implementert til å implementere følgende ligning:
    yˆ (k,n) = c0(k)x(k-1,n-1)+c1(k)x(k-1,n)+c2(k)x(k-1,n+1)
    c3(k)x(k,n-1)+c4(k)x(k,n)+c5(k)x(k,n+1)
    c6(k)x(k+1,n-1)+c7(k)x(k+1,n)+c8(k)x(k+1,n+1)
    hvor yˆ (k,n) er en etterbehandlet spektralverdi for en frekvensindeks k og en tidsindeks n, hvor x(k,n) er en spektralverdi av en blokk med spektralverdier med en frekvensindeks k og en tidsindeks n, hvor c0(k), …, c8(k) er vektfaktorer, tilknyttet frekvensindeksen k, hvor k-1 er en dekrementert frekvensindeks, hvor k+1 er en inkrementert frekvensindeks, hvor n-1 er en dekrementert tidsindeks og hvor n+1 er en inkrementert tidsindeks.
  14. 14 Anordning ifølge krav 1, hvor kombinereren (13) er implementert til å implementere følgende ligning:
    yˆ (k,n,u) = c0(k,u)x(k-1,n,0)c1(k,u)x(k-1,n,1)+c2(k,u)x(k-1,n,2)
    c3(k,u)x(k,n,0)+c4(k,u)x(k,n,1)+c5(k,u)x(k,n,2)
    c6(k,u)x(k+1,n,0)+c7(k,u)x(k+1,n,1)+c8(k,u)x(k+1,n,2)
    hvor yˆ (k,n,u) er en etterbehandlet spektralverdi for en frekvensindeks k og en tidsindeks n og en delblokkindeks u, hvor x(k,n,u) er en spektralverdi av en blokk med spektralverdier med en frekvensindeks k og en tidsindeks n og en delblokkindeks u, hvor c0(k), …, c8(k) er vektfaktorer tilknyttet frekvensindeksen k, hvor k-1 er en dekrementert frekvensindeks, hvor k+1 er en inkrementert frekvensindeks, hvor n-1 er en dekrementert tidsindeks og hvor n+1 er en inkrementert tidsindeks, hvor u er en delblokkindeks som angir en posisjon av en delblokk i en sekvens med delblokker, og hvor tidsindeksen spesifiserer en lang blokk og delblokkindeksen spesifiserer en forholdsvis kort blokk.
  15. 15 Anordning ifølge krav 1, hvor kombinereren (13) er implementert for å implementere følgende likning:
    yˆ (3k+s,n) = c0(k,s)x(k-1,n,0)+c1(k,s)x(k-1,n,1)+c2(k,s)x(k-1,n,2)
    c3(k,s)x(k,n,0)+c4(k,s)x(k,n,1)+c5(k,s)x(k,n,2)
    c6(k,s)x(k+1,n,0)+c1(k,s)x(k+1,n,1)+c8(k,s)x(k+1,n,2)
    hvor yˆ (k,n) er en etterbehandlet spektralverdi for en frekvensindeks k og en tidsindeks n, hvor x(k,n,u) er en spektralverdi av en blokk med spektralverdier med en frekvensindeks k og en tidsindeks n og en delblokkindeks u, hvor c0(k), …, c8(k) er vektfaktorer tilknyttet frekvensindeksen k, hvor k-1 er en dekrementert frekvensindeks, hvor k+1 er en inkrementert frekvensindeks, hvor n-1 er en dekrementert tidsindeks og hvor n+1 er en inkrementert tidsindeks, hvor s er en rekkefølgeindeks som angir en posisjon av en delblokk i en sekvens med delblokker, og hvor tidsindeksen spesifiserer en lang blokk og delblokkindeksen spesifiserer en forholdsvis kort blokk.
  16. 16 Dekoder for å dekode et kodet audiosignal eller en koder for å kode et audiosignal, som omfatter:
    ● en anordning for etterbehandling av spektralverdier basert på en første transformasjonsalgoritme (16) ifølge krav 1,
    ● hvor den første og den andre transformasjonsalgoritmen er inkompatibel med hverandre, idet apparatet for etterbehandling er konfigurert til å generere de etterbehandlete spektralverdiene slik at de etterbehandlete spektralverdiene er kompatibel med den andre transformasjonsalgoritmen; og
    ● hvor de etterbehandlete spektralverdiene og spektralverdiene skaffet til veie av den andre transformasjonsalgoritmen prosesseres sammen.
  17. 17 Dekoder for å dekode et kodet audiosignal ifølge krav 16, som omfatter:
    ● et middel (31) for å tilveiebringe spektralverdimessig differensielle verdier mellom en sekvens med blokker med de etterbehandlete spektralverdiene på grunnlag av den første transformasjonsalgoritmen (16) og en sekvens med blokker av de spektralverdiene på grunnlag av den andre transformasjonsalgoritmen (17);
    ● et middel (30) for å kombinere sekvensen med blokker med de etterbehandlete spektralverdiene og de differensielle verdiene for å fremskaffe en sekvens med blokker med kombinasjonsspektralverdier; og
    ● et middel (33) for invers å transformere sekvensen med blokker med kombinasjonsspektralverdier i henhold til den andre transformasjonsalgoritmen (17) for å fremskaffe et dekodet audiosignal.
  18. 18 Fremgangsmåte (10) for etterbehandling av spektralverdier som er basert på en første transformasjonsalgoritme (16) for å konvertere et audiosignal til en spektral representasjon, som omfatter følgende trinn:
    ● å tilveiebringe (12) en sekvens med blokker med spektralverdier som representerer en sekvens med blokker med sampler av audiosignalet; og
    ● på en vektet måte å addere (13) spektralverdier av sekvensen med blokker med spektralverdier for å skaffe tilveie en sekvens med blokker med etterbehandlete spektralverdier, hvor for å beregne en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet brukes, og hvor slike vektfaktorer brukes når en adderer på en vektet måte slik at de etterbehandlete spektralverdier er en approksimering til spektralverdier slik de fremskaffes med en annen transformasjonsalgoritme (17) for å omforme audiosignalet til en spektral representasjon,
    ● idet den andre transformasjonsalgoritmen (17) er ulik den første transformasjonsalgoritmen (16), og hvor den første transformasjonsalgoritmen (16) og den andre transformasjonsalgoritmen (17) er slik at de tilveiebringer reale utmatingssignaler.
  19. 19 Fremgangsmåte for å dekode et kodet audiosignal eller en fremgangsmåte for å kode et audiosignal, som omfatter følgende trinn:
    ● etterbehandling av spektralverdier basert på en første transformasjonsalgoritme (16) ifølge krav 18;
    ● hvor den første og den andre transformasjonsalgoritmen er inkompatibel med hverandre, idet apparatet for etterbehandling er konfigurert til å generere de etterbehandlete spektralverdiene slik at de etterbehandlete spektralverdiene er kompatible med den andre transformasjonsalgoritmen; og
    ● hvor de etterbehandlete spektralverdiene og spektralverdiene skaffet til veie av den andre transformasjonsalgoritmen prosesseres sammen.
  20. 20 Fremgangsmåte for dekoding ifølge krav 19, som videre omfatter følgende trinn:
    ● å tilveiebringe (31) spektralverdimessig differensielle verdier mellom en sekvens med blokker med de etterbehandlete spektralverdiene på grunnlag av den første transformasjonsalgoritmen (16) og en sekvens med blokker av de spektralverdiene på grunnlag av den andre transformasjonsalgoritmen (17);
    ● å kombinere (30) sekvensen med blokker med de etterbehandlete spektralverdiene og de differensielle verdiene for å skaffe tilveie en sekvens med blokker med kombinasjonsspektralverdier; og
    ● å invers-transformere (33) sekvensen med blokker med kombinasjonsspektralverdier i henhold til den andre transformasjonsalgoritmen (17) for å fremskaffe et dekodet audiosignal.
  21. 21 Datamaskinprogram med en programkode for å utføre fremgangsmåten ifølge krav 18 eller 20, når datamaskinprogrammet kjører på en datamaskin.
  22. 22 Et bitstrømutvidelseslag for å mate inn i en audiodekoder, hvor bitstrømutvidelseslaget omfatter en sekvens med blokker med differensielle verdier, hvor en blokk med differensielle verdier omfatter, spektralverdimessig, en differanse mellom en blokk med spektralverdier slik den er fremskaffet fra en andre transformasjonsalgoritme (17) og en blokk med etterbehandlete spektralverdier, hvor de etterbehandlete spektralverdiene genereres ved en vektet addering av spektralverdier av en sekvens med blokker, slik de er fremskaffet fra en første transformasjonsalgoritme (16), hvor for å beregne en etterbehandlet spektralverdi for et frekvensbånd og en tidsvarighet, en spektralverdi av sekvensen med blokker for frekvensbåndet og tidsvarigheten og en spektralverdi for et annet frekvensbånd eller en annen tidsvarighet brukes, og hvor for å kombinere vektfaktorer benyttes slik at de etterbehandlete spektralverdier representerer en approksimering til spektralverdier slik de fremskaffes av den andre transformasjonsalgoritmen (17), idet den andre transformasjonsalgoritmen (17) er ulik den første transformasjonsalgoritmen (16), og hvor den første transformasjonsalgoritmen (16) og den andre transformasjonsalgoritmen (17) er slik at de tilveiebringer reale
    utmatingssignaler.
NO20171179A 2006-11-02 2017-07-14 System og metode for etterbehandling av spektrale verdier, koder og dekoder for lydsignaler NO343261B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006051673A DE102006051673A1 (de) 2006-11-02 2006-11-02 Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
PCT/EP2007/008477 WO2008052627A1 (en) 2006-11-02 2007-09-28 Device and method for postprocessing spectral values and encoder and decoder for audio signals

Publications (2)

Publication Number Publication Date
NO20171179A1 NO20171179A1 (no) 2009-05-29
NO343261B1 true NO343261B1 (no) 2019-01-14

Family

ID=38962597

Family Applications (2)

Application Number Title Priority Date Filing Date
NO20092125A NO341615B1 (no) 2006-11-02 2009-05-29 Innretning og fremgangsmåte for etterbehandling av spektralverdier, samt koder og dekoder for audiosignaler
NO20171179A NO343261B1 (no) 2006-11-02 2017-07-14 System og metode for etterbehandling av spektrale verdier, koder og dekoder for lydsignaler

Family Applications Before (1)

Application Number Title Priority Date Filing Date
NO20092125A NO341615B1 (no) 2006-11-02 2009-05-29 Innretning og fremgangsmåte for etterbehandling av spektralverdier, samt koder og dekoder for audiosignaler

Country Status (22)

Country Link
US (1) US8321207B2 (no)
EP (2) EP1964111B1 (no)
JP (1) JP5301451B2 (no)
KR (1) KR101090541B1 (no)
CN (1) CN101553870B (no)
AT (1) ATE489703T1 (no)
AU (2) AU2007315373B2 (no)
BR (1) BRPI0716308B1 (no)
CA (1) CA2668056C (no)
DE (2) DE102006051673A1 (no)
ES (2) ES2354743T3 (no)
HK (1) HK1120328A1 (no)
IL (1) IL198192A (no)
MX (1) MX2009004639A (no)
MY (2) MY156427A (no)
NO (2) NO341615B1 (no)
PL (2) PL1964111T3 (no)
PT (1) PT2264699T (no)
RU (1) RU2423740C2 (no)
TR (1) TR201903942T4 (no)
TW (1) TWI350068B (no)
WO (1) WO2008052627A1 (no)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0718738B1 (pt) 2006-12-12 2023-05-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
EP2099027A1 (en) * 2008-03-05 2009-09-09 Deutsche Thomson OHG Method and apparatus for transforming between different filter bank domains
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
WO2012146757A1 (en) 2011-04-28 2012-11-01 Dolby International Ab Efficient content classification and loudness estimation
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
ES2634621T3 (es) 2013-02-20 2017-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para generar una señal de audio o imagen codificada o para descodificar una señal de audio o imagen codificada en presencia de transitorios utilizando una parte de superposición múltiple
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
CN105556601B (zh) 2013-08-23 2019-10-11 弗劳恩霍夫应用研究促进协会 用于使用交叠范围中的组合来处理音频信号的装置及方法
WO2015071173A1 (en) 2013-11-13 2015-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
WO2015189533A1 (en) * 2014-06-10 2015-12-17 Meridian Audio Limited Digital encapsulation of audio signals
CN117238300A (zh) * 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US10448053B2 (en) * 2016-02-15 2019-10-15 Qualcomm Incorporated Multi-pass non-separable transforms for video coding
US10390048B2 (en) 2016-02-15 2019-08-20 Qualcomm Incorporated Efficient transform coding using optimized compact multi-pass transforms
US10349085B2 (en) 2016-02-15 2019-07-09 Qualcomm Incorporated Efficient parameter storage for compact multi-pass transforms
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004013839A1 (de) * 2002-07-26 2004-02-12 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE59008047D1 (de) * 1989-03-06 1995-02-02 Bosch Gmbh Robert Verfahren zur Datenreduktion bei digitalen Tonsignalen und zur genäherten Rückgewinnung der digitalen Tonsignale.
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
EP0993733B1 (en) * 1998-04-09 2013-06-19 Koninklijke Philips Electronics N.V. Lossless encoding/decoding in a transmission system
EP1080462B1 (en) 1998-05-27 2005-02-02 Microsoft Corporation System and method for entropy encoding quantized transform coefficients of a signal
JP4263412B2 (ja) * 2002-01-29 2009-05-13 富士通株式会社 音声符号変換方法
JP4290917B2 (ja) * 2002-02-08 2009-07-08 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法、及び、符号化方法
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
JP4238535B2 (ja) * 2002-07-24 2009-03-18 日本電気株式会社 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
JP4292767B2 (ja) 2002-09-03 2009-07-08 ソニー株式会社 データレート変換方法及びデータレート変換装置
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
JP4849466B2 (ja) * 2003-10-10 2012-01-11 エージェンシー フォー サイエンス, テクノロジー アンド リサーチ デジタル信号をスケーラブルビットストリームにエンコードする方法、及びスケーラブルビットストリームをデコードする方法
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
JPWO2005106848A1 (ja) * 2004-04-30 2007-12-13 松下電器産業株式会社 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP1903559A1 (en) * 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
US20100114581A1 (en) * 2006-10-06 2010-05-06 Te Li Method for encoding, method for decoding, encoder, decoder and computer program products

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004013839A1 (de) * 2002-07-26 2004-02-12 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals

Also Published As

Publication number Publication date
EP2264699A3 (en) 2012-10-10
EP2264699A2 (en) 2010-12-22
ES2354743T3 (es) 2011-03-17
PL2264699T3 (pl) 2019-06-28
BRPI0716308A2 (pt) 2015-05-19
AU2007315373A8 (en) 2009-06-11
CA2668056C (en) 2014-07-29
KR20090085047A (ko) 2009-08-06
RU2009117571A (ru) 2010-12-10
US20100017213A1 (en) 2010-01-21
AU2007315373B2 (en) 2011-03-17
AU2011200509B2 (en) 2011-12-08
IL198192A (en) 2014-05-28
US8321207B2 (en) 2012-11-27
EP2264699B1 (en) 2018-12-19
TW200836492A (en) 2008-09-01
MY156427A (en) 2016-02-26
PT2264699T (pt) 2019-04-02
TWI350068B (en) 2011-10-01
CN101553870B (zh) 2012-07-18
MY181471A (en) 2020-12-22
ES2720871T3 (es) 2019-07-25
EP1964111A1 (en) 2008-09-03
BRPI0716308A8 (pt) 2019-01-15
RU2423740C2 (ru) 2011-07-10
CN101553870A (zh) 2009-10-07
NO20092125L (no) 2009-05-29
NO20171179A1 (no) 2009-05-29
JP5301451B2 (ja) 2013-09-25
KR101090541B1 (ko) 2011-12-08
DE102006051673A1 (de) 2008-05-15
AU2011200509A1 (en) 2011-03-03
DE602007010721D1 (de) 2011-01-05
ATE489703T1 (de) 2010-12-15
TR201903942T4 (tr) 2019-04-22
PL1964111T3 (pl) 2011-05-31
BRPI0716308B1 (pt) 2020-10-06
JP2010508550A (ja) 2010-03-18
AU2007315373A1 (en) 2008-05-08
MX2009004639A (es) 2009-06-26
CA2668056A1 (en) 2008-05-08
IL198192A0 (en) 2009-12-24
EP1964111B1 (en) 2010-11-24
WO2008052627A1 (en) 2008-05-08
NO341615B1 (no) 2017-12-11
HK1120328A1 (en) 2009-03-27

Similar Documents

Publication Publication Date Title
NO343261B1 (no) System og metode for etterbehandling av spektrale verdier, koder og dekoder for lydsignaler
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
JP4043476B2 (ja) スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置
AU733156B2 (en) Audio coding method and apparatus
JP4081447B2 (ja) 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
EP2947654B1 (en) Multi-channel audio coding using complex prediction and a transform length indicator
AU726762B2 (en) A method and a device for coding audio signals and a method and a device for decoding a bit stream
CA3093218C (en) Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
EP2101322B1 (en) Encoding device, decoding device, and method thereof
EP3779981B1 (en) Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
JP2011527446A (ja) エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
KR102392804B1 (ko) 인코딩된 다채널 신호를 광대역 필터에 의해 생성된 충전 신호를 사용하여 인코딩 또는 디코딩하는 장치