NO337395B1 - Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal - Google Patents

Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal Download PDF

Info

Publication number
NO337395B1
NO337395B1 NO20063722A NO20063722A NO337395B1 NO 337395 B1 NO337395 B1 NO 337395B1 NO 20063722 A NO20063722 A NO 20063722A NO 20063722 A NO20063722 A NO 20063722A NO 337395 B1 NO337395 B1 NO 337395B1
Authority
NO
Norway
Prior art keywords
channel
channels
original
signal
input
Prior art date
Application number
NO20063722A
Other languages
English (en)
Other versions
NO20063722L (no
Inventor
Jürgen Herre
Christof Faller
Original Assignee
Fraunhofer Ges Forschung
Agere Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=34750329&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=NO337395(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Ges Forschung, Agere Systems Inc filed Critical Fraunhofer Ges Forschung
Publication of NO20063722L publication Critical patent/NO20063722L/no
Publication of NO337395B1 publication Critical patent/NO337395B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Radio Relay Systems (AREA)
  • Logic Circuits (AREA)
  • Stereo-Broadcasting Methods (AREA)

Description

Fagfelt
Denne oppfinnelse angår en anordning og en fremgangsmåte for prosessering av et multikanals audiosignal, og spesielt en anordning og en fremgangsmåte for prosessering av et multikanals audiosignal på en måte som er stereo-kompatibel.
Bakgrunn
I den senere tid er multikanals audio-reproduksjonsteknikker blitt mer og mer viktig. Grunnen til dette kan være det faktum at audiokomprimerings-/audiokodings-teknikker slik som den velkjente mp3-teknikken har gjort det mulig å distribuere au-dioopptak via internett eller andre transmisjonskanaler med begrenset båndbredde. mp3-kodeteknikken har blitt så dominerende på grunn av det faktum at den tillater distribusjon av alle opptakene i et stereoformat, dvs. en digital representasjon av au-dioopptaket omfattende en første eller venstre stereokanal og en andre eller høyre stereokanal.
Ikke desto mindre er det grunnleggende ulemper knyttet til konvensjonelle, tokanals lydsystemer. Derfor er surround-teknikken blitt utviklet. En anbefalt multi-kanals surround-representasjon omfatter, i tillegg til de to stereokanalene L og R, en ytterligere senter-kanal C og to surround-kanaler Ls, Rs. Dette referanse-lydformatet refereres til også som tre/to-stereo, hvilket betyr tre front-kanaler og to surround-kanaler. Generelt vil fem transmisjonskanaler være påkrevd. I et avspillingsmiljø vil minst fem høyttalere på fem respektive, forskjellige være nødvendig for å oppnå en optimal lytteposisjon i en bestemt avstand fra de fem velplasserte høyttalere.
Flere teknikker er kjent på området for reduksjon av datamengden påkrevd for transmisjon av et multikanal audiosignal. Slike teknikker kalles felles stereoteknikker. I denne sammenheng refereres det til fig. 10, som viser en felles stereoinnretning 60. Denne innretningen kan være en innretning som implementerer f.eks. intensitetsstereo (IS) eller binaural oppkallingskoding (BCC). En slik innretning mottar generelt, som inngangsdata, minst to kanaler (CH1, CH2, ... CHn), og sender en enkelt bærekanal samt parametriske data. De parametriske data defineres slik at en tilnærming av en opprinnelig kanal (CH1, CH2,... CHn) kan beregnes i en dekoder.
Normalt vil bærekanal en omfatte underhånd-sampler, spektrale koeffisienter, tidsdomene-sampler etc, som vil tilveiebringe en forholdsvis fin representasjon av det underliggende signal, mens de parametriske data ikke omfatter slike sampler av sprekt-rale koeffisienter men omfatter styreparametere for styring av en bestemt rekonstruk-sjonsalgoritme slik som vekting ved multiplikasjon, tidsskifting, frekvensskifting, .... De parametriske data vil derfor bare omfatte en forholdsvis grov representasjon av signalet eller den tilsvarende kanal. I tall, vil datamengden påkrevd for en bærekanal være i området 60-70 kbit/s, mens datamengden påkrevd for parametrisk sideinformasjon for en kanal vil ligge i området 1,5-2,5 kbit/s. Eksempler på parametriske data er de velkjente skaleringsfaktorer, mtensitetsstereo-informasjon eller binaural oppkal-lingsparametere, som vil bli beskrevet nedenfor.
Intensitetsstereo-koding er beskrevet i AES fortrykk 3799, "Intensity Stereo Coding", J. Herre, K. H. Brandenburd, D. Lederer, februar 1994, Amsterdam. Intensitetsstereo-konseptet er generelt basert på en hovedakse-transformasjon som anvendes på data i begge de stereofoniske audiokanaler. Dersom mesteparten av datapunktene er konsentrert rundt den første hovedakse, kan det oppnås en kodingsgevinst ved å rotere begge signalene med en bestemt vinkel før kodingen. Dette er imidlertid ikke alltid riktig for faktiske stereofoniske produksjonsteknikker. Derfor modifiseres denne teknikken ved å ekskludere den andre ortogonale komponenten fra transmisjonen i bit-strømmen. De rekonstruerte signaler for de venstre og høyre kanaler består således av forskjellig vektede eller skalerte versjoner av det samme sendte signal. Ikke desto mindre vil de rekonstruerte signaler ha forskjellig amplitude men være identiske når det gjelder deres faseinformasjon. Energi-tid-forløpet for begge de opprinnelige audiokanaler er imidlertid bevart ved hjelp av den selektive skaleringsoperasjon, som typisk vil operere på en frekvensselektiv måte. Dette er i overensstemmelse med den menneskelige persepsjon av lyd med høye frekvenser, der de dominerende romlige oppkallinger bestemmes av energiforløpet.
I praktiske implementeringer vil i tillegg det sendte signal, dvs. bærekanalen bli generert ut i fra det adderte signal for den venstre kanal og den høyre kanal i stedet for ved rotasjon av begge komponenter. Videre utføres denne prosessen, dvs. genereringen av intensitetsstereoparametere for utføring av skaleringsoperasjonen, frekvens-selektivt, dvs. uavhengig for hvert av skaleringsfaktorbåndene, dvs. kodefrekvens-delt. Fortrinnsvis kombineres begge kanalene for å danne en kombinert eller "bære-" kanal, og i tillegg til den kombinerte kanal bestemmes intensitetsstereo-informasjonen som vil avhenge av energien i den første kanal, energien i den andre kanal eller energien i den kombinerte kanal.
BCC-teknikken er beskrevet i AES convention skriftet 5574, "Binaural cue coding appliedto stereo and multichannel audiocompression", C. Faller, F. Baumgarte, mai 2002, Munchen. Ved BCC-koding omformes et antall av audio inngangskanaler til en spektral representasjon ved å benytte en DFT-basert transformasjon med overlappende vinduer. Det resulterende, uniforme spektrum deles opp i ikke-overlappende deler som hver har en indeks. Hver del har en båndbredde som er proporsjonal med den ekvivalente rektangulære båndbredde (ERB). Interkanal-nivådifferansene (ICLD) og interkanal-tidsdifferansene (ICTD) estimeres for hver del og for hver pulje k. ICLD og ICTD kvantiseres og kodes og resultatet vil være en BCC-bitstrøm. Interkanal-nivådifferansene og interkanal-tidsdifferansene er gitt for hver kanal i forhold til en referansekanal. Parametrene beregnes så i overensstemmelse med forutbestemte formler, som vil avhenge av de bestemte deler i signalet som prosesseres.
På dekodersiden vil dekoderen motta et monosignal og BCC-bitstrømmen. Monosignalet transformeres til frekvensdomenet og avgis til en romlig synteseblokk, som også vil motta dekodede ICLD- og ICTD-verdier. I den romlige synteseblokk, vil BCC-parametrene (ICLD- og ICTD-verdiene) bli benyttet for å utføre en vekteopera-sjon for monosignalet for å kunne syntetisere multikanalssignaler, som etter en frekvens/tidsomforming vil representere en rekonstruksjon av det opprinnelige multi-kanals audiosignal.
Ved BCC kan felles stereomodulen 60 betjenes til å avgi kanalside-informasjon slik at de parametriske kanaldata er kvantiserte og kodede ICLD eller ICTD parametere, der en av de opprinnelige kanaler benyttes som referansekanal for kodingen av kanalside-informasjonen.
Bærekanalen dannes normalt som summen av de foreliggende, opprinnelige kanaler.
Teknikkene omtalt ovenfor vil naturligvis bare tilveiebringe en mono-representasjon for en dekoder, som bare kan prosessere bærekanalen og som ikke er i stand til å prosessere de parametriske data for generering av en eller flere tilnærminger av mer enn en inngangskanal.
Audiokodingsteknikken kjent som binaural oppkallingskoding (BCC) er også grundig beskrevet i publikasjonene av US patentsøknader US 2003, 0219130 Al, 2003/0026441 Al og 2003/0035553 Al. I tillegg henvises det også til "Binaural Cue Coding. Part II: Schemes and Applications", C. Faller og F. Baumgarte, IEEE Trans. On Audio and Speech Proe, bind 11, nr. 6, november 1993. De anførte publikasjoner av US patentsøknader og de to anførte tekniske publikasjoner om BCC-teknikken for-fattet av Faller og Baumgarte inkorporeres i sin helhet her ved referanse.
I det følgende vil en typisk generisk BCC-fremgangsmåte for multikanals audiokoding bli utlagt mer detaljert med referanse til figurene 11 til 13. Fig. 11 illustrerer en slik generisk fremgangsmåte for binaural oppkallingskoding for koding/transmisjon av multikanals audiosignal er. Multikanals audiosignalet som avgis til en inngang 110 i en BCC-koder 112 nedmikses i en nedmiksingsblokk 114. I dette eksempel er det opprinnelige multikanal-signalet ved inngangen 110 et 5-kanals surround-signal med en fremre venstre kanal, en fremre høyre kanal, en venstre surround-kanal, en høyre surround-kanal og en senterkanal. I en foretrukket utførelsesform av denne oppfinnelse vil nedmiksingsblokken 114 produsere et addert signal ved en enkel addisjon av disse fem kanaler til et monosignal. Andre nedmiksingsfremgangsmåter er kjent på nt slik at det ved å benytte et multikanalsinngangssignal kan tilveiebringes et nedmikset signal med en enkelt kanal. Denne ene kanal avgis i en addert signal-linje 115. Sideinformasjon fremskaffet ved en BCC-analyseblokk 116 avgis i en sideinforma-sjonslinje 117.1 BCC-analyseblokken beregnes interkanal-nivådifferansene (ICLD) og interkanal-tidsdifferansene (ICTD) på samme måte som utlagt ovenfor. I den senere tid er BCC-analyseblokken 116 blitt utvidet til også å beregne interkanal-korrelasjons-verdier (ICC-verdier). Det adderte signal og sideinformasjonen sendes, fortrinnsvis i en kvantisert og kodet form, til en BCC-dekoder 120. BCC-dekoderen dekomponerer det sendte, adderte signal i et antall av underbånd og anvender skalering, forsinkelser og annen prosessering for å generere underbåndene til utgangs multikanal audiosigna-lene. Denne prosesseringen utføres slik at ICLD-, ICTD- og ICC-parametrene (oppkallingene) av et rekonstruert multikanal-signal ved en utgang 121 er lik de respektive oppkallinger for det opprinnelige multikanal-signalet ved inngangen 110 i BCC-koderen 112. For dette formål omfatter BCC-dekoderen 120 en BCC-synteseblokk 122 og en sideinformasjonsprosesseringsblokk 123.
I det følgende vil den interne konstruksjon av BCC-synteseblokken 122 bli beskrevet med henvisning til fig. 2. Det adderte signal på linjen 115 avgis til en tids/frekvens-omformingsenhet eller filterbank FB 125. Ved utgangen av blokken 125 vil det foreligge et antall av N underbåndsignaler eller, i ekstreme tilfeller, en blokk av spektralkoeffisienter, når audio-filterbanken 125 utfører en l:l-transformasjon, dvs. en transformasjon som produserer N spektralkoeffisienter fra N tidsdomene-sampler.
BCC-synteseblokken 122 omfatter videre et forsinkelsestrinn 126, et nivåmodifiseringstrinn 127, et korrelasjonsprosesseringstrinn 128 og et invers filterbank-trinn IFB 129. Ved utgangen av trinn 129 kan det rekonstruerte multikanal audiosignalet med feks. fem kanaler dersom det dreier seg om et 5-kanals surround-system avgis til et sett av høyttalere 124 som illustrert i fig. 11.
Som vist i fig. 12 omformes inngangssignalet s(n) til frekvensdomenet eller filterbankdomenet ved hjelp av elementet 125. Utgangssignalet fra elementet 125 mul-tipliseres slik at det oppnås flere versjoner av samme signal, noe som er illustrert ved multiplikasjonsknutepunktet 130. Antallet versjoner av det opprinnelige signal er lik antallet utgangskanaler i utgangssignalet som skal rekonstrueres når hver versjon av det opprinnelige signal i knutepunktet 130 generelt undergår en bestemt forsinkelse di, d2, ..., di, ..., du- Forsinkelsesparametrene beregnes av sideinformasjonsprosesseringsblokken 123 i fig. 11 og fremskaffes fra interkanal-tidsdifferansene slik disse bestemmes av BCC-analyseblokken 116.
Det samme gjelder for multiplikasjonsparametrene ai, a2, ..., a;, ..., a$, som også beregnes av sideinformasjonsprosesseringsblokken 123 basert på interkanal-nivådifferansene slik disse er beregnet av BCC-analyseblokken 116. ICC-parametrene beregnet av BCC-analyseblokken 116 benyttes for å styre funksjonaliteten til blokken 128 slik at bestemte korrelasjoner mellom de forsinkede og nivå-manipulerte signaler oppnås ved utgangene av blokken 128. Det skal her bemerkes at rekkefølgen for trinnene 126, 127, 128 kan være ulike fra tilfellet vist i fig. 12.
Det skal her bemerkes at ved en puljevis prosessering av et audiosignal vil BCC-analysen bli utført puljevis, dvs. at den vil være tidsstyrt, og også frekvensvis. Dette betyr at BCC-parametere tilveiebringes for hvert spektralbånd. Dette betyr igjen at i et tilfelle der audiofilterbanken 125 dekomponerer inngangssignalet i f.eks. 32 båndpasseringssignaler vil BCC-analyseblokken tilveiebringe et sett av BCC-parametere for hvert av de 32 båndene. BCC-synteseblokken 122 i fig. 11, som er vist mer detaljert i fig. 12, vil naturligvis utføre en rekonstruksjon som også er basert på de 32 båndene i eksempelet.
I det følgende henvises det til fig. 13 som viser et oppsett for bestemmelse av bestemte BCC-parametere. Normalt kan ICLD-, ICTD- og ICC-parametere defineres mellom par av kanaler. Det er imidlertid å foretrekke at ICLD- og ICTD-parametrene bestemmes mellom en referansekanal og hver av de andre kanalene. Dette er illustrert i fig. 13 A. ICC-parametere kan defineres på forskjellige måter. Det mest generelle ville være å estimere ICC-parametrene i koderen mellom alle mulige kanalpar som indikert i fig. 13B. I dette tilfelle ville en dekoder syntetisere ICC-verdiene slik at de ville være omtrent de samme som for det opprinnelige multikanal-signalet for alle mulige kanal-par. Det er imidlertid foreslått å hver gang estimere bare ICC-parametrene mellom de to sterkeste kanalene. Denne fremgangsmåten er illustrert i fig. 13C som viser et eksempel hvor en ICC-parameter estimeres mellom kanalene 1 og 2 på ett tidspunkt mens en ICC-parameter beregnes mellom kanalene 1 og 5 på et annet tidspunkt. Dekoderen vil så syntetisere interkanalskorrelasjonen mellom de sterkeste kanalene i dekoderen og anvende en eller annen heuristisk regel for beregning og syntetisering av interkanalskoherensen for de gjenværende kanalpar.
Når det gjelder beregningen av f.eks. multiplikasjonsparametrene ai, aN basert på sendte ICLD-parametere, henvises det til AES convention skriftet 5574 anført ovenfor. ICLD-parametrene representerer en energi-distribusjon i et opprinnelig multikanal-signal. Uten tap av generalitet vises det i fig. 13A at det foreligger fire ICLD-parametere som viser energidifferansen mellom alle andre kanaler og den fremre venstre kanal. I sideinformasjonsprosesseringsblokken 123 fremskaffes multiplikasjonsparametrene ai, ..., aN ut i fra ICLD-parametrene slik at den totale energi for alle rekonstruerte utgangskanaler er den samme som (eller proporsjonal med) energien for det sendte, adderte signal. En enkel måte å bestemme disse parametrene på er en 2-trinns prosess der multiplikasjonsfaktoren for den venstre, fremre kanal i et første trinn settes til enheten, mens multiplikasjonsf aktorene for de andre kanalene i fig. 13A settes til de sendte ICLD-verdiene. I et andre trinn beregnes så energien for alle fem kanalene som så sammenlignes med energien for det sendte, adderte signal. Alle kanalene blir så nedskalert ved å benytte en nedskaleringsfaktor som er lik for alle kanalene, der nedskaleringsfaktoren er valgt slik at den totale energi for alle rekonstruerte ut gangskanaler, etter nedskaleringen, er lik den totale energi for det sendte, adderte signal.
Naturligvis finnes det andre fremgangsmåter for beregning av multiplikasjons-faktorene, som ikke benytter seg av 2-trinnsprosessen og som bare trenger en 1 -trinns-prosess.
Når det gjelder forsinkelsesparametrene skal det bemerkes at forsinkelsesparametrene ICTD som sendes fra en BCC-koder kan benyttes direkte når forsinkel-sesparameteren di for den venstre, fremre kanal settes til null. Ingen reskalering må her utføres, siden en forsinkelse ikke endrer energien i signalet.
Når det gjelder interkanalskoherensmål-ICC-verdien sendt fra BCC-koderen til BCC-dekoderen, skal det her bemerkes at en koherensmanipulasjon kan utføres ved å modifisere multiplikasjonsf aktorene ai, ..., aN feks. ved å multiplisere vektingsfaktorene for alle underbåndene med vilkårlige tall med verdier mellom 201ogl0 (-6) og 201ogl0 (6). Den pseudo-vilkårlige sekvens velges fortrinnsvis slik at variasjonen er omtrent konstant for alle kritiske bånd, og slik at gjennomsnittet er lik null innenfor hvert kritiske bånd. Den samme sekvens benyttes for spektralkoeffisientene for hver av de forskjellige puljene. Lydbildebredden styres således ved å modifisere variasjonen av den pseudo-vilkårlige sekvens. En større variasjon vil skape en større billedbredde. Variasjonsmodifikasjonen kan utføres i individuelle bånd med en bredde som tilsvarer bredden til kritiske bånd. Dette tillater eksistensen av flere objekter samtidig på lyd-scenen, der hvert objekt har en forskjellig billedbredde. En passende amplitudedistri-busjon for den pseudo-vilkårlige sekvens vil være en uniform distribusjon i en loga-ritmisk skala slik dette utlegges i US patentsøknad 2003/0219130 Al. Ikke desto mindre er all BCC-synteseprosessering relatert til en enkelt inngangskanal sendt som det adderte signal fra BCC-koderen til BCC-dekoderen som vist i fig. 11.
For å kunne sende de fem kanalene på en kompatibel måte, dvs. i et bitstrøm-format, som også er lesbar for en normal stereodekoder er den såkalte matriseteknik-ken blitt benyttet som beskrevet i "MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3", G. Theile og G. Stoll, AES fortrykk 3403, oktober 1992, San Francisco. De fem inngangskanalene L, R, C, Ls, og Rs mates til en matriseinnrerning som utfører en matriseoperasjon for å beregne de grunnleggende eller kompatibel stereokanaler Lo, Ro, ut i fra de fem inngangskanalene. Mer spesifikt beregnes disse grunnleggende stereokanalene Lo/Ro som utlagt nedenfor:
der x og y er konstanter. De andre tre kanalene C, Ls, Rs sendes som de er i et forleng-elsessjikt, i tillegg til i et grunnleggende stereosjikt, som omfatter en kodet versjon av
de grunnleggende stereosignaler Lo/Ro. Når det gjelder bitstrømmen, vil dette grunnleggende Lo/Ro stereosjiktet omfatte en header, med informasjon slik som skaleringsfaktorer og underhånd-sampler. Multikanals forlengelsessjiktet, dvs. den sentrale kanal og de to surround-kanalene, er inkludert i multikanals forlengelsesfeltet, som også kalles et tilleggsdatafelt.
På dekoder-siden vil en invers matriseoperasjon bli utført for å kunne danne rekonstruksjoner av de venstre og høyre kanaler i fem kanals representasjonen ved å benytte de grunnleggende stereokanaler Lo, Ro og de tre ytterligere kanaler. I tillegg dekodes de tre ytterligere kanaler ut i fra tilleggsinformasjonen for å oppnå en dekodet fem kanals eller surround representasjon av det opprinnelige multikanals audiosignal.
En annen tilnærming til multikanalskoding er beskrevet i publikasjonen "Im-proved MPEG-2 audio multi-channel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller, AES fortrykk 3865, februar 1994, Amsterdam, i hvilken bakover-kompatible modi tas i betraktning for å kunne oppnå bakover-kompatibilitet. I denne sammenheng benyttes en kompatibilitetsmatrise for å oppnå to såkalte nedmiksingskanaler Lc, Rc ut i fra de opprinnelige fem inngangskanaler. Det vil videre være mulig å dynamisk velge de tre tilleggskanalene sendt som tilleggsdata.
For å kunne utnytte stereo-irrelevans vil en felles stereoteknikk bli anvendt på grupper av kanaler, feks. de tre fremre kanalene, dvs. på den venstre kanal, den høyre kanal og senterkanalen. For dette formål kombineres de tre kanalene for å oppnå en kombinert kanal. Denne kombinerte kanal kvantiseres og pakkes inn i bitstrømmen. Denne kombinerte kanal sammen med den korresponderende felles-stereoinformasjon avgis så til en felles-stereodekodingsmodul for å fremskaffe dekodede felles-stereokanaler, dvs. en dekodet venstre felles-stereokanal, en dekodet høyre felles-stereokanal og en dekodet senter felles-stereokanal. Disse dekodede felles-stereokanaler avgis, sammen med den venstre surround-kanal og den høyre surround-kanal, til en kompatibilitetsmatriseblokk for således å danne den første og den andre nedmiksingskanal Lc, Rc. De kvantiserte versjoner av begge nedmiksingskanalene og en kvantisert versjon av den kombinerte kanal pakkes så inn i bitstrømmen sammen med felles-stereokodingsparametrene.
Ved å benytte intensitetsstereo-koding vil derfor en gruppe av uavhengige opprinnelige kanalsignaler bli sendt i en enkelt del av "bære"-dataene. Dekoderen vil så rekonstruere de involverte signaler som identiske data, som reskaleres i overensstemmelse med deres opprinnelige energi-tidsforløp. Følgelig vil en lineær kombinasjon av de sendte kanaler gi et resultat som er svært forskjellig fra den opprinnelige nedmiks. Dette gjelder hvilken som helst type av felles-stereokoding basert på intensitetsstereo-konseptet. For et kodingssystem som tilveiebringer kompatible nedmiksingskanaler vil dette få en umiddelbar konsekvens: rekonstruksjonen som benytter seg av matriseoperasjoner, slik dette er beskrevet i den tidligere publikasjon, lider under kunstige elementer forårsaket av en mindre perfekt rekonstruksjon. Ved å benytte en såkalt felles-stereo forforvrengningsmetode, der en felles-stereokoding for den venstre kanalen, den høyre kanalen og senter-kanalen utføres før matriseoperasj onene i koderen, vil lette dette problemet. På denne måte vil matriseoperasj onene ved rekonstruksjonen introdusere færre kunstige elementer, siden de felles-stereodekodede signaler er blitt benyttet på kodingssiden ved genereringen av nedmiksingskanalene. Således vil den uperfekte rekonstruksjonsprosessen bli skjøvet inn i de kompatible nedmiksingskanalene Lc og Rc, der det er mye større sannsynlighet for at den vil bli maskert av selve audiosignalet.
Selv om et slikt system har resultert i færre kunstige elementer på grunn av matriseoperasj onene på dekodingssiden, vil det ikke desto mindre omfatte noen ulemper. En ulempe er at de stereo-kompatible nedmiksingskanalene Lc og Rc fremskaffes ikke fra de opprinnelige kanalene men fra intensitetsstereo kodede/dekodede versjoner av de opprinnelige kanaler. På grunn av intensitetsstereo kodingssystemet vil det derfor foreligge tap av data i de kompatible nedmiksingskanaler. En stereodekoder som bare dekoder de kompatible kanaler snarere enn de forsterkede intensitetsstereo kodede kanaler vil derfor tilveiebringe et utgangssignal som er påvirket av intensitetsstereo-induserte datatap.
I tillegg må en ytterligere fullstendig kanal sendes ved siden av de to nedmiksingskanalene. Dette vil være den kombinerte kanal, som er dannet ved hjelp av felles-stereokodingen og av den venstre kanal, den høyre kanal og senterkanalen. I tillegg må mtensitetsstereo-informasjonen som er nødvendig for å kunne rekonstruere de opprinnelige kanaler L, R, C ut i fra den kombinerte kanal også sendes til dekoderen. I dekoderen vil en invers matriseoperasj on bli utført for å fremskaffe surround-kanalene ut i fra de to nedmiksingskanalene. I tillegg vil de opprinnelige venstre, høyre og sentrale kanaler bli tilnærmet ved felles-stereo dekoding ved å benytte den sendte kombinerte kanal og de sendte felles-stereo-parametere. Det skal bemerkes at de opprinnelige venstre, høyre og sentrale kanaler fremskaffes ved felles-stereo dekoding av den kombinerte kanal.
Det er funnet at ved intensitets stereo-teknikker, når disse benyttes i kombinasjon med multikanalssignaler, kan fullstendig koherente utgangssignaler bare tilveiebringes når signalene er basert på den samme grunnkanal.
Ved BCC-teknikker er det svært kostbart å redusere interkanal-koherensen for et rekonstruert multikanals utgangssignal, siden en generator av pseudo-vilkårlige tall for påvirkning av vektingssektorene vil være påkrevd. I tillegg er det vist at denne type prosessering kan være problematisk ved at det introduseres kunstige elementer forårsaket av multiplikasjonsfaktorer for vilkårlig manipulering eller tidsforsinkelses-faktorer, som under gitte omstendigheter kan bli hørbare og som derfor vil ødelegge kvaliteten av det rekonstruerte multikanals utgangssignal.
Følgende dokumenter belyser teknikkens stilling:
US5912976A viser et system og en metode for rekonstruksjon av multikanal-inngangssignal i et stereosystem uten å tilføre signalartefakter. Det vises hvordan det originale multikanal-inngangssignalet mikses ned til et stereosignal ved å kombinere, forsinke og forsterke de ulike inngangskanalene.
US2003/0219130A1 og EP 1376538A1 viser rekonstruksjon av multikanal-inngangssignal i et stereosystem.
US2003/0219130A1, EP1376538A1 og WO03/090207A1 viser miksing av et multikanal-inngangssignal ned til monosignal ved kombinering av inngangskanalene og generering av parametere for å beskrive korrelasjonen mellom kanalene.
Oppsummering
Det er derfor et formål med denne oppfinnelse å tilveiebringe et konsept for en bit-effektiv og kunstig element-redusert prosessering eller invers prosessering av et multikanals audiosignal.
I overensstemmelse med et første aspekt ved denne oppfinnelse oppnås dette formål ved en anordning for konstruksjon av et multikanals utgangssignal som benytter et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanal-signal, der det opprinnelige multikanal-signal har flere kanaler, der disse flere kanaler omfatter minst to opprinnelige kanaler som er definert slik at de befinner seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er den første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er den andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det opprinnelige multikanal-signal, omfattende et opprinnelig multikanal-signal; midler for å bestemme en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den førs-te og den andre inngangskanal, samt for å bestemme en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er forskjellig fra den første basiskanal; og midler for syntetisering av en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal til å fremskaffe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som er plassert på en side av den antatte lytteposisjon, og for syntetisering av en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som er plassert på den samme side av den antatte lytteposisjon.
I overensstemmelse med et andre aspekt ved denne oppfinnelse oppnås dette formål ved en fremgangsmåte for konstruksjon av et multikanals utgangssignal ved å benytte et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanal-signal, der det opprinnelige multikanal-signal har flere kanaler, der de flere kanaler omfatter minst to opprinnelige kanaler som er definert slik at de befinner seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er den første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er den andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det opprinnelige multikanal-signal, omfattende å bestemme en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den første og den andre inngangskanal, og å bestemme en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er forskjellig fra den første basiskanal; og å syntetisere en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal til å fremskaffe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som befinner seg på en side av den antatte lytteposisjon, og å syntetisere en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som befinner seg på den samme side av den antatte lytteposisjon.
I overensstemmelse med et tredje aspekt ved denne oppfinnelsen oppnås dette formål ved en anordning for generering av et nedmiksingssignal fra et opprinnelig multikanal-signal, der nedmiksingssignalet omfatter et antall av kanaler som er mindre enn et antall av opprinnelige kanaler, omfattende midler for beregning av en første nedmiksingskanal og en andre nedmiksingskanal ved å benytte en nedmiksingsregel; midler for beregning av parametrisk nivå-informasjon som representerer en energi-distribusjon for kanalene i det opprinnelige multikanal-signal; midler for å bestemme et koherens mål mellom to opprinnelige kanaler, der de to opprinnelige kanaler befinner seg på en side av en antatt lytteposisjon; og midler for å danne et utgangssignal ved å benytte den første og den andre nedmiksingskanal, og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på den ene side eller en verdi fremskaffet fra det minst ene koherensmål, og ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.
I overensstemmelse med et fjerde aspekt ved denne oppfinnelse oppnås dette formål ved en fremgangsmåte for generering av et nedmiksingssignal fra et opprinnelig multikanal-signal, der nedmiksingssignalet omfatter et antall kanaler som er mindre enn et antall av opprinnelige kanaler, omfattende å beregne en første nedmiksingskanal og en andre nedmiksingskanal ved å benytte en nedmiksingsregel; å beregne parametrisk nivå-informasjon som representerer en energidistribusjon for kanalene i det opp rinnelige multikanal-signal; å bestemme et koherensmål mellom to opprinnelige kanaler, der de to opprinnelige kanalene befinner seg på en side av en antatt lytteposisjon; og å danne et utgangssignal ved å benytte den første og den andre nedmiksingskanal, den parametriske nivå-informasjon og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på den ene side eller en verdi fremskaffet fra det minst ene koherensmål, og å ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.
I overensstemmelse med et femte aspekt og et sjette aspekt ved denne oppfinnelse oppnås dette formål ved et computerprogram omfattende fremgangsmåten for konstruksjon av multikanalsutgangssignalet eller fremgangsmåten for generering av et nedmiksings signal.
Denne oppfinnelse er basert på det funn at en effektiv og kunstig element-redusert rekonstruksjon av et multikanalsutgangssignal tilveiebringes når det foreligger to eller flere kanaler som kan sendes fra en koder til en dekoder, der kanalene, som fortrinnsvis er en venstre og en høyre stereokanal, viser en viss grad av inkoherens. Dette vil normalt være tilfellet, siden de venstre og høyre stereokanaler eller de venstre og høyre kompatible stereokanaler tilveiebrakt ved nedmiksing av et multikanal-signal vanligvis vil fremvise en viss grad av inkoherens, dvs. at de vil ikke være fullstendig koherente eller fullstendig korrelerte.
I overensstemmelse med denne oppfinnelse vil de rekonstruerte utgangskanaler i multikanalsutgangssignalet bli dekorrelert fra hverandre ved å bestemme forskjellige basiskanaler for de forskjellige utgangskanaler, der de forskjellige basiskanaler tilveiebringes ved i varierende grad å benytte de ikke-korrelerte sendte kanaler.
En rekonstruert utgangskanal med f.eks. den venstre sendte inngangskanal som basiskanal ville med andre ord, i BCC-underbåndsområdet, være fullstendig kor-relert med en annen rekonstruert utgangskanal som har den samme, f. eks. venstre, kanal som basiskanal idet det antas at det ikke foreligger noen ekstra "korrelasjons-syntese". I denne sammenheng skal det bemerkes at de forutbestemte forsinkelses- og nivå-oppsett ikke reduserer koherensen mellom disse kanaler. I overensstemmelse med denne oppfinnelse vil koherensen mellom disse kanaler, som i eksempelet ovenfor er 100 %, bli redusert til en bestemt koherens-grad eller et bestemt koherensmål ved å benytte en første basiskanal for konstruksjon av den første utgangskanal og ved å benytte en andre basiskanal for konstruksjon av den andre utgangskanal, der de første og andre basiskanaler innehar forskjellige "deler" av de to sendte (dekorrelerte) kanaler. Dette betyr at den første basiskanal er sterkere påvirket av, eller til og med er identisk med, den første sendte kanal, sammenlignet med den andre basiskanal som i mindre grad er påvirket av den første kanal, dvs. som er mer påvirket av den andre sendte kanal.
I overensstemmelse med denne oppfinnelse benyttes den iboende dekorrelasjon mellom de sendte kanaler for å tilveiebringe dekorrelerte kanaler i et multikanalsutgangssignal.
I en foretrukket utførelsesform bestemmes et koherensmål mellom respektive kanalpar slik som fremre venstre og venstre surround eller fremre høyre og høyre surround i en koder på en tidsavhengig og frekvensavhengig måte og sendes som sideinformasjon til en oppfinnerisk dekoder slik at en dynamisk bestemmelse av basiskanalene og dermed en dynamisk manipulasjon av koherensen mellom de rekonstruerte utgangskanalene kan tilveiebringes.
Sammenlignet med den kjente teknikk omtalt ovenfor, der bare en ICC-oppkalling for de to sterkeste kanalene sendes, vil det oppfinneriske system være enklere å styre og tilveiebringe en rekonstruksjon med bedre kvalitet, siden en bestemmelse av de sterkeste kanaler i en koder eller en dekoder ikke er nødvendig siden det oppfinneriske koherensmål alltid er relatert til det samme kanalpar uavhengig av om dette kanalpar omfatter de sterkeste kanaler eller ikke. En høyere kvalitet sammenlignet med systemene i den kjente teknikk oppnås ved at to nedmiksede kanaler sendes fra en koder til en dekoder slik at venstre/høyre koherens-relasjonen automatisk sendes og ingen ytterligere informasjon om venstre/høyre koherensen er påkrevd.
En ytterligere fordel ved denne oppfinnelse er åpenbar gjennom det faktum at regnebelastningen på dekoder-siden kan reduseres, siden den normale prosesseringsbe-lastningen ved dekorrelasjon kan reduseres eller til og med fullstendig elimineres.
Fortrinnsvis tilveiebringes den parametriske sideinformasjon for en eller flere av de opprinnelige kanaler slik at de er relatert til en av de nedmiksede kanaler snarere enn, slik som ved den kjente teknikk, til en ytterligere "kombinert" felles-stereokanal. Dette betyr at den parametriske sideinformasjon for kanalene beregnes slik at en kanal - rekonstruktør på dekoder-siden benytter kanal-sideinformasjonen og en av de nedmiksede kanalene eller en kombinasjon av de nedmiksede kanalene for å rekonstruere en tilnærming til den opprinnelige audiokanal, til hvilken kanal-sideinformasjonen er tildelt.
Dette konsept er fordelaktig ved at det tilveiebringer en bit-effektivt multi-kanalsforlengelse slik at et multikanals audiosignal kan spilles i en dekoder.
I tillegg vil konseptet være bakover-kompatibelt, siden en lavskala-dekoder, som bare er tilpasset to-kanalsprosessering, rett og slett kan ignorere forlengelses-informasjonen, dvs. kanal-sideinformasjonen. Lavskala-dekoderen kan bare spille de to nedmiksede kanalene for å tilveiebringe en stereo-representasjon av det opprinnelige multikanals audiosignal. En høyskala-dekoder, som er tilpasset multikanals-betjening, kan imidlertid benytte den sendte kanal-sideinformasjon til å rekonstruere tilnærminger av de opprinnelige kanaler.
Denne utførelsesform er fordelaktig ved at den er bit-effektiv, siden, i motsetning til den kjente teknikk, ingen ytterligere bærekanal utover den første og andre nedmiksede kanal Lc, Rc er påkrevd. I stedet er kanal-sideinformasjonen relatert til en eller begge de nedmiksede kanaler. Dette betyr at de nedmiksede kanaler selv tjener som bærekanaler, til hvilke kanal-sideinformasjonen kombineres for å rekonstruere en opprinnelig audiokanal. Dette betyr også at kanal-sideinformasjonen fortrinnsvis er parametrisk sideinformasjon, dvs. informasjon som ikke omfatter underbånd-sampler eller spektralkoeffisienter. Den parametriske sideinformasjon vil i stedet være informasjon som benyttes for vekting (tidsmessig og/eller frekvensmessig) av den respektive nedmiksede kanal eller kombinasjonen av de respektive nedmiksede kanaler for å tilveiebringe en rekonstruert versjon av en utvalgt opprinnelig kanal.
I en foretrukket utførelsesform av denne oppfinnelsen tilveiebringes det en bakover-kompatibel koding av et multikanal-signal basert på et kompatibelt stereosignal. Det kompatible stereosignal (nedmiksede signal) genereres fortrinnsvis ved å benytte matriseoperasj oner på de opprinnelige kanaler i multikanals audiosignalet.
Tilveiebringelsen av kanal-sideinformasjon for en utvalgt opprinnelig kanal er fortrinnsvis basert på felles-stereo-teknikker slik som intensitetsstereo-koding eller binaural oppkallingskoding. En utføring av inverse matriseoperasj oner på dekoder-siden vil således ikke være nødvendig. Problemene tilknyttet inverse matriseoperasjoner, dvs. bestemte kunstige elementer relatert til en uønsket distribusjon av kvantise-ringsstøy med inverse matriseoperasj oner, unngås. Grunnen til dette er det faktum at dekoderen benytter en kanal-rekonstruktør som vil rekonstruere et opprinnelig signal ved å benytte en av de nedmiksede kanaler eller en kombinasjon av de nedmiksede kanaler samt den sendte kanal-sideinformasjon.
Det oppfinneriske konsept anvendes fortrinnsvis på et multikanals audiosignal med fem kanaler. Disse fem kanaler er en venstre kanal L, en høyre kanal R, en senterkanal C, en venstre surround-kanal Ls og en høyre surround-kanal Rs. De nedmiksede kanaler vil fortrinnsvis være stereokompatible nedmiksede kanaler Ls og Rs, som tilveiebringer en stereorepresentasjon av det opprinnelige multikanals audiosignal.
I overensstemmelse med den foretrukkede utførelsesform av denne oppfinnelse beregnes kanal-sideinformasjonen for hver opprinnelige kanal på en koder-side innepakket i utgangsdata. Kanal-sideinformasjonen for den opprinnelige venstre kanal fremskaffes ved å benytte den venstre nedmiksede kanal. Kanal-sideinformasjonen for den opprinnelige venstre surround-kanal fremskaffes ved å benytte den venstre nedmiksede kanal. Kanal-sideinformasjonen for den opprinnelige høyre kanal tilveiebringes fra den høyre nedmiksede kanal. Kanal-sideinformasjon for den opprinnelige høyre surround-kanal tilveiebringes fra den høyre nedmiksede kanal.
I overensstemmelse med den foretrukkede utførelsesform av denne oppfinnelse fremskaffes kanalinformasjonen for den opprinnelige senterkanal ved å benytte den første nedmiksede kanal så vel som den andre nedmiksede kanal, dvs. ved å benytte en kombinasjon av de to nedmiksede kanaler. Denne kombinasjon vil fortrinnsvis omfatte en summering.
Grupperingene, dvs. relasjonen mellom kanal-sideinformasjonen og bæresig-nalet, dvs. den nedmiksede kanal som benyttes for å tilveiebringe kanal-sideinformasjon for et utvalgt opprinnelig kanal, vil således være slik at for å oppnå en optimal kvalitet vil den nedmiksede kanal som inneholder det høyest mulige relative omfang av det respektive, opprinnelige multikanal-signal representert ved hjelp av kanal-sideinformasjonen bli valgt. Således vil et felles stereobæresignal samt den førs-te og den andre nedmiksede kanal bli benyttet. Fortrinnsvis kan også summen av den første og den andre nedmiksede kanal bli benyttet. Naturligvis kan summen av den første og den andre nedmiksede kanal benyttes for beregning av kanal-sideinformasjon for hver av de opprinnelige kanaler. Summen av de nedmiksede kanaler benyttes imidlertid fortrinnsvis for beregning av kanal-sideinformasjonen av den opprinnelige senterkanal i et surround-miljø, slik som fem-kanals surround, sju-kanals surround, 5,1-surround eller 7,1 surround. Benyttelsen av summen av den første og den andre nedmiksede kanal er spesielt fordelaktig, siden ingen ytterligere administrasjonstransmi-sjon trenger å bli utført. Grunnen til dette er det faktum at begge de nedmiksede kanaler er til stede i dekoderen slik at summeringen av disse nedmiksede kanaler enkelt kan utføres i dekoderen uten at ytterligere transmisjonsbits er påkrevd.
Kanalsideinformasjonen som danner multikanal forlengelsen avgis fortrinnsvis til utgangsdata bit-strømmen på en kompatibel måte slik at lavskala-dekoder rett og slett vil ignorere multikanals forlengelsesdata og bare tilveiebringe en stereorepresentasjon av multikanals audiosignalet. Ikke desto mindre vil en høyskala-koder ikke bare benytte to nedmiksede kanaler, men i tillegg også anvende kanal-sideinformasjonen til å rekonstruere en fullstendig multikanals representasjon av det opprinnelige audiosignal.
Kort beskrivelse av figurene
Foretrukkede utførelsesformer av denne oppfinnelse vil i det følgende bli beskrevet med henvisning til de vedlagte tegninger, der: Fig. IA er et blokkdiagram som viser en foretrukket utførelsesform av den oppfinneriske koder. Fig. IB er et blokkdiagram som viser en oppfinnerisk koder for å tilveiebringe et koherensmål for respektive inngangskanalpar. Fig. 2A er et blokkdiagram som viser en foretrukket utførelsesform av den oppfinneriske dekoder. Fig. 2B er et blokkdiagram som viser en oppfinnerisk dekoder med forskjellige basiskanaler for forskjellige utgangskanaler. Fig. 2C er et blokkdiagram som viser en foretrukket utførelsesform av midlene for syntetisering ifølge fig. 2B. Fig. 2D er et blokkdiagram som viser en foretrukket utførelsesform av anord-ningen vist i fig. 2C for et 5-kanals surround-system. Fig. 2E viser skjematisk midler for bestemmelse av et koherensmål i en oppfinnerisk koder. Fig. 2F viser skjematisk et foretrukket eksempel på bestemmelse av en vektingsfaktor for beregning av en basiskanal med et bestemt koherensmål i forhold til en annen basiskanal. Fig. 2G er et diagram som viser en foretrukket fremgangsmåte for å tilveiebringe en rekonstruert utgangskanal basert på en bestemt vektingsfaktor beregnet ved metoden vist i fig. 2F. Fig. 3A er et blokkdiagram som viser en foretrukket implementering av midlene for beregning ved fremskaffelse av frekvens-selektiv kanal-sideinformasjon. Fig. 3B er en foretrukket utførelsesform av en beregnmgsinnrerning som implementerer felles stereoprosessering slik som intensitetskoding eller binaural oppkallingskoding. Fig. 4 illustrerer en annen foretrukket utførelsesform av midlene for beregning av kanal-sideinformasjon, der kanal-sideinformasjonen er forsterkningsfaktorer. Fig. 5 illustrerer en foretrukket utførelsesform av en implementering av dekoderen når koderen er implementert som vist i fig. 4. Fig. 6 illustrerer en foretrukket implementering av midlene for å tilveiebringe de nedmiksede kanaler. Fig. 7 illustrerer grupperinger av opprinnelige og nedmiksede kanaler for beregning av kanal-sideinformasjon for de respektive opprinnelige kanaler. Fig. 8 illustrerer en annen foretrukket utførelsesform av en oppfinnerisk koder.
Fig. 9 illustrerer en annen implementering av en oppfinnerisk dekoder, og
Fig. 10 illustrerer en felles-stereokoder fra kjent teknikk.
Fig. 11 er et blokkdiagram som illustrerer en BCC-koder/-dekoder-kjede fra kjent teknikk. Fig. 12 er et blokkdiagram som viser en kjent implementering av en BCC-synteseblokk ifølge fig. 11. Fig. 13 illustrerer en velkjent fremgangsmåte for bestemmelse av ICLD-, ICTD- og ICC-parametere. Fig. 14A viser skjematisk fremgangsmåten for tilpasning av forskjellige basiskanaler for reproduksjon av forskjellige utgangskanaler. Fig. 14B illustrerer de nødvendige kanalpar for bestemmelse av ICC- og ICTD-parametere. Fig. 15A illustrerer skjematisk et første valg av basiskanaler for konstruksjon av et 5-kanals utgangssignal, og Fig. 15B illustrerer skjematisk et andre valg av basiskanaler for konstruksjon av et 5-kanals utgangssignal.
Detaljert beskrivelse
Fig. IA viser en anordning for prosessering av et multikanals audiosignal 10 med minst tre opprinnelige kanaler, f.eks. R, L og C. Det opprinnelige lydsignal har fortrinnsvis mer enn tre kanaler, slik som fem kanaler i et surround-miljø, hvilket er illustrert i fig. IA. De fem kanalene består av venstre kanal L, høyre kanal R, senter-kanalen C, venstre surround-kanal Ls og høyre surround-kanal Rs. Den oppfinneriske anordning omfatter midler 12 for å tilveiebringe en første nedmikset kanal Lc og en andre nedmikset kanal Rc, der den første og den andre nedmiksede kanal fremskaffes fra de opprinnelige kanaler. Det foreligger flere alternativer for å kunne fremskaffe de nedmiksede kanaler fra de opprinnelige kanaler. En mulighet for å fremskaffe de nedmiksede kanaler Lc og Rc er ved å utføre en matriseoperasj on på de opprinnelige kanaler som illustrert i fig. 6. Denne matriseoperasj on utføres i tidsdomenet.
Matriseparametrene a, b og t velges slik at de er mindre enn eller lik 1. a og b er fortrinnsvis 0,7 eller 0,5. Den totale vektingsparameter t velges fortrinnsvis slik at kanalklipping unngås.
Alternativt, som indikert i fig. IA, kan de nedmiksede kanaler Lc og Rc også tilveiebringes eksternt. Dette kan gjøres når de nedmiksede kanaler Lc og Rc er et resultat av en manuell miksingsoperasjon. I dette tilfellet vil en lydingeniør selv mikse de nedmiksede kanaler snarere enn å benytte automatiserte matriseoperasj oner. Lyd-ingeniøren vil utføre kreativ miksing for å tilveiebringe optimaliserte nedmiksede kanaler Lc og Rc som vil gi den best mulige stereo-representasjon av det opprinnelige multikanals audiosignal.
Når de nedmiksede kanaler tilveiebringes eksternt vil fremskaffelsesmidlene ikke utføre matriseoperasj oner, men rett og slett sende de eksternt tilveiebrakte, nedmiksede kanaler videre til en påfølgende beregnmgsinnretning 14.
Beregnmgsinnrerningen 14 kan betjenes til å beregne kanal-sideinformasjonen slik som I;, lsi, r; eller rs; for utvalgte opprinnelige kanaler slik som L, Ls, R eller Rs. Spesielt kan beregnmgsinnrerningen 14 betjenes til å beregne kanal-sideinformasjonen slik at en nedmikset kanal, når den vektes ved å benytte kanal-sideinformasjonen, re-sulterer i en tilnærming av den utvalgte opprinnelige kanal.
Alternativt, eller i tillegg, kan innretningen for beregning av kanal-sideinformasjon videre betjenes til å beregne kanal-sideinformasjonen for en utvalgt opprinnelig kanal slik at en kombinert, nedmikset kanal omfattende en kombinasjon av den første og den andre nedmiksede kanal, når denne vektes ved å benytte den bereg- nede kanal-sideinformasjon, vil gi en tilnærming av den utvalgte opprinnelige kanal. For å illustrere dette trekk i figuren er det vist en adderer 14a og en beregningsinnretning 14b for kombinert kanal-sideinformasjon.
Det vil være klart for fagmenn på området at disse elementer ikke trenger å være implementert som distinkte elementer. Funksjonaliteten i blokkene 14, 14a og 14b kan i stedet implementeres ved hjelp av en bestemt prosessor som kan være en universal prosessor eller hvilken som helst annen innretning med den påkrevde funksjonalitet.
Det skal i tillegg bemerkes at kanalsignaler som er underbånd-sampler eller frekvensdomene-verdier er indikert med store bokstaver. Kanal-sideinformasjonen er, i motsetning til kanalene selv, indikert med små bokstaver. Kanal-sideinformasjonen c; vil derfor være kanal-sideinformasjonen for den opprinnelige senterkanal C.
Kanal-sideinformasjonen så vel som de nedmiksede kanaler Lc og Rc, eller en kodet versjon Lc' og Rc' produsert ved hjelp av en audiokoder 16, avgis til en utgangsdata-formaterer 18. Utgangsdata-formatereren 18 fungerer generelt som middel for generering av utgangsdata, der utgangsdata omfatter kanal-sideinformasjonen for minst en opprinnelig kanal, den første nedmiksede kanal eller et signal fremskaffet fra den første nedmiksede kanal (slik som en kodet versjon av denne) og den andre nedmiksede kanal eller et signal fremskaffet fra den andre nedmiksede kanal (slik som en kodet versjon av denne).
Utgangsdataene eller utgangsbit-strømmen 20 kan så sendes til en bit-strøm-dekoder eller den kan lagres eller distribueres. Utgangsbit-strømmen 20 er fortrinnsvis en kompatibel bit-strøm som også kan leses av en lavskala-dekoder som ikke er utstyrt med en multikanals forlengelsesmulighet. Slike lavskala-kodere, slik som de fleste eksisterende, oppdaterte mp3-dekodere, vil rett og slett ignorere multikanals forlengelsesdata, dvs. kanal-sideinformasjonen. De vil bare dekode den første og den andre nedmiksede kanal for å produsere et stereoutgangssignal. Høyskala-dekodere, slik som multikanals tilpassede dekodere, vil avlese kanal-sideinformasjonen og så generere en tilnærming av de opprinnelige audiokanaler, slik at det oppnås et multikanals audio-inntrykk. Fig. 8 viser en foretrukket utførelsesform av denne oppfinnelse i et 5-kanals surround-/mp3-miljø. Her skrives fortrinnsvis surround-forsterkningsdata inn i tillegg sdata-f eltet med den standardiserte syntaks for en mp3-bit-strøm slik at det oppnås en "mp3-surround"-bit-strøm. Fig. IB illustrerer en mer detaljert representasjon av elementet 14 i fig. IA. I en foretrukket utførelsesform av denne oppfinnelse vil en beregningsinnretning 14 omfatte midler 141 for beregning av parametrisk nivå-informasjon som representerer en energidistribusjon for kanalene i det opprinnelige multikanal-signalet angitt ved 10 i fig. IA. Elementet 141 er derfor i stand til å generere utgangsnivå-informasjon for alle opprinnelige kanaler. I en foretrukket utførelsesform vil denne nivå-informasjon omfatte ICLD-parametere fremskaffet gjennom en regulær BCC-syntese som beskrevet i forbindelse med figurene 10 til 13.
Elementet 14 omfatter videre midler 142 for bestemmelse av et koherensmål mellom to opprinnelige kanaler som befinner seg på en side av en antatt lytteposisjon. I eksempelet med 5-kanals surround vist i fig. IA, vil et slikt kanalpar omfatte den høyre kanal R og den høyre surroundkanal Rs eller, alternativt eller i tillegg, den venstre kanal L og den venstre surroundkanal Ls. Elementet 14 kan alternativt videre omfatte midler 143 for beregning av tidsdifferansen for et slikt kanalpar, dvs. et kanal-par med kanaler som befinner på en side av en antatt lytteposisjon.
Utgangsdata-formatereren 18 vist i fig. IA kan betjenes til å avgi til data-strømmen 20 nivå-informasjonen som representerer en energidistribusjon for kanalene i det opprinnelige multikanal-signal og et koherensmål bare for det venstre og venstre surround kanal-par og/eller det høyre og høyre surround kanal-par. Utgangsdata-formatereren kan imidlertid betjenes til ikke å inkludere andre koherensmål eller valg-frie tidsdifferanser i utgangssignalet slik at mengden av sideinformasjon reduseres sammenlignet med kjente metoder der ICC-oppkallinger for alle mulige kanalpar sendes.
For å illustrere den oppfinneriske kode vist i fig. IB mer detaljert vises det til fig. 14A og fig. 14B. I fig. 14A er det vist et arrangement av kanalhøyttalere i et eksempel på et 5-kanalssystem der den antatte lytteposisjon befinner seg i senteret av en sirkel på hvilken de respektive høyttalere er plassert. Som utlagt ovenfor omfatter 5-kanalssystemet en venstre surround kanal, en venstre kanal, en senterkanal, en høyre kanal og en høyre surround kanal. Et slikt system kan naturligvis også omfatte en subwoofer kanal, hvilket ikke er vist i fig. 14.
Det skal bemerkes at den venstre surround kanal også kan benevnes som en "bakre venstre kanal". Det samme gjelder for den høyre surround kanal. Denne kanal er også kjent som den bakre høyre kanal.
I motsetning til dagens BCC, med en transmisjonskanal, der den samme basiskanal, dvs. det sendte mono-signal vist i fig. 11, benyttes for å generere hver av de N utgangskanalene, benytter det oppfinneriske system en av de N sendte kanaler eller en lineær kombinasjon av disse som basiskanal for hver av de N utgangskanalene.
Fig. 14 angir derfor en N-til-M-fremgangsmåte, dvs. en fremgangsmåte der N opprinnelige kanaler nedmikses til to nedmiksede kanaler. I eksempelet ifølge fig. 14 vil N være lik 5 mens M er lik 2. Mer spesifikt vil den sendte, venstre kanal Lcbli benyttet ved rekonstruksjonen av den fremre venstre kanal. Analogt vil den andre sendte kanal Rcbli benyttet som basiskanal ved rekonstruksjonen av den fremre høyre kanal. I tillegg vil en lik kombinasjon av Lcog Rcbli benyttet som basiskanal ved re-konstrueringen av senterkanalen. I overensstemmelse med en utførelsesform av denne oppfinnelse vil i tillegg korrelasjonsmål bli sendt fra en koder til en dekoder. For den venstre surround kanal vil derfor ikke bare den sendte venstre kanal Lcbli benyttet, men også den sendte kanal Lc+ ciiRcslik at basiskanalen for rekonstruksjon av den venstre surroundkanal ikke er fullstendig koherent med basiskanalen for rekonstruksjon av den fremre venstre kanal. Den samme prosedyre vil analogt bli utført for den høyre side (i forhold til den antatte lytteposisjon), ved at basiskanalen for rekonstruksjon av den høyre surround kanal er forskjellig fra basiskanalen for rekonstruksjon av den fremre høyre kanal, der differansen er avhengig av koherensmålet a2som fortrinnsvis sendes fra koder til en dekoder som sideinformasjon.
Den oppfinneriske prosess er derfor unik i det at det ved reproduksjon av fortrinnsvis hver eneste utgangskanal vil en forskjellig basiskanal bli benyttet, der basiskanalene er lik de sendte kanaler eller en lineær kombinasjon av disse. Den lineære kombinasjon kan i varierende grad avhenge av de sendte basiskanaler, der disse varierende grader avhenger av koherensmålet som igjen avhenger av det opprinnelige multikanal-signal.
Denne prosessen med å tilveiebringe N basiskanaler når det gis M sendte kanaler kalles "oppmiksing". Denne oppmiksing kan implementeres ved å multiplisere en vektor bestående av de sendte kanaler med en NxM matrise for å generere N basiskanaler. Ved å gjøre dette vil lineære kombinasjoner av sendte signalkanaler bli dannet for å produsere basissignalene for utgangskanal-signalene. Et spesifikt eksempel på oppmiksing er vist i fig. 14A, der en 5-til-2-fremgangsmåte anvendes for å generere et 5-kanals surround utgangssignal med en 2-kanals stereotransmisjon. Fortrinnsvis vil basiskanalen for en ytterligere subwoofer utgangskanal være den samme som senter-kanalen L+R. I en foretrukket utførelsesform av denne oppfinnelse tilveiebringes et tidsvarierende og, valgfritt, et frekvensvarierende koherensmål slik at det fremskaffes en tidstilpasset oppmiksingsmatrise som også, valgfritt, kan være frekvens-selektiv.
I det følgende henvises det til fig. 14B som illustrerer bakgrunnen for den oppfinneriske implementering av en koder illustrert i fig. IB. I denne sammenheng skal det bemerkes at ICC- og ICTD-oppkallingene mellom venstre og høyre og venstre surround og høyre surround er de samme som for det sendte stereosignal. I overensstemmelse med denne oppfinnelse vil det således ikke være nødvendig å benytte ICC- og ICTD-oppkallinger mellom venstre og høyre og venstre surround og høyre surround for syntetisering eller rekonstruksjon av et utgangssignal. En annen grunn for ikke å syntetisere ICC- og ICTD-oppkallinger mellom venstre og høyre og venstre surround og høyre surround er den generelle innvendig at basiskanaler må modifiseres så lite som mulig for å kunne bevare en optimal signalkvalitet. En hvilken som helst signalmodifisering kan potensielt introdusere kunstige elementer eller "ikke-naturlighet".
Det vil derfor bare bli tilveiebrakt en nivå-representasjon av det opprinnelige multikanal-signal som fremskaffes ved å anvende ICLD-oppkallingene, mens ICC- og ICTD-parametrene, i overensstemmelse med denne oppfinnelse, beregnes og sendes bare for kanalpar på en side av den antatte lytteposisjon. Dette illustreres i fig. 14B ved den prikkede linje 144 for den venstre side og den prikkede linje 145 for den høyre side. I motsetning til ICC og ICTD vil en ICLD-syntese være temmelig uproblematisk i forhold til kunstige elementer og "ikke-naturlighet", siden den bare omfatter skalering av underbåndssignaler. ICLD syntetiseres således like generelt som ved regulær BCC, dvs. mellom en referansekanal og alle andre kanaler. Mer generelt kan man si at ved en N-til-M-fremgangsmåte syntetiseres ICLD mellom kanalpar på samme måte som med en regulær BCC. ICC- og ICTD-oppkallinger syntetiseres imidlertid, i overensstemmelse med denne oppfinnelse, bare mellom kanalpar som befinner seg på den samme side i forhold til den antatte lytteposisjon, dvs. for kanalparet som omfatter den fremre venstre og den venstre surround kanal eller kanalparet som omfatter den fremre høyre og den høyre surround kanal.
Ved et 7-kanals, eller høyere, surroundsystem, der det foreligger tre kanaler på den venstre side og tre kanaler på den høyre side, kan den samme fremgangsmåte anvendes, der koherens-parameteren bare for mulige kanalpar på den venstre side eller på den høyre side sendes for å tilveiebringe forskjellige basiskanaler for rekonstruksjonen av de forskjellige utgangskanaler på en side av den antatte lytteposisjon. Den oppfinneriske N-til-M-koder illustrert i fig. IA og fig. IB er derfor unik ved at inng-angssignalene nedmikses, ikke til en enkelt kanal, men til M kanaler, og ved at ICTD-og ICC-oppkallingene estimeres og sendes bare mellom de kanalpar for hvilke dette er nødvendig.
Situasjonen i et 5-kanals surroundsystem er vist i fig. 14B, der det er åpenbart at minst et koherensmål mellom venstre og venstre surround må sendes. Dette koherensmål kan også benyttes for å tilveiebringe dekorrelasjon mellom høyre og høyre surround. Dette vil være en lavskala implementering av sideinformasjon. Når mer kanalkapasitet er tilgjengelig kan man også generere og sende et separat koherensmål mellom den høyre og den høyre surround kanal slik at det ved en oppfinnerisk dekoder også kan fremskaffes forskjellige grader av dekorrelasjon på venstre siden og på høyre siden.
Fig. 2A viser en illustrasjon av en oppfinnerisk dekoder som fungerer som en anordning for invers prosessering av inngangsdata mottatt ved en inngangsdataport 22. Dataene mottatt ved inngangsdataporten 22 vil være de samme data som utgangsdataene ved utgangsdataporten 20 i fig. IA. Når dataene ikke sendes via en trådbundet kanal men via en trådløs kanal, vil alternativt dataene mottatt ved datainngangsporten 22 være data fremskaffet fra de opprinnelige data produsert av koderen.
Inngangsdataene i dekoderen avgis til en datastrøm-leser 24 for avlesning av inngangsdata for endelig å kunne fremskaffe kanal-sideinformasjonen 26 og den venstre nedmiksede kanal 28 samt den høyre nedmiksede kanal 30. Når inngangsdataene omfatter kodede versjoner av de nedmiksede kanaler, hvilket korresponderer til det tilfelle der audiokoderen 16 i fig. IA er til stede, vil datastrøm-leseren 24 også omfatte en audiodekoder, som er tilpasset audiokoderen benyttet for koding av de nedmiksede kanaler. I dette tilfellet kan audiodekoderen, som er en del av datastrøm-leseren 24, betjenes til å generere den første nedmiksede kanal Lc og den andre nedmiksede kanal Rc eller, mer presist, en dekodet versjon av disse kanaler. For enkelthetens skyld foretas det et skille mellom signaler og dekodede versjoner av disse bare når dette eksplisitt uttales.
Kanal-sideinformasjonen 26 og den venstre og den høyre nedmiksede kanal 28 og 38 som avgis fra datastrøm-leseren 24 mates til en multikanals rekonstruktør 32 for å tilveiebringe en rekonstruert versjon 34 av de opprinnelige audiosignaler, som kan avspilles ved hjelp av en multikanals spiller 36. Dersom multikanals rekonstruktøren er betjenbar i frekvensdomenet vil multikanals spilleren 36 motta frekvensdomene-inngangsdata, som må dekodes på en bestemte måte, slik som å omformes til tidsdomenet, før de kan spilles. For dette formål kan multikanals spilleren 36 også omfatte dekodingsmuligheter.
Det skal bemerkes at en lavskala-dekoder bare vil omfatte datastrøm-leseren 24, som bare omfatter den venstre og den høyre nedmiksede kanal 28 og 30 til en stereoutgang 38. En forsterket oppfinnerisk dekoder vil imidlertid utvinne kanal-sideinformasjon 26 og benytte denne sideinformasjon og de nedmiksede kanaler 28 og 30 for rekonstruksjon av versjoner 34 av de opprinnelige kanaler ved å benytte multi-kanals rekonstruktøren 32.
Fig. 2B viser en oppfinnerisk implementering av multikanals rekonstruktøren 32 i fig. 2A. Således viser fig. 2B en anordning for konstruksjon av et multikanals utgangssignal ved å benytte et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanals signal, og der den parametriske sideinformasjon skriver interrelasjoner mellom kanaler i det opprinnelige multikanals signal. Den oppfinneriske anordning vist i fig. 2B omfatter midler 320 for å tilveiebringe et koherensmål som vil avhenge av en første opprinnelig kanal og en andre opprinnelig kanal, der den førs-te opprinnelige kanal og den andre opprinnelige kanal er inkludert i det opprinnelige multikanals signalet. Dersom koherensmålet er inkludert i den parametriske sideinformasjon vil denne bli avgitt til midlene 320 som illustrert i fig. 2B. Koherensmålet tilveiebrakt av midlene 320 avgis til midlene 322 for bestemmelse av basiskanaler. Mer spesifikt kan midlene 322 betjenes til å bestemme en første basiskanal ved å velge en av den første og den andre inngangskanal eller en forutbestemt kombinasjon av den første og den andre inngangskanal. Midlene 322 kan videre betjenes til å bestemme en andre basiskanal ved å benytte koherensmålet slik at den andre basiskanal er forskjellig fra den første basiskanal på grunn av dette koherensmål. I eksempelet vist i fig. 2B, som angår et 5-kanals surroundsystem, vil den første inngangskanal være den venstre-kompatible stereokanal Lc; og den andre inngangskanal vil være den høyre-kompatible stereokanal Rc. Midlene 322 kan betjenes til å bestemme basiskanalene på en måte som allerede er beskrevet i forbindelse med fig. 14A. Således tilveiebringes det, ved utgangen av midlene 322, en separat basiskanal for hver av utgangskanalene som skal rekonstrueres, der basiskanalene som avgis fra midlene 322 alle fortrinnsvis er forskjellig fra hverandre, dvs. at de har et koherensmål mellom seg som er forskjellig for hvert par.
Basiskanalene som avgis fra midlene 322 samt parametrisk sideinformasjon slik som ICLD, ICTD eller mtensitetsstereo-informasjon inngis til midlene 324 for syntetisering av den første utgangskanal, f.eks. L, ved å benytte den parametriske sideinformasjon og den første basiskanal for å tilveiebringe en første syntetisert utgangskanal L, som vil være en reprodusert versjon av den korresponderende første opprinnelige kanal, og for syntetisering av en andre utgangskanal, f.eks. Ls, ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal. I tillegg kan midlene 324 for syntetisering betjenes til å reprodusere den høyre kanal R og den høyre surroundkanal Rs ved å benytte et annet par av basiskanaler, der basiskanalene i dette andre par er forskjellige fra hverandre på grunn av koherensmålet eller på grunn av et ytterligere koherensmål fremskaffet for det høyre/høyre surround kanalpar.
En mer detaljert implementering av den oppfinneriske dekoder er vist i fig. 2C. Det kan ses at for den foretrukkede utførelsesform angitt i fig. 2C vil den generelle struktur være lik strukturen allerede beskrevet i forbindelse med fig. 12 for en kjent BCC-dekoder. Det oppfinneriske opplegg vist i fig. 2C omfatter imidlertid to audio-filterbanker, dvs. en filterbank for hvert inngangssignal. En enkelt filterbank vil også naturligvis være tilstrekkelig. I dette tilfellet vil det være påkrevd med en styring som avgir inngangssignaler til den ene filterbank i en sekvensiell orden. Filterbankene er illustrert ved blokkene 319a og 319b. Funksjonaliteten til elementene 320 og 322, som er illustrert i fig. 2B, er inkludert i en oppmiksingsblokk 323 i fig. 2C.
Ved utgangen av oppmiksingsblokken 323 tilveiebringes basiskanaler som er forskjellige fra hverandre. Dette står i motsetning til fig. 12 der basiskanalene i knutepunktet 130 er identiske med hverandre. Syntetiseringsmidlene 324 vist i fig. 2B omfatter fortrinnsvis et forsinkelsestrinn 324a, et nivåmodifiseringstrinn 324b og, i noen tilfeller, et prosesseringstrinn for utføring av ytterligere prosesseringsoppgaver 324c så vel som et respektivt antall av inverse audio-filterbanker 324d. I en utførelsesform kan funksjonaliteten til elementene 324a, 324b, 324c og 324d være den samme som for den kjente innretning beskrevet i forbindelse med fig. 12.
Fig. 2D viser mer detaljert eksempelet ifølge fig. 2C for et 5-kanals surround-oppsett, der det foreligger to inngangskanaler y! og y2og fem konstruerte utgangskanaler fremskaffes som vist i fig. 2D. I motsetning til fig. 2C er det gitt en mer detaljert konstruksjon av oppmiksingsblokken 323. Mer spesifikt er det vist en adderings-innretning 330 for å kunne tilveiebringe basiskanalene for rekonstruksjon av en senter-utgangskanal. I tillegg er det i fig. 2D vist to blokker 331, 332 med benevnelsen "W". Disse blokkene utfører den vektede kombinasjon av de to inngangskanalene basert på koherensmålet K som avgis til en koherensmål-inngang 334. Vektingsblokkene 331 eller 332 vil også fortrinnsvis utføre respektive etter-prosesseringsoperasjoner for basiskanalene slik som utjevning i tid og frekvens og som vil bli utlagt nedenfor. Fig. 2C er således et mer generelt tilfelle av fig. 2D, der fig. 2C illustrerer hvordan N utgangskanaler genereres gitt dekoderens M inngangskanaler. De sendte signaler omformes til et underbånd-område.
Prosessen med å beregne basiskanalene for hver utgangskanal betegnes som en oppmiksing, siden hver basiskanal fortrinnsvis er en lineær kombinasjon av de sendte kanaler. Oppmiksingen kan utføres i tidsdomenet eller i underhånd- eller frekvens-domenet.
For beregning av hver basiskanal kan en bestemt prosessering anvendes for å redusere kansellermgs-/forsterkningseffekter når de sendte kanaler er faseforskjøvet eller i fase. ICTD syntetiseres ved å påføre forsinkelser på underbåndssignalene og ICLD syntetiseres ved å skalere underbåndssignalene. Forskjellige teknikker kan benyttes for syntetisering av ICC, slik som manipulering av vektingsfaktorene eller tids-forsinkelsene ved hjelp av en følge av vilkårlige tall. Det skal imidlertid bemerkes at det fortrinnsvis ikke utføres koherens/korrelasjonsprosessering mellom utgang skanaler bortsett i fra den oppfinneriske bestemmelse av de forskjellige basiskanaler for hver utgangskanal. En foretrukket oppfinnerisk innretning vil derfor prosessere ICC-oppkallinger mottatt fra en kode for å konstruere basiskanalene og ICTD- og ICLD-oppkallinger mottatt fra en koder for å manipulere den allerede konstruerte basiskanal. ICC-oppkallingene eller, mer generelt, koherensmålene vil således ikke bli benyttet for å manipulere en basiskanal men benyttes for å konstruere basiskanalen som så manipu-leres senere.
I det spesifikke eksempel vist i fig. 2D dekodes et 5-kanals surround-signal fra en 2-kanals stereotransmisjon. Et sendt 2-kanals stereosignal vil bli omformet til et underbåndsområde. Oppmiksing vil så bli anvendt for å generere fem, fortrinnsvis forskjellige basiskanaler. ICTD-oppkallinger vil bare bli syntetisert mellom venstre og venstre surround, og høyre og høyre surround ved å anvende forsinkelser dj (k) som omtalt i forbindelse med fig. 14B. I tillegg vil koherensmålene også bli benyttet for å konstruere basiskanalene (blokkene 331 og 332) i fig. 2D snarere enn for å utføre etter-prosessering i blokk 324c.
På en oppfinnerisk måte vil ICC- og ICTD-oppkallingene mellom venstre og høyre og venstre surround og høyre surround bli bevart som i det sendte stereosignal. Derfor vil en enkelt ICC-oppkallings- og en enkelt ICTD-oppkallingsparameter være tilstrekkelig og disse vil derfor bli sendt fra en koder til en dekoder.
I en annen utførelsesform kan ICC-oppkallinger og ICTD-oppkallinger for begge sider beregnes i en koder. Disse to verdiene kan så bli sendt fra en koder til en dekoder. Alternativt kan en koder beregne en resulterende ICC- eller ICTD-oppkalling ved å avgi oppkallingene for begge sidene til en matematisk funksjon, slik som en midlingsfunksjon etc, for å fremskaffe den resulterende verdi fra de to koherensmålene.
I det følgende refereres det til fig. 15A og 15B hvor det vises en lav-kompleksitetsimplementering av det oppfinneriske konsept. Mens en høy-kompleksitetsimplementering vil kreve en bestemmelse av koherensmålet på kodersiden i det minste mellom et kanalpar på en side av den antatte lytteposisjon, og sending av dette koherensmål i en fortrinnsvis kvantisert og antropi-kodet form, vil lavkom-pleksitetsversjonen ikke kreve noen bestemmelse av koherensmål på kodersiden eller transmisjon av slik informasjon fra koderen til dekoderen. For å kunne oppnå en god subjektiv kvalitet for det rekonstruerte multikanals utgangssignal er det ikke desto mindre tilveiebrakt et forutbestemt koherensmål eller, sagt på en annen måte, forutbestemte vektingsfaktorer for å bestemme en vektet kombinasjon av de sendte inngangskanaler ved å benytte en slik forutbestemt vektingsfaktor, gjennom midlene 324 i fig. 2D. Det eksisterer flere muligheter for å redusere koherensen i basiskanaler for rekonstruksjon av utgangskanaler. Uten det oppfinneriske mål ville de respektive utgangskanaler, ved en basislinje-implementering der ingen ICC eller ICTD kodes eller sendes, være fullstendig koherente. En bruk av et hvilket som helst forutbestemt koherensmål vil derfor redusere koherensen i de rekonstruerte utgangs signaler slik at de reproduserte utgangssignaler vil være bedre tilnærminger av de korresponderende opprinnelige kanaler.
For å forhindre at basiskanalene er fullstendig koherente vil derfor oppmiksingen bli utført f.eks. som vist i fig. 15A, som et alternativt til utførelsen vist i fig. 15B. De fem basiskanalene beregnes slik at ingen av disse er fullstendig koherente, dersom det sendte stereosignal heller ikke er fullstendig koherent. Dette medfører at en interkanal-koherens mellom den venstre kanal og den venstre surround kanal eller mellom den høyre kanal og den høyre surround kanal automatisk reduseres, når interkanal-koherensen mellom den venstre kanal og den høyre kanal reduseres. For et audiosignal som er uavhengig av alle kanaler, slik som f.eks. et applaus signal, vil en slik oppmiksing ha den fordel at det genereres en bestemt uavhengighet mellom venstre og venstre surround og høyre og høyre surround uten at det samtidig er behov for en eksplisitt syntetisering (og koding) av interkanal-koherens. Denne andre versjon av oppmiksingen kan selvfølgelig kombineres med en fremgangsmåte som fremdeles synteti-serer ICC og ICTD. Fig. 15A viser en oppmiksing optimalisert for fremre venstre og fremre høyre, der den største uavhengighet opprettholdes mellom disse kanaler. Fig. 15B viser et annet eksempel der, på den ene side, fremre venstre og fremre høyre og, på den annen side, venstre surround og høyre surround behandles på samme måte ved at graden av uavhengighet for de fremre og bakre kanaler er den samme. Dette kan ses i fig. 15B ved det faktum at vinkelen mellom fremre venst-re/høyre er den samme som vinkelen mellom venstre/høyre surround.
I overensstemmelse med den foretrukne utførelsesform av denne oppfinnelse benyttes en dynamisk oppmiksing i stedet for en statisk utvelgelse. I denne sammenheng er oppfinnelsen også relatert til en forbedret algoritme som er i stand til å dynamisk tilpasse oppmiksingsmatrisen for å kunne optimalisere en dynamisk ytelse. I eksempelet illustrert nedenfor kan oppmiksingsmatrisen velges for de bakre kanaler slik at en optimal reproduksjon av fremre-bakre-koherensen blir mulig. Denne oppfinneriske algoritme omfatter følgende trinn: For de fremre kanaler benyttes en enkel tildeling av basiskanaler, slik som den beskrevet i figurene 14A eller 15A. Gjennom dette enkle valg bevares koherensen for kanalene langs venstre/høyre-aksen.
I koderen vil fremre-bakre-koherens-verdiene, slik som ICC-oppkallingene mellom parene venstre/venstre surround og fortrinnsvis høyre/høyre surround, bli målt.
I dekoderen bestemmes basiskanalene for de venstre bakre og høyre bakre kanaler ved å danne lineære kombinasjoner av de sendte kanalsignaler, dvs. en sendt venstrekanal og en sendt høyrekanal. Mer spesifikt bestemmes oppmiksings-koeffisientene slik at den aktuelle koherens mellom venstre og venstre surround og høyre og høyre surround får verdiene målt i koderen. I praksis kan dette oppnås når de sendte kanalsignaler fremviser tilstrekkelige dekorrelasjoner, noe som normalt vil være tilfellet ved vanlige 5-kanal-situasjoner.
I den foretrukkede utførelsesform av dynamisk oppmiksing vil et eksempel på en implementering som anses å være den beste måte å utøve denne oppfinnelse på være som angitt i fig. 2E når det gjelder koder-implementeringen og fig. 2F og fig. 2G når det gjelder dekoder-implementeringen. Fig. 2E viser et eksempel på måling av fremre/bakre koherens-verdier (ICC-verdier) mellom den venstre og den venstre surround kanal eller mellom den høyre og den høyre surround kanal, dvs. mellom et kanalpar som befinner seg på en side av en antatt lytteposisjon.
Ligningen vist i boksen i fig. 2E gir et koherensmål cc mellom den første kanal x og den andre kanal y. I et tilfelle vil den første kanal x være den venstre kanal, mens den andre kanal y vil være den venstre surround kanal. I et annet tilfelle vil den første kanal x være den høyre kanal, mens den andre kanal y vil være den høyre surround kanal, x; angir et sampel for den respektive kanal x på tidspunktet i, mens y; angir et sampel på et tidspunkt for den andre opprinnelige kanal y. Det skal her bemerkes at koherensmålet kan beregnes fullstendig i tidsdomenet. I dette tilfellet vil sum-masjonsindeksen i løpe fra en nedre grense til en øvre grense, der den andre grense normalt vil være lik antallet sampler i en pulje når det dreier seg om en puljevis prosessering.
Koherensmålene kan alternativt også beregnes mellom båndpass-signaler, dvs. signaler med redusert båndbredde i forhold til det opprinnelige audiosignal. I det siste tilfellet vil koherensmålet ikke bare være tidsavhengig men også frekvensavhengig. De resulterende fremre/bakre ICC-oppkallinger, dvs. CQ for den venstre fremre/bakre koherens og CQ for den høyre fremre/bakre koherens, vil bli sendt til en dekoder som parametrisk sideinformasjon fortrinnsvis i en kvantisert og kodet form.
I det følgende refereres det til fig. 2F for å angi en foretrukket dekoder-oppmiksingsfremgangsmåte. I det illustrerte tilfellet holdes den sendte venstre kanal som basiskanal for den venstre utgangskanal. For å kunne tilveiebringe basiskanalen for den venstre bakre utgangskanal bestemmes en lineær kombinasjon av den venstre (1) og den høyre (r) sendte kanal, dvs. 1 + ar. Vektingsfaktoren a bestemmes slik at krysskorrelasj onen mellom 1 og 1 + ar er lik den sendte ønskede verdi CQ for den venstre side og CCrfor den høyre side eller generelt koherensmålet k.
Beregningen av den passende a-verdi er angitt i fig. 2F. Spesielt defineres en normalisert krysskorrelasjon av de to signalene 1 og r som vist i ligningen i blokken i fig. 2E.
Gitt to sendte signaler 1 og r vil vektingsfaktoren a bli bestemt slik at den normaliserte krysskorrelasjon mellom signalene 1 og 1 + ar er lik den ønskede verdi k, dvs. koherensmålet. Dette mål defineres til å ligge mellom -1 og +1.
Ved å benytte definisjonen for krysskorrelasjonen for de to kanalene vil ligningen gitt i fig. 2F, for verdien k, oppnås. Ved å benytte flere forkortelser angitt i nedre del av fig. 2F, kan betingelsen for k omskrives som en kvadratisk ligning, hvis løsning gir vektingsfaktoren a.
Det kan vises at ligningen alltid har reelle løsninger, dvs. at diskriminanten garantert er ikke-negativ.
Avhengig av den grunnleggende krysskorrelasjon for signalene 1 og r, og den ønskede krysskorrelasjon k, kan en eller begge løsningene faktisk gi en ønsket kry ss-korrelasj ons verdi men med negativt fortegn, og disse vil derfor ikke tas med i den videre beregningen.
Etter beregningen av basiskanal-signalet som en lineær kombinasjon av signalene 1 og r, vil det resulterende signal bli normalisert (reskalert) til den opprinnelige signalenergien for det sendte 1 eller r kanal-signal.
På tilsvarende måte kan basiskanal-signalet for den høyre utgangskanal tilveiebringes ved at de høyre og venstre kanaler bytter plass, dvs. ved å ta i betraktning krysskorrelasj onen mellom r og r + al.
I praksis vil en utjevning av resultatene av beregningsprosessen for a-verdien over tid og frekvens være å foretrekke, for å kunne oppnå en optimal signalkvalitet. Andre fremreÆ>akre korrelasjonsmålinger enn venstre/venstre bakre og høyre/høyre bakre kan benyttes for ytterligere å optimalisere signalkvaliteten.
I det følgende vil en trinn for trinn-beskrivelse av funksjonaliteten for multi-kanalsrekonstruktøren 32 i fig. 2A bli gitt, idet det refereres til fig. 2G.
Fortrinnsvis beregnes (200) en vektingsfaktor a basert på et dynamisk koherensmål tilveiebrakt fra en koder til en dekoder eller basert på en statisk tilveiebringel-se av et koherensmål som beskrevet i forbindelse med fig. 15A og 15B. Vektingsfaktoren vil så bli utjevnet over tid og/eller frekvens (trinn 202) for således å tilveiebringe en utjevnet vektingsfaktor as. En basiskanal b beregnes så til feks. å være lik 1 + asr (trinn 204). Basiskanalen b benyttes så, sammen med andre basiskanaler, til å beregne ubearbeidede utgangssignaler.
Som vil være åpenbart fra boksen 206 vil nivå-representasjonen ICLD så vel som forsinkelsesrepresentasjonen ICTD være påkrevd for beregning av ubearbeidede utgangssignaler. De ubearbeidede utgangssignaler vil så bli skalert til å ha den samme energi som summen av de individuelle energier for de venstre og høyre inngangskanaler. Sagt på en annen måte, vil de ubearbeidede utgangssignaler bli skalert ved hjelp av en skaleringsfaktor slik at en sum av de individuelle energier for de skalerte ubearbeidede utgangssignaler vil være den samme som summen av de individuelle energier for de sendte venstre og høyre inngangskanaler.
En kunne også alternativt beregne summen av de venstre og høyre sendte kanaler og benytte energien i det resulterende signal. En kunne også i tillegg beregne et sum-signal ved sampel-vis summering av de ubearbeidede utgangssignaler og benytte energien i det resulterende signal for skaleringsformål.
Ved en utgang fra boksen 208 fremskaffes så de rekonstruerte utgangskanaler, som vil være unike idet at ingen av de rekonstruerte kanaler er fullstendig koherente med hverandre, slik at det oppnås en optimal kvalitet for det reproduserte utgangssignal.
Kort sagt vil det oppfinneriske konsept være fordelaktig ved at et vilkårlig antall sendte kanaler (M) og et vilkårlig antall utgangskanaler (N) kan benyttes.
I tillegg utføres omformingen mellom de sendte kanaler og basiskanalene for utgangskanalene fortrinnsvis gjennom dynamisk oppmiksing.
I en viktig utførelsesform består oppmiksingen av en multiplikasjon med en oppmiksingsmatrise, dvs. av en dannelse av lineære kombinasjoner av de sendte kanaler, der de fremre kanaler fortrinnsvis syntetiseres ved å benytte de korresponderende sendte basiskanaler som basiskanaler, mens de bakre kanaler består av en lineær kombinasjon av de sendte kanaler, der graden av en lineær kombinasjon er avhengig av koherensmålet.
I tillegg utføres denne oppmiksingsprosess fortrinnsvis signal-adaptivt på en tidsvarierende måte. Mer spesifikt vil oppmiksingsprosessen fortrinnsvis avhenge av en sideinformasjon sendt fra en BCC-koder, slik som interkanal-koherens-oppkallinger av en fremre/bakre koherens.
Gitt basiskanalen for hver utgangskanal vil en prosessering tilsvarende en regulær binaural oppkallingskoding bli anvendt for å syntetisere romlige oppkallinger, dvs. ved å anvende skaleringer og forsinkelser i underhånd og ved å anvende teknikker for å redusere koherensen mellom kanaler, der ICC-oppkallinger i tillegg, eller alternativt, benyttes for konstruksjon av respektive basiskanaler for å tilveiebringe en optimal reproduksjon av fremre/bakre koherens.
Fig. 3A viser en utførelsesform av den oppfinneriske beregningsinnretning 14 for beregning av kanal-sideinformasjonen, som betjenes av både en audio-koder og kanal-sideinformasjonsberegnmgsirmretningen i den samme spektrale representasjon av multikanal-signalet. Fig. 1 viser imidlertid det andre alternativ, der audio-koderen og kanal-sideinformasjonsberegnmgsinnretningen opererer i forskjellige spektrale representasjoner av multikanal-signalet. Når regnekraften ikke er så viktig som lyd-kvaliteten, er alternativet ifølge fig. IA foretrukket, siden filterbanker som individuelt er optimalisert for audio-koding og sideinformasjonsberegning kan benyttes. Når den foreliggende regnekraft imidlertid er et poeng, vil alternativet ifølge fig. 3A bli foretrukket, siden dette alternativet krever mindre regnekraft på grunn av en delt benyttelse av elementene.
Innretningen vist i fig. 3A kan betjenes til å motta to kanaler A, B og til å beregne en sideinformasjon for kanal B slik at det ved å benytte denne kanal-sideinformasjon for den utvalgte opprinnelige kanal B kan en rekonstruert versjon av kanal B beregnes ut i fra kanalsignalet A. I tillegg kan innretningen vist i fig. 3A betjenes til å danne kanal-sideinformasjon i frekvensdomenet, slik som parametere for vekting av spektralverdier eller underbånd-sampler (ved å multiplisere eller tids-prosessere på samme måte som ved f.eks. BCC-koding). For dette formål omfatter den oppfinneriske beregningsinnretning vindusdelings- og tids/frekvens-omformingsmidler 140a for å kunne tilveiebringe en frekvens-representasjon av kanal A ved en utgang 140b eller en frekvensdomene-representasjon av kanal B ved en utgang 140c.
I den foretrukkede utførelsesform utføres bestemmelsen av sideinformasjonen ved å benytte kvantiserte spektralverdier (ved hjelp av sideinformasjons bestemmelsesmidlene 140f). Det foreligger også en kvantiserer 140d som fortrinnsvis styres ved å benytte en psykoakustisk modell med en kontrollinngang 140e. En kvantiserer er imidlertid ikke påkrevd når sideinformasjonsbestemmelsesmidlene 140c benytter en ikke-kvantisert representasjon av kanal A for bestemmelse av kanal-sideinformasjonen for kanal B.
Når kanal-sideinformasjonen for kanal B beregnes ved hjelp av en frekvensdomene-representasjon av kanalene A og B, kan vindusdelings- og tids/frekvens-omformingsmidlene 140a være de samme som benyttet i en filterbank-basert audio-koder. I dette tilfellet, når AAC (ISO/IEC 13818-3) er aktuelt, vil midlene 140a bli implementert som en MDCT-filterbank (MDCT = modifisert diskret cosinustransfor-masjon) med 50 % overlapp-og-adder-funksjonalitet.
I et slikt tilfelle vil kvantisereren 140d være en iterativ kvantiserer som benyttes når mp3 eller AAC-kodede audiosignaler genereres. Frekvensdomene-representasjonen av kanal A, som fortrinnsvis allerede er kvantisert, kan da benyttes direkte for antropi-koding ved å benytte en antropi-koder 140g, som kan være en Huffman-basert koder eller en antropi-koder som implementerer aritmetisk koding.
Sammenlignet med fig. 1 vil det som avgis fra innretningen ifølge fig. 3A være sideinformasjonen. F.eks. li, for en opprinnelig kanal (korresponderende til sideinformasjonen for B ved utgangen av innretningen 140f). Den antropi-kodede bitstrøm for kanal A vil f.eks. korrespondere til den kodede venstre nedmiksede kanal Lc' ved utgangen av blokk 16 i fig. 1. Fra fig. 3A er det åpenbart at elementet 14 (fig. 1), dvs. beregnmgsinnretning for beregning av kanal-sideinformasjonen og audiokoderen 16 (fig. 1), kan implementeres som separate irmretningen eller som en integrert versjon slik at begge innretningene deler flere elementer slik som f.eks. MDCT-filterbanken 140a, kvantisereren 140e og antropi-koderen 140g. Dersom man f.eks. har behov for en annen transformasjon for bestemmelse av kanal-sideinformasjonen vil naturligvis koderen 16 og beregnmgsinnrerningen 14 (fig. 1) være implementert i forskjellige innretninger slik at begge elementene ikke deler filterbanken etc.
Generelt kan den faktiske determinator for beregning av sideinformasjonen (generelt omtalt som beregnmgsinnrerningen 14) være implementert som en felles-stereo-modul som vist i fig. 3B, som kan betjenes i overensstemmelse med hvilken som helst felles-stereo-teknikk, slik som intensitetsstereo-koding eller binaural-oppkallingskoding.
I kontrast til slike kjente intensitetsstereo-kodere trenger ikke den oppfinneriske bestemmelsesinnretning 140f å beregne den kombinerte kanal. Den kombinerte kanal, eller bærekanal, eksisterer allerede og vil være den venstre kompatible nedmiksede kanal Lc eller den høyre kompatible nedmiksede kanal Rc eller en kombinert versjon av disse nedmiksede kanaler slik som Lc + Rc. Den oppfinneriske innretningen 140f trenger derfor bare å beregne skaleringsinformasjonen for skalering av den respektive nedmiksede kanal slik at energi/tidsforløpet for den respektive utvalgte opprinnelige kanal tilveiebringes når den nedmiksede kanal vektes ved å benytte skale-rmgsinformasjonen, dvs. den intensitetsrettede informasjon.
Felles-stereo-modulen 140f ifølge fig. 3B er derfor illustrert slik at den mottar, som inndata, den "kombinerte" kanal A, som er den første eller andre nedmiksede kanal eller en kombinasjon av de nedmiksede kanaler, samt den opprinnelige utvalgte kanal. Denne modul vil naturligvis avgi den "kombinerte" kanal A og felles-stereo-parametere som kanal-sideinformasjon slik at en tilnærming av den opprinnelige utvalgte kanal B kan beregnes ved å benytte den kombinerte kanal A og felles-stereo-parametrene.
Alternativt kan felles-stereo-modulen 140f implementeres for utføring av binaural oppkallingskoding.
Ved BCC betjenes felles-stereo-modulen 140f til å avgi kanal-sideinformasjonen slik at denne informasjon vil være kvantiserte og kodede ICLD- eller ICTD-parametere, der den utvalgte opprinnelige kanal tjener som den kanalen som faktisk skal prosesseres, mens den respektive nedmiksede kanal benyttet ved beregningen av sideinformasjonen, slik som den første, den andre eller en kombinasjon av den første og den andre nedmiksede kanal, benyttes som referansekanal ved BCC-kodmgs-/dekodingsteknikken.
Det refereres så til fig. 4 der det angis en enkel energi-rettet implementering av elementet 140f. Denne innretningen omfatter en frekvensbånd-velger 44 for valg av frekvensbånd for kanal A og et korresponderende frekvensbånd for kanal B. I begge frekvensbånd beregnes så en energi ved hjelp av en energi-beregner 42 i hver gren. Den detaljerte implementeringen av energi-beregneren 42 vil avhenge av om utgangssignalet fra blokken 40 er et underbåndssignal eller om det består av frekvenskoeffisienter. I andre implementeringer, der skaleringsfaktorer for skaleringsfaktor-bånd beregnes, kan en allerede benytte skaleringsfaktorer for den første og den andre kanal A, B som energi-verdier EAog EB eller i det minste som estimater for energien. I en for-sterknmgsfaktor-beregnmgsinnretning 44 vil en forsterkningsfaktor gB for det valgte frekvensbånd bli bestemt basert på en bestemt regel slik som forsterkningsbestemmel-sesregelen illustrert i blokk 44 i fig. 4. Forsterkningsfaktoren gB kan her benyttes direkte for vekting av tidsdomene-sampler eller frekvenskoeffisienter slik som vil bli beskrevet senere i forbindelse med fig. 5. For dette formål vil forsterkningsfaktoren gB, som er gyldig for det utvalgte frekvensbånd, bli benyttet som kanal-sideinformasjon for kanal B som den utvalgte opprinnelige kanal. Denne utvalgte opprinnelige kanal B vil ikke bli sendt til dekoderen men vil bli representert ved den parametriske kanal-sideinformasjon slik denne er beregnet av beregnmgsinnretningen 14 ifølge fig. 1.
Det skal her bemerkes at det ikke er nødvendig å sende forsterkningsverdier som kanal-sideinformasjon. Det vil også være tilstrekkelig å sende frekvensavhengige verdier relatert til den absolutte energi i den utvalgte opprinnelige kanal. Dekoderen må da beregne den faktiske energi i den nedmiksede kanal og forsterkningsfaktoren basert på energien i den nedmiksede kanal og den sendte energi i kanalen B.
Fig. 5 viser en mulig implementering av et dekoder-oppsett i forbindelse med en transformasjonsbasert perseptuell audiokoder. Sammenlignet med fig. 2 vil funk-sjonalitetene til antropi-dekoderen og den inverse kvantiserer 50 (fig. 5) være inkludert i blokken 24 i fig. 2. Funksjonaliteten til frekvens-/tidsomformingselementene 52a, 52b (fig. 5) vil imidlertid være implementert i elementet 36 i fig. 2. Elementet 50 i fig. 5 vil motta en kodet versjon av det første eller det andre nedmiksede signal Lc' eller Rc'. Ved utgangen av elementet 50 vil det foreligge en i det minste delvis dekodet versjon av den første og den andre nedmiksede kanal som i det følgende vil bli kalt kanal A. Kanal A vil bli avgitt til en frekvensbånd-velger 54 for valg av et bestemt frekvensbånd for kanal A. Dette uvalgte frekvensbånd vektes ved å benytte en multiplikator 56. Denne multiplikator 56 vil motta, for bruk med multipliseringen, en bestemt forsterlcningsfaktor gB, som er tildelt det utvalgte frekvensbånd valgt av frekvensbånd-velgeren 54, som korresponderer til frekvensbånd-velgeren 40 ifølge fig. 4 på kodersiden. Ved inngangen til frekvens/tidsomformeren 52a vil det foreligge, sammen med andre bånd, en frekvensdomene-representasjon av kanal A. Ved utgangen av multiplikatoren 56 og spesielt ved inngangen til frekvens/tidsomformingsinnrerningen 52b vil det foreligge en rekonstruert frekvensdomene-representasjon av kanal B. Ved utgangen av elementet 52a vil det derfor foreligge en tidsdomene-representasjon av kanal A, mens det ved utgangen av elementet 52b vil foreligge en tidsdomene-representasjon av en rekonstruert kanal B.
Det skal her bemerkes at, avhengig av den spesifikke implementering, de dekodede, nedmiksede kanaler Lc eller Rc ikke vil bli avspilt i en multikanals forsterket dekoder. I en slik multikanals forsterket dekoder vil de dekodede nedmiksede kanaler bare bli benyttet for rekonstruksjon av de opprinnelige kanaler. De dekodede, nedmiksede kanaler vil bare bli avspilt i lavskala stereo-dekodere.
I denne sammenheng refereres det til fig. 9, som viser den foretrukkede implementering av denne oppfinnelse i et surround-/mp3-miljø. En mp3-forsterket surround-bitstrøm avgis til en standard mp3-dekoder 24, som vil avgi de dekodede versjoner av de opprinnelige nedmiksede kanaler. Disse nedmiksede kanaler kan da bli direkte avspilt ved hjelp av en lavnivåsdekoder. Alternativt vil disse to kanaler bli avgitt til en avansert felles-stereo dekodmgsirmretning 32 som også mottar multikanals forlengelsesdata, som fortrinnsvis avgis til tilleggsdatafeltet i en mp3-tilpasset bit-strøm.
I det følgende refereres det til fig. 7 som viser grupperingen av den valgte opprinnelige kanal og den respektive nedmiksede kanal eller kombinerte, nedmiksede kanal. I denne sammenheng korresponderer den høyre kolonne i tabellen i fig. 7 til kanal A i fig. 3A, 3B, 4 og 5, mens midtkolonnen korresponderer til kanal B i disse figurene. I den venstre kolonne i fig. 7 angis eksplisitt den respektive kanal-sideinformasjon. I overensstemmelse med tabellen ifølge fig. 7 beregnes kanal-sideinformasjonen 1; for den opprinnelige venstre kanal L ved å benytte den venstre nedmiksede kanal Lc. Kanal-sideinformasjonen ls; for venstre surround kanalen bestemmes ved hjelp av den opprinnelige, valgte venstre surround kanal Ls mens den venstre nedmiksede kanal Lc er bæreren. Den høyre kanal-sideinformasjon r; for den opprinnelige høyre kanal R bestemmes ved å benytte den høyre nedmiksede kanal Rc. I tillegg bestemmes kanal-sideinformasjonen for den høyre surround kanal Rs ved å benytte den høyre nedmiksede kanal Rc som signalbærer. Endelig bestemmes kanal-sideinformasjonen c; for senterkanalen C ved å benytte den kombinerte nedmiksede kanal, som fremskaffes ved en kombinasjon av den første og den andre nedmiksede kanal, som enkelt kan beregnes i både en koder og en dekoder og som ikke vil kreve ekstra bits ved transmisjon.
En kunne naturligvis også beregne kanal-sideinformasjonen for den venstre kanal, f.eks. basert på en kombinert nedmikset kanal eller til og med en nedmikset kanal, tilveiebrakt ved en vektet addisjon av den første og den andre nedmiksede kanal, slik som 0,7 Lc og 0,3 Rc, så lenge vektingsparametrene er kjent for en dekoder eller sendes i samsvar med dette. For de fleste anvendelser vil det imidlertid være å foretrekke at bare kanal-sideinformasjonen for senterkanalen tilveiebringes fra den kombinerte nedmiksede kanal, dvs. fra en kombinasjon fra den første og andre nedmiksede kanal.
For å illustrere bit-sparingspotensialet for oppfinnelsen skal følgende, typiske eksempel gis. Ved et fem-kanals audiosignal vil en normal koder trenge en bit-rate på 64 kbit/s for hver kanal noe som vil tilsvare en total bit-rate på 320 kbit/s for fem-kanals signalet. De venstre og høyre stereosignaler vil kreve en bit-rate på 128 kbit/s. Kanal-sideinformasjonen for en kanal vil ligge mellom 1,5 og 2 kbit/s. Selv i et tilfelle der hver kanal-sideinformasjon for hver av de fem kanalene sendes, vil således disse ytterligere data bare kreve fra 7,5 til 10 kbit/s. Det oppfinneriske konsept til således tillate transmisjon av et fem-kanals audiosignal ved å benytte en bit-rate på 138 kbit/s (sammenlignet med 320 (!) kbit/s) med god kvalitet, siden dekoderen ikke vil benytte den problematiske inverse matriseoperasj on. Sannsynligvis enda mer viktig er det faktum at det oppfinneriske konsept er fullstendig bakover-kompatibelt, siden hver av de eksiterende mp3-spillerne er i stand til å gjenspille den første nedmiksede kanal og den andre nedmiksede kanal for således å produsere en konvensjonell stereoutgang.
Avhengig av applikasjonsmiljøet kan de oppfinneriske fremgangsmåter for konstruksjon eller generering implementeres i maskinvaren eller i programvaren. Implementeringen kan foretas ved et digitalt lagringsmedium slik som en diskett eller en CD med elektronisk lesbare styresignaler, som kan samvirke med et programmerbart computersystem på en slik måte at de oppfinneriske fremgangsmåter kan utføres. Oppfinnelsen angår derfor generelt også et computerprogram-produkt med en programkode lagret i en maskinlesbar bærer, der programkoden er tilpasset utføring av de oppfinneriske fremgangsmåter når computerprogram-produktet kjøres i en computer. Oppfinnelsen angår derfor med andre ord også et computerprogram med en programkode for utføring av fremgangsmåtene når computerprogrammet kjøres i en computer.

Claims (25)

1 Anordning for konstruksjon av et multikanals utgangssignal ved å benytte et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal (Lc) og en andre inngangskanal (Rc) fremskaffet fra et opprinnelig multikanalsignal, der det opprinnelige multikanalsignal har flere kanaler, og der disse flere kanaler omfatter minst to opprinnelige kanaler som er definert slik at de befinner seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er en første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er en andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det multikanals opprinnelige signal,karakterisert vedat den omfatter midler (322) for bestemmelse av en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den første og den andre inngangskanal, og for bestemmelse av en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er ulik fra den første basiskanal; og midler (324) for syntetisering av en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal for å tilveiebringe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som befinner seg på den ene side av den antatte lytteposisjon, og for syntetisering av en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som befinner seg på den samme side av den antatte lytteposisjon.
2 Anordning ifølge krav 1,karakterisert vedat den videre omfatter midler (320) for å tilveiebringe et koherensmål, der koherensmålet avhenger av koherensen mellom en første opprinnelig kanal og en andre opprinnelig kanal, der den første og den andre opprinnelige kanal er inkludert i et opprinnelig multikanalsignal; der midlene (322) for bestemmelse kan betjenes til å bestemme den første og den andre basiskanal forskjellig fra hverandre basert på koherensmålet.
3 Anordning ifølge krav 1,karakterisert vedat de minst to opprinnelige kanaler omfatter en venstre opprinnelig kanal og en venstre surround opprinnelig kanal eller en høyre opprinnelig kanal og en høyre surround opprinnelig kanal.
4 Anordning ifølge krav 1,karakterisert vedat en kombinasjon av den første og den andre inngangskanal bestemt til å være den andre basiskanal er slik at en av de to inngangskanalene bidrar mer til den andre basiskanal enn den andre inngangskanal.
5 Anordning ifølge krav 2,karakterisert vedat koherensmålet er tidsvarierende slik at midlene (320) for bestemmelse kan betjenes til å bestemme den andre basiskanal som en kombinasjon av den første inngangskanal og den andre inngangskanal, der kombinasjonen er variabel over tid.
6 Anordning ifølge krav 2,karakterisert vedat den parametriske sideinformasjon omfatter koherensmålet, der koherensmålet bestemmes ved å benytte den første opprinnelige kanal og den andre opprinnelige kanal, der midlene (320) for å tilveiebringe kan betjenes til å utvinne koherensmålet fra den parametriske sideinformasjon.
7 Anordning ifølge krav 6,karakterisert vedat inngangssignalet omfatter en sekvens av puljer og den parametriske sideinformasjon omfatter en sekvens av parametere omfattende koherensmålet, der parametrene er tilordnet puljene.
8 Anordning ifølge krav 1,karakterisert vedat det opprinnelige signal videre omfatter en senterkanal (C), og der midlene (322) for bestemmelse videre kan betjenes til å beregne en tredje basiskanal ved å benytte like deler av den første inngangskanal og den andre inngangskanal.
9 Anordning ifølge krav 1,karakterisert vedat den parametriske sideinformasjon er frekvens-avhengig og at midlene (324) for syntetisering kan betjenes til å ut-føre en frekvens-avhengig syntese.
10 Anordning ifølge krav 1,karakterisert vedat den parametriske sideinformasjon omfatter binaural oppkallingskodings (BCC)-parametere omfattende interkanals nivådifferanse-parameter og interkanals tidsforsinkelsesparametere, og der midlene for syntetisering kan betjenes til å utføre en BCC-syntese ved å benytte en basiskanal bestemt ved bestemmelsesmidlene når en utgangskanal syntetiseres.
11 Anordning ifølge krav 2,karakterisert vedat midlene (322) for bestemmelse kan betjenes til å bestemme den første basiskanal som en av den første og den andre inngangskanal og til å bestemme den andre basiskanal som en vektet kombinasjon av den første og den andre inngangskanal, der vektingsfaktoren vil avhenge av koherens-målet.
12 Anordning ifølge krav 11,karakterisert vedat vektingsfaktoren bestemmes som følger:
der a er vektingsfaktoren, og der A, B, C bestemmes som følger,
der L, R, C bestemmes som følger,
der k er koherensmålet, og der 1 er den første inngangskanal og r den andre inngangskanal.
13 Anordning ifølge krav 11,karakterisert vedat koherensmålet er gitt for et frekvensbånd, og der midlene for bestemmelse kan betjenes til å bestemme den andre basiskanal for frekvensbåndet.
14 Anordning ifølge krav 11,karakterisert vedat koherensmålet bestemmes som følger:
der cc(x,y) er koherensmålet mellom to opprinnelige kanaler x, y, der x; er et sampel på et tidspunkt i for den første opprinnelige kanal, og der yi er et sampel på et tidspunkt i for den andre opprinnelige kanal.
15 Anordning ifølge krav 1,karakterisert vedat midlene (322) for bestemmelse kan betjenes til å skalere utgangskanalene ved å benytte potens-mål fremskaffet fra de opprinnelige kanaler, der potens-målet sendes med den parametriske sideinformasjon.
16 Anordning ifølge krav 11,karakterisert vedat midlene (322) for bestemmelse kan betjenes til å utjevne vektingsfaktoren over tid og/eller frekvens.
17 Anordning ifølge krav 1,karakterisert vedat den parametriske sideinformasjon omfatter nivåinformasjon som representerer en energidistribusjon for de opp rinnelige kanaler i det opprinnelige signal, og der midlene (324) for syntetisering kan betjenes til å skalere utgangskanalene slik at summen av energiene for utgangskanalene er lik summen av energiene for den første inngangskanal og den andre inngangskanal.
18 Anordning ifølge krav 17,karakterisert vedat midlene (324) for syntetisering kan betjenes til å beregne grove utgangskanaler basert på de bestemte basiskanaler og nivåinformasjonen og til å skalere de grove utgangskanaler slik at en total energi for de skalerte, grove utgangskanaler er lik den totale energi for den første og den andre inngangskanal.
19 Anordning ifølge krav 1,karakterisert vedat inngangssignalet omfatter en venstre kanal og en høyre kanal, og den opprinnelige kanal omfatter en fremre venstre kanal, en venstre surroundkanal, en fremre høyre kanal og en høyre surroundkanal, og der midlene (322) for bestemmelse kan betjenes til å bestemme den venstre kanal som basiskanal for en syntese av den fremre venstre kanal (L), den høyre kanal som basiskanal for en syntese av den fremre høyre kanal (R), en kombinasjon av den venstre kanal og den høyre kanal som basiskanal for den venstre surroundkanal (Ls) eller den høyre surroundkanal (Rs).
20 Anordning ifølge krav 1,karakterisert vedat inngangsignalet omfatter en venstre kanal og en høyre kanal og at det opprinnelige signal omfatter en fremre venstre kanal, en venstre surroundkanal, en fremre høyre kanal og en høyre surroundkanal, og der midlene for bestemmelse kan betjenes til å bestemme den venstre kanal som basiskanal for en syntese av den fremre venstre kanal, den høyre kanal som basiskanal for en syntese av den høyre surroundkanal, og en kombinasjon av den første og den andre inngangskanal som basiskanal for en syntese av den fremre høyre kanal eller den venstre surroundkanal.
21 Fremgangsmåte for konstruksjon av et multikanalsutgangssignal ved å benytte et inngangssignal og parametriske sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanalsignal, der det opprinnelige multikanalsignal har flere kanaler, der de flere kanaler omfatter minst to opprinnelige kanaler, definert til å befinne seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er den første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er den andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det multikanals opprinnelige signal,karakterisert vedat den omfatter å bestemme (322) en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den første og den andre inngangskanal, og å bestemme en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er forskjellig fra den første basiskanal; og å syntetisere (324) en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal til å fremskaffe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som befinner seg på en side av den antatte lytteposisjon, og å syntetisere en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som befinner seg på samme side av den antatte lytteposisjon.
22 Anordning for generering av et nedmikset signal fra et multikanals opprinnelig signal, der det nedmiksede signal har et antall av kanaler som er mindre enn antallet av opprinnelige kanaler,karakterisert vedat den omfatter midler (12) for beregning av en første nedmikset kanal og en andre nedmikset kanal ved å benytte en nedmiksingsregel; midler (14) for beregning av parametrisk nivåinformasjon som representerer en energi-distribusjon for kanalene i det multikanals opprinnelige signal; midler (142) for bestemmelse av et koherensmål mellom to opprinnelige kanaler, der de to opprinnelige kanaler befinner seg på en side av en antatt lytteposisjon; og midler (18) for danning av et utgangssignal ved å benytte den første og den andre nedmiksede kanal, den parametriske nivåinformasjon og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på en side eller en verdi fremskaffet fra det minst ene koherensmål, og ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.
23 Anordning ifølge krav 22,karakterisert vedat den videre omfatter midler (143) for bestemmelse av tidsforsinkelses-informasjon mellom to opprinnelige kanaler som befinner seg på en side av den antatte lytteposisjon; og der midlene (18) for danning kan betjenes til å omfatte tidsnivå-informasjon mellom to opprinnelige kanaler som befinner seg på en side av den antatte lytteposisjon men ikke tidsnivå-informasjon mellom to opprinnelige kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.
24 Fremgangsmåte for generering av et nedmikset signal fra et multikanals opprinnelige signal, der det nedmiksede signal har et antall av kanaler som er mindre enn et antall av opprinnelige kanaler,karakterisert vedat den omfatter • å beregne (12) en første nedmikset kanal og en andre nedmikset kanal ved å benytte en nedmiksingsregel; • å beregne (124) parametrisk nivåinformasjon som representerer en energidistribusjon for kanalene i det multikanals opprinnelige signal; • å bestemme (142) et koherensmål mellom to opprinnelige kanaler, der de to opprinnelige kanaler befinner seg på en side av den antatte lytteposisjon; og • å danne (18) et utgangssignal ved å benytte den første og den andre nedmiksede kanal, den parametriske nivåinformasjon og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på en side eller en verdi fremskaffet fra det minst ene koherensmål, men ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.
25 Computerprogram med en programkode for utføring av en fremgangsmåte for konstruksjon av en multikanal i overensstemmelse med krav 21 eller en fremgangsmåte for generering av et nedmikset signal i overensstemmelse med krav 24.
NO20063722A 2004-01-20 2006-08-18 Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal NO337395B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/762,100 US7394903B2 (en) 2004-01-20 2004-01-20 Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
PCT/EP2005/000408 WO2005069274A1 (en) 2004-01-20 2005-01-17 Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal

Publications (2)

Publication Number Publication Date
NO20063722L NO20063722L (no) 2006-10-19
NO337395B1 true NO337395B1 (no) 2016-04-04

Family

ID=34750329

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20063722A NO337395B1 (no) 2004-01-20 2006-08-18 Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal

Country Status (17)

Country Link
US (1) US7394903B2 (no)
EP (1) EP1706865B1 (no)
JP (1) JP4574626B2 (no)
KR (1) KR100803344B1 (no)
CN (1) CN1910655B (no)
AT (1) ATE393950T1 (no)
AU (1) AU2005204715B2 (no)
BR (1) BRPI0506533B1 (no)
CA (1) CA2554002C (no)
DE (1) DE602005006385T2 (no)
ES (1) ES2306076T3 (no)
IL (1) IL176776A (no)
MX (1) MXPA06008030A (no)
NO (1) NO337395B1 (no)
PT (1) PT1706865E (no)
RU (1) RU2329548C2 (no)
WO (1) WO2005069274A1 (no)

Families Citing this family (197)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454257B2 (en) * 2001-02-08 2008-11-18 Warner Music Group Apparatus and method for down converting multichannel programs to dual channel programs using a smart coefficient generator
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7929708B2 (en) * 2004-01-12 2011-04-19 Dts, Inc. Audio spatial environment engine
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
KR101158698B1 (ko) * 2004-04-05 2012-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 복수-채널 인코더, 입력 신호를 인코딩하는 방법, 저장 매체, 및 인코딩된 출력 데이터를 디코딩하도록 작동하는 디코더
WO2005098826A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
EP3561810B1 (en) * 2004-04-05 2023-03-29 Koninklijke Philips N.V. Method of encoding left and right audio input signals, corresponding encoder, decoder and computer program product
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US20050273324A1 (en) * 2004-06-08 2005-12-08 Expamedia, Inc. System for providing audio data and providing method thereof
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR101205480B1 (ko) * 2004-07-14 2012-11-28 돌비 인터네셔널 에이비 오디오 채널 변환
US7508947B2 (en) * 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
KR20070061843A (ko) * 2004-09-28 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치 및 스케일러블 부호화 방법
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7853022B2 (en) * 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
US20060093164A1 (en) * 2004-10-28 2006-05-04 Neural Audio, Inc. Audio spatial environment engine
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
MX2007005262A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y decodificacion de senales de audio de varios canales.
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード
DE602005017302D1 (de) * 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
KR20130079627A (ko) * 2005-03-30 2013-07-10 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 인코딩 및 디코딩
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
RU2007139784A (ru) * 2005-04-28 2009-05-10 Мацусита Электрик Индастриал Ко., Лтд. (Jp) Устройство кодирования звука и способ кодирования звука
JP5452915B2 (ja) * 2005-05-26 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
WO2006126843A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding audio signal
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
EP1913577B1 (en) * 2005-06-30 2021-05-05 Lg Electronics Inc. Apparatus for encoding an audio signal and method thereof
EP1908057B1 (en) * 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
JP5227794B2 (ja) * 2005-06-30 2013-07-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US20070055510A1 (en) 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR101356586B1 (ko) * 2005-07-19 2014-02-11 코닌클리케 필립스 엔.브이. 다중 채널 오디오 신호를 생성하기 위한 디코더, 수신기 및 방법
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP4568363B2 (ja) 2005-08-30 2010-10-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7783494B2 (en) * 2005-08-30 2010-08-24 Lg Electronics Inc. Time slot position coding
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
US8019614B2 (en) * 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
EP1761110A1 (en) * 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
EP1946297B1 (en) 2005-09-14 2017-03-08 LG Electronics Inc. Method and apparatus for decoding an audio signal
TWI485698B (zh) * 2005-09-14 2015-05-21 Lg Electronics Inc 音頻訊號之解碼方法及其裝置
US8090587B2 (en) * 2005-09-27 2012-01-03 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
TWI450603B (zh) * 2005-10-04 2014-08-21 Lg Electronics Inc 音頻訊號處理方法及其系統與電腦可讀取媒體
US7646319B2 (en) * 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7751485B2 (en) * 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
KR100857111B1 (ko) * 2005-10-05 2008-09-08 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7672379B2 (en) * 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
JP5329963B2 (ja) * 2005-10-05 2013-10-30 エルジー エレクトロニクス インコーポレイティド 信号処理方法及び装置、エンコーディング及びデコーディング方法並びにそのための装置
US8073703B2 (en) * 2005-10-07 2011-12-06 Panasonic Corporation Acoustic signal processing apparatus and acoustic signal processing method
EP1946308A4 (en) * 2005-10-13 2010-01-06 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING A SIGNAL
WO2007043844A1 (en) * 2005-10-13 2007-04-19 Lg Electronics Inc. Method and apparatus for processing a signal
KR20070043651A (ko) * 2005-10-20 2007-04-25 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US7653533B2 (en) * 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
US8238561B2 (en) * 2005-10-26 2012-08-07 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
US8027485B2 (en) * 2005-11-21 2011-09-27 Broadcom Corporation Multiple channel audio system supporting data channel replacement
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
US7752053B2 (en) * 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
KR100953642B1 (ko) * 2006-01-19 2010-04-20 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
WO2007089131A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
KR100991795B1 (ko) * 2006-02-07 2010-11-04 엘지전자 주식회사 부호화/복호화 장치 및 방법
US9009057B2 (en) * 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
EP1987595B1 (en) * 2006-02-23 2012-08-15 LG Electronics Inc. Method and apparatus for processing an audio signal
KR100773562B1 (ko) * 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
US8126152B2 (en) * 2006-03-28 2012-02-28 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
CN101485094B (zh) * 2006-07-14 2012-05-30 安凯(广州)软件技术有限公司 最大熵意义下后向兼容多通道音频编码与解码方法和系统
KR100763920B1 (ko) * 2006-08-09 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2채널의 바이노럴 신호로 복호화하는 방법 및 장치
RU2454825C2 (ru) * 2006-09-14 2012-06-27 Конинклейке Филипс Электроникс Н.В. Манипулирование зоной наилучшего восприятия для многоканального сигнала
KR100891666B1 (ko) 2006-09-29 2009-04-02 엘지전자 주식회사 믹스 신호의 처리 방법 및 장치
BRPI0710923A2 (pt) * 2006-09-29 2011-05-31 Lg Electronics Inc métodos e aparelhagens para codificação e decodificação de sinais de áudio orientados a objeto
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
EP2084901B1 (en) * 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
CN101692703B (zh) * 2006-10-30 2012-09-26 深圳创维数字技术股份有限公司 一种实现数字电视中图文电子节目指南信息的方法及装置
CN101536086B (zh) * 2006-11-15 2012-08-08 Lg电子株式会社 用于解码音频信号的方法和装置
US8265941B2 (en) * 2006-12-07 2012-09-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
EP2122612B1 (en) * 2006-12-07 2018-08-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
WO2008100067A1 (en) * 2007-02-13 2008-08-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
ATE548727T1 (de) * 2007-03-02 2012-03-15 Ericsson Telefon Ab L M Nachfilter für geschichtete codecs
US7933372B2 (en) * 2007-03-08 2011-04-26 Freescale Semiconductor, Inc. Successive interference cancellation based on the number of retransmissions
JP5213339B2 (ja) * 2007-03-12 2013-06-19 アルパイン株式会社 オーディオ装置
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
DE602008004252D1 (de) * 2007-06-08 2011-02-10 Dolby Lab Licensing Corp Hybridableitung von surround-sound-audiokanälen durch steuerbares kombinieren von umgebungs- und matrixdekodierten signalkomponenten
US8644970B2 (en) * 2007-06-08 2014-02-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2046076B1 (en) * 2007-10-04 2010-03-03 Antoine-Victor Hurtado-Huyssen Multi-channel audio treatment system and method
US8170218B2 (en) * 2007-10-04 2012-05-01 Hurtado-Huyssen Antoine-Victor Multi-channel audio treatment system and method
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101438389B1 (ko) * 2007-11-15 2014-09-05 삼성전자주식회사 오디오 매트릭스 디코딩 방법 및 장치
US8548615B2 (en) * 2007-11-27 2013-10-01 Nokia Corporation Encoder
EP2227804B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
KR101439205B1 (ko) 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
ATE557387T1 (de) * 2008-07-30 2012-05-15 France Telecom Rekonstruktion von mehrkanal-audiodaten
AU2015207815B2 (en) * 2008-07-31 2016-10-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Signal generation for binaural signals
CA2820208C (en) 2008-07-31 2015-10-27 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Signal generation for binaural signals
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
TWI496479B (zh) * 2008-09-03 2015-08-11 Dolby Lab Licensing Corp 增進多聲道之再生
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
JP5522920B2 (ja) * 2008-10-23 2014-06-18 アルパイン株式会社 オーディオ装置及びオーディオ処理方法
EP2353161B1 (en) * 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
SG174117A1 (en) * 2009-04-08 2011-10-28 Fraunhofer Ges Forschung Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
US20120045065A1 (en) * 2009-04-17 2012-02-23 Pioneer Corporation Surround signal generating device, surround signal generating method and surround signal generating program
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
WO2011000409A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Positional disambiguation in spatial audio
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
JP5635097B2 (ja) * 2009-08-14 2014-12-03 ディーティーエス・エルエルシーDts Llc オーディオオブジェクトを適応的にストリーミングするためのシステム
JP2011048101A (ja) * 2009-08-26 2011-03-10 Renesas Electronics Corp 画素回路および表示装置
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
EP2309781A3 (en) * 2009-09-23 2013-12-18 Iosono GmbH Apparatus and method for calculating filter coefficients for a predefined loudspeaker arrangement
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
TWI413110B (zh) * 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
FR2954640B1 (fr) * 2009-12-23 2012-01-20 Arkamys Procede d'optimisation de la reception stereo pour radio analogique et recepteur de radio analogique associe
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US20120155650A1 (en) * 2010-12-15 2012-06-21 Harman International Industries, Incorporated Speaker array for virtual surround rendering
WO2012093352A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
US9026450B2 (en) 2011-03-09 2015-05-05 Dts Llc System for dynamically creating and rendering audio objects
EP2523472A1 (en) * 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
BR112013033362B1 (pt) 2011-07-04 2021-10-26 Huawei Technologies Co., Ltd Módulo de frequência de rádio que suporta múltiplas portadoras, estação de base e método de distribuição de portadoras
JP5737077B2 (ja) * 2011-08-30 2015-06-17 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
US9183842B2 (en) * 2011-11-08 2015-11-10 Vixs Systems Inc. Transcoder with dynamic audio channel changing
WO2013073810A1 (ko) * 2011-11-14 2013-05-23 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
US8711013B2 (en) * 2012-01-17 2014-04-29 Lsi Corporation Coding circuitry for difference-based data transformation
US9131313B1 (en) * 2012-02-07 2015-09-08 Star Co. System and method for audio reproduction
WO2013192111A1 (en) * 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9363603B1 (en) 2013-02-26 2016-06-07 Xfrm Incorporated Surround audio dialog balance assessment
CN109509478B (zh) 2013-04-05 2023-09-05 杜比国际公司 音频处理装置
CN105264600B (zh) 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
US9852735B2 (en) 2013-05-24 2017-12-26 Dolby International Ab Efficient coding of audio scenes comprising audio objects
BR122020017152B1 (pt) 2013-05-24 2022-07-26 Dolby International Ab Método e aparelho para decodificar uma cena de áudio representada por n sinais de áudio e meio legível em computador não transitório
CN105393304B (zh) 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
ES2640815T3 (es) 2013-05-24 2017-11-06 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
AU2014331094A1 (en) * 2013-10-02 2016-05-19 Stormingswiss Gmbh Method and apparatus for downmixing a multichannel signal and for upmixing a downmix signal
US9848272B2 (en) 2013-10-21 2017-12-19 Dolby International Ab Decorrelator structure for parametric reconstruction of audio signals
EP3648102B1 (en) * 2014-01-08 2022-06-01 Dolby International AB Method and apparatus for improving the coding of side information required for coding a higher order ambisonics representation of a sound field
KR101841380B1 (ko) * 2014-01-13 2018-03-22 노키아 테크놀로지스 오와이 다중-채널 오디오 신호 분류기
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
RU2704266C2 (ru) * 2014-10-31 2019-10-25 Долби Интернешнл Аб Параметрическое кодирование и декодирование многоканальных аудиосигналов
US9875756B2 (en) * 2014-12-16 2018-01-23 Psyx Research, Inc. System and method for artifact masking
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
CN108293165A (zh) * 2015-10-27 2018-07-17 无比的优声音科技公司 增强音场的装置和方法
CN115148215A (zh) * 2016-01-22 2022-10-04 弗劳恩霍夫应用研究促进协会 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
DE102018127071B3 (de) * 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
US11356791B2 (en) * 2018-12-27 2022-06-07 Gilberto Torres Ayala Vector audio panning and playback system
CN111615044B (zh) * 2019-02-25 2021-09-14 宏碁股份有限公司 声音信号的能量分布修正方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
EP1376538A1 (en) * 2002-06-24 2004-01-02 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2165370T3 (es) * 1993-06-22 2002-03-16 Thomson Brandt Gmbh Metodo para obtener una matriz decodificadora multicanal.
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP4478220B2 (ja) * 1997-05-29 2010-06-09 ソニー株式会社 音場補正回路
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000214887A (ja) * 1998-11-16 2000-08-04 Victor Co Of Japan Ltd 音声符号化装置、光記録媒体、音声復号装置、音声伝送方法及び伝送媒体
JP2002175097A (ja) * 2000-12-06 2002-06-21 Yamaha Corp 音声信号のエンコード/圧縮装置およびデコード/伸長装置
JP2004526355A (ja) * 2001-02-07 2004-08-26 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオチャンネル変換方法
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
KR100752482B1 (ko) * 2001-07-07 2007-08-28 엘지전자 주식회사 멀티채널 스트림 기록 재생장치 및 방법
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
TW569551B (en) * 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
AU2003264750A1 (en) * 2002-05-03 2003-11-17 Harman International Industries, Incorporated Multi-channel downmixing device
JP2003333699A (ja) * 2002-05-10 2003-11-21 Pioneer Electronic Corp マトリックス・サラウンドデコード装置
KR20040043743A (ko) * 2002-11-19 2004-05-27 주식회사 디지털앤디지털 멀티채널 검색장치와 방법
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
EP1376538A1 (en) * 2002-06-24 2004-01-02 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals

Also Published As

Publication number Publication date
KR20060132867A (ko) 2006-12-22
ES2306076T3 (es) 2008-11-01
RU2329548C2 (ru) 2008-07-20
DE602005006385T2 (de) 2009-05-28
CA2554002C (en) 2013-12-03
CN1910655A (zh) 2007-02-07
KR100803344B1 (ko) 2008-02-13
MXPA06008030A (es) 2007-03-07
IL176776A (en) 2010-11-30
AU2005204715B2 (en) 2008-08-21
JP4574626B2 (ja) 2010-11-04
CN1910655B (zh) 2010-11-10
CA2554002A1 (en) 2005-07-28
BRPI0506533A (pt) 2007-02-27
US20050157883A1 (en) 2005-07-21
NO20063722L (no) 2006-10-19
ATE393950T1 (de) 2008-05-15
WO2005069274A1 (en) 2005-07-28
EP1706865B1 (en) 2008-04-30
RU2006129940A (ru) 2008-02-27
EP1706865A1 (en) 2006-10-04
PT1706865E (pt) 2008-08-12
BRPI0506533B1 (pt) 2018-11-06
IL176776A0 (en) 2008-03-20
DE602005006385D1 (de) 2008-06-12
AU2005204715A1 (en) 2005-07-28
US7394903B2 (en) 2008-07-01
JP2007519349A (ja) 2007-07-12

Similar Documents

Publication Publication Date Title
US10425757B2 (en) Compatible multi-channel coding/decoding
NO337395B1 (no) Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal
AU2004306509B2 (en) Compatible multi-channel coding/decoding