NO337395B1

NO337395B1 - Oppbygging av multikanal-utgangssignal og generering av nedblandingssignal

Info

Publication number: NO337395B1
Application number: NO20063722A
Authority: NO
Inventors: Jürgen Herre; Christof Faller
Original assignee: Fraunhofer Ges Forschung; Agere Systems Inc
Priority date: 2004-01-20
Filing date: 2006-08-18
Publication date: 2016-04-04
Also published as: US20050157883A1; ATE393950T1; KR100803344B1; JP2007519349A; CN1910655A; IL176776A; KR20060132867A; IL176776A0; MXPA06008030A; BRPI0506533A; EP1706865B1; JP4574626B2; WO2005069274A1; NO20063722L; ES2306076T3; AU2005204715A1; DE602005006385D1; EP1706865A1; RU2006129940A; AU2005204715B2

Description

Fagfelt

Denne oppfinnelse angår en anordning og en fremgangsmåte for prosessering av et multikanals audiosignal, og spesielt en anordning og en fremgangsmåte for prosessering av et multikanals audiosignal på en måte som er stereo-kompatibel.

Bakgrunn

I den senere tid er multikanals audio-reproduksjonsteknikker blitt mer og mer viktig. Grunnen til dette kan være det faktum at audiokomprimerings-/audiokodings-teknikker slik som den velkjente mp3-teknikken har gjort det mulig å distribuere au-dioopptak via internett eller andre transmisjonskanaler med begrenset båndbredde. mp3-kodeteknikken har blitt så dominerende på grunn av det faktum at den tillater distribusjon av alle opptakene i et stereoformat, dvs. en digital representasjon av au-dioopptaket omfattende en første eller venstre stereokanal og en andre eller høyre stereokanal.

Ikke desto mindre er det grunnleggende ulemper knyttet til konvensjonelle, tokanals lydsystemer. Derfor er surround-teknikken blitt utviklet. En anbefalt multi-kanals surround-representasjon omfatter, i tillegg til de to stereokanalene L og R, en ytterligere senter-kanal C og to surround-kanaler Ls, Rs. Dette referanse-lydformatet refereres til også som tre/to-stereo, hvilket betyr tre front-kanaler og to surround-kanaler. Generelt vil fem transmisjonskanaler være påkrevd. I et avspillingsmiljø vil minst fem høyttalere på fem respektive, forskjellige være nødvendig for å oppnå en optimal lytteposisjon i en bestemt avstand fra de fem velplasserte høyttalere.

Flere teknikker er kjent på området for reduksjon av datamengden påkrevd for transmisjon av et multikanal audiosignal. Slike teknikker kalles felles stereoteknikker. I denne sammenheng refereres det til fig. 10, som viser en felles stereoinnretning 60. Denne innretningen kan være en innretning som implementerer f.eks. intensitetsstereo (IS) eller binaural oppkallingskoding (BCC). En slik innretning mottar generelt, som inngangsdata, minst to kanaler (CH1, CH2, ... CHn), og sender en enkelt bærekanal samt parametriske data. De parametriske data defineres slik at en tilnærming av en opprinnelig kanal (CH1, CH2,... CHn) kan beregnes i en dekoder.

Normalt vil bærekanal en omfatte underhånd-sampler, spektrale koeffisienter, tidsdomene-sampler etc, som vil tilveiebringe en forholdsvis fin representasjon av det underliggende signal, mens de parametriske data ikke omfatter slike sampler av sprekt-rale koeffisienter men omfatter styreparametere for styring av en bestemt rekonstruk-sjonsalgoritme slik som vekting ved multiplikasjon, tidsskifting, frekvensskifting, .... De parametriske data vil derfor bare omfatte en forholdsvis grov representasjon av signalet eller den tilsvarende kanal. I tall, vil datamengden påkrevd for en bærekanal være i området 60-70 kbit/s, mens datamengden påkrevd for parametrisk sideinformasjon for en kanal vil ligge i området 1,5-2,5 kbit/s. Eksempler på parametriske data er de velkjente skaleringsfaktorer, mtensitetsstereo-informasjon eller binaural oppkal-lingsparametere, som vil bli beskrevet nedenfor.

Intensitetsstereo-koding er beskrevet i AES fortrykk 3799, "Intensity Stereo Coding", J. Herre, K. H. Brandenburd, D. Lederer, februar 1994, Amsterdam. Intensitetsstereo-konseptet er generelt basert på en hovedakse-transformasjon som anvendes på data i begge de stereofoniske audiokanaler. Dersom mesteparten av datapunktene er konsentrert rundt den første hovedakse, kan det oppnås en kodingsgevinst ved å rotere begge signalene med en bestemt vinkel før kodingen. Dette er imidlertid ikke alltid riktig for faktiske stereofoniske produksjonsteknikker. Derfor modifiseres denne teknikken ved å ekskludere den andre ortogonale komponenten fra transmisjonen i bit-strømmen. De rekonstruerte signaler for de venstre og høyre kanaler består således av forskjellig vektede eller skalerte versjoner av det samme sendte signal. Ikke desto mindre vil de rekonstruerte signaler ha forskjellig amplitude men være identiske når det gjelder deres faseinformasjon. Energi-tid-forløpet for begge de opprinnelige audiokanaler er imidlertid bevart ved hjelp av den selektive skaleringsoperasjon, som typisk vil operere på en frekvensselektiv måte. Dette er i overensstemmelse med den menneskelige persepsjon av lyd med høye frekvenser, der de dominerende romlige oppkallinger bestemmes av energiforløpet.

I praktiske implementeringer vil i tillegg det sendte signal, dvs. bærekanalen bli generert ut i fra det adderte signal for den venstre kanal og den høyre kanal i stedet for ved rotasjon av begge komponenter. Videre utføres denne prosessen, dvs. genereringen av intensitetsstereoparametere for utføring av skaleringsoperasjonen, frekvens-selektivt, dvs. uavhengig for hvert av skaleringsfaktorbåndene, dvs. kodefrekvens-delt. Fortrinnsvis kombineres begge kanalene for å danne en kombinert eller "bære-" kanal, og i tillegg til den kombinerte kanal bestemmes intensitetsstereo-informasjonen som vil avhenge av energien i den første kanal, energien i den andre kanal eller energien i den kombinerte kanal.

BCC-teknikken er beskrevet i AES convention skriftet 5574, "Binaural cue coding appliedto stereo and multichannel audiocompression", C. Faller, F. Baumgarte, mai 2002, Munchen. Ved BCC-koding omformes et antall av audio inngangskanaler til en spektral representasjon ved å benytte en DFT-basert transformasjon med overlappende vinduer. Det resulterende, uniforme spektrum deles opp i ikke-overlappende deler som hver har en indeks. Hver del har en båndbredde som er proporsjonal med den ekvivalente rektangulære båndbredde (ERB). Interkanal-nivådifferansene (ICLD) og interkanal-tidsdifferansene (ICTD) estimeres for hver del og for hver pulje k. ICLD og ICTD kvantiseres og kodes og resultatet vil være en BCC-bitstrøm. Interkanal-nivådifferansene og interkanal-tidsdifferansene er gitt for hver kanal i forhold til en referansekanal. Parametrene beregnes så i overensstemmelse med forutbestemte formler, som vil avhenge av de bestemte deler i signalet som prosesseres.

På dekodersiden vil dekoderen motta et monosignal og BCC-bitstrømmen. Monosignalet transformeres til frekvensdomenet og avgis til en romlig synteseblokk, som også vil motta dekodede ICLD- og ICTD-verdier. I den romlige synteseblokk, vil BCC-parametrene (ICLD- og ICTD-verdiene) bli benyttet for å utføre en vekteopera-sjon for monosignalet for å kunne syntetisere multikanalssignaler, som etter en frekvens/tidsomforming vil representere en rekonstruksjon av det opprinnelige multi-kanals audiosignal.

Ved BCC kan felles stereomodulen 60 betjenes til å avgi kanalside-informasjon slik at de parametriske kanaldata er kvantiserte og kodede ICLD eller ICTD parametere, der en av de opprinnelige kanaler benyttes som referansekanal for kodingen av kanalside-informasjonen.

Bærekanalen dannes normalt som summen av de foreliggende, opprinnelige kanaler.

Teknikkene omtalt ovenfor vil naturligvis bare tilveiebringe en mono-representasjon for en dekoder, som bare kan prosessere bærekanalen og som ikke er i stand til å prosessere de parametriske data for generering av en eller flere tilnærminger av mer enn en inngangskanal.

Audiokodingsteknikken kjent som binaural oppkallingskoding (BCC) er også grundig beskrevet i publikasjonene av US patentsøknader US 2003, 0219130 Al, 2003/0026441 Al og 2003/0035553 Al. I tillegg henvises det også til "Binaural Cue Coding. Part II: Schemes and Applications", C. Faller og F. Baumgarte, IEEE Trans. On Audio and Speech Proe, bind 11, nr. 6, november 1993. De anførte publikasjoner av US patentsøknader og de to anførte tekniske publikasjoner om BCC-teknikken for-fattet av Faller og Baumgarte inkorporeres i sin helhet her ved referanse.

I det følgende vil en typisk generisk BCC-fremgangsmåte for multikanals audiokoding bli utlagt mer detaljert med referanse til figurene 11 til 13. Fig. 11 illustrerer en slik generisk fremgangsmåte for binaural oppkallingskoding for koding/transmisjon av multikanals audiosignal er. Multikanals audiosignalet som avgis til en inngang 110 i en BCC-koder 112 nedmikses i en nedmiksingsblokk 114. I dette eksempel er det opprinnelige multikanal-signalet ved inngangen 110 et 5-kanals surround-signal med en fremre venstre kanal, en fremre høyre kanal, en venstre surround-kanal, en høyre surround-kanal og en senterkanal. I en foretrukket utførelsesform av denne oppfinnelse vil nedmiksingsblokken 114 produsere et addert signal ved en enkel addisjon av disse fem kanaler til et monosignal. Andre nedmiksingsfremgangsmåter er kjent på nt slik at det ved å benytte et multikanalsinngangssignal kan tilveiebringes et nedmikset signal med en enkelt kanal. Denne ene kanal avgis i en addert signal-linje 115. Sideinformasjon fremskaffet ved en BCC-analyseblokk 116 avgis i en sideinforma-sjonslinje 117.1 BCC-analyseblokken beregnes interkanal-nivådifferansene (ICLD) og interkanal-tidsdifferansene (ICTD) på samme måte som utlagt ovenfor. I den senere tid er BCC-analyseblokken 116 blitt utvidet til også å beregne interkanal-korrelasjons-verdier (ICC-verdier). Det adderte signal og sideinformasjonen sendes, fortrinnsvis i en kvantisert og kodet form, til en BCC-dekoder 120. BCC-dekoderen dekomponerer det sendte, adderte signal i et antall av underbånd og anvender skalering, forsinkelser og annen prosessering for å generere underbåndene til utgangs multikanal audiosigna-lene. Denne prosesseringen utføres slik at ICLD-, ICTD- og ICC-parametrene (oppkallingene) av et rekonstruert multikanal-signal ved en utgang 121 er lik de respektive oppkallinger for det opprinnelige multikanal-signalet ved inngangen 110 i BCC-koderen 112. For dette formål omfatter BCC-dekoderen 120 en BCC-synteseblokk 122 og en sideinformasjonsprosesseringsblokk 123.

I det følgende vil den interne konstruksjon av BCC-synteseblokken 122 bli beskrevet med henvisning til fig. 2. Det adderte signal på linjen 115 avgis til en tids/frekvens-omformingsenhet eller filterbank FB 125. Ved utgangen av blokken 125 vil det foreligge et antall av N underbåndsignaler eller, i ekstreme tilfeller, en blokk av spektralkoeffisienter, når audio-filterbanken 125 utfører en l:l-transformasjon, dvs. en transformasjon som produserer N spektralkoeffisienter fra N tidsdomene-sampler.

BCC-synteseblokken 122 omfatter videre et forsinkelsestrinn 126, et nivåmodifiseringstrinn 127, et korrelasjonsprosesseringstrinn 128 og et invers filterbank-trinn IFB 129. Ved utgangen av trinn 129 kan det rekonstruerte multikanal audiosignalet med feks. fem kanaler dersom det dreier seg om et 5-kanals surround-system avgis til et sett av høyttalere 124 som illustrert i fig. 11.

Som vist i fig. 12 omformes inngangssignalet s(n) til frekvensdomenet eller filterbankdomenet ved hjelp av elementet 125. Utgangssignalet fra elementet 125 mul-tipliseres slik at det oppnås flere versjoner av samme signal, noe som er illustrert ved multiplikasjonsknutepunktet 130. Antallet versjoner av det opprinnelige signal er lik antallet utgangskanaler i utgangssignalet som skal rekonstrueres når hver versjon av det opprinnelige signal i knutepunktet 130 generelt undergår en bestemt forsinkelse di, d2, ..., di, ..., du- Forsinkelsesparametrene beregnes av sideinformasjonsprosesseringsblokken 123 i fig. 11 og fremskaffes fra interkanal-tidsdifferansene slik disse bestemmes av BCC-analyseblokken 116.

Det samme gjelder for multiplikasjonsparametrene ai, a2, ..., a;, ..., a$, som også beregnes av sideinformasjonsprosesseringsblokken 123 basert på interkanal-nivådifferansene slik disse er beregnet av BCC-analyseblokken 116. ICC-parametrene beregnet av BCC-analyseblokken 116 benyttes for å styre funksjonaliteten til blokken 128 slik at bestemte korrelasjoner mellom de forsinkede og nivå-manipulerte signaler oppnås ved utgangene av blokken 128. Det skal her bemerkes at rekkefølgen for trinnene 126, 127, 128 kan være ulike fra tilfellet vist i fig. 12.

Det skal her bemerkes at ved en puljevis prosessering av et audiosignal vil BCC-analysen bli utført puljevis, dvs. at den vil være tidsstyrt, og også frekvensvis. Dette betyr at BCC-parametere tilveiebringes for hvert spektralbånd. Dette betyr igjen at i et tilfelle der audiofilterbanken 125 dekomponerer inngangssignalet i f.eks. 32 båndpasseringssignaler vil BCC-analyseblokken tilveiebringe et sett av BCC-parametere for hvert av de 32 båndene. BCC-synteseblokken 122 i fig. 11, som er vist mer detaljert i fig. 12, vil naturligvis utføre en rekonstruksjon som også er basert på de 32 båndene i eksempelet.

I det følgende henvises det til fig. 13 som viser et oppsett for bestemmelse av bestemte BCC-parametere. Normalt kan ICLD-, ICTD- og ICC-parametere defineres mellom par av kanaler. Det er imidlertid å foretrekke at ICLD- og ICTD-parametrene bestemmes mellom en referansekanal og hver av de andre kanalene. Dette er illustrert i fig. 13 A. ICC-parametere kan defineres på forskjellige måter. Det mest generelle ville være å estimere ICC-parametrene i koderen mellom alle mulige kanalpar som indikert i fig. 13B. I dette tilfelle ville en dekoder syntetisere ICC-verdiene slik at de ville være omtrent de samme som for det opprinnelige multikanal-signalet for alle mulige kanal-par. Det er imidlertid foreslått å hver gang estimere bare ICC-parametrene mellom de to sterkeste kanalene. Denne fremgangsmåten er illustrert i fig. 13C som viser et eksempel hvor en ICC-parameter estimeres mellom kanalene 1 og 2 på ett tidspunkt mens en ICC-parameter beregnes mellom kanalene 1 og 5 på et annet tidspunkt. Dekoderen vil så syntetisere interkanalskorrelasjonen mellom de sterkeste kanalene i dekoderen og anvende en eller annen heuristisk regel for beregning og syntetisering av interkanalskoherensen for de gjenværende kanalpar.

Når det gjelder beregningen av f.eks. multiplikasjonsparametrene ai, aN basert på sendte ICLD-parametere, henvises det til AES convention skriftet 5574 anført ovenfor. ICLD-parametrene representerer en energi-distribusjon i et opprinnelig multikanal-signal. Uten tap av generalitet vises det i fig. 13A at det foreligger fire ICLD-parametere som viser energidifferansen mellom alle andre kanaler og den fremre venstre kanal. I sideinformasjonsprosesseringsblokken 123 fremskaffes multiplikasjonsparametrene ai, ..., aN ut i fra ICLD-parametrene slik at den totale energi for alle rekonstruerte utgangskanaler er den samme som (eller proporsjonal med) energien for det sendte, adderte signal. En enkel måte å bestemme disse parametrene på er en 2-trinns prosess der multiplikasjonsfaktoren for den venstre, fremre kanal i et første trinn settes til enheten, mens multiplikasjonsf aktorene for de andre kanalene i fig. 13A settes til de sendte ICLD-verdiene. I et andre trinn beregnes så energien for alle fem kanalene som så sammenlignes med energien for det sendte, adderte signal. Alle kanalene blir så nedskalert ved å benytte en nedskaleringsfaktor som er lik for alle kanalene, der nedskaleringsfaktoren er valgt slik at den totale energi for alle rekonstruerte ut gangskanaler, etter nedskaleringen, er lik den totale energi for det sendte, adderte signal.

Naturligvis finnes det andre fremgangsmåter for beregning av multiplikasjons-faktorene, som ikke benytter seg av 2-trinnsprosessen og som bare trenger en 1 -trinns-prosess.

Når det gjelder forsinkelsesparametrene skal det bemerkes at forsinkelsesparametrene ICTD som sendes fra en BCC-koder kan benyttes direkte når forsinkel-sesparameteren di for den venstre, fremre kanal settes til null. Ingen reskalering må her utføres, siden en forsinkelse ikke endrer energien i signalet.

Når det gjelder interkanalskoherensmål-ICC-verdien sendt fra BCC-koderen til BCC-dekoderen, skal det her bemerkes at en koherensmanipulasjon kan utføres ved å modifisere multiplikasjonsf aktorene ai, ..., aN feks. ved å multiplisere vektingsfaktorene for alle underbåndene med vilkårlige tall med verdier mellom 201ogl0 (-6) og 201ogl0 (6). Den pseudo-vilkårlige sekvens velges fortrinnsvis slik at variasjonen er omtrent konstant for alle kritiske bånd, og slik at gjennomsnittet er lik null innenfor hvert kritiske bånd. Den samme sekvens benyttes for spektralkoeffisientene for hver av de forskjellige puljene. Lydbildebredden styres således ved å modifisere variasjonen av den pseudo-vilkårlige sekvens. En større variasjon vil skape en større billedbredde. Variasjonsmodifikasjonen kan utføres i individuelle bånd med en bredde som tilsvarer bredden til kritiske bånd. Dette tillater eksistensen av flere objekter samtidig på lyd-scenen, der hvert objekt har en forskjellig billedbredde. En passende amplitudedistri-busjon for den pseudo-vilkårlige sekvens vil være en uniform distribusjon i en loga-ritmisk skala slik dette utlegges i US patentsøknad 2003/0219130 Al. Ikke desto mindre er all BCC-synteseprosessering relatert til en enkelt inngangskanal sendt som det adderte signal fra BCC-koderen til BCC-dekoderen som vist i fig. 11.

For å kunne sende de fem kanalene på en kompatibel måte, dvs. i et bitstrøm-format, som også er lesbar for en normal stereodekoder er den såkalte matriseteknik-ken blitt benyttet som beskrevet i "MUSICAM surround: a universal multi-channel coding system compatible with ISO 11172-3", G. Theile og G. Stoll, AES fortrykk 3403, oktober 1992, San Francisco. De fem inngangskanalene L, R, C, Ls, og Rs mates til en matriseinnrerning som utfører en matriseoperasjon for å beregne de grunnleggende eller kompatibel stereokanaler Lo, Ro, ut i fra de fem inngangskanalene. Mer spesifikt beregnes disse grunnleggende stereokanalene Lo/Ro som utlagt nedenfor:

der x og y er konstanter. De andre tre kanalene C, Ls, Rs sendes som de er i et forleng-elsessjikt, i tillegg til i et grunnleggende stereosjikt, som omfatter en kodet versjon av

de grunnleggende stereosignaler Lo/Ro. Når det gjelder bitstrømmen, vil dette grunnleggende Lo/Ro stereosjiktet omfatte en header, med informasjon slik som skaleringsfaktorer og underhånd-sampler. Multikanals forlengelsessjiktet, dvs. den sentrale kanal og de to surround-kanalene, er inkludert i multikanals forlengelsesfeltet, som også kalles et tilleggsdatafelt.

På dekoder-siden vil en invers matriseoperasjon bli utført for å kunne danne rekonstruksjoner av de venstre og høyre kanaler i fem kanals representasjonen ved å benytte de grunnleggende stereokanaler Lo, Ro og de tre ytterligere kanaler. I tillegg dekodes de tre ytterligere kanaler ut i fra tilleggsinformasjonen for å oppnå en dekodet fem kanals eller surround representasjon av det opprinnelige multikanals audiosignal.

En annen tilnærming til multikanalskoding er beskrevet i publikasjonen "Im-proved MPEG-2 audio multi-channel encoding", B. Grill, J. Herre, K. H. Brandenburg, E. Eberlein, J. Koller, J. Mueller, AES fortrykk 3865, februar 1994, Amsterdam, i hvilken bakover-kompatible modi tas i betraktning for å kunne oppnå bakover-kompatibilitet. I denne sammenheng benyttes en kompatibilitetsmatrise for å oppnå to såkalte nedmiksingskanaler Lc, Rc ut i fra de opprinnelige fem inngangskanaler. Det vil videre være mulig å dynamisk velge de tre tilleggskanalene sendt som tilleggsdata.

For å kunne utnytte stereo-irrelevans vil en felles stereoteknikk bli anvendt på grupper av kanaler, feks. de tre fremre kanalene, dvs. på den venstre kanal, den høyre kanal og senterkanalen. For dette formål kombineres de tre kanalene for å oppnå en kombinert kanal. Denne kombinerte kanal kvantiseres og pakkes inn i bitstrømmen. Denne kombinerte kanal sammen med den korresponderende felles-stereoinformasjon avgis så til en felles-stereodekodingsmodul for å fremskaffe dekodede felles-stereokanaler, dvs. en dekodet venstre felles-stereokanal, en dekodet høyre felles-stereokanal og en dekodet senter felles-stereokanal. Disse dekodede felles-stereokanaler avgis, sammen med den venstre surround-kanal og den høyre surround-kanal, til en kompatibilitetsmatriseblokk for således å danne den første og den andre nedmiksingskanal Lc, Rc. De kvantiserte versjoner av begge nedmiksingskanalene og en kvantisert versjon av den kombinerte kanal pakkes så inn i bitstrømmen sammen med felles-stereokodingsparametrene.

Ved å benytte intensitetsstereo-koding vil derfor en gruppe av uavhengige opprinnelige kanalsignaler bli sendt i en enkelt del av "bære"-dataene. Dekoderen vil så rekonstruere de involverte signaler som identiske data, som reskaleres i overensstemmelse med deres opprinnelige energi-tidsforløp. Følgelig vil en lineær kombinasjon av de sendte kanaler gi et resultat som er svært forskjellig fra den opprinnelige nedmiks. Dette gjelder hvilken som helst type av felles-stereokoding basert på intensitetsstereo-konseptet. For et kodingssystem som tilveiebringer kompatible nedmiksingskanaler vil dette få en umiddelbar konsekvens: rekonstruksjonen som benytter seg av matriseoperasjoner, slik dette er beskrevet i den tidligere publikasjon, lider under kunstige elementer forårsaket av en mindre perfekt rekonstruksjon. Ved å benytte en såkalt felles-stereo forforvrengningsmetode, der en felles-stereokoding for den venstre kanalen, den høyre kanalen og senter-kanalen utføres før matriseoperasj onene i koderen, vil lette dette problemet. På denne måte vil matriseoperasj onene ved rekonstruksjonen introdusere færre kunstige elementer, siden de felles-stereodekodede signaler er blitt benyttet på kodingssiden ved genereringen av nedmiksingskanalene. Således vil den uperfekte rekonstruksjonsprosessen bli skjøvet inn i de kompatible nedmiksingskanalene Lc og Rc, der det er mye større sannsynlighet for at den vil bli maskert av selve audiosignalet.

Selv om et slikt system har resultert i færre kunstige elementer på grunn av matriseoperasj onene på dekodingssiden, vil det ikke desto mindre omfatte noen ulemper. En ulempe er at de stereo-kompatible nedmiksingskanalene Lc og Rc fremskaffes ikke fra de opprinnelige kanalene men fra intensitetsstereo kodede/dekodede versjoner av de opprinnelige kanaler. På grunn av intensitetsstereo kodingssystemet vil det derfor foreligge tap av data i de kompatible nedmiksingskanaler. En stereodekoder som bare dekoder de kompatible kanaler snarere enn de forsterkede intensitetsstereo kodede kanaler vil derfor tilveiebringe et utgangssignal som er påvirket av intensitetsstereo-induserte datatap.

I tillegg må en ytterligere fullstendig kanal sendes ved siden av de to nedmiksingskanalene. Dette vil være den kombinerte kanal, som er dannet ved hjelp av felles-stereokodingen og av den venstre kanal, den høyre kanal og senterkanalen. I tillegg må mtensitetsstereo-informasjonen som er nødvendig for å kunne rekonstruere de opprinnelige kanaler L, R, C ut i fra den kombinerte kanal også sendes til dekoderen. I dekoderen vil en invers matriseoperasj on bli utført for å fremskaffe surround-kanalene ut i fra de to nedmiksingskanalene. I tillegg vil de opprinnelige venstre, høyre og sentrale kanaler bli tilnærmet ved felles-stereo dekoding ved å benytte den sendte kombinerte kanal og de sendte felles-stereo-parametere. Det skal bemerkes at de opprinnelige venstre, høyre og sentrale kanaler fremskaffes ved felles-stereo dekoding av den kombinerte kanal.

Det er funnet at ved intensitets stereo-teknikker, når disse benyttes i kombinasjon med multikanalssignaler, kan fullstendig koherente utgangssignaler bare tilveiebringes når signalene er basert på den samme grunnkanal.

Ved BCC-teknikker er det svært kostbart å redusere interkanal-koherensen for et rekonstruert multikanals utgangssignal, siden en generator av pseudo-vilkårlige tall for påvirkning av vektingssektorene vil være påkrevd. I tillegg er det vist at denne type prosessering kan være problematisk ved at det introduseres kunstige elementer forårsaket av multiplikasjonsfaktorer for vilkårlig manipulering eller tidsforsinkelses-faktorer, som under gitte omstendigheter kan bli hørbare og som derfor vil ødelegge kvaliteten av det rekonstruerte multikanals utgangssignal.

Følgende dokumenter belyser teknikkens stilling:

US5912976A viser et system og en metode for rekonstruksjon av multikanal-inngangssignal i et stereosystem uten å tilføre signalartefakter. Det vises hvordan det originale multikanal-inngangssignalet mikses ned til et stereosignal ved å kombinere, forsinke og forsterke de ulike inngangskanalene.

US2003/0219130A1 og EP 1376538A1 viser rekonstruksjon av multikanal-inngangssignal i et stereosystem.

US2003/0219130A1, EP1376538A1 og WO03/090207A1 viser miksing av et multikanal-inngangssignal ned til monosignal ved kombinering av inngangskanalene og generering av parametere for å beskrive korrelasjonen mellom kanalene.

Oppsummering

Det er derfor et formål med denne oppfinnelse å tilveiebringe et konsept for en bit-effektiv og kunstig element-redusert prosessering eller invers prosessering av et multikanals audiosignal.

I overensstemmelse med et første aspekt ved denne oppfinnelse oppnås dette formål ved en anordning for konstruksjon av et multikanals utgangssignal som benytter et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanal-signal, der det opprinnelige multikanal-signal har flere kanaler, der disse flere kanaler omfatter minst to opprinnelige kanaler som er definert slik at de befinner seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er den første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er den andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det opprinnelige multikanal-signal, omfattende et opprinnelig multikanal-signal; midler for å bestemme en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den førs-te og den andre inngangskanal, samt for å bestemme en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er forskjellig fra den første basiskanal; og midler for syntetisering av en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal til å fremskaffe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som er plassert på en side av den antatte lytteposisjon, og for syntetisering av en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som er plassert på den samme side av den antatte lytteposisjon.

I overensstemmelse med et andre aspekt ved denne oppfinnelse oppnås dette formål ved en fremgangsmåte for konstruksjon av et multikanals utgangssignal ved å benytte et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanal-signal, der det opprinnelige multikanal-signal har flere kanaler, der de flere kanaler omfatter minst to opprinnelige kanaler som er definert slik at de befinner seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er den første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er den andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det opprinnelige multikanal-signal, omfattende å bestemme en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den første og den andre inngangskanal, og å bestemme en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er forskjellig fra den første basiskanal; og å syntetisere en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal til å fremskaffe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som befinner seg på en side av den antatte lytteposisjon, og å syntetisere en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som befinner seg på den samme side av den antatte lytteposisjon.

I overensstemmelse med et tredje aspekt ved denne oppfinnelsen oppnås dette formål ved en anordning for generering av et nedmiksingssignal fra et opprinnelig multikanal-signal, der nedmiksingssignalet omfatter et antall av kanaler som er mindre enn et antall av opprinnelige kanaler, omfattende midler for beregning av en første nedmiksingskanal og en andre nedmiksingskanal ved å benytte en nedmiksingsregel; midler for beregning av parametrisk nivå-informasjon som representerer en energi-distribusjon for kanalene i det opprinnelige multikanal-signal; midler for å bestemme et koherens mål mellom to opprinnelige kanaler, der de to opprinnelige kanaler befinner seg på en side av en antatt lytteposisjon; og midler for å danne et utgangssignal ved å benytte den første og den andre nedmiksingskanal, og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på den ene side eller en verdi fremskaffet fra det minst ene koherensmål, og ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.

I overensstemmelse med et fjerde aspekt ved denne oppfinnelse oppnås dette formål ved en fremgangsmåte for generering av et nedmiksingssignal fra et opprinnelig multikanal-signal, der nedmiksingssignalet omfatter et antall kanaler som er mindre enn et antall av opprinnelige kanaler, omfattende å beregne en første nedmiksingskanal og en andre nedmiksingskanal ved å benytte en nedmiksingsregel; å beregne parametrisk nivå-informasjon som representerer en energidistribusjon for kanalene i det opp rinnelige multikanal-signal; å bestemme et koherensmål mellom to opprinnelige kanaler, der de to opprinnelige kanalene befinner seg på en side av en antatt lytteposisjon; og å danne et utgangssignal ved å benytte den første og den andre nedmiksingskanal, den parametriske nivå-informasjon og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på den ene side eller en verdi fremskaffet fra det minst ene koherensmål, og å ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.

I overensstemmelse med et femte aspekt og et sjette aspekt ved denne oppfinnelse oppnås dette formål ved et computerprogram omfattende fremgangsmåten for konstruksjon av multikanalsutgangssignalet eller fremgangsmåten for generering av et nedmiksings signal.

Denne oppfinnelse er basert på det funn at en effektiv og kunstig element-redusert rekonstruksjon av et multikanalsutgangssignal tilveiebringes når det foreligger to eller flere kanaler som kan sendes fra en koder til en dekoder, der kanalene, som fortrinnsvis er en venstre og en høyre stereokanal, viser en viss grad av inkoherens. Dette vil normalt være tilfellet, siden de venstre og høyre stereokanaler eller de venstre og høyre kompatible stereokanaler tilveiebrakt ved nedmiksing av et multikanal-signal vanligvis vil fremvise en viss grad av inkoherens, dvs. at de vil ikke være fullstendig koherente eller fullstendig korrelerte.

I overensstemmelse med denne oppfinnelse vil de rekonstruerte utgangskanaler i multikanalsutgangssignalet bli dekorrelert fra hverandre ved å bestemme forskjellige basiskanaler for de forskjellige utgangskanaler, der de forskjellige basiskanaler tilveiebringes ved i varierende grad å benytte de ikke-korrelerte sendte kanaler.

En rekonstruert utgangskanal med f.eks. den venstre sendte inngangskanal som basiskanal ville med andre ord, i BCC-underbåndsområdet, være fullstendig kor-relert med en annen rekonstruert utgangskanal som har den samme, f. eks. venstre, kanal som basiskanal idet det antas at det ikke foreligger noen ekstra "korrelasjons-syntese". I denne sammenheng skal det bemerkes at de forutbestemte forsinkelses- og nivå-oppsett ikke reduserer koherensen mellom disse kanaler. I overensstemmelse med denne oppfinnelse vil koherensen mellom disse kanaler, som i eksempelet ovenfor er 100 %, bli redusert til en bestemt koherens-grad eller et bestemt koherensmål ved å benytte en første basiskanal for konstruksjon av den første utgangskanal og ved å benytte en andre basiskanal for konstruksjon av den andre utgangskanal, der de første og andre basiskanaler innehar forskjellige "deler" av de to sendte (dekorrelerte) kanaler. Dette betyr at den første basiskanal er sterkere påvirket av, eller til og med er identisk med, den første sendte kanal, sammenlignet med den andre basiskanal som i mindre grad er påvirket av den første kanal, dvs. som er mer påvirket av den andre sendte kanal.

I overensstemmelse med denne oppfinnelse benyttes den iboende dekorrelasjon mellom de sendte kanaler for å tilveiebringe dekorrelerte kanaler i et multikanalsutgangssignal.

I en foretrukket utførelsesform bestemmes et koherensmål mellom respektive kanalpar slik som fremre venstre og venstre surround eller fremre høyre og høyre surround i en koder på en tidsavhengig og frekvensavhengig måte og sendes som sideinformasjon til en oppfinnerisk dekoder slik at en dynamisk bestemmelse av basiskanalene og dermed en dynamisk manipulasjon av koherensen mellom de rekonstruerte utgangskanalene kan tilveiebringes.

Sammenlignet med den kjente teknikk omtalt ovenfor, der bare en ICC-oppkalling for de to sterkeste kanalene sendes, vil det oppfinneriske system være enklere å styre og tilveiebringe en rekonstruksjon med bedre kvalitet, siden en bestemmelse av de sterkeste kanaler i en koder eller en dekoder ikke er nødvendig siden det oppfinneriske koherensmål alltid er relatert til det samme kanalpar uavhengig av om dette kanalpar omfatter de sterkeste kanaler eller ikke. En høyere kvalitet sammenlignet med systemene i den kjente teknikk oppnås ved at to nedmiksede kanaler sendes fra en koder til en dekoder slik at venstre/høyre koherens-relasjonen automatisk sendes og ingen ytterligere informasjon om venstre/høyre koherensen er påkrevd.

En ytterligere fordel ved denne oppfinnelse er åpenbar gjennom det faktum at regnebelastningen på dekoder-siden kan reduseres, siden den normale prosesseringsbe-lastningen ved dekorrelasjon kan reduseres eller til og med fullstendig elimineres.

Fortrinnsvis tilveiebringes den parametriske sideinformasjon for en eller flere av de opprinnelige kanaler slik at de er relatert til en av de nedmiksede kanaler snarere enn, slik som ved den kjente teknikk, til en ytterligere "kombinert" felles-stereokanal. Dette betyr at den parametriske sideinformasjon for kanalene beregnes slik at en kanal - rekonstruktør på dekoder-siden benytter kanal-sideinformasjonen og en av de nedmiksede kanalene eller en kombinasjon av de nedmiksede kanalene for å rekonstruere en tilnærming til den opprinnelige audiokanal, til hvilken kanal-sideinformasjonen er tildelt.

Dette konsept er fordelaktig ved at det tilveiebringer en bit-effektivt multi-kanalsforlengelse slik at et multikanals audiosignal kan spilles i en dekoder.

I tillegg vil konseptet være bakover-kompatibelt, siden en lavskala-dekoder, som bare er tilpasset to-kanalsprosessering, rett og slett kan ignorere forlengelses-informasjonen, dvs. kanal-sideinformasjonen. Lavskala-dekoderen kan bare spille de to nedmiksede kanalene for å tilveiebringe en stereo-representasjon av det opprinnelige multikanals audiosignal. En høyskala-dekoder, som er tilpasset multikanals-betjening, kan imidlertid benytte den sendte kanal-sideinformasjon til å rekonstruere tilnærminger av de opprinnelige kanaler.

Denne utførelsesform er fordelaktig ved at den er bit-effektiv, siden, i motsetning til den kjente teknikk, ingen ytterligere bærekanal utover den første og andre nedmiksede kanal Lc, Rc er påkrevd. I stedet er kanal-sideinformasjonen relatert til en eller begge de nedmiksede kanaler. Dette betyr at de nedmiksede kanaler selv tjener som bærekanaler, til hvilke kanal-sideinformasjonen kombineres for å rekonstruere en opprinnelig audiokanal. Dette betyr også at kanal-sideinformasjonen fortrinnsvis er parametrisk sideinformasjon, dvs. informasjon som ikke omfatter underbånd-sampler eller spektralkoeffisienter. Den parametriske sideinformasjon vil i stedet være informasjon som benyttes for vekting (tidsmessig og/eller frekvensmessig) av den respektive nedmiksede kanal eller kombinasjonen av de respektive nedmiksede kanaler for å tilveiebringe en rekonstruert versjon av en utvalgt opprinnelig kanal.

I en foretrukket utførelsesform av denne oppfinnelsen tilveiebringes det en bakover-kompatibel koding av et multikanal-signal basert på et kompatibelt stereosignal. Det kompatible stereosignal (nedmiksede signal) genereres fortrinnsvis ved å benytte matriseoperasj oner på de opprinnelige kanaler i multikanals audiosignalet.

Tilveiebringelsen av kanal-sideinformasjon for en utvalgt opprinnelig kanal er fortrinnsvis basert på felles-stereo-teknikker slik som intensitetsstereo-koding eller binaural oppkallingskoding. En utføring av inverse matriseoperasj oner på dekoder-siden vil således ikke være nødvendig. Problemene tilknyttet inverse matriseoperasjoner, dvs. bestemte kunstige elementer relatert til en uønsket distribusjon av kvantise-ringsstøy med inverse matriseoperasj oner, unngås. Grunnen til dette er det faktum at dekoderen benytter en kanal-rekonstruktør som vil rekonstruere et opprinnelig signal ved å benytte en av de nedmiksede kanaler eller en kombinasjon av de nedmiksede kanaler samt den sendte kanal-sideinformasjon.

Det oppfinneriske konsept anvendes fortrinnsvis på et multikanals audiosignal med fem kanaler. Disse fem kanaler er en venstre kanal L, en høyre kanal R, en senterkanal C, en venstre surround-kanal Ls og en høyre surround-kanal Rs. De nedmiksede kanaler vil fortrinnsvis være stereokompatible nedmiksede kanaler Ls og Rs, som tilveiebringer en stereorepresentasjon av det opprinnelige multikanals audiosignal.

I overensstemmelse med den foretrukkede utførelsesform av denne oppfinnelse beregnes kanal-sideinformasjonen for hver opprinnelige kanal på en koder-side innepakket i utgangsdata. Kanal-sideinformasjonen for den opprinnelige venstre kanal fremskaffes ved å benytte den venstre nedmiksede kanal. Kanal-sideinformasjonen for den opprinnelige venstre surround-kanal fremskaffes ved å benytte den venstre nedmiksede kanal. Kanal-sideinformasjonen for den opprinnelige høyre kanal tilveiebringes fra den høyre nedmiksede kanal. Kanal-sideinformasjon for den opprinnelige høyre surround-kanal tilveiebringes fra den høyre nedmiksede kanal.

I overensstemmelse med den foretrukkede utførelsesform av denne oppfinnelse fremskaffes kanalinformasjonen for den opprinnelige senterkanal ved å benytte den første nedmiksede kanal så vel som den andre nedmiksede kanal, dvs. ved å benytte en kombinasjon av de to nedmiksede kanaler. Denne kombinasjon vil fortrinnsvis omfatte en summering.

Grupperingene, dvs. relasjonen mellom kanal-sideinformasjonen og bæresig-nalet, dvs. den nedmiksede kanal som benyttes for å tilveiebringe kanal-sideinformasjon for et utvalgt opprinnelig kanal, vil således være slik at for å oppnå en optimal kvalitet vil den nedmiksede kanal som inneholder det høyest mulige relative omfang av det respektive, opprinnelige multikanal-signal representert ved hjelp av kanal-sideinformasjonen bli valgt. Således vil et felles stereobæresignal samt den førs-te og den andre nedmiksede kanal bli benyttet. Fortrinnsvis kan også summen av den første og den andre nedmiksede kanal bli benyttet. Naturligvis kan summen av den første og den andre nedmiksede kanal benyttes for beregning av kanal-sideinformasjon for hver av de opprinnelige kanaler. Summen av de nedmiksede kanaler benyttes imidlertid fortrinnsvis for beregning av kanal-sideinformasjonen av den opprinnelige senterkanal i et surround-miljø, slik som fem-kanals surround, sju-kanals surround, 5,1-surround eller 7,1 surround. Benyttelsen av summen av den første og den andre nedmiksede kanal er spesielt fordelaktig, siden ingen ytterligere administrasjonstransmi-sjon trenger å bli utført. Grunnen til dette er det faktum at begge de nedmiksede kanaler er til stede i dekoderen slik at summeringen av disse nedmiksede kanaler enkelt kan utføres i dekoderen uten at ytterligere transmisjonsbits er påkrevd.

Kanalsideinformasjonen som danner multikanal forlengelsen avgis fortrinnsvis til utgangsdata bit-strømmen på en kompatibel måte slik at lavskala-dekoder rett og slett vil ignorere multikanals forlengelsesdata og bare tilveiebringe en stereorepresentasjon av multikanals audiosignalet. Ikke desto mindre vil en høyskala-koder ikke bare benytte to nedmiksede kanaler, men i tillegg også anvende kanal-sideinformasjonen til å rekonstruere en fullstendig multikanals representasjon av det opprinnelige audiosignal.

Kort beskrivelse av figurene

Foretrukkede utførelsesformer av denne oppfinnelse vil i det følgende bli beskrevet med henvisning til de vedlagte tegninger, der: Fig. IA er et blokkdiagram som viser en foretrukket utførelsesform av den oppfinneriske koder. Fig. IB er et blokkdiagram som viser en oppfinnerisk koder for å tilveiebringe et koherensmål for respektive inngangskanalpar. Fig. 2A er et blokkdiagram som viser en foretrukket utførelsesform av den oppfinneriske dekoder. Fig. 2B er et blokkdiagram som viser en oppfinnerisk dekoder med forskjellige basiskanaler for forskjellige utgangskanaler. Fig. 2C er et blokkdiagram som viser en foretrukket utførelsesform av midlene for syntetisering ifølge fig. 2B. Fig. 2D er et blokkdiagram som viser en foretrukket utførelsesform av anord-ningen vist i fig. 2C for et 5-kanals surround-system. Fig. 2E viser skjematisk midler for bestemmelse av et koherensmål i en oppfinnerisk koder. Fig. 2F viser skjematisk et foretrukket eksempel på bestemmelse av en vektingsfaktor for beregning av en basiskanal med et bestemt koherensmål i forhold til en annen basiskanal. Fig. 2G er et diagram som viser en foretrukket fremgangsmåte for å tilveiebringe en rekonstruert utgangskanal basert på en bestemt vektingsfaktor beregnet ved metoden vist i fig. 2F. Fig. 3A er et blokkdiagram som viser en foretrukket implementering av midlene for beregning ved fremskaffelse av frekvens-selektiv kanal-sideinformasjon. Fig. 3B er en foretrukket utførelsesform av en beregnmgsinnrerning som implementerer felles stereoprosessering slik som intensitetskoding eller binaural oppkallingskoding. Fig. 4 illustrerer en annen foretrukket utførelsesform av midlene for beregning av kanal-sideinformasjon, der kanal-sideinformasjonen er forsterkningsfaktorer. Fig. 5 illustrerer en foretrukket utførelsesform av en implementering av dekoderen når koderen er implementert som vist i fig. 4. Fig. 6 illustrerer en foretrukket implementering av midlene for å tilveiebringe de nedmiksede kanaler. Fig. 7 illustrerer grupperinger av opprinnelige og nedmiksede kanaler for beregning av kanal-sideinformasjon for de respektive opprinnelige kanaler. Fig. 8 illustrerer en annen foretrukket utførelsesform av en oppfinnerisk koder.

Fig. 9 illustrerer en annen implementering av en oppfinnerisk dekoder, og

Fig. 10 illustrerer en felles-stereokoder fra kjent teknikk.

Fig. 11 er et blokkdiagram som illustrerer en BCC-koder/-dekoder-kjede fra kjent teknikk. Fig. 12 er et blokkdiagram som viser en kjent implementering av en BCC-synteseblokk ifølge fig. 11. Fig. 13 illustrerer en velkjent fremgangsmåte for bestemmelse av ICLD-, ICTD- og ICC-parametere. Fig. 14A viser skjematisk fremgangsmåten for tilpasning av forskjellige basiskanaler for reproduksjon av forskjellige utgangskanaler. Fig. 14B illustrerer de nødvendige kanalpar for bestemmelse av ICC- og ICTD-parametere. Fig. 15A illustrerer skjematisk et første valg av basiskanaler for konstruksjon av et 5-kanals utgangssignal, og Fig. 15B illustrerer skjematisk et andre valg av basiskanaler for konstruksjon av et 5-kanals utgangssignal.

Detaljert beskrivelse

Fig. IA viser en anordning for prosessering av et multikanals audiosignal 10 med minst tre opprinnelige kanaler, f.eks. R, L og C. Det opprinnelige lydsignal har fortrinnsvis mer enn tre kanaler, slik som fem kanaler i et surround-miljø, hvilket er illustrert i fig. IA. De fem kanalene består av venstre kanal L, høyre kanal R, senter-kanalen C, venstre surround-kanal Ls og høyre surround-kanal Rs. Den oppfinneriske anordning omfatter midler 12 for å tilveiebringe en første nedmikset kanal Lc og en andre nedmikset kanal Rc, der den første og den andre nedmiksede kanal fremskaffes fra de opprinnelige kanaler. Det foreligger flere alternativer for å kunne fremskaffe de nedmiksede kanaler fra de opprinnelige kanaler. En mulighet for å fremskaffe de nedmiksede kanaler Lc og Rc er ved å utføre en matriseoperasj on på de opprinnelige kanaler som illustrert i fig. 6. Denne matriseoperasj on utføres i tidsdomenet.

Matriseparametrene a, b og t velges slik at de er mindre enn eller lik 1. a og b er fortrinnsvis 0,7 eller 0,5. Den totale vektingsparameter t velges fortrinnsvis slik at kanalklipping unngås.

Alternativt, som indikert i fig. IA, kan de nedmiksede kanaler Lc og Rc også tilveiebringes eksternt. Dette kan gjøres når de nedmiksede kanaler Lc og Rc er et resultat av en manuell miksingsoperasjon. I dette tilfellet vil en lydingeniør selv mikse de nedmiksede kanaler snarere enn å benytte automatiserte matriseoperasj oner. Lyd-ingeniøren vil utføre kreativ miksing for å tilveiebringe optimaliserte nedmiksede kanaler Lc og Rc som vil gi den best mulige stereo-representasjon av det opprinnelige multikanals audiosignal.

Når de nedmiksede kanaler tilveiebringes eksternt vil fremskaffelsesmidlene ikke utføre matriseoperasj oner, men rett og slett sende de eksternt tilveiebrakte, nedmiksede kanaler videre til en påfølgende beregnmgsinnretning 14.

Beregnmgsinnrerningen 14 kan betjenes til å beregne kanal-sideinformasjonen slik som I;, lsi, r; eller rs; for utvalgte opprinnelige kanaler slik som L, Ls, R eller Rs. Spesielt kan beregnmgsinnrerningen 14 betjenes til å beregne kanal-sideinformasjonen slik at en nedmikset kanal, når den vektes ved å benytte kanal-sideinformasjonen, re-sulterer i en tilnærming av den utvalgte opprinnelige kanal.

Alternativt, eller i tillegg, kan innretningen for beregning av kanal-sideinformasjon videre betjenes til å beregne kanal-sideinformasjonen for en utvalgt opprinnelig kanal slik at en kombinert, nedmikset kanal omfattende en kombinasjon av den første og den andre nedmiksede kanal, når denne vektes ved å benytte den bereg- nede kanal-sideinformasjon, vil gi en tilnærming av den utvalgte opprinnelige kanal. For å illustrere dette trekk i figuren er det vist en adderer 14a og en beregningsinnretning 14b for kombinert kanal-sideinformasjon.

Det vil være klart for fagmenn på området at disse elementer ikke trenger å være implementert som distinkte elementer. Funksjonaliteten i blokkene 14, 14a og 14b kan i stedet implementeres ved hjelp av en bestemt prosessor som kan være en universal prosessor eller hvilken som helst annen innretning med den påkrevde funksjonalitet.

Det skal i tillegg bemerkes at kanalsignaler som er underbånd-sampler eller frekvensdomene-verdier er indikert med store bokstaver. Kanal-sideinformasjonen er, i motsetning til kanalene selv, indikert med små bokstaver. Kanal-sideinformasjonen c; vil derfor være kanal-sideinformasjonen for den opprinnelige senterkanal C.

Kanal-sideinformasjonen så vel som de nedmiksede kanaler Lc og Rc, eller en kodet versjon Lc' og Rc' produsert ved hjelp av en audiokoder 16, avgis til en utgangsdata-formaterer 18. Utgangsdata-formatereren 18 fungerer generelt som middel for generering av utgangsdata, der utgangsdata omfatter kanal-sideinformasjonen for minst en opprinnelig kanal, den første nedmiksede kanal eller et signal fremskaffet fra den første nedmiksede kanal (slik som en kodet versjon av denne) og den andre nedmiksede kanal eller et signal fremskaffet fra den andre nedmiksede kanal (slik som en kodet versjon av denne).

Utgangsdataene eller utgangsbit-strømmen 20 kan så sendes til en bit-strøm-dekoder eller den kan lagres eller distribueres. Utgangsbit-strømmen 20 er fortrinnsvis en kompatibel bit-strøm som også kan leses av en lavskala-dekoder som ikke er utstyrt med en multikanals forlengelsesmulighet. Slike lavskala-kodere, slik som de fleste eksisterende, oppdaterte mp3-dekodere, vil rett og slett ignorere multikanals forlengelsesdata, dvs. kanal-sideinformasjonen. De vil bare dekode den første og den andre nedmiksede kanal for å produsere et stereoutgangssignal. Høyskala-dekodere, slik som multikanals tilpassede dekodere, vil avlese kanal-sideinformasjonen og så generere en tilnærming av de opprinnelige audiokanaler, slik at det oppnås et multikanals audio-inntrykk. Fig. 8 viser en foretrukket utførelsesform av denne oppfinnelse i et 5-kanals surround-/mp3-miljø. Her skrives fortrinnsvis surround-forsterkningsdata inn i tillegg sdata-f eltet med den standardiserte syntaks for en mp3-bit-strøm slik at det oppnås en "mp3-surround"-bit-strøm. Fig. IB illustrerer en mer detaljert representasjon av elementet 14 i fig. IA. I en foretrukket utførelsesform av denne oppfinnelse vil en beregningsinnretning 14 omfatte midler 141 for beregning av parametrisk nivå-informasjon som representerer en energidistribusjon for kanalene i det opprinnelige multikanal-signalet angitt ved 10 i fig. IA. Elementet 141 er derfor i stand til å generere utgangsnivå-informasjon for alle opprinnelige kanaler. I en foretrukket utførelsesform vil denne nivå-informasjon omfatte ICLD-parametere fremskaffet gjennom en regulær BCC-syntese som beskrevet i forbindelse med figurene 10 til 13.

Elementet 14 omfatter videre midler 142 for bestemmelse av et koherensmål mellom to opprinnelige kanaler som befinner seg på en side av en antatt lytteposisjon. I eksempelet med 5-kanals surround vist i fig. IA, vil et slikt kanalpar omfatte den høyre kanal R og den høyre surroundkanal Rs eller, alternativt eller i tillegg, den venstre kanal L og den venstre surroundkanal Ls. Elementet 14 kan alternativt videre omfatte midler 143 for beregning av tidsdifferansen for et slikt kanalpar, dvs. et kanal-par med kanaler som befinner på en side av en antatt lytteposisjon.

Utgangsdata-formatereren 18 vist i fig. IA kan betjenes til å avgi til data-strømmen 20 nivå-informasjonen som representerer en energidistribusjon for kanalene i det opprinnelige multikanal-signal og et koherensmål bare for det venstre og venstre surround kanal-par og/eller det høyre og høyre surround kanal-par. Utgangsdata-formatereren kan imidlertid betjenes til ikke å inkludere andre koherensmål eller valg-frie tidsdifferanser i utgangssignalet slik at mengden av sideinformasjon reduseres sammenlignet med kjente metoder der ICC-oppkallinger for alle mulige kanalpar sendes.

For å illustrere den oppfinneriske kode vist i fig. IB mer detaljert vises det til fig. 14A og fig. 14B. I fig. 14A er det vist et arrangement av kanalhøyttalere i et eksempel på et 5-kanalssystem der den antatte lytteposisjon befinner seg i senteret av en sirkel på hvilken de respektive høyttalere er plassert. Som utlagt ovenfor omfatter 5-kanalssystemet en venstre surround kanal, en venstre kanal, en senterkanal, en høyre kanal og en høyre surround kanal. Et slikt system kan naturligvis også omfatte en subwoofer kanal, hvilket ikke er vist i fig. 14.

Det skal bemerkes at den venstre surround kanal også kan benevnes som en "bakre venstre kanal". Det samme gjelder for den høyre surround kanal. Denne kanal er også kjent som den bakre høyre kanal.

I motsetning til dagens BCC, med en transmisjonskanal, der den samme basiskanal, dvs. det sendte mono-signal vist i fig. 11, benyttes for å generere hver av de N utgangskanalene, benytter det oppfinneriske system en av de N sendte kanaler eller en lineær kombinasjon av disse som basiskanal for hver av de N utgangskanalene.

Fig. 14 angir derfor en N-til-M-fremgangsmåte, dvs. en fremgangsmåte der N opprinnelige kanaler nedmikses til to nedmiksede kanaler. I eksempelet ifølge fig. 14 vil N være lik 5 mens M er lik 2. Mer spesifikt vil den sendte, venstre kanal Lcbli benyttet ved rekonstruksjonen av den fremre venstre kanal. Analogt vil den andre sendte kanal Rcbli benyttet som basiskanal ved rekonstruksjonen av den fremre høyre kanal. I tillegg vil en lik kombinasjon av Lcog Rcbli benyttet som basiskanal ved re-konstrueringen av senterkanalen. I overensstemmelse med en utførelsesform av denne oppfinnelse vil i tillegg korrelasjonsmål bli sendt fra en koder til en dekoder. For den venstre surround kanal vil derfor ikke bare den sendte venstre kanal Lcbli benyttet, men også den sendte kanal Lc+ ciiRcslik at basiskanalen for rekonstruksjon av den venstre surroundkanal ikke er fullstendig koherent med basiskanalen for rekonstruksjon av den fremre venstre kanal. Den samme prosedyre vil analogt bli utført for den høyre side (i forhold til den antatte lytteposisjon), ved at basiskanalen for rekonstruksjon av den høyre surround kanal er forskjellig fra basiskanalen for rekonstruksjon av den fremre høyre kanal, der differansen er avhengig av koherensmålet a2som fortrinnsvis sendes fra koder til en dekoder som sideinformasjon.

Den oppfinneriske prosess er derfor unik i det at det ved reproduksjon av fortrinnsvis hver eneste utgangskanal vil en forskjellig basiskanal bli benyttet, der basiskanalene er lik de sendte kanaler eller en lineær kombinasjon av disse. Den lineære kombinasjon kan i varierende grad avhenge av de sendte basiskanaler, der disse varierende grader avhenger av koherensmålet som igjen avhenger av det opprinnelige multikanal-signal.

Denne prosessen med å tilveiebringe N basiskanaler når det gis M sendte kanaler kalles "oppmiksing". Denne oppmiksing kan implementeres ved å multiplisere en vektor bestående av de sendte kanaler med en NxM matrise for å generere N basiskanaler. Ved å gjøre dette vil lineære kombinasjoner av sendte signalkanaler bli dannet for å produsere basissignalene for utgangskanal-signalene. Et spesifikt eksempel på oppmiksing er vist i fig. 14A, der en 5-til-2-fremgangsmåte anvendes for å generere et 5-kanals surround utgangssignal med en 2-kanals stereotransmisjon. Fortrinnsvis vil basiskanalen for en ytterligere subwoofer utgangskanal være den samme som senter-kanalen L+R. I en foretrukket utførelsesform av denne oppfinnelse tilveiebringes et tidsvarierende og, valgfritt, et frekvensvarierende koherensmål slik at det fremskaffes en tidstilpasset oppmiksingsmatrise som også, valgfritt, kan være frekvens-selektiv.

I det følgende henvises det til fig. 14B som illustrerer bakgrunnen for den oppfinneriske implementering av en koder illustrert i fig. IB. I denne sammenheng skal det bemerkes at ICC- og ICTD-oppkallingene mellom venstre og høyre og venstre surround og høyre surround er de samme som for det sendte stereosignal. I overensstemmelse med denne oppfinnelse vil det således ikke være nødvendig å benytte ICC- og ICTD-oppkallinger mellom venstre og høyre og venstre surround og høyre surround for syntetisering eller rekonstruksjon av et utgangssignal. En annen grunn for ikke å syntetisere ICC- og ICTD-oppkallinger mellom venstre og høyre og venstre surround og høyre surround er den generelle innvendig at basiskanaler må modifiseres så lite som mulig for å kunne bevare en optimal signalkvalitet. En hvilken som helst signalmodifisering kan potensielt introdusere kunstige elementer eller "ikke-naturlighet".

Det vil derfor bare bli tilveiebrakt en nivå-representasjon av det opprinnelige multikanal-signal som fremskaffes ved å anvende ICLD-oppkallingene, mens ICC- og ICTD-parametrene, i overensstemmelse med denne oppfinnelse, beregnes og sendes bare for kanalpar på en side av den antatte lytteposisjon. Dette illustreres i fig. 14B ved den prikkede linje 144 for den venstre side og den prikkede linje 145 for den høyre side. I motsetning til ICC og ICTD vil en ICLD-syntese være temmelig uproblematisk i forhold til kunstige elementer og "ikke-naturlighet", siden den bare omfatter skalering av underbåndssignaler. ICLD syntetiseres således like generelt som ved regulær BCC, dvs. mellom en referansekanal og alle andre kanaler. Mer generelt kan man si at ved en N-til-M-fremgangsmåte syntetiseres ICLD mellom kanalpar på samme måte som med en regulær BCC. ICC- og ICTD-oppkallinger syntetiseres imidlertid, i overensstemmelse med denne oppfinnelse, bare mellom kanalpar som befinner seg på den samme side i forhold til den antatte lytteposisjon, dvs. for kanalparet som omfatter den fremre venstre og den venstre surround kanal eller kanalparet som omfatter den fremre høyre og den høyre surround kanal.

Ved et 7-kanals, eller høyere, surroundsystem, der det foreligger tre kanaler på den venstre side og tre kanaler på den høyre side, kan den samme fremgangsmåte anvendes, der koherens-parameteren bare for mulige kanalpar på den venstre side eller på den høyre side sendes for å tilveiebringe forskjellige basiskanaler for rekonstruksjonen av de forskjellige utgangskanaler på en side av den antatte lytteposisjon. Den oppfinneriske N-til-M-koder illustrert i fig. IA og fig. IB er derfor unik ved at inng-angssignalene nedmikses, ikke til en enkelt kanal, men til M kanaler, og ved at ICTD-og ICC-oppkallingene estimeres og sendes bare mellom de kanalpar for hvilke dette er nødvendig.

Situasjonen i et 5-kanals surroundsystem er vist i fig. 14B, der det er åpenbart at minst et koherensmål mellom venstre og venstre surround må sendes. Dette koherensmål kan også benyttes for å tilveiebringe dekorrelasjon mellom høyre og høyre surround. Dette vil være en lavskala implementering av sideinformasjon. Når mer kanalkapasitet er tilgjengelig kan man også generere og sende et separat koherensmål mellom den høyre og den høyre surround kanal slik at det ved en oppfinnerisk dekoder også kan fremskaffes forskjellige grader av dekorrelasjon på venstre siden og på høyre siden.

Fig. 2A viser en illustrasjon av en oppfinnerisk dekoder som fungerer som en anordning for invers prosessering av inngangsdata mottatt ved en inngangsdataport 22. Dataene mottatt ved inngangsdataporten 22 vil være de samme data som utgangsdataene ved utgangsdataporten 20 i fig. IA. Når dataene ikke sendes via en trådbundet kanal men via en trådløs kanal, vil alternativt dataene mottatt ved datainngangsporten 22 være data fremskaffet fra de opprinnelige data produsert av koderen.

Inngangsdataene i dekoderen avgis til en datastrøm-leser 24 for avlesning av inngangsdata for endelig å kunne fremskaffe kanal-sideinformasjonen 26 og den venstre nedmiksede kanal 28 samt den høyre nedmiksede kanal 30. Når inngangsdataene omfatter kodede versjoner av de nedmiksede kanaler, hvilket korresponderer til det tilfelle der audiokoderen 16 i fig. IA er til stede, vil datastrøm-leseren 24 også omfatte en audiodekoder, som er tilpasset audiokoderen benyttet for koding av de nedmiksede kanaler. I dette tilfellet kan audiodekoderen, som er en del av datastrøm-leseren 24, betjenes til å generere den første nedmiksede kanal Lc og den andre nedmiksede kanal Rc eller, mer presist, en dekodet versjon av disse kanaler. For enkelthetens skyld foretas det et skille mellom signaler og dekodede versjoner av disse bare når dette eksplisitt uttales.

Kanal-sideinformasjonen 26 og den venstre og den høyre nedmiksede kanal 28 og 38 som avgis fra datastrøm-leseren 24 mates til en multikanals rekonstruktør 32 for å tilveiebringe en rekonstruert versjon 34 av de opprinnelige audiosignaler, som kan avspilles ved hjelp av en multikanals spiller 36. Dersom multikanals rekonstruktøren er betjenbar i frekvensdomenet vil multikanals spilleren 36 motta frekvensdomene-inngangsdata, som må dekodes på en bestemte måte, slik som å omformes til tidsdomenet, før de kan spilles. For dette formål kan multikanals spilleren 36 også omfatte dekodingsmuligheter.

Det skal bemerkes at en lavskala-dekoder bare vil omfatte datastrøm-leseren 24, som bare omfatter den venstre og den høyre nedmiksede kanal 28 og 30 til en stereoutgang 38. En forsterket oppfinnerisk dekoder vil imidlertid utvinne kanal-sideinformasjon 26 og benytte denne sideinformasjon og de nedmiksede kanaler 28 og 30 for rekonstruksjon av versjoner 34 av de opprinnelige kanaler ved å benytte multi-kanals rekonstruktøren 32.

Fig. 2B viser en oppfinnerisk implementering av multikanals rekonstruktøren 32 i fig. 2A. Således viser fig. 2B en anordning for konstruksjon av et multikanals utgangssignal ved å benytte et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanals signal, og der den parametriske sideinformasjon skriver interrelasjoner mellom kanaler i det opprinnelige multikanals signal. Den oppfinneriske anordning vist i fig. 2B omfatter midler 320 for å tilveiebringe et koherensmål som vil avhenge av en første opprinnelig kanal og en andre opprinnelig kanal, der den førs-te opprinnelige kanal og den andre opprinnelige kanal er inkludert i det opprinnelige multikanals signalet. Dersom koherensmålet er inkludert i den parametriske sideinformasjon vil denne bli avgitt til midlene 320 som illustrert i fig. 2B. Koherensmålet tilveiebrakt av midlene 320 avgis til midlene 322 for bestemmelse av basiskanaler. Mer spesifikt kan midlene 322 betjenes til å bestemme en første basiskanal ved å velge en av den første og den andre inngangskanal eller en forutbestemt kombinasjon av den første og den andre inngangskanal. Midlene 322 kan videre betjenes til å bestemme en andre basiskanal ved å benytte koherensmålet slik at den andre basiskanal er forskjellig fra den første basiskanal på grunn av dette koherensmål. I eksempelet vist i fig. 2B, som angår et 5-kanals surroundsystem, vil den første inngangskanal være den venstre-kompatible stereokanal Lc; og den andre inngangskanal vil være den høyre-kompatible stereokanal Rc. Midlene 322 kan betjenes til å bestemme basiskanalene på en måte som allerede er beskrevet i forbindelse med fig. 14A. Således tilveiebringes det, ved utgangen av midlene 322, en separat basiskanal for hver av utgangskanalene som skal rekonstrueres, der basiskanalene som avgis fra midlene 322 alle fortrinnsvis er forskjellig fra hverandre, dvs. at de har et koherensmål mellom seg som er forskjellig for hvert par.

Basiskanalene som avgis fra midlene 322 samt parametrisk sideinformasjon slik som ICLD, ICTD eller mtensitetsstereo-informasjon inngis til midlene 324 for syntetisering av den første utgangskanal, f.eks. L, ved å benytte den parametriske sideinformasjon og den første basiskanal for å tilveiebringe en første syntetisert utgangskanal L, som vil være en reprodusert versjon av den korresponderende første opprinnelige kanal, og for syntetisering av en andre utgangskanal, f.eks. Ls, ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal. I tillegg kan midlene 324 for syntetisering betjenes til å reprodusere den høyre kanal R og den høyre surroundkanal Rs ved å benytte et annet par av basiskanaler, der basiskanalene i dette andre par er forskjellige fra hverandre på grunn av koherensmålet eller på grunn av et ytterligere koherensmål fremskaffet for det høyre/høyre surround kanalpar.

En mer detaljert implementering av den oppfinneriske dekoder er vist i fig. 2C. Det kan ses at for den foretrukkede utførelsesform angitt i fig. 2C vil den generelle struktur være lik strukturen allerede beskrevet i forbindelse med fig. 12 for en kjent BCC-dekoder. Det oppfinneriske opplegg vist i fig. 2C omfatter imidlertid to audio-filterbanker, dvs. en filterbank for hvert inngangssignal. En enkelt filterbank vil også naturligvis være tilstrekkelig. I dette tilfellet vil det være påkrevd med en styring som avgir inngangssignaler til den ene filterbank i en sekvensiell orden. Filterbankene er illustrert ved blokkene 319a og 319b. Funksjonaliteten til elementene 320 og 322, som er illustrert i fig. 2B, er inkludert i en oppmiksingsblokk 323 i fig. 2C.

Ved utgangen av oppmiksingsblokken 323 tilveiebringes basiskanaler som er forskjellige fra hverandre. Dette står i motsetning til fig. 12 der basiskanalene i knutepunktet 130 er identiske med hverandre. Syntetiseringsmidlene 324 vist i fig. 2B omfatter fortrinnsvis et forsinkelsestrinn 324a, et nivåmodifiseringstrinn 324b og, i noen tilfeller, et prosesseringstrinn for utføring av ytterligere prosesseringsoppgaver 324c så vel som et respektivt antall av inverse audio-filterbanker 324d. I en utførelsesform kan funksjonaliteten til elementene 324a, 324b, 324c og 324d være den samme som for den kjente innretning beskrevet i forbindelse med fig. 12.

Fig. 2D viser mer detaljert eksempelet ifølge fig. 2C for et 5-kanals surround-oppsett, der det foreligger to inngangskanaler y! og y2og fem konstruerte utgangskanaler fremskaffes som vist i fig. 2D. I motsetning til fig. 2C er det gitt en mer detaljert konstruksjon av oppmiksingsblokken 323. Mer spesifikt er det vist en adderings-innretning 330 for å kunne tilveiebringe basiskanalene for rekonstruksjon av en senter-utgangskanal. I tillegg er det i fig. 2D vist to blokker 331, 332 med benevnelsen "W". Disse blokkene utfører den vektede kombinasjon av de to inngangskanalene basert på koherensmålet K som avgis til en koherensmål-inngang 334. Vektingsblokkene 331 eller 332 vil også fortrinnsvis utføre respektive etter-prosesseringsoperasjoner for basiskanalene slik som utjevning i tid og frekvens og som vil bli utlagt nedenfor. Fig. 2C er således et mer generelt tilfelle av fig. 2D, der fig. 2C illustrerer hvordan N utgangskanaler genereres gitt dekoderens M inngangskanaler. De sendte signaler omformes til et underbånd-område.

Prosessen med å beregne basiskanalene for hver utgangskanal betegnes som en oppmiksing, siden hver basiskanal fortrinnsvis er en lineær kombinasjon av de sendte kanaler. Oppmiksingen kan utføres i tidsdomenet eller i underhånd- eller frekvens-domenet.

For beregning av hver basiskanal kan en bestemt prosessering anvendes for å redusere kansellermgs-/forsterkningseffekter når de sendte kanaler er faseforskjøvet eller i fase. ICTD syntetiseres ved å påføre forsinkelser på underbåndssignalene og ICLD syntetiseres ved å skalere underbåndssignalene. Forskjellige teknikker kan benyttes for syntetisering av ICC, slik som manipulering av vektingsfaktorene eller tids-forsinkelsene ved hjelp av en følge av vilkårlige tall. Det skal imidlertid bemerkes at det fortrinnsvis ikke utføres koherens/korrelasjonsprosessering mellom utgang skanaler bortsett i fra den oppfinneriske bestemmelse av de forskjellige basiskanaler for hver utgangskanal. En foretrukket oppfinnerisk innretning vil derfor prosessere ICC-oppkallinger mottatt fra en kode for å konstruere basiskanalene og ICTD- og ICLD-oppkallinger mottatt fra en koder for å manipulere den allerede konstruerte basiskanal. ICC-oppkallingene eller, mer generelt, koherensmålene vil således ikke bli benyttet for å manipulere en basiskanal men benyttes for å konstruere basiskanalen som så manipu-leres senere.

I det spesifikke eksempel vist i fig. 2D dekodes et 5-kanals surround-signal fra en 2-kanals stereotransmisjon. Et sendt 2-kanals stereosignal vil bli omformet til et underbåndsområde. Oppmiksing vil så bli anvendt for å generere fem, fortrinnsvis forskjellige basiskanaler. ICTD-oppkallinger vil bare bli syntetisert mellom venstre og venstre surround, og høyre og høyre surround ved å anvende forsinkelser dj (k) som omtalt i forbindelse med fig. 14B. I tillegg vil koherensmålene også bli benyttet for å konstruere basiskanalene (blokkene 331 og 332) i fig. 2D snarere enn for å utføre etter-prosessering i blokk 324c.

På en oppfinnerisk måte vil ICC- og ICTD-oppkallingene mellom venstre og høyre og venstre surround og høyre surround bli bevart som i det sendte stereosignal. Derfor vil en enkelt ICC-oppkallings- og en enkelt ICTD-oppkallingsparameter være tilstrekkelig og disse vil derfor bli sendt fra en koder til en dekoder.

I en annen utførelsesform kan ICC-oppkallinger og ICTD-oppkallinger for begge sider beregnes i en koder. Disse to verdiene kan så bli sendt fra en koder til en dekoder. Alternativt kan en koder beregne en resulterende ICC- eller ICTD-oppkalling ved å avgi oppkallingene for begge sidene til en matematisk funksjon, slik som en midlingsfunksjon etc, for å fremskaffe den resulterende verdi fra de to koherensmålene.

I det følgende refereres det til fig. 15A og 15B hvor det vises en lav-kompleksitetsimplementering av det oppfinneriske konsept. Mens en høy-kompleksitetsimplementering vil kreve en bestemmelse av koherensmålet på kodersiden i det minste mellom et kanalpar på en side av den antatte lytteposisjon, og sending av dette koherensmål i en fortrinnsvis kvantisert og antropi-kodet form, vil lavkom-pleksitetsversjonen ikke kreve noen bestemmelse av koherensmål på kodersiden eller transmisjon av slik informasjon fra koderen til dekoderen. For å kunne oppnå en god subjektiv kvalitet for det rekonstruerte multikanals utgangssignal er det ikke desto mindre tilveiebrakt et forutbestemt koherensmål eller, sagt på en annen måte, forutbestemte vektingsfaktorer for å bestemme en vektet kombinasjon av de sendte inngangskanaler ved å benytte en slik forutbestemt vektingsfaktor, gjennom midlene 324 i fig. 2D. Det eksisterer flere muligheter for å redusere koherensen i basiskanaler for rekonstruksjon av utgangskanaler. Uten det oppfinneriske mål ville de respektive utgangskanaler, ved en basislinje-implementering der ingen ICC eller ICTD kodes eller sendes, være fullstendig koherente. En bruk av et hvilket som helst forutbestemt koherensmål vil derfor redusere koherensen i de rekonstruerte utgangs signaler slik at de reproduserte utgangssignaler vil være bedre tilnærminger av de korresponderende opprinnelige kanaler.

For å forhindre at basiskanalene er fullstendig koherente vil derfor oppmiksingen bli utført f.eks. som vist i fig. 15A, som et alternativt til utførelsen vist i fig. 15B. De fem basiskanalene beregnes slik at ingen av disse er fullstendig koherente, dersom det sendte stereosignal heller ikke er fullstendig koherent. Dette medfører at en interkanal-koherens mellom den venstre kanal og den venstre surround kanal eller mellom den høyre kanal og den høyre surround kanal automatisk reduseres, når interkanal-koherensen mellom den venstre kanal og den høyre kanal reduseres. For et audiosignal som er uavhengig av alle kanaler, slik som f.eks. et applaus signal, vil en slik oppmiksing ha den fordel at det genereres en bestemt uavhengighet mellom venstre og venstre surround og høyre og høyre surround uten at det samtidig er behov for en eksplisitt syntetisering (og koding) av interkanal-koherens. Denne andre versjon av oppmiksingen kan selvfølgelig kombineres med en fremgangsmåte som fremdeles synteti-serer ICC og ICTD. Fig. 15A viser en oppmiksing optimalisert for fremre venstre og fremre høyre, der den største uavhengighet opprettholdes mellom disse kanaler. Fig. 15B viser et annet eksempel der, på den ene side, fremre venstre og fremre høyre og, på den annen side, venstre surround og høyre surround behandles på samme måte ved at graden av uavhengighet for de fremre og bakre kanaler er den samme. Dette kan ses i fig. 15B ved det faktum at vinkelen mellom fremre venst-re/høyre er den samme som vinkelen mellom venstre/høyre surround.

I overensstemmelse med den foretrukne utførelsesform av denne oppfinnelse benyttes en dynamisk oppmiksing i stedet for en statisk utvelgelse. I denne sammenheng er oppfinnelsen også relatert til en forbedret algoritme som er i stand til å dynamisk tilpasse oppmiksingsmatrisen for å kunne optimalisere en dynamisk ytelse. I eksempelet illustrert nedenfor kan oppmiksingsmatrisen velges for de bakre kanaler slik at en optimal reproduksjon av fremre-bakre-koherensen blir mulig. Denne oppfinneriske algoritme omfatter følgende trinn: For de fremre kanaler benyttes en enkel tildeling av basiskanaler, slik som den beskrevet i figurene 14A eller 15A. Gjennom dette enkle valg bevares koherensen for kanalene langs venstre/høyre-aksen.

I koderen vil fremre-bakre-koherens-verdiene, slik som ICC-oppkallingene mellom parene venstre/venstre surround og fortrinnsvis høyre/høyre surround, bli målt.

I dekoderen bestemmes basiskanalene for de venstre bakre og høyre bakre kanaler ved å danne lineære kombinasjoner av de sendte kanalsignaler, dvs. en sendt venstrekanal og en sendt høyrekanal. Mer spesifikt bestemmes oppmiksings-koeffisientene slik at den aktuelle koherens mellom venstre og venstre surround og høyre og høyre surround får verdiene målt i koderen. I praksis kan dette oppnås når de sendte kanalsignaler fremviser tilstrekkelige dekorrelasjoner, noe som normalt vil være tilfellet ved vanlige 5-kanal-situasjoner.

I den foretrukkede utførelsesform av dynamisk oppmiksing vil et eksempel på en implementering som anses å være den beste måte å utøve denne oppfinnelse på være som angitt i fig. 2E når det gjelder koder-implementeringen og fig. 2F og fig. 2G når det gjelder dekoder-implementeringen. Fig. 2E viser et eksempel på måling av fremre/bakre koherens-verdier (ICC-verdier) mellom den venstre og den venstre surround kanal eller mellom den høyre og den høyre surround kanal, dvs. mellom et kanalpar som befinner seg på en side av en antatt lytteposisjon.

Ligningen vist i boksen i fig. 2E gir et koherensmål cc mellom den første kanal x og den andre kanal y. I et tilfelle vil den første kanal x være den venstre kanal, mens den andre kanal y vil være den venstre surround kanal. I et annet tilfelle vil den første kanal x være den høyre kanal, mens den andre kanal y vil være den høyre surround kanal, x; angir et sampel for den respektive kanal x på tidspunktet i, mens y; angir et sampel på et tidspunkt for den andre opprinnelige kanal y. Det skal her bemerkes at koherensmålet kan beregnes fullstendig i tidsdomenet. I dette tilfellet vil sum-masjonsindeksen i løpe fra en nedre grense til en øvre grense, der den andre grense normalt vil være lik antallet sampler i en pulje når det dreier seg om en puljevis prosessering.

Koherensmålene kan alternativt også beregnes mellom båndpass-signaler, dvs. signaler med redusert båndbredde i forhold til det opprinnelige audiosignal. I det siste tilfellet vil koherensmålet ikke bare være tidsavhengig men også frekvensavhengig. De resulterende fremre/bakre ICC-oppkallinger, dvs. CQ for den venstre fremre/bakre koherens og CQ for den høyre fremre/bakre koherens, vil bli sendt til en dekoder som parametrisk sideinformasjon fortrinnsvis i en kvantisert og kodet form.

I det følgende refereres det til fig. 2F for å angi en foretrukket dekoder-oppmiksingsfremgangsmåte. I det illustrerte tilfellet holdes den sendte venstre kanal som basiskanal for den venstre utgangskanal. For å kunne tilveiebringe basiskanalen for den venstre bakre utgangskanal bestemmes en lineær kombinasjon av den venstre (1) og den høyre (r) sendte kanal, dvs. 1 + ar. Vektingsfaktoren a bestemmes slik at krysskorrelasj onen mellom 1 og 1 + ar er lik den sendte ønskede verdi CQ for den venstre side og CCrfor den høyre side eller generelt koherensmålet k.

Beregningen av den passende a-verdi er angitt i fig. 2F. Spesielt defineres en normalisert krysskorrelasjon av de to signalene 1 og r som vist i ligningen i blokken i fig. 2E.

Gitt to sendte signaler 1 og r vil vektingsfaktoren a bli bestemt slik at den normaliserte krysskorrelasjon mellom signalene 1 og 1 + ar er lik den ønskede verdi k, dvs. koherensmålet. Dette mål defineres til å ligge mellom -1 og +1.

Ved å benytte definisjonen for krysskorrelasjonen for de to kanalene vil ligningen gitt i fig. 2F, for verdien k, oppnås. Ved å benytte flere forkortelser angitt i nedre del av fig. 2F, kan betingelsen for k omskrives som en kvadratisk ligning, hvis løsning gir vektingsfaktoren a.

Det kan vises at ligningen alltid har reelle løsninger, dvs. at diskriminanten garantert er ikke-negativ.

Avhengig av den grunnleggende krysskorrelasjon for signalene 1 og r, og den ønskede krysskorrelasjon k, kan en eller begge løsningene faktisk gi en ønsket kry ss-korrelasj ons verdi men med negativt fortegn, og disse vil derfor ikke tas med i den videre beregningen.

Etter beregningen av basiskanal-signalet som en lineær kombinasjon av signalene 1 og r, vil det resulterende signal bli normalisert (reskalert) til den opprinnelige signalenergien for det sendte 1 eller r kanal-signal.

På tilsvarende måte kan basiskanal-signalet for den høyre utgangskanal tilveiebringes ved at de høyre og venstre kanaler bytter plass, dvs. ved å ta i betraktning krysskorrelasj onen mellom r og r + al.

I praksis vil en utjevning av resultatene av beregningsprosessen for a-verdien over tid og frekvens være å foretrekke, for å kunne oppnå en optimal signalkvalitet. Andre fremreÆ>akre korrelasjonsmålinger enn venstre/venstre bakre og høyre/høyre bakre kan benyttes for ytterligere å optimalisere signalkvaliteten.

I det følgende vil en trinn for trinn-beskrivelse av funksjonaliteten for multi-kanalsrekonstruktøren 32 i fig. 2A bli gitt, idet det refereres til fig. 2G.

Fortrinnsvis beregnes (200) en vektingsfaktor a basert på et dynamisk koherensmål tilveiebrakt fra en koder til en dekoder eller basert på en statisk tilveiebringel-se av et koherensmål som beskrevet i forbindelse med fig. 15A og 15B. Vektingsfaktoren vil så bli utjevnet over tid og/eller frekvens (trinn 202) for således å tilveiebringe en utjevnet vektingsfaktor as. En basiskanal b beregnes så til feks. å være lik 1 + asr (trinn 204). Basiskanalen b benyttes så, sammen med andre basiskanaler, til å beregne ubearbeidede utgangssignaler.

Som vil være åpenbart fra boksen 206 vil nivå-representasjonen ICLD så vel som forsinkelsesrepresentasjonen ICTD være påkrevd for beregning av ubearbeidede utgangssignaler. De ubearbeidede utgangssignaler vil så bli skalert til å ha den samme energi som summen av de individuelle energier for de venstre og høyre inngangskanaler. Sagt på en annen måte, vil de ubearbeidede utgangssignaler bli skalert ved hjelp av en skaleringsfaktor slik at en sum av de individuelle energier for de skalerte ubearbeidede utgangssignaler vil være den samme som summen av de individuelle energier for de sendte venstre og høyre inngangskanaler.

En kunne også alternativt beregne summen av de venstre og høyre sendte kanaler og benytte energien i det resulterende signal. En kunne også i tillegg beregne et sum-signal ved sampel-vis summering av de ubearbeidede utgangssignaler og benytte energien i det resulterende signal for skaleringsformål.

Ved en utgang fra boksen 208 fremskaffes så de rekonstruerte utgangskanaler, som vil være unike idet at ingen av de rekonstruerte kanaler er fullstendig koherente med hverandre, slik at det oppnås en optimal kvalitet for det reproduserte utgangssignal.

Kort sagt vil det oppfinneriske konsept være fordelaktig ved at et vilkårlig antall sendte kanaler (M) og et vilkårlig antall utgangskanaler (N) kan benyttes.

I tillegg utføres omformingen mellom de sendte kanaler og basiskanalene for utgangskanalene fortrinnsvis gjennom dynamisk oppmiksing.

I en viktig utførelsesform består oppmiksingen av en multiplikasjon med en oppmiksingsmatrise, dvs. av en dannelse av lineære kombinasjoner av de sendte kanaler, der de fremre kanaler fortrinnsvis syntetiseres ved å benytte de korresponderende sendte basiskanaler som basiskanaler, mens de bakre kanaler består av en lineær kombinasjon av de sendte kanaler, der graden av en lineær kombinasjon er avhengig av koherensmålet.

I tillegg utføres denne oppmiksingsprosess fortrinnsvis signal-adaptivt på en tidsvarierende måte. Mer spesifikt vil oppmiksingsprosessen fortrinnsvis avhenge av en sideinformasjon sendt fra en BCC-koder, slik som interkanal-koherens-oppkallinger av en fremre/bakre koherens.

Gitt basiskanalen for hver utgangskanal vil en prosessering tilsvarende en regulær binaural oppkallingskoding bli anvendt for å syntetisere romlige oppkallinger, dvs. ved å anvende skaleringer og forsinkelser i underhånd og ved å anvende teknikker for å redusere koherensen mellom kanaler, der ICC-oppkallinger i tillegg, eller alternativt, benyttes for konstruksjon av respektive basiskanaler for å tilveiebringe en optimal reproduksjon av fremre/bakre koherens.

Fig. 3A viser en utførelsesform av den oppfinneriske beregningsinnretning 14 for beregning av kanal-sideinformasjonen, som betjenes av både en audio-koder og kanal-sideinformasjonsberegnmgsirmretningen i den samme spektrale representasjon av multikanal-signalet. Fig. 1 viser imidlertid det andre alternativ, der audio-koderen og kanal-sideinformasjonsberegnmgsinnretningen opererer i forskjellige spektrale representasjoner av multikanal-signalet. Når regnekraften ikke er så viktig som lyd-kvaliteten, er alternativet ifølge fig. IA foretrukket, siden filterbanker som individuelt er optimalisert for audio-koding og sideinformasjonsberegning kan benyttes. Når den foreliggende regnekraft imidlertid er et poeng, vil alternativet ifølge fig. 3A bli foretrukket, siden dette alternativet krever mindre regnekraft på grunn av en delt benyttelse av elementene.

Innretningen vist i fig. 3A kan betjenes til å motta to kanaler A, B og til å beregne en sideinformasjon for kanal B slik at det ved å benytte denne kanal-sideinformasjon for den utvalgte opprinnelige kanal B kan en rekonstruert versjon av kanal B beregnes ut i fra kanalsignalet A. I tillegg kan innretningen vist i fig. 3A betjenes til å danne kanal-sideinformasjon i frekvensdomenet, slik som parametere for vekting av spektralverdier eller underbånd-sampler (ved å multiplisere eller tids-prosessere på samme måte som ved f.eks. BCC-koding). For dette formål omfatter den oppfinneriske beregningsinnretning vindusdelings- og tids/frekvens-omformingsmidler 140a for å kunne tilveiebringe en frekvens-representasjon av kanal A ved en utgang 140b eller en frekvensdomene-representasjon av kanal B ved en utgang 140c.

I den foretrukkede utførelsesform utføres bestemmelsen av sideinformasjonen ved å benytte kvantiserte spektralverdier (ved hjelp av sideinformasjons bestemmelsesmidlene 140f). Det foreligger også en kvantiserer 140d som fortrinnsvis styres ved å benytte en psykoakustisk modell med en kontrollinngang 140e. En kvantiserer er imidlertid ikke påkrevd når sideinformasjonsbestemmelsesmidlene 140c benytter en ikke-kvantisert representasjon av kanal A for bestemmelse av kanal-sideinformasjonen for kanal B.

Når kanal-sideinformasjonen for kanal B beregnes ved hjelp av en frekvensdomene-representasjon av kanalene A og B, kan vindusdelings- og tids/frekvens-omformingsmidlene 140a være de samme som benyttet i en filterbank-basert audio-koder. I dette tilfellet, når AAC (ISO/IEC 13818-3) er aktuelt, vil midlene 140a bli implementert som en MDCT-filterbank (MDCT = modifisert diskret cosinustransfor-masjon) med 50 % overlapp-og-adder-funksjonalitet.

I et slikt tilfelle vil kvantisereren 140d være en iterativ kvantiserer som benyttes når mp3 eller AAC-kodede audiosignaler genereres. Frekvensdomene-representasjonen av kanal A, som fortrinnsvis allerede er kvantisert, kan da benyttes direkte for antropi-koding ved å benytte en antropi-koder 140g, som kan være en Huffman-basert koder eller en antropi-koder som implementerer aritmetisk koding.

Sammenlignet med fig. 1 vil det som avgis fra innretningen ifølge fig. 3A være sideinformasjonen. F.eks. li, for en opprinnelig kanal (korresponderende til sideinformasjonen for B ved utgangen av innretningen 140f). Den antropi-kodede bitstrøm for kanal A vil f.eks. korrespondere til den kodede venstre nedmiksede kanal Lc' ved utgangen av blokk 16 i fig. 1. Fra fig. 3A er det åpenbart at elementet 14 (fig. 1), dvs. beregnmgsinnretning for beregning av kanal-sideinformasjonen og audiokoderen 16 (fig. 1), kan implementeres som separate irmretningen eller som en integrert versjon slik at begge innretningene deler flere elementer slik som f.eks. MDCT-filterbanken 140a, kvantisereren 140e og antropi-koderen 140g. Dersom man f.eks. har behov for en annen transformasjon for bestemmelse av kanal-sideinformasjonen vil naturligvis koderen 16 og beregnmgsinnrerningen 14 (fig. 1) være implementert i forskjellige innretninger slik at begge elementene ikke deler filterbanken etc.

Generelt kan den faktiske determinator for beregning av sideinformasjonen (generelt omtalt som beregnmgsinnrerningen 14) være implementert som en felles-stereo-modul som vist i fig. 3B, som kan betjenes i overensstemmelse med hvilken som helst felles-stereo-teknikk, slik som intensitetsstereo-koding eller binaural-oppkallingskoding.

I kontrast til slike kjente intensitetsstereo-kodere trenger ikke den oppfinneriske bestemmelsesinnretning 140f å beregne den kombinerte kanal. Den kombinerte kanal, eller bærekanal, eksisterer allerede og vil være den venstre kompatible nedmiksede kanal Lc eller den høyre kompatible nedmiksede kanal Rc eller en kombinert versjon av disse nedmiksede kanaler slik som Lc + Rc. Den oppfinneriske innretningen 140f trenger derfor bare å beregne skaleringsinformasjonen for skalering av den respektive nedmiksede kanal slik at energi/tidsforløpet for den respektive utvalgte opprinnelige kanal tilveiebringes når den nedmiksede kanal vektes ved å benytte skale-rmgsinformasjonen, dvs. den intensitetsrettede informasjon.

Felles-stereo-modulen 140f ifølge fig. 3B er derfor illustrert slik at den mottar, som inndata, den "kombinerte" kanal A, som er den første eller andre nedmiksede kanal eller en kombinasjon av de nedmiksede kanaler, samt den opprinnelige utvalgte kanal. Denne modul vil naturligvis avgi den "kombinerte" kanal A og felles-stereo-parametere som kanal-sideinformasjon slik at en tilnærming av den opprinnelige utvalgte kanal B kan beregnes ved å benytte den kombinerte kanal A og felles-stereo-parametrene.

Alternativt kan felles-stereo-modulen 140f implementeres for utføring av binaural oppkallingskoding.

Ved BCC betjenes felles-stereo-modulen 140f til å avgi kanal-sideinformasjonen slik at denne informasjon vil være kvantiserte og kodede ICLD- eller ICTD-parametere, der den utvalgte opprinnelige kanal tjener som den kanalen som faktisk skal prosesseres, mens den respektive nedmiksede kanal benyttet ved beregningen av sideinformasjonen, slik som den første, den andre eller en kombinasjon av den første og den andre nedmiksede kanal, benyttes som referansekanal ved BCC-kodmgs-/dekodingsteknikken.

Det refereres så til fig. 4 der det angis en enkel energi-rettet implementering av elementet 140f. Denne innretningen omfatter en frekvensbånd-velger 44 for valg av frekvensbånd for kanal A og et korresponderende frekvensbånd for kanal B. I begge frekvensbånd beregnes så en energi ved hjelp av en energi-beregner 42 i hver gren. Den detaljerte implementeringen av energi-beregneren 42 vil avhenge av om utgangssignalet fra blokken 40 er et underbåndssignal eller om det består av frekvenskoeffisienter. I andre implementeringer, der skaleringsfaktorer for skaleringsfaktor-bånd beregnes, kan en allerede benytte skaleringsfaktorer for den første og den andre kanal A, B som energi-verdier EAog EB eller i det minste som estimater for energien. I en for-sterknmgsfaktor-beregnmgsinnretning 44 vil en forsterkningsfaktor gB for det valgte frekvensbånd bli bestemt basert på en bestemt regel slik som forsterkningsbestemmel-sesregelen illustrert i blokk 44 i fig. 4. Forsterkningsfaktoren gB kan her benyttes direkte for vekting av tidsdomene-sampler eller frekvenskoeffisienter slik som vil bli beskrevet senere i forbindelse med fig. 5. For dette formål vil forsterkningsfaktoren gB, som er gyldig for det utvalgte frekvensbånd, bli benyttet som kanal-sideinformasjon for kanal B som den utvalgte opprinnelige kanal. Denne utvalgte opprinnelige kanal B vil ikke bli sendt til dekoderen men vil bli representert ved den parametriske kanal-sideinformasjon slik denne er beregnet av beregnmgsinnretningen 14 ifølge fig. 1.

Det skal her bemerkes at det ikke er nødvendig å sende forsterkningsverdier som kanal-sideinformasjon. Det vil også være tilstrekkelig å sende frekvensavhengige verdier relatert til den absolutte energi i den utvalgte opprinnelige kanal. Dekoderen må da beregne den faktiske energi i den nedmiksede kanal og forsterkningsfaktoren basert på energien i den nedmiksede kanal og den sendte energi i kanalen B.

Fig. 5 viser en mulig implementering av et dekoder-oppsett i forbindelse med en transformasjonsbasert perseptuell audiokoder. Sammenlignet med fig. 2 vil funk-sjonalitetene til antropi-dekoderen og den inverse kvantiserer 50 (fig. 5) være inkludert i blokken 24 i fig. 2. Funksjonaliteten til frekvens-/tidsomformingselementene 52a, 52b (fig. 5) vil imidlertid være implementert i elementet 36 i fig. 2. Elementet 50 i fig. 5 vil motta en kodet versjon av det første eller det andre nedmiksede signal Lc' eller Rc'. Ved utgangen av elementet 50 vil det foreligge en i det minste delvis dekodet versjon av den første og den andre nedmiksede kanal som i det følgende vil bli kalt kanal A. Kanal A vil bli avgitt til en frekvensbånd-velger 54 for valg av et bestemt frekvensbånd for kanal A. Dette uvalgte frekvensbånd vektes ved å benytte en multiplikator 56. Denne multiplikator 56 vil motta, for bruk med multipliseringen, en bestemt forsterlcningsfaktor gB, som er tildelt det utvalgte frekvensbånd valgt av frekvensbånd-velgeren 54, som korresponderer til frekvensbånd-velgeren 40 ifølge fig. 4 på kodersiden. Ved inngangen til frekvens/tidsomformeren 52a vil det foreligge, sammen med andre bånd, en frekvensdomene-representasjon av kanal A. Ved utgangen av multiplikatoren 56 og spesielt ved inngangen til frekvens/tidsomformingsinnrerningen 52b vil det foreligge en rekonstruert frekvensdomene-representasjon av kanal B. Ved utgangen av elementet 52a vil det derfor foreligge en tidsdomene-representasjon av kanal A, mens det ved utgangen av elementet 52b vil foreligge en tidsdomene-representasjon av en rekonstruert kanal B.

Det skal her bemerkes at, avhengig av den spesifikke implementering, de dekodede, nedmiksede kanaler Lc eller Rc ikke vil bli avspilt i en multikanals forsterket dekoder. I en slik multikanals forsterket dekoder vil de dekodede nedmiksede kanaler bare bli benyttet for rekonstruksjon av de opprinnelige kanaler. De dekodede, nedmiksede kanaler vil bare bli avspilt i lavskala stereo-dekodere.

I denne sammenheng refereres det til fig. 9, som viser den foretrukkede implementering av denne oppfinnelse i et surround-/mp3-miljø. En mp3-forsterket surround-bitstrøm avgis til en standard mp3-dekoder 24, som vil avgi de dekodede versjoner av de opprinnelige nedmiksede kanaler. Disse nedmiksede kanaler kan da bli direkte avspilt ved hjelp av en lavnivåsdekoder. Alternativt vil disse to kanaler bli avgitt til en avansert felles-stereo dekodmgsirmretning 32 som også mottar multikanals forlengelsesdata, som fortrinnsvis avgis til tilleggsdatafeltet i en mp3-tilpasset bit-strøm.

I det følgende refereres det til fig. 7 som viser grupperingen av den valgte opprinnelige kanal og den respektive nedmiksede kanal eller kombinerte, nedmiksede kanal. I denne sammenheng korresponderer den høyre kolonne i tabellen i fig. 7 til kanal A i fig. 3A, 3B, 4 og 5, mens midtkolonnen korresponderer til kanal B i disse figurene. I den venstre kolonne i fig. 7 angis eksplisitt den respektive kanal-sideinformasjon. I overensstemmelse med tabellen ifølge fig. 7 beregnes kanal-sideinformasjonen 1; for den opprinnelige venstre kanal L ved å benytte den venstre nedmiksede kanal Lc. Kanal-sideinformasjonen ls; for venstre surround kanalen bestemmes ved hjelp av den opprinnelige, valgte venstre surround kanal Ls mens den venstre nedmiksede kanal Lc er bæreren. Den høyre kanal-sideinformasjon r; for den opprinnelige høyre kanal R bestemmes ved å benytte den høyre nedmiksede kanal Rc. I tillegg bestemmes kanal-sideinformasjonen for den høyre surround kanal Rs ved å benytte den høyre nedmiksede kanal Rc som signalbærer. Endelig bestemmes kanal-sideinformasjonen c; for senterkanalen C ved å benytte den kombinerte nedmiksede kanal, som fremskaffes ved en kombinasjon av den første og den andre nedmiksede kanal, som enkelt kan beregnes i både en koder og en dekoder og som ikke vil kreve ekstra bits ved transmisjon.

En kunne naturligvis også beregne kanal-sideinformasjonen for den venstre kanal, f.eks. basert på en kombinert nedmikset kanal eller til og med en nedmikset kanal, tilveiebrakt ved en vektet addisjon av den første og den andre nedmiksede kanal, slik som 0,7 Lc og 0,3 Rc, så lenge vektingsparametrene er kjent for en dekoder eller sendes i samsvar med dette. For de fleste anvendelser vil det imidlertid være å foretrekke at bare kanal-sideinformasjonen for senterkanalen tilveiebringes fra den kombinerte nedmiksede kanal, dvs. fra en kombinasjon fra den første og andre nedmiksede kanal.

For å illustrere bit-sparingspotensialet for oppfinnelsen skal følgende, typiske eksempel gis. Ved et fem-kanals audiosignal vil en normal koder trenge en bit-rate på 64 kbit/s for hver kanal noe som vil tilsvare en total bit-rate på 320 kbit/s for fem-kanals signalet. De venstre og høyre stereosignaler vil kreve en bit-rate på 128 kbit/s. Kanal-sideinformasjonen for en kanal vil ligge mellom 1,5 og 2 kbit/s. Selv i et tilfelle der hver kanal-sideinformasjon for hver av de fem kanalene sendes, vil således disse ytterligere data bare kreve fra 7,5 til 10 kbit/s. Det oppfinneriske konsept til således tillate transmisjon av et fem-kanals audiosignal ved å benytte en bit-rate på 138 kbit/s (sammenlignet med 320 (!) kbit/s) med god kvalitet, siden dekoderen ikke vil benytte den problematiske inverse matriseoperasj on. Sannsynligvis enda mer viktig er det faktum at det oppfinneriske konsept er fullstendig bakover-kompatibelt, siden hver av de eksiterende mp3-spillerne er i stand til å gjenspille den første nedmiksede kanal og den andre nedmiksede kanal for således å produsere en konvensjonell stereoutgang.

Avhengig av applikasjonsmiljøet kan de oppfinneriske fremgangsmåter for konstruksjon eller generering implementeres i maskinvaren eller i programvaren. Implementeringen kan foretas ved et digitalt lagringsmedium slik som en diskett eller en CD med elektronisk lesbare styresignaler, som kan samvirke med et programmerbart computersystem på en slik måte at de oppfinneriske fremgangsmåter kan utføres. Oppfinnelsen angår derfor generelt også et computerprogram-produkt med en programkode lagret i en maskinlesbar bærer, der programkoden er tilpasset utføring av de oppfinneriske fremgangsmåter når computerprogram-produktet kjøres i en computer. Oppfinnelsen angår derfor med andre ord også et computerprogram med en programkode for utføring av fremgangsmåtene når computerprogrammet kjøres i en computer.

Claims

1 Anordning for konstruksjon av et multikanals utgangssignal ved å benytte et inngangssignal og parametrisk sideinformasjon, der inngangssignalet omfatter en første inngangskanal (Lc) og en andre inngangskanal (Rc) fremskaffet fra et opprinnelig multikanalsignal, der det opprinnelige multikanalsignal har flere kanaler, og der disse flere kanaler omfatter minst to opprinnelige kanaler som er definert slik at de befinner seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er en første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er en andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det multikanals opprinnelige signal,karakterisert vedat den omfatter midler (322) for bestemmelse av en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den første og den andre inngangskanal, og for bestemmelse av en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er ulik fra den første basiskanal; og midler (324) for syntetisering av en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal for å tilveiebringe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som befinner seg på den ene side av den antatte lytteposisjon, og for syntetisering av en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som befinner seg på den samme side av den antatte lytteposisjon.

2 Anordning ifølge krav 1,karakterisert vedat den videre omfatter midler (320) for å tilveiebringe et koherensmål, der koherensmålet avhenger av koherensen mellom en første opprinnelig kanal og en andre opprinnelig kanal, der den første og den andre opprinnelige kanal er inkludert i et opprinnelig multikanalsignal; der midlene (322) for bestemmelse kan betjenes til å bestemme den første og den andre basiskanal forskjellig fra hverandre basert på koherensmålet.

3 Anordning ifølge krav 1,karakterisert vedat de minst to opprinnelige kanaler omfatter en venstre opprinnelig kanal og en venstre surround opprinnelig kanal eller en høyre opprinnelig kanal og en høyre surround opprinnelig kanal.

4 Anordning ifølge krav 1,karakterisert vedat en kombinasjon av den første og den andre inngangskanal bestemt til å være den andre basiskanal er slik at en av de to inngangskanalene bidrar mer til den andre basiskanal enn den andre inngangskanal.

5 Anordning ifølge krav 2,karakterisert vedat koherensmålet er tidsvarierende slik at midlene (320) for bestemmelse kan betjenes til å bestemme den andre basiskanal som en kombinasjon av den første inngangskanal og den andre inngangskanal, der kombinasjonen er variabel over tid.

6 Anordning ifølge krav 2,karakterisert vedat den parametriske sideinformasjon omfatter koherensmålet, der koherensmålet bestemmes ved å benytte den første opprinnelige kanal og den andre opprinnelige kanal, der midlene (320) for å tilveiebringe kan betjenes til å utvinne koherensmålet fra den parametriske sideinformasjon.

7 Anordning ifølge krav 6,karakterisert vedat inngangssignalet omfatter en sekvens av puljer og den parametriske sideinformasjon omfatter en sekvens av parametere omfattende koherensmålet, der parametrene er tilordnet puljene.

8 Anordning ifølge krav 1,karakterisert vedat det opprinnelige signal videre omfatter en senterkanal (C), og der midlene (322) for bestemmelse videre kan betjenes til å beregne en tredje basiskanal ved å benytte like deler av den første inngangskanal og den andre inngangskanal.

9 Anordning ifølge krav 1,karakterisert vedat den parametriske sideinformasjon er frekvens-avhengig og at midlene (324) for syntetisering kan betjenes til å ut-føre en frekvens-avhengig syntese.

10 Anordning ifølge krav 1,karakterisert vedat den parametriske sideinformasjon omfatter binaural oppkallingskodings (BCC)-parametere omfattende interkanals nivådifferanse-parameter og interkanals tidsforsinkelsesparametere, og der midlene for syntetisering kan betjenes til å utføre en BCC-syntese ved å benytte en basiskanal bestemt ved bestemmelsesmidlene når en utgangskanal syntetiseres.

11 Anordning ifølge krav 2,karakterisert vedat midlene (322) for bestemmelse kan betjenes til å bestemme den første basiskanal som en av den første og den andre inngangskanal og til å bestemme den andre basiskanal som en vektet kombinasjon av den første og den andre inngangskanal, der vektingsfaktoren vil avhenge av koherens-målet.

12 Anordning ifølge krav 11,karakterisert vedat vektingsfaktoren bestemmes som følger:

der a er vektingsfaktoren, og der A, B, C bestemmes som følger,

der L, R, C bestemmes som følger,

der k er koherensmålet, og der 1 er den første inngangskanal og r den andre inngangskanal.

13 Anordning ifølge krav 11,karakterisert vedat koherensmålet er gitt for et frekvensbånd, og der midlene for bestemmelse kan betjenes til å bestemme den andre basiskanal for frekvensbåndet.

14 Anordning ifølge krav 11,karakterisert vedat koherensmålet bestemmes som følger:

der cc(x,y) er koherensmålet mellom to opprinnelige kanaler x, y, der x; er et sampel på et tidspunkt i for den første opprinnelige kanal, og der yi er et sampel på et tidspunkt i for den andre opprinnelige kanal.

15 Anordning ifølge krav 1,karakterisert vedat midlene (322) for bestemmelse kan betjenes til å skalere utgangskanalene ved å benytte potens-mål fremskaffet fra de opprinnelige kanaler, der potens-målet sendes med den parametriske sideinformasjon.

16 Anordning ifølge krav 11,karakterisert vedat midlene (322) for bestemmelse kan betjenes til å utjevne vektingsfaktoren over tid og/eller frekvens.

17 Anordning ifølge krav 1,karakterisert vedat den parametriske sideinformasjon omfatter nivåinformasjon som representerer en energidistribusjon for de opp rinnelige kanaler i det opprinnelige signal, og der midlene (324) for syntetisering kan betjenes til å skalere utgangskanalene slik at summen av energiene for utgangskanalene er lik summen av energiene for den første inngangskanal og den andre inngangskanal.

18 Anordning ifølge krav 17,karakterisert vedat midlene (324) for syntetisering kan betjenes til å beregne grove utgangskanaler basert på de bestemte basiskanaler og nivåinformasjonen og til å skalere de grove utgangskanaler slik at en total energi for de skalerte, grove utgangskanaler er lik den totale energi for den første og den andre inngangskanal.

19 Anordning ifølge krav 1,karakterisert vedat inngangssignalet omfatter en venstre kanal og en høyre kanal, og den opprinnelige kanal omfatter en fremre venstre kanal, en venstre surroundkanal, en fremre høyre kanal og en høyre surroundkanal, og der midlene (322) for bestemmelse kan betjenes til å bestemme den venstre kanal som basiskanal for en syntese av den fremre venstre kanal (L), den høyre kanal som basiskanal for en syntese av den fremre høyre kanal (R), en kombinasjon av den venstre kanal og den høyre kanal som basiskanal for den venstre surroundkanal (Ls) eller den høyre surroundkanal (Rs).

20 Anordning ifølge krav 1,karakterisert vedat inngangsignalet omfatter en venstre kanal og en høyre kanal og at det opprinnelige signal omfatter en fremre venstre kanal, en venstre surroundkanal, en fremre høyre kanal og en høyre surroundkanal, og der midlene for bestemmelse kan betjenes til å bestemme den venstre kanal som basiskanal for en syntese av den fremre venstre kanal, den høyre kanal som basiskanal for en syntese av den høyre surroundkanal, og en kombinasjon av den første og den andre inngangskanal som basiskanal for en syntese av den fremre høyre kanal eller den venstre surroundkanal.

21 Fremgangsmåte for konstruksjon av et multikanalsutgangssignal ved å benytte et inngangssignal og parametriske sideinformasjon, der inngangssignalet omfatter en første inngangskanal og en andre inngangskanal fremskaffet fra et opprinnelig multikanalsignal, der det opprinnelige multikanalsignal har flere kanaler, der de flere kanaler omfatter minst to opprinnelige kanaler, definert til å befinne seg på en side av en antatt lytteposisjon, der en første opprinnelig kanal er den første av de minst to opprinnelige kanaler, og der en andre opprinnelig kanal er den andre av de minst to opprinnelige kanaler, og der den parametriske sideinformasjon beskriver interrelasjoner mellom opprinnelige kanaler i det multikanals opprinnelige signal,karakterisert vedat den omfatter å bestemme (322) en første basiskanal ved å velge en av den første og den andre inngangskanal eller en kombinasjon av den første og den andre inngangskanal, og å bestemme en andre basiskanal ved å velge den andre av den første og den andre inngangskanal eller en forskjellig kombinasjon av den første og den andre inngangskanal, slik at den andre basiskanal er forskjellig fra den første basiskanal; og å syntetisere (324) en første utgangskanal ved å benytte den parametriske sideinformasjon og den første basiskanal til å fremskaffe en første syntetisert utgangskanal som er en reprodusert versjon av den første opprinnelige kanal som befinner seg på en side av den antatte lytteposisjon, og å syntetisere en andre utgangskanal ved å benytte den parametriske sideinformasjon og den andre basiskanal, der den andre utgangskanal er en reprodusert versjon av den andre opprinnelige kanal som befinner seg på samme side av den antatte lytteposisjon.

22 Anordning for generering av et nedmikset signal fra et multikanals opprinnelig signal, der det nedmiksede signal har et antall av kanaler som er mindre enn antallet av opprinnelige kanaler,karakterisert vedat den omfatter midler (12) for beregning av en første nedmikset kanal og en andre nedmikset kanal ved å benytte en nedmiksingsregel; midler (14) for beregning av parametrisk nivåinformasjon som representerer en energi-distribusjon for kanalene i det multikanals opprinnelige signal; midler (142) for bestemmelse av et koherensmål mellom to opprinnelige kanaler, der de to opprinnelige kanaler befinner seg på en side av en antatt lytteposisjon; og midler (18) for danning av et utgangssignal ved å benytte den første og den andre nedmiksede kanal, den parametriske nivåinformasjon og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på en side eller en verdi fremskaffet fra det minst ene koherensmål, og ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.

23 Anordning ifølge krav 22,karakterisert vedat den videre omfatter midler (143) for bestemmelse av tidsforsinkelses-informasjon mellom to opprinnelige kanaler som befinner seg på en side av den antatte lytteposisjon; og der midlene (18) for danning kan betjenes til å omfatte tidsnivå-informasjon mellom to opprinnelige kanaler som befinner seg på en side av den antatte lytteposisjon men ikke tidsnivå-informasjon mellom to opprinnelige kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.

24 Fremgangsmåte for generering av et nedmikset signal fra et multikanals opprinnelige signal, der det nedmiksede signal har et antall av kanaler som er mindre enn et antall av opprinnelige kanaler,karakterisert vedat den omfatter • å beregne (12) en første nedmikset kanal og en andre nedmikset kanal ved å benytte en nedmiksingsregel; • å beregne (124) parametrisk nivåinformasjon som representerer en energidistribusjon for kanalene i det multikanals opprinnelige signal; • å bestemme (142) et koherensmål mellom to opprinnelige kanaler, der de to opprinnelige kanaler befinner seg på en side av den antatte lytteposisjon; og • å danne (18) et utgangssignal ved å benytte den første og den andre nedmiksede kanal, den parametriske nivåinformasjon og minst et koherensmål mellom to opprinnelige kanaler som befinner seg på en side eller en verdi fremskaffet fra det minst ene koherensmål, men ikke benytte noe koherensmål mellom kanaler som befinner seg på forskjellige sider av den antatte lytteposisjon.

25 Computerprogram med en programkode for utføring av en fremgangsmåte for konstruksjon av en multikanal i overensstemmelse med krav 21 eller en fremgangsmåte for generering av et nedmikset signal i overensstemmelse med krav 24.